在电脑游戏中,赛车应该被优化,以提高其速度,同时沿着赛道行驶,然后汽车将踏板推到金属上,然后继续转弯。说明书上没有告诉汽车直行,所以是临时起意的。
这个例子——在电脑游戏中很有趣,但在生活中并不多——是一个促使斯坦福大学研究人员建立更好的方法来设定自主系统目标的例子。
计算机科学和电气工程助理教授多尔萨萨迪格和她的实验室将机器人设定目标的两种不同方法结合到一个过程中,在模拟和实际实验中,它们的表现都优于单个部分。研究人员在6月24日的机器人学:科学与系统会议上介绍了这项工作。
计算机科学研究生、《安迪帕兰》的主要作者安迪帕兰说:“未来,我完全希望世界上会有更多的自治系统,它们需要理解什么是好的或坏的概念。纸。“至关重要的是,如果我们想在未来部署这些自治系统,那么我们必须这样做。”
一种新的团队向机器人提供指令的系统——称为奖励功能——结合了演示(人类向机器人展示该做什么)和用户偏好调查,在用户偏好调查中,人们回答关于他们希望机器人如何行为的问题。
扎迪格说:“示威是有益的,但可能会带来干扰。另一方面,偏好最多只能提供一点信息,但更准确。”“我们的目标是充分利用两个世界的优势,更智能地合并这两个来源的数据,以更好地理解人类偏好的奖励功能。”
郑重声明:本文版权归原作者所有。转载文章只是为了传播更多的信息。如果作者信息标注有误,请第一时间联系我们修改或删除。谢谢你。