苹果自动驾驶新进展:训练 AI 在模拟环境中学习改变车道

阅读数:4 2020 年 1 月 31 日 08:00

苹果自动驾驶新进展:训练AI在模拟环境中学习改变车道

一波三折,“泰坦计划”很艰难

苹果的自动驾驶项目绝对可以说是一波三折。

这个名为“泰坦(Project Titan)”的自动驾驶计划诞生于 2014 年,但是很长一段时间里都没有什么太大的动静。2018 年,让这个项目的进展曝光的竟然是一起泄密事件,而相关文件显示,当时苹果自动驾驶项目拥有超过 5000 名员工,其中约 2700 人为核心员工。

到了 2019 年 1 月,“泰坦计划”又被传出裁员的消息,有 200 余名员工在此次事件中被裁;一个月后,苹果自动驾驶汽车的安全报告又被指出“过于简单”,内容仅有短短的 7 页,而安全相关的重点内容则更是少之又少。

基本上可以说,苹果自动驾驶项目成立以来,只要出现在新闻页面上,基本都不是什么好消息。

到了 2019 年的下半年,“泰坦计划”终于有了还算不错的消息传来:6 月,苹果正式收购了 AI 大咖吴恩达及其妻子共同创立的“夫妻店”——Drive.ai,为自己的自动驾驶项目注入新鲜活力。

随后,又是一段漫长的沉寂期,苹果自动驾驶的进展就这样再次消失在了公众的视野里,直到 2020 年 1 月,新的进展出现了。

“泰坦”新进展:模拟环境里训练 AI

当地时间 1 月 29 日,有媒体发现:苹果在 Arxiv.org 上发表了一篇论文,论文指出,苹果科学家 Yichuan Charlie Tang 及其团队正在使用一种方法,模拟车辆并道的驾驶场景,并逐步创建更加多样化的模拟环境。

Tang 及其合著者写道:

“我们在具有挑战性的多智能体变道模拟中演示了这项技术。在该模拟环境中,实验目标必须与其他车辆进行交互和协商才能成功地在道路上进行合并。虽然环境从简单路况开始,但随着训练的深入,我们通过向智能体’zoo’反复添加越来越多样化的因素来增加其复杂性。定性地说,我们发现通过自我训练,实验目标会自动学习有趣的行为,例如防御性驾驶、超车、让道以及使用信号灯与其他智能体交流。”

苹果自动驾驶新进展:训练AI在模拟环境中学习改变车道

变道模拟示意图

正如研究人员所解释的那样,在自动驾驶领域,变道行为被认为是复杂的操作,因为这需要驾驶系统准确地预测意图并做出相应的反应。传统的解决方案会做出假设并依赖于手动编码的行为,但是这些灵活度受限且脆弱的策略无法很好地处理边缘情况,例如几辆车试图同时合并到同一车道。与基于规则的系统相比,强化学习通过与环境的反复交互来直接学习策略。

苹果自动驾驶新进展:训练AI在模拟环境中学习改变车道

在相关研究中,Tang 及其团队在通过模拟卫星图像标注实际道路几何形状的交通的二维模拟中实施了一项自演训练方案。他们在模拟系统中放置能够跟踪车道和变道的智能体,这些智能体随着时间的推移学会了何时减速、何时加速、何时发现差距并入,以及如何通过转向信号或其他可观察的行为传达其变道的意图。

每个模拟都是由一个人工智能控制的智能体开始的,它被基于规则的程序包围,这些智能体使用自适应巡航控制来执行车道保持,能够相对于前面的车辆,相应地减速或加速。随着训练的进行,AI 智能体逐渐取代了基于规则的智能体,基于规则的智能体则会受到越界、偏离车道中心或与其他智能体碰撞的惩罚,而获得奖励的条件是成功完成了一次合并,并以最高每秒 15 米,约合每小时 33.6 英里的速度行驶。

每一轮模拟都在 32 个在 Nvidia Titan X 显卡上并行运行,大约有 10 个智能体随机开往它们自己的目的地,而实验的结束则在碰撞发生后,或在到达目的地后。

整个模拟是一个三个阶段的过程:

  • 在第一阶段,所有智能体仅在基于规则的条件下进行训练;
  • 在第二阶段,有 30%的智能体继续基于规则训练,30%基于第一阶段训练后自由驾驶,而其他 40%则受当前学习策略的控制;
  • 第三阶段则将所有智能体添加到阶段二中。

研究人员特别关注双重并道,因为左车道驾驶员通常打算向右合并,而右车道驾驶员则需要向左合并,信号和微妙的线索被用来协商谁先走,哪个空白被填补,并且计划必须在短时间、短距离内完成。

研究人员观察到,在相当于 278 个小时驾驶的 1000 万个环境训练中,AI 智能体倾向于利用基于规则的行为来获益。例如,具有刹车倾向的基于规则的智能体经常受制于驾驶风格激进的 AI 智能体。

为了评估他们的方法,研究人员进行了 250 多次随机试验,且没有增加测试噪音。报告显示,与基于规则的智能体(成功率为 63%)相比,训练有素的 AI 智能体在与其他 AI 智能体的竞争中获得了 98%的成功率。当然,现有的算法并不完美,AI 智能体有时在尝试刹车时也会发生碰撞,并在紧急制动时向右侧转向,但是 Tang 和同事说,这为将来的工作打开了大门,甚至可能会将碰撞率降低到零。

结 语

虽然还在模拟环境中测试,但是苹果自动驾驶总算是展示了一些像样的进展,而基于模拟环境的自动驾驶训练也是目前该领域的热门,苹果的“泰坦计划”在未来会一鸣惊人还是依旧保持沉默,InfoQ 将持续关注。

评论

发布