QCon全球软件开发大会8折优惠倒计时,购票立减¥1760!了解详情 >>> 了解详情
写点什么

苹果自动驾驶新进展:训练 AI 在模拟环境中学习改变车道

2020 年 1 月 31 日

苹果自动驾驶新进展:训练AI在模拟环境中学习改变车道

一波三折,“泰坦计划”很艰难

苹果的自动驾驶项目绝对可以说是一波三折。


这个名为“泰坦(Project Titan)”的自动驾驶计划诞生于 2014 年,但是很长一段时间里都没有什么太大的动静。2018 年,让这个项目的进展曝光的竟然是一起泄密事件,而相关文件显示,当时苹果自动驾驶项目拥有超过 5000 名员工,其中约 2700 人为核心员工。


到了 2019 年 1 月,“泰坦计划”又被传出裁员的消息,有 200 余名员工在此次事件中被裁;一个月后,苹果自动驾驶汽车的安全报告又被指出“过于简单”,内容仅有短短的 7 页,而安全相关的重点内容则更是少之又少。


基本上可以说,苹果自动驾驶项目成立以来,只要出现在新闻页面上,基本都不是什么好消息。


到了 2019 年的下半年,“泰坦计划”终于有了还算不错的消息传来:6 月,苹果正式收购了 AI 大咖吴恩达及其妻子共同创立的“夫妻店”——Drive.ai,为自己的自动驾驶项目注入新鲜活力。


随后,又是一段漫长的沉寂期,苹果自动驾驶的进展就这样再次消失在了公众的视野里,直到 2020 年 1 月,新的进展出现了。


“泰坦”新进展:模拟环境里训练 AI

当地时间 1 月 29 日,有媒体发现:苹果在 Arxiv.org 上发表了一篇论文,论文指出,苹果科学家 Yichuan Charlie Tang 及其团队正在使用一种方法,模拟车辆并道的驾驶场景,并逐步创建更加多样化的模拟环境。


Tang 及其合著者写道:


“我们在具有挑战性的多智能体变道模拟中演示了这项技术。在该模拟环境中,实验目标必须与其他车辆进行交互和协商才能成功地在道路上进行合并。虽然环境从简单路况开始,但随着训练的深入,我们通过向智能体’zoo’反复添加越来越多样化的因素来增加其复杂性。定性地说,我们发现通过自我训练,实验目标会自动学习有趣的行为,例如防御性驾驶、超车、让道以及使用信号灯与其他智能体交流。”



变道模拟示意图


正如研究人员所解释的那样,在自动驾驶领域,变道行为被认为是复杂的操作,因为这需要驾驶系统准确地预测意图并做出相应的反应。传统的解决方案会做出假设并依赖于手动编码的行为,但是这些灵活度受限且脆弱的策略无法很好地处理边缘情况,例如几辆车试图同时合并到同一车道。与基于规则的系统相比,强化学习通过与环境的反复交互来直接学习策略。



在相关研究中,Tang 及其团队在通过模拟卫星图像标注实际道路几何形状的交通的二维模拟中实施了一项自演训练方案。他们在模拟系统中放置能够跟踪车道和变道的智能体,这些智能体随着时间的推移学会了何时减速、何时加速、何时发现差距并入,以及如何通过转向信号或其他可观察的行为传达其变道的意图。


每个模拟都是由一个人工智能控制的智能体开始的,它被基于规则的程序包围,这些智能体使用自适应巡航控制来执行车道保持,能够相对于前面的车辆,相应地减速或加速。随着训练的进行,AI 智能体逐渐取代了基于规则的智能体,基于规则的智能体则会受到越界、偏离车道中心或与其他智能体碰撞的惩罚,而获得奖励的条件是成功完成了一次合并,并以最高每秒 15 米,约合每小时 33.6 英里的速度行驶。


每一轮模拟都在 32 个在 Nvidia Titan X 显卡上并行运行,大约有 10 个智能体随机开往它们自己的目的地,而实验的结束则在碰撞发生后,或在到达目的地后。


整个模拟是一个三个阶段的过程:


  • 在第一阶段,所有智能体仅在基于规则的条件下进行训练;

  • 在第二阶段,有 30%的智能体继续基于规则训练,30%基于第一阶段训练后自由驾驶,而其他 40%则受当前学习策略的控制;

  • 第三阶段则将所有智能体添加到阶段二中。


研究人员特别关注双重并道,因为左车道驾驶员通常打算向右合并,而右车道驾驶员则需要向左合并,信号和微妙的线索被用来协商谁先走,哪个空白被填补,并且计划必须在短时间、短距离内完成。


研究人员观察到,在相当于 278 个小时驾驶的 1000 万个环境训练中,AI 智能体倾向于利用基于规则的行为来获益。例如,具有刹车倾向的基于规则的智能体经常受制于驾驶风格激进的 AI 智能体。


为了评估他们的方法,研究人员进行了 250 多次随机试验,且没有增加测试噪音。报告显示,与基于规则的智能体(成功率为 63%)相比,训练有素的 AI 智能体在与其他 AI 智能体的竞争中获得了 98%的成功率。当然,现有的算法并不完美,AI 智能体有时在尝试刹车时也会发生碰撞,并在紧急制动时向右侧转向,但是 Tang 和同事说,这为将来的工作打开了大门,甚至可能会将碰撞率降低到零。


结 语

虽然还在模拟环境中测试,但是苹果自动驾驶总算是展示了一些像样的进展,而基于模拟环境的自动驾驶训练也是目前该领域的热门,苹果的“泰坦计划”在未来会一鸣惊人还是依旧保持沉默,InfoQ 将持续关注。


2020 年 1 月 31 日 08:001554
用户头像
陈思 InfoQ编辑

发布了 576 篇内容, 共 211.5 次阅读, 收获喜欢 1209 次。

关注

评论

发布
暂无评论
发现更多内容

Zookeeper面试题36问,再和面试官多聊半个点

Java小咖秀

zookeeper 负载均衡 分布式协同 面试题 分布式系统

【架构师训练营】第三周作业

Mr.hou

极客大学架构师训练营

代码重构--架构师必备技能

李广富

架构师训练营 Week 03 总结

Wancho

谁再悄咪咪的吃掉异常,我上去就是一 JIO

楼下小黑哥

Java dubbo 踩坑经历

单例模式 & 组合模式

朱月俊

架构师训练营作业 -20200621

caibird1984

极客大学架构师训练营

架构师训练营第三章总结

叮叮董董

Java HashMap loadfactor没有必要非是0.75

i风语

Java redis hashmap loadfactor hash

03周作业——设计模式

dao

设计模式 极客大学架构师训练营 作业

八张图彻底了解JDK8 GC调优秘籍-附PDF下载

程序那些事

JVM jdk8 「Java 25周年」 Java 25 周年 性能调优

分布式时序数据库SilverDB-技术架构1

Hervor。

时序数据库 分布式架构 分布式存储

改变要一点点来

Neco.W

正确阅读 进步

第三周作业

王鑫龙

极客大学架构师训练营

week 3学习总结

Geek_2e7dd7

「架构师训练营」第 3 周作业 - 模式与重构

guoguo 👻

极客大学架构师训练营

架构师训练营 第三周作业

Glowry

极客大学架构师训练营

投资人李丰对中国商业模式创新的理解

石云升

投资 零售 模式创新

第三周作业

CP

架构师训练营-第三周作业

清风徐徐

架构训练营第三章课后作业单例模式 组合模式

周冬辉

【第三周】学习总结——Flower框架学习和设计模式

三尾鱼

极客大学架构师训练营

Week 03 学习总结

卧石漾溪

极客大学架构师训练营

最近一周总结

朱月俊

Week 03- 作业二:学习总结

dean

极客大学架构师训练营

架构师课程第三周作业

杉松壁

架构师训练营 No.3 周作业

连增申

代码重构:如何充实你的设计工具箱

WANDEFOUR

极客大学架构师训练营 代码重构

Week3总结+作业

林毋梦

极客大学架构师训练营

Week 03 命题作业

卧石漾溪

极客大学架构师训练营

架构师训练营第三章作业

叮叮董董

移动应用开发的下一站

移动应用开发的下一站

苹果自动驾驶新进展:训练AI在模拟环境中学习改变车道-InfoQ