生成式AI领域的最新成果都在这里!抢 QCon 展区门票 了解详情
写点什么

预测技术已经超越感知,成为无人驾驶领域最大的挑战

  • 2020-02-27
  • 本文字数:2413 字

    阅读完需:约 8 分钟

预测技术已经超越感知,成为无人驾驶领域最大的挑战

无人驾驶技术包含了感知、决策和控制等技术,目前,感知技术已经取得了阶段性成果,但是,在复杂的动态环境中运行的无人驾驶汽车,仅仅有感知还是远远不够的。无人驾驶要想“更上一层楼”,就需要在新的领域发力研究。这个领域是什么呢?那就是:预测。InfoQ 中文站翻译了无人驾驶技术公司 Voyage 的联合创始人兼 CEO 亲自撰写的这篇文章,解读无人驾驶领域未来需要重点深耕的技术,以飨读者!

本文最初发表在 Oliver Cameron 的个人博客,经原作者授权,InfoQ 中文站翻译并分享。


为什么预测已经超越感知,成为该领域最大的挑战?


在过去的十年里,无人驾驶机器学习社区内的大多数讨论都集中在目标检测(object detection)上。动态目标对所有安全导航至关重要,我们该如何提高无人驾驶汽车检测和跟踪这些动态目标的能力呢?2010 年,在深度学习普及之前,感知是无人驾驶汽车能力的主要限制。对于一台 3 吨重的机器来说,有着如此之高的误报率和漏报率,都是不可接受的。最能说明这一点的是 ImageNet 的分类正确率,在这方面,最先进的解决方案在 2010 年仅达到 50% 的正确率(相比之下,今天的正确率为 88%)。尽管 ImageNet 的分类与当前最先进的目标检测技术相提并论,但它确实可以作为计算机视觉进步的一个代表。



两年后的 2012 年,AlexNet 成为首批利用卷积神经网络进行深度学习的 ImageNet 竞赛的参赛者之一。AlexNet 也许是计算机视觉领域最有影响力的论文,2012 年就在 ImageNet 上实现了当时最先进的正确率。


深度学习,无论是应用于激光雷达、摄像头,还是雷达,都在 2014 年左右开始涉足无人驾驶技术。Google 最著名的一个例子是,它的无人驾驶汽车碰到了一名老太太坐着电动轮椅在车辆前面转来转去追赶一只鸭子的场景,当即就做出了躲避的行为,这一例子说明了感知技术从 2010 年发展到现在已经走了多远。



今天,用于感知的深度学习在无人驾驶汽车中已经很普遍了,我们也因此不断看到性能的惊人提升。去年以来,像 VoxelNetPIXORPointPillars 这样的网络推动了我们在计算机视觉方面的思考。尽管我们不应认定现在的机器人已经实现了完美的感知能力,但计算机视觉领域的发展如此之快,可以说,它现在已经不再是无人驾驶汽车商业化应用的主要障碍了。


注:我有严重的偏见,但以上的说法,是基于一款具备多钟传感器模式的无人驾驶汽车,包括一个飞行时间传感器,它会返回物理上准确的深度信息,并提供给感知模型。对不起了,特斯拉!


既然感知已经不再是无人驾驶技术的星星之火,那下一步是什么呢?预测!


既然我们可以安全地探测到我们周围的关键物体,那么,我们现在就必须预测它们下一步要做什么。正确的预测意味着我们将在正确的时间执行正确的操作,同时考虑周围人们的行动。错误的预测意味着我们可能会将自己推向危险的境地。作为人类,我们使用数以千计的环境输入来直观地进行这种预测。


正如我在第一篇关于无人驾驶汽车的强化学习和模仿学习的博文中所讨论的那样,让我们来看看机器人无人驾驶汽车如何处理没有保护的左转弯。


预测问题是无保护左转弯实例化的核心问题,该问题也是最困难的。在执行左转弯之前,无人驾驶汽车必须预测周围所有动态目标的未来动作,这项任务比无人驾驶中的其他问题需要更多的智能。人类驾驶员虽然不完美,但在很大程度上只需依靠一般智力、现实世界的驾驶经验和社会线索(如轻推或手势),就能够成功执行无保护的左转弯。

尽管机器比人类有着明显的优势(如 360°远程视野),但与人类相比,无人驾驶技术的传统预测可能还相当原始。

  1. 感知器模块输出无人驾驶汽车特定半径内的一组目标检测(例如车辆、行人),然后将其输入到预测模块。

  2. 预测模块使用当前(例如方向、速度)和先前的观察结果来生成每个目标在接下来 5 秒内可能会做什么动作的单独预测。

  3. 通过将所有这些单独预测输入到一个算法中,就可以生成关于无人驾驶汽车可以执行的最安全动作的假设。

  4. 无人驾驶骑车开始规定的动作,并每 100 毫秒重新评估该决策。


你可以想象得出,这种机器人的方式会导致不舒服甚至潜在的危险驾驶行为,在人口稠密的城市环境中尤为如此。在过去的几年里,我们看到了深度学习方法进行预测的实验爆炸式增长。这些方法有显著提高预测正确率的潜力,能够将它们从机器人转变为类似人类的预测。


用数据驱动的方法解决这些原始的预测,与 2010 年代中期深度学习如何取代经典感知的方式有着惊人的相似之处。


下面是一些实际应用的例子。


  • Cruise 的感知工程经理进行了一次精彩的演讲,讲述了他们是如何将学习预测作为一个分类问题来处理的。我对他们构建的工具特别感兴趣,除了他们场景自动标记的“车队学习”(Fleet learning)的能力之外,他们还构建了支持快速实验的工具。

  • Uber 分享了他们在 DRF-Net 上的工作,该网络增强了行人预测的能力:“大量实验表明,我们的模型表现出高可能性、低误差、低熵和高多模态,优于几个强基线。DRF-Net 离散预测的强大性能对于基于成本和约束的机器人规划提供了很好的前景。”

  • Apple 发表了一篇关于强化学习的新论文,题为《最坏情况下的策略梯度》(Worst Cases Policy Gradients):“构建智能系统的关键挑战之一,是开发在复杂环境中做出健壮且安全的连续决策的能力。”

  • isee 在 2019 年的 CVPR 峰会发表了关于学习预测方法的研究成果:“这种 MAT 编码自然地处理具有不同数量的动态目标和场景,并通过 AMT 上的卷积运算来预测场景中所有动态目标的轨迹,并且计算复杂度与动态目标的数量呈线性关系。”


虽然预测目前还没有达到它所需的性能要求,但我很清楚,我们将看到数据驱动方法在预测性能方面上的巨大飞跃,就像深度学习对经典感知的影响一样。这些即将到来的飞跃,无疑将极大改善无人驾驶汽车的决策能力,从而为乘客带来更安全、更顺畅的乘车体验。


作者介绍:


Oliver Cameron,Voyage 联合创始人兼 CEO。Voyage 致力于兑现无人驾驶汽车的承诺。


原文链接:


https://olivercameron.substack.com/p/the-next-leap-in-self-driving-prediction


公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2020-02-27 14:001443

评论

发布
暂无评论
发现更多内容

Photoshop如何更改语言?最新版PS2023自带中英文语言切换

魔仙苹果mac堡

Photoshop 2023下载 Photoshop 2023破解版 PS2023下载 如何切换PS语言

从阿里出发看微服务发展!P8架构师手打800页微服务深度解析笔记

做梦都在改BUG

Java 架构 微服务

【算法数据结构专题】「延时队列算法」史上手把手教你针对层级时间轮(TimingWheel)实现延时队列的开发实战落地(下)

洛神灬殇

数据结构 算法训练 时间轮算法 时间轮(TimeWheel)

智慧改变公厕,市政智慧公厕方案解决城市公共厕所难题

光明源智慧厕所

智慧城市

有哪些 python 的在线练习题或编程挑战的网站?

Jackpop

在Vue中,为什么从 props 中解构变量之后再watch它,无法检测到它的变化?

Lee Chen

JavaScript Vue3

Bettertouchtool for Mac(触摸板增强神器)使用教程

魔仙苹果mac堡

BetterTouchTool破解 BetterTouchTool教程 Mac触控板增强

Spring Boot自动配置原理详解和自定义封装实现starter

做梦都在改BUG

Java Spring Boot 自动配置

【AIGC未来的发展方向】面向人工智能的第一步,一文告诉你人工智能是什么以及未来的方向分析

洛神灬殇

人工智能 4月日更 AIGC ChatGPT

前端面试实录HTTP篇

控心つcrazy

https HTTP 前端面试 前端已死

开源7天Github斩获4.5万Stars!阿里2023版高并发设计实录鲨疯了

程序员小毕

数据库 程序员 面试 高并发 架构师

VMware fusion pro13下载 VM虚拟机安装教程

魔仙苹果mac堡

VMware Fusion Pro 13 VMware Fusion虚拟机 VM虚拟机破解版

Java岗程序员必备学习方向,全会拿45Koffer没问题!

Java你猿哥

Java 面试 面经 Java工程师 春招

肝完阿里最新Java并发编程全优笔记,我成功晋升公司架构组

Java你猿哥

Java 架构师 并发 面经 Java工程师

Django笔记四之字段属性

Hunter熊

Python django model field 字段属性

程序员未来是不是会大量失业?

Jackpop

如何优雅地使用 Markdown?

Jackpop

5分钟搞懂NESAS

俞凡

安全 网络 通信

MacOS SVN 客户端:Cornerstone 4永久许可证

魔仙苹果mac堡

Mac 系统 SVN客户端 Cornerstone for Mac Cornerstone下载 Cornerstone 4

Macos壁纸软件|动态壁纸Dynamic Wallpaper灵动你的桌面!

魔仙苹果mac堡

Dynamic Wallpaper下载 mac动态壁纸 Mac壁纸app 苹果软件资源站 壁纸高清

系统清理工具:Cocktail 16.3.3注册激活版

真大的脸盆

Mac Mac 软件 清理工具 清理优化 清理优化软件

哪个网站的电子书最多?

Jackpop

TCP协议中的粘包和半包问题

做梦都在改BUG

TCP TCP协议 粘包 半包

阿里内部一份手打524页《Java中高级核心知识》令人犹如醍醐灌顶

程序知音

Java java面试 java架构 后端技术 Java面试八股文

十年程序老狗手写分布式服务架构:原理、设计与实战

小小怪下士

Java 程序员 分布式 后端

AI Prompt Engineering 提示工程:提升你的创意与效率

kcodez

人工智能 ChatGPT 提示工程

流批一体数据交换引擎 etl-engine

weigeonlyyou

flink 消费 kafka 物联网 数据迁移 Kafka ETL 大数据‘’

了解5G安全标准,看这一篇就够了

俞凡

安全 网络 通信

网络IO模型BIO->Select->Epoll多路复用的进化史

做梦都在改BUG

好家伙!GitHub公选“头牌”阿里大牛开源1300页炫彩性能调优手记

做梦都在改BUG

Java 性能优化 性能调优

ChatGPT - SpringBoot Prompting Chain

Marvin Ma

软件开发 ChatGPT

预测技术已经超越感知,成为无人驾驶领域最大的挑战_文化 & 方法_Oliver Cameron_InfoQ精选文章