如何理解自动驾驶领域的“热”和“乱”?

阅读数:6222 2019 年 8 月 16 日 19:23

如何理解自动驾驶领域的“热”和“乱”?

如何理解自动驾驶领域的“热”和“乱”?

谈到自动驾驶现状,有人说“热”和“乱”,其实正常。一个这么多有钱的公司都投入的方向能不热吗,而乱说明它的“新”。如果大家还是去整天写文章,说明离实用和商用落地比较远,仍然是一个学术研究。更甚至,如果有不少专家对一个领域纷纷著书立传,那说明它就成熟了,没有什么挑战和新意了不是?

所谓“乱”,主要是没有一个唯一的方向,实际有多条研发路线在进行,而且没有谁好谁坏的结论。可以说,目前自动驾驶发展是基本两条路,一条是谷歌和百度走的,直接做 L4 级别的自动驾驶;另外一条是 Mobileye 和 Tesla 走的,从 L2 做起然后演进到 L3-L4 (其实主机厂基本也是这条路,只是不是软件 OTA 模式,而是需要硬件一起迭代升级)。

说不好听的话,这是“PG 决定脑袋”的。谷歌和百度一类互联网公司,现金流很充足,利润客观,所以可以不计较成本,同时也不着急靠这个挣钱,索性直接做技术最有挑战性的东西。一些做 L4 的创业公司,主要靠 VC 输血吧,现在自动驾驶这么热,融很多钱就烧得起呀。

至于说 L2 演进到 L3/L4 存在系统障碍什么的,我不这么认为。我们分析一下:感知是一样的,越成熟越好;规划会发生变化,特别是采用高清地图的话;控制都一样,相对来说,互联网公司没有多少这方面的积累,最好用线控(wire control)车以及电动车方便。V2X 目前还没有普及,有的话对自动驾驶是很大的帮助,障碍物检测简单了,另外什么红绿灯检测,交通标志识别也不需要了,感知的重点是未知障碍物的动态检测,规划可以有区域的多车规划,不仅仅单个车自身的规划决策,这些对渐进式升级没什么冲突的。

有人说 L2 基本靠人接管,L3 需要 fail-safe,需要提前 10 秒左右报警让人接管,而 L4 要求 fail-operational,需要及时检测自动驾驶系统失效而进入安全模式,在 1-2 分钟停靠安全地方等待救援,包括远程遥控驾驶什么的,这都不妨碍系统迭代演进的开发模式,只是要求系统的硬件软件冗余和容错能力提高罢了。

反过来我们看 Mobileye 和特斯拉模式,先做 ADAS 放到车上给用户用,直接赚钱产生利润,Mobileye 应该是市场份额最大的,特斯拉卖车顺便增加 Autopilot 这个卖点挣现金流,然后继续投入研发提升自动驾驶级别,是一个很现实的商业模式。最近特斯拉出车祸多了,备受指责。想想看,如果 L4 出个车祸,估计公司就赔死了,就像 Uber 那次撞死人,给大家印象就很坏。

在这两个开发道路上,我们也看到前者不在乎马上挣钱,所以在系统搭建上就不计成本了,像激光雷达这种目前昂贵的传感器,基本上是都用上了。等着容易进车规的固态激光雷达产品成熟降价,那是不知道什么日子的,所以后者大多采用摄像头和毫米波雷达搭配,最近 Mobileye 的自动驾驶车就是只用 5 个摄像头,在耶路撒冷的大街上开起来了;特斯拉用 8 个摄像头,5 个毫米波雷达,还有 12 个超声波雷达一起构建第二代 Autopilot 硬件平台。现在有这个平台的销售出去的车也有进 20 万辆,现在收集的数据号称 5 亿英里,特斯拉在这方面比谷歌的 1000 万英里实测数据还是 NB 多了,只是如何用这些数据呢?

前年 6 月份上任的 Autopilot 总监 Andrej Karpathy 决定采用 E2E 的机器学习方法(基本就是深度学习网络),希望能解决这个自动驾驶问题,他定义为软件 2.0 时代,以前模块化的软件都算 1.0 时代,debug 复杂,要求高。目前看,这个方向还没有成功吧。其实大多数人还是采用模块化的方法,就是前面提及的感知,定位,规划和控制的分解模式,主要是大家没有胜算能用一个模型解决这么多的 corner case。

谈到地图,又扯到成本问题。Mobileye 提出的 REM 建图方法,可以通过摄像头提取特征和路标(车道线和交通标志等)通过众包方式建高清地图,大家说这个难度大,而且应用在定位的难度也大,好处就是便宜。其实特斯拉也在搞这个,它最早的团队跑出去成立了一个创业公司叫 Lvl5。国内也有好几家这么干,其中 Momenta 还拿到了甲级资质,全国也没有 20 个,NB 呀。

回头看,高清地图的几家公司,像谷歌,百度,HERE,TomTom,高德,四维图新等等,都是采用激光雷达在扫图,然后回去标注重要的车道线,路牌,红绿灯等等,其中可以提供视觉层和语义层给客户用做定位,当然成本就是高,特别是地图更新的时候,今后用户实用的带宽要求也高(现在也有不少数据压缩的方法,降低数据传输带宽需求)。当然了,精度容易保证。现在定位和感知一样,都是多种方式融合,像采用 DGPS 定位的,都可以结合起来。

谈到了传感器融合,我认为其实它是拓宽了数据维度,以前只用激光雷达的,还有图像的,现在大家合在一起,要么构成冗余,要么互补提高精度。但是,它并没有改变这个感知定位是个概率决策的本质,所以还是有误差的,也必须小心定义和优化融合模型,比如 Uber 车祸就是融合后出现误判的情况。

还是那句话,技术在进步和更新,不少问题会得到解决,但有可能出现新的问题,这就是大家说的“长尾“效应,同时也说明自动驾驶研发的长期性,即所谓剩下的 10% 问题还要用解决 90% 的时间来研究。

本文来源:

https://zhuanlan.zhihu.com/p/55527623

收藏

评论

微博

用户头像
发表评论

注册/登录 InfoQ 发表评论