如何理解自动驾驶领域的“热”和“乱”？-InfoQ



 写点什么

谈到自动驾驶现状，有人说“热”和“乱”，其实正常。一个这么多有钱的公司都投入的方向能不热吗，而乱说明它的“新”。如果大家还是去整天写文章，说明离实用和商用落地比较远，仍然是一个学术研究。更甚至，如果有不少专家对一个领域纷纷著书立传，那说明它就成熟了，没有什么挑战和新意了不是？

所谓“乱”，主要是没有一个唯一的方向，实际有多条研发路线在进行，而且没有谁好谁坏的结论。可以说，目前自动驾驶发展是基本两条路，一条是谷歌和百度走的，直接做 L4 级别的自动驾驶；另外一条是 Mobileye 和 Tesla 走的，从 L2 做起然后演进到 L3-L4 （其实主机厂基本也是这条路，只是不是软件 OTA 模式，而是需要硬件一起迭代升级）。

说不好听的话，这是“PG 决定脑袋”的。谷歌和百度一类互联网公司，现金流很充足，利润客观，所以可以不计较成本，同时也不着急靠这个挣钱，索性直接做技术最有挑战性的东西。一些做 L4 的创业公司，主要靠 VC 输血吧，现在自动驾驶这么热，融很多钱就烧得起呀。

至于说 L2 演进到 L3/L4 存在系统障碍什么的，我不这么认为。我们分析一下：感知是一样的，越成熟越好；规划会发生变化，特别是采用高清地图的话；控制都一样，相对来说，互联网公司没有多少这方面的积累，最好用线控（wire control）车以及电动车方便。V2X 目前还没有普及，有的话对自动驾驶是很大的帮助，障碍物检测简单了，另外什么红绿灯检测，交通标志识别也不需要了，感知的重点是未知障碍物的动态检测，规划可以有区域的多车规划，不仅仅单个车自身的规划决策，这些对渐进式升级没什么冲突的。

有人说 L2 基本靠人接管，L3 需要 fail-safe，需要提前 10 秒左右报警让人接管，而 L4 要求 fail-operational，需要及时检测自动驾驶系统失效而进入安全模式，在 1-2 分钟停靠安全地方等待救援，包括远程遥控驾驶什么的，这都不妨碍系统迭代演进的开发模式，只是要求系统的硬件软件冗余和容错能力提高罢了。

反过来我们看 Mobileye 和特斯拉模式，先做 ADAS 放到车上给用户用，直接赚钱产生利润，Mobileye 应该是市场份额最大的，特斯拉卖车顺便增加 Autopilot 这个卖点挣现金流，然后继续投入研发提升自动驾驶级别，是一个很现实的商业模式。最近特斯拉出车祸多了，备受指责。想想看，如果 L4 出个车祸，估计公司就赔死了，就像 Uber 那次撞死人，给大家印象就很坏。

在这两个开发道路上，我们也看到前者不在乎马上挣钱，所以在系统搭建上就不计成本了，像激光雷达这种目前昂贵的传感器，基本上是都用上了。等着容易进车规的固态激光雷达产品成熟降价，那是不知道什么日子的，所以后者大多采用摄像头和毫米波雷达搭配，最近 Mobileye 的自动驾驶车就是只用 5 个摄像头，在耶路撒冷的大街上开起来了；特斯拉用 8 个摄像头，5 个毫米波雷达，还有 12 个超声波雷达一起构建第二代 Autopilot 硬件平台。现在有这个平台的销售出去的车也有进 20 万辆，现在收集的数据号称 5 亿英里，特斯拉在这方面比谷歌的 1000 万英里实测数据还是 NB 多了，只是如何用这些数据呢？

前年 6 月份上任的 Autopilot 总监 Andrej Karpathy 决定采用 E2E 的机器学习方法（基本就是深度学习网络），希望能解决这个自动驾驶问题，他定义为软件 2.0 时代，以前模块化的软件都算 1.0 时代，debug 复杂，要求高。目前看，这个方向还没有成功吧。其实大多数人还是采用模块化的方法，就是前面提及的感知，定位，规划和控制的分解模式，主要是大家没有胜算能用一个模型解决这么多的 corner case。

谈到地图，又扯到成本问题。Mobileye 提出的 REM 建图方法，可以通过摄像头提取特征和路标（车道线和交通标志等）通过众包方式建高清地图，大家说这个难度大，而且应用在定位的难度也大，好处就是便宜。其实特斯拉也在搞这个，它最早的团队跑出去成立了一个创业公司叫 Lvl5。国内也有好几家这么干，其中 Momenta 还拿到了甲级资质，全国也没有 20 个，NB 呀。

回头看，高清地图的几家公司，像谷歌，百度，HERE，TomTom，高德，四维图新等等，都是采用激光雷达在扫图，然后回去标注重要的车道线，路牌，红绿灯等等，其中可以提供视觉层和语义层给客户用做定位，当然成本就是高，特别是地图更新的时候，今后用户实用的带宽要求也高（现在也有不少数据压缩的方法，降低数据传输带宽需求）。当然了，精度容易保证。现在定位和感知一样，都是多种方式融合，像采用 DGPS 定位的，都可以结合起来。

谈到了传感器融合，我认为其实它是拓宽了数据维度，以前只用激光雷达的，还有图像的，现在大家合在一起，要么构成冗余，要么互补提高精度。但是，它并没有改变这个感知定位是个概率决策的本质，所以还是有误差的，也必须小心定义和优化融合模型，比如 Uber 车祸就是融合后出现误判的情况。

还是那句话，技术在进步和更新，不少问题会得到解决，但有可能出现新的问题，这就是大家说的“长尾“效应，同时也说明自动驾驶研发的长期性，即所谓剩下的 10%问题还要用解决 90%的时间来研究。

本文来源：

https://zhuanlan.zhihu.com/p/55527623