50万奖金+官方证书,深圳国际金融科技大赛正式启动,点击报名 了解详情
写点什么

从 “鬼探头惊魂”到“城市自由行”:自动驾驶如何靠数据、模型、软件破局?

  • 2025-10-13
    北京
  • 本文字数:4074 字

    阅读完需:约 13 分钟

大小:2.06M时长:12:00
从 “鬼探头惊魂”到“城市自由行”:自动驾驶如何靠数据、模型、软件破局?

当智能驾驶从实验室走向真实道路,“鬼探头”惊魂、施工路段应对失当等场景暴露出技术落地的真实困境。业界共识已明确:数据闭环、模型优化与基础软件协同进化,是突破自动驾驶性能瓶颈的核心路径。「AI 进化论:智算时代 OS 的破局之路」第四期直播聚焦 「数据 × 模型 × 软件:自动驾驶的协同进化之路」,邀请阿里云智能集团资深技术专家李三红、资深算法专家施兴,从技术痛点拆解、协同路径分析到未来场景展望,揭示智能驾驶从“可用”到“可靠”的进化密码。


以下为经编辑整理的专家访谈实录。


直面智驾痛点——数据、算法与系统的三重困局


Q1:鬼探头、施工变道等场景,暴露了当前智能驾驶哪些技术短板?


@施兴:

现在有两类主流的智驾方案:一类是多阶段方案,包含感知、规划控制等模块串联;另一类是端到端方案,比如特斯拉 FSD。但无论哪种方案,背后都离不开数据、算法、算力三个维度。鬼探头或道路施工变道场景,从数据维度看属于典型的长尾问题——这类数据在训练集中占比很少,挖掘出来参与训练也有挑战。这导致数据分布不均衡,模型学习时对鬼探头的判断概率较低。比如模型首次检测异常物体时,可能只给出 0.6 的置信度,不敢立即急刹,需要下一帧数据确认,自然就慢半拍。从算法维度看,多阶段方案步骤复杂耗时长;端到端方案虽简化步骤,但模型参数量大,车端算力有限。算力层面同样关键:车端芯片算力远低于数据中心服务器,导致计算延迟增加。这三方面共同造成突发场景的响应瓶颈。


@李三红:

从数据角度看,本质是现实世界的复杂性与模型能力存在差距。例如训练数据在晴天采集,雨天性能就会下降。更核心的是,我们需要通过数据增强、数据合成等技术提升数据多样性,让模型接触到更接近真实场景的样本。


Q2:同为“智能”,为何自动驾驶比手机 APP 难得多?


@李三红:

从阿里云支持车企的经验看,自动驾驶是高度依赖数据闭环的系统工程。其核心流程包括车端数据采集、标注、预处理、数据挖掘、模型训练、车端部署的全链条。复杂度首先体现在数据本身:传感器、雷达、路侧设备产生的多模态数据量巨大,且高度异构。技术实现上涉及多领域协同:需要大数据技术做数据清洗,异构算力支撑计算,高性能存储管理数据,容器编排调度任务。这种多技术栈耦合的复杂性,远超手机 APP 处理 2D 结构化数据的场景。


@施兴:

我有两个强烈对比感受:一是数据维度差异。手机 APP 处理的是用户、物品、行为等结构化数据,而智驾需融合摄像头图像、激光雷达点云、毫米波信号、方向盘转角等时空序列数据,复杂度指数级上升。二是成熟度差异。互联网 APP 经过十年沉淀已标准化,但智驾算法在不同车企中差异很大——有的修改网络结构,有的重写代码模块,这种碎片化进一步增加技术落地难度。


Q3:为何有的车 OTA 升级后反而“变笨”?


@施兴:

这背后是数据分布的动态失衡问题,互联网场景同样会遇到模型升级后效果倒退的问题。根本原因在数据维度:当新版本增加某些场景数据比例时,其他场景数据可能被压缩。就像学生集中补习语文时,数学成绩可能下滑。更隐蔽的问题是自动标注环节——标注模型自身迭代可能引入错误标注,而人工复核海量数据成本过高。硬件改动也会埋雷:比如摄像头角度调整后,采集的数据分布发生变化,导致模型适配失效。

要避免这类问题,必须建立严格的测试机制:先灰度发布到部分车辆,通过百公里接管率等真实指标验证效果,而不仅依赖离线测试数据。


@李三红:

这和互联网的 AB 测试逻辑类似。但智驾的测试更复杂,需要覆盖极端场景。这要求测试团队不仅关注整体指标,还要深入分析具体场景的数据一致性。


技术破局之道——数据闭环、算力协同与全栈优化


Q4:基础软件如何提升数据闭环效率?


@李三红:

以阿里云的实践为例,我们围绕数据闭环流程做了几方面的优化:在数据预处理环节 (以 Spark 为代表的大数据计算场景) 构建自下而上的全栈优化能力,从操作系统、Java 虚拟机到 Spark 算子深度优化等。在智驾模型训练环节全栈优化,包括操作系统内存管理策略优化、PyTorch 异构编译加速,数据加载延迟优化等。另外,分布式系统协同方面,重点突破存储与计算的协同瓶颈。例如通过 FUSE 加速技术提升存储与训练集群数据交换效率。


@施兴:

数据管道优化直接影响训练成本。传统做法是数据从 CPFS 存储读到主机内存,再拷贝到 GPU 显存。当千张 GPU 卡等待数据加载时,性能损失极大。针对这类问题,我们开发了新的方案——CUDADataLoader,能够直接让网络数据进显存,跳过内存中转环节,显著减少了数据加载耗时。


Q5:智驾模型参数远小于大模型,为何训练难度反而更高?


@施兴:

虽然大模型参数量达千亿级,但其训练目标相对单一。而智驾模型要解决多任务协同:感知模块做物体检测分割,规划模块输出行驶路径,控制模块执行转向刹车——这些任务需要不同的损失函数平衡。

在实际训练中主要暴露出三大难点:一是资源冲突,感知模型可能占满显存,挤压规划模块资源;二是数据对齐难题,多源传感器时空未对齐会导致整个批次数据报废;三是算力匹配问题,CPU 预处理速度跟不上 GPU 计算需求,造成“数据饥饿”。


@李三红:

从系统架构看,智驾与 LLM 存在本质差异:大模型是纯 GPU 密集型负载,而智驾是 CPU-GPU 强耦合系统。CPU 受制于摩尔定律的放缓,而 GPU 通过架构创新持续突破。这种差距导致 CPU 数据供给跟不上 GPU 消耗。针对这一痛点,目前我们正在操作系统层面优化内存到显存的数据迁移效率,通过内核协同机制提升数据传输吞吐量。


Q6:PAI-TurboX 如何实现训练加速?


@施兴:

TurboX 并非尖端突破,而是将硬件、OS 内核、编译器、GPU 算子到算法优化的能力系统化整合。

在数据层面,我们开发了 CUDADataLoader 组件——让网络数据直通 GPU 显存,跳过内存中转,这是核心创新点。

算子层面针对三个关键点优化:

  • SyncBN 去除冗余的 CPU-GPU 同步;

  • NMS 算法适配多硬件后端;

  • 矩阵运算加速。

框架层则通过动态编译优化计算图,并将预处理模块改造为生产者 - 消费者并行模式,解决模块间阻塞问题。

最终实测在 BEVFormer、BEVFusion 等主流算法上,平均实现 50% 左右的提速。


@李三红:

50% 提速意味着“成本折半”或“迭代翻倍”,但落地过程踩坑不少:初期我们想用一套通用方案解决所有问题,后来发现不同车企的感知模块差异很大。现在 TurboX 采用了“核心层统一优化 + 插件式扩展”架构,既保留通用加速能力,又支持车企自定义算子接入。


未来演进——合成数据、开源生态与出行革命


Q7:未来智驾需要哪些技术支撑?


@施兴:

我设想了三个进化阶段:首先是全场景端到端能力,实现上车到下车全程无需接管;其次是驾驶个性化,现在坐自动驾驶车辆总有“不像自己开车”的违和感。未来需学习车主驾驶习惯,比如变道激进程度、跟车距离偏好等;最终是车路云协同,每辆车都应成为移动传感器,实时共享路况。


@李三红:

技术架构层面也在发生范式转移:从“感知”到“认知”的范式转变,从多模块串联走向端到端大模型。例如 VLA 架构直接输入多模态数据,输出控制指令,减少中间状态传递损失。更前沿的是“世界模型”概念——能够在云端构建虚拟驾驶环境,让 AI 预训练亿万公里,通过强化学习来攻克极端场景,极大地提升训练效率。


Q8:开源生态对智驾发展有何价值?


@李三红:

开源是打破技术碎片化的关键。回顾互联网发展史,LAMP 著名的开源组合在 2000 年代定义了 Web 开发的标准模式。当前,PyTorch 基本上是 AI/ML 领域最广泛的公约数,不同框架和模型都无法绕开。但是具体到智驾领域,在算力适配、数据处理、模型训练等环节,技术栈仍高度碎片化(各家有各家的做法)。 希望可以借助开源生态的发展,推动智驾领域技术的标准化和互操作性(Standardization & Interoperability)。当所有人都在使用和研究同样的基础组件(如 Linux 内核、Kubernetes 容器编排系统)时,有一套通用的、可预测的技术栈,就可以极大地推动和加速智驾技术的发展。


@施兴:

其实特斯拉早年通过 AI Day 开放技术,确实给行业带来了很多启发。但最近能明显感觉到技术封闭的趋势在加剧——他们停办了 AI Day,各家车企核心模块的自研比例也在上升。反观国内,像 BEVFormer、DINO 这些开源算法,反而成为了很多车企的入门基石。说到底,光靠一两家公司推动是不够的,我们更需要更多“灯塔项目”来推动整个架构的统一。


Q9:未来三年哪些技术将迎来突破?


@施兴:

合成数据技术将进一步发展。解决数据长尾不能只靠真实路采,尤其出海车企面临严格限制。通过生成高保真场景数据:例如重建雨天街道,模拟车辆碰撞,生成突发交通规则——这类技术已在平台验证,能有效替代真实数据。


@李三红:

往“车路云一体化”的数据闭环平台方向的发展:企业需要构建能够高效处理车端、路侧多源数据的强大数据中台和算法训练平台。当然,这个目前基本处于一个初级阶段。“车路云一体化”涉及车辆与车辆(V2V)、车辆与基础设施(V2I)、车辆与云端(V2N)之间的实时信息交互,这对数据安全与隐私保护提出了严峻挑战。


结语:通向自由出行的技术三角


自动驾驶的终极突破,不在于单一技术的单点跃进,而在于数据、模型、软件的协同进化。从解决“鬼探头”反应滞后的技术短板,到构建支撑车路协同的未来架构,每一步进化都需要全产业链在数据闭环效率、模型训练优化、基础软件适配等层面的深度协作。


当数据闭环打破场景孤岛,当模型优化攻克算力高墙,当开源生态与软件连接技术碎片,自动驾驶才能真正驶入生活。这场变革不仅需要技术创新,更需产业协同——正如 Linux 定义开源 OS、Kubernetes 统一云原生,智驾领域亟待诞生自己的基础架构。当数据、模型、软件的铁三角牢固之时,“手握方向盘”终将成为一种怀旧仪式,而非出行刚需。


栏目介绍:

在 AI 重塑产业格局与国产化替代加速推进的双重浪潮下,《AI 进化论:智算时代 OS 的破局之路》以云、AI、安全等技术与服务器操作系统如何融合演进为主线,聚焦服务器操作系统在智算时代的进化之路,特邀学术权威、行业专家、客户代表围绕原生智能、原生安全、软硬协同等热点议题展开深度对话,并以阿里云服务器操作系统为例,系统性解析其技术架构、演进之路及场景应用价值,以期给行业带来启示与借鉴。


2025-10-13 14:234342

评论

发布
暂无评论
发现更多内容

Django中的超级用户和自己创建app原来这么简单!

老表

Python django web开发 11月日更 博客系统

点进来,与白洞一起体验一场沉浸式智慧轨道之旅

白洞计划

Flink 实践教程-入门(7):消费 Kafka 数据写入 PG

腾讯云大数据

flink 流计算 Oceanus

quarkus接触研究个人总结

weir威尔

架构 微服务架构 istio Service Mesh 服务网格 Quarkus

Flink SQL 扩展维表 Keyby 的三种实现方式

大数据技术指南

11月日更

NodeJs深入浅出之旅:内存控制(上)🐍

空城机

大前端 Node 11月日更

谁有粉?就爬谁!他粉多,就爬他!Python 多线程采集 260000+ 粉丝数据

梦想橡皮擦

11月日更

架构实现训练营|第 8 课|作业

Frode

【Flutter 专题】09 图解页面小跳转 (二)

阿策小和尚

Flutter 小菜 0 基础学习 Flutter Android 小菜鸟 11月日更

dart系列之:dart类的扩展

程序那些事

flutter dart 程序那些事 11月日更

双11硝烟散去,零售业开始“外卷”

脑极体

springboot中poi操作合集

小鲍侃java

11月日更

架构实战训练营模块三

人生就是梦

「架构实战营」

Apache Pulsar与Apache Kafka在性能、应用、生态等全方位对比

五分钟学大数据

11月日更

设计消息队列存储消息数据的MySQL表格

白开水又一杯

#架构实战营

分布式技术专题-服务架构设计-带你统一认识一下系统架构及分析和总结

码界西柚

架构设计 总结思考 11月日更 架构介绍

Ubuntu安装教程【超多图】

坚果

Ubuntu20.04 11月日更

敏捷中的威胁建模

刘冉

敏捷开发 威胁建模 安全测试

AI 预测:基于流计算 Oceanus(Flink) 实现病症的实时预测

腾讯云大数据

flink 流计算 Oceanus

通过 Feature Level 动态控制 SAP Spartacus 的页面显示

汪子熙

typescript angular SAP 11月日更

软件安全测试

刘冉

软件测试 安全测试

模块八作业

potti

我们的敏捷测试实践

刘冉

软件测试 敏捷测试

一个基于web服务器的PoW案例(二)

Regan Yue

区块链 11月日更 趣讲区块链

CRM User Status profile中Business Transaction字段的用途

汪子熙

CRM SAP 订单 11月日更

数据服务系统0到1落地实现方案

架构 数据 系统架构 数据平台 数据服务

基于业务和平台理解数字营销概念

架构 CDP DSP DMP 数据服务

如何使用Camtasia给视频打码

淋雨

Camtasia

设计千万级学生管理系统的考试试卷存储方案

deng

架构实战营

[架构实战营]模块三作业:学生管理系统详细架构设计

Geek_99eefd

「架构实战营」

Flink 实践教程-入门(6):读取 PG 数据写入 ClickHouse

腾讯云大数据

flink 流计算 Oceanus

从 “鬼探头惊魂”到“城市自由行”:自动驾驶如何靠数据、模型、软件破局?_阿里巴巴_付秋伟_InfoQ精选文章