写点什么

从 “鬼探头惊魂”到“城市自由行”:自动驾驶如何靠数据、模型、软件破局?

  • 2025-10-13
    北京
  • 本文字数:4074 字

    阅读完需:约 13 分钟

大小:2.06M时长:12:00
从 “鬼探头惊魂”到“城市自由行”:自动驾驶如何靠数据、模型、软件破局?

当智能驾驶从实验室走向真实道路,“鬼探头”惊魂、施工路段应对失当等场景暴露出技术落地的真实困境。业界共识已明确:数据闭环、模型优化与基础软件协同进化,是突破自动驾驶性能瓶颈的核心路径。「AI 进化论:智算时代 OS 的破局之路」第四期直播聚焦 「数据 × 模型 × 软件:自动驾驶的协同进化之路」,邀请阿里云智能集团资深技术专家李三红、资深算法专家施兴,从技术痛点拆解、协同路径分析到未来场景展望,揭示智能驾驶从“可用”到“可靠”的进化密码。


以下为经编辑整理的专家访谈实录。


直面智驾痛点——数据、算法与系统的三重困局


Q1:鬼探头、施工变道等场景,暴露了当前智能驾驶哪些技术短板?


@施兴:

现在有两类主流的智驾方案:一类是多阶段方案,包含感知、规划控制等模块串联;另一类是端到端方案,比如特斯拉 FSD。但无论哪种方案,背后都离不开数据、算法、算力三个维度。鬼探头或道路施工变道场景,从数据维度看属于典型的长尾问题——这类数据在训练集中占比很少,挖掘出来参与训练也有挑战。这导致数据分布不均衡,模型学习时对鬼探头的判断概率较低。比如模型首次检测异常物体时,可能只给出 0.6 的置信度,不敢立即急刹,需要下一帧数据确认,自然就慢半拍。从算法维度看,多阶段方案步骤复杂耗时长;端到端方案虽简化步骤,但模型参数量大,车端算力有限。算力层面同样关键:车端芯片算力远低于数据中心服务器,导致计算延迟增加。这三方面共同造成突发场景的响应瓶颈。


@李三红:

从数据角度看,本质是现实世界的复杂性与模型能力存在差距。例如训练数据在晴天采集,雨天性能就会下降。更核心的是,我们需要通过数据增强、数据合成等技术提升数据多样性,让模型接触到更接近真实场景的样本。


Q2:同为“智能”,为何自动驾驶比手机 APP 难得多?


@李三红:

从阿里云支持车企的经验看,自动驾驶是高度依赖数据闭环的系统工程。其核心流程包括车端数据采集、标注、预处理、数据挖掘、模型训练、车端部署的全链条。复杂度首先体现在数据本身:传感器、雷达、路侧设备产生的多模态数据量巨大,且高度异构。技术实现上涉及多领域协同:需要大数据技术做数据清洗,异构算力支撑计算,高性能存储管理数据,容器编排调度任务。这种多技术栈耦合的复杂性,远超手机 APP 处理 2D 结构化数据的场景。


@施兴:

我有两个强烈对比感受:一是数据维度差异。手机 APP 处理的是用户、物品、行为等结构化数据,而智驾需融合摄像头图像、激光雷达点云、毫米波信号、方向盘转角等时空序列数据,复杂度指数级上升。二是成熟度差异。互联网 APP 经过十年沉淀已标准化,但智驾算法在不同车企中差异很大——有的修改网络结构,有的重写代码模块,这种碎片化进一步增加技术落地难度。


Q3:为何有的车 OTA 升级后反而“变笨”?


@施兴:

这背后是数据分布的动态失衡问题,互联网场景同样会遇到模型升级后效果倒退的问题。根本原因在数据维度:当新版本增加某些场景数据比例时,其他场景数据可能被压缩。就像学生集中补习语文时,数学成绩可能下滑。更隐蔽的问题是自动标注环节——标注模型自身迭代可能引入错误标注,而人工复核海量数据成本过高。硬件改动也会埋雷:比如摄像头角度调整后,采集的数据分布发生变化,导致模型适配失效。

要避免这类问题,必须建立严格的测试机制:先灰度发布到部分车辆,通过百公里接管率等真实指标验证效果,而不仅依赖离线测试数据。


@李三红:

这和互联网的 AB 测试逻辑类似。但智驾的测试更复杂,需要覆盖极端场景。这要求测试团队不仅关注整体指标,还要深入分析具体场景的数据一致性。


技术破局之道——数据闭环、算力协同与全栈优化


Q4:基础软件如何提升数据闭环效率?


@李三红:

以阿里云的实践为例,我们围绕数据闭环流程做了几方面的优化:在数据预处理环节 (以 Spark 为代表的大数据计算场景) 构建自下而上的全栈优化能力,从操作系统、Java 虚拟机到 Spark 算子深度优化等。在智驾模型训练环节全栈优化,包括操作系统内存管理策略优化、PyTorch 异构编译加速,数据加载延迟优化等。另外,分布式系统协同方面,重点突破存储与计算的协同瓶颈。例如通过 FUSE 加速技术提升存储与训练集群数据交换效率。


@施兴:

数据管道优化直接影响训练成本。传统做法是数据从 CPFS 存储读到主机内存,再拷贝到 GPU 显存。当千张 GPU 卡等待数据加载时,性能损失极大。针对这类问题,我们开发了新的方案——CUDADataLoader,能够直接让网络数据进显存,跳过内存中转环节,显著减少了数据加载耗时。


Q5:智驾模型参数远小于大模型,为何训练难度反而更高?


@施兴:

虽然大模型参数量达千亿级,但其训练目标相对单一。而智驾模型要解决多任务协同:感知模块做物体检测分割,规划模块输出行驶路径,控制模块执行转向刹车——这些任务需要不同的损失函数平衡。

在实际训练中主要暴露出三大难点:一是资源冲突,感知模型可能占满显存,挤压规划模块资源;二是数据对齐难题,多源传感器时空未对齐会导致整个批次数据报废;三是算力匹配问题,CPU 预处理速度跟不上 GPU 计算需求,造成“数据饥饿”。


@李三红:

从系统架构看,智驾与 LLM 存在本质差异:大模型是纯 GPU 密集型负载,而智驾是 CPU-GPU 强耦合系统。CPU 受制于摩尔定律的放缓,而 GPU 通过架构创新持续突破。这种差距导致 CPU 数据供给跟不上 GPU 消耗。针对这一痛点,目前我们正在操作系统层面优化内存到显存的数据迁移效率,通过内核协同机制提升数据传输吞吐量。


Q6:PAI-TurboX 如何实现训练加速?


@施兴:

TurboX 并非尖端突破,而是将硬件、OS 内核、编译器、GPU 算子到算法优化的能力系统化整合。

在数据层面,我们开发了 CUDADataLoader 组件——让网络数据直通 GPU 显存,跳过内存中转,这是核心创新点。

算子层面针对三个关键点优化:

  • SyncBN 去除冗余的 CPU-GPU 同步;

  • NMS 算法适配多硬件后端;

  • 矩阵运算加速。

框架层则通过动态编译优化计算图,并将预处理模块改造为生产者 - 消费者并行模式,解决模块间阻塞问题。

最终实测在 BEVFormer、BEVFusion 等主流算法上,平均实现 50% 左右的提速。


@李三红:

50% 提速意味着“成本折半”或“迭代翻倍”,但落地过程踩坑不少:初期我们想用一套通用方案解决所有问题,后来发现不同车企的感知模块差异很大。现在 TurboX 采用了“核心层统一优化 + 插件式扩展”架构,既保留通用加速能力,又支持车企自定义算子接入。


未来演进——合成数据、开源生态与出行革命


Q7:未来智驾需要哪些技术支撑?


@施兴:

我设想了三个进化阶段:首先是全场景端到端能力,实现上车到下车全程无需接管;其次是驾驶个性化,现在坐自动驾驶车辆总有“不像自己开车”的违和感。未来需学习车主驾驶习惯,比如变道激进程度、跟车距离偏好等;最终是车路云协同,每辆车都应成为移动传感器,实时共享路况。


@李三红:

技术架构层面也在发生范式转移:从“感知”到“认知”的范式转变,从多模块串联走向端到端大模型。例如 VLA 架构直接输入多模态数据,输出控制指令,减少中间状态传递损失。更前沿的是“世界模型”概念——能够在云端构建虚拟驾驶环境,让 AI 预训练亿万公里,通过强化学习来攻克极端场景,极大地提升训练效率。


Q8:开源生态对智驾发展有何价值?


@李三红:

开源是打破技术碎片化的关键。回顾互联网发展史,LAMP 著名的开源组合在 2000 年代定义了 Web 开发的标准模式。当前,PyTorch 基本上是 AI/ML 领域最广泛的公约数,不同框架和模型都无法绕开。但是具体到智驾领域,在算力适配、数据处理、模型训练等环节,技术栈仍高度碎片化(各家有各家的做法)。 希望可以借助开源生态的发展,推动智驾领域技术的标准化和互操作性(Standardization & Interoperability)。当所有人都在使用和研究同样的基础组件(如 Linux 内核、Kubernetes 容器编排系统)时,有一套通用的、可预测的技术栈,就可以极大地推动和加速智驾技术的发展。


@施兴:

其实特斯拉早年通过 AI Day 开放技术,确实给行业带来了很多启发。但最近能明显感觉到技术封闭的趋势在加剧——他们停办了 AI Day,各家车企核心模块的自研比例也在上升。反观国内,像 BEVFormer、DINO 这些开源算法,反而成为了很多车企的入门基石。说到底,光靠一两家公司推动是不够的,我们更需要更多“灯塔项目”来推动整个架构的统一。


Q9:未来三年哪些技术将迎来突破?


@施兴:

合成数据技术将进一步发展。解决数据长尾不能只靠真实路采,尤其出海车企面临严格限制。通过生成高保真场景数据:例如重建雨天街道,模拟车辆碰撞,生成突发交通规则——这类技术已在平台验证,能有效替代真实数据。


@李三红:

往“车路云一体化”的数据闭环平台方向的发展:企业需要构建能够高效处理车端、路侧多源数据的强大数据中台和算法训练平台。当然,这个目前基本处于一个初级阶段。“车路云一体化”涉及车辆与车辆(V2V)、车辆与基础设施(V2I)、车辆与云端(V2N)之间的实时信息交互,这对数据安全与隐私保护提出了严峻挑战。


结语:通向自由出行的技术三角


自动驾驶的终极突破,不在于单一技术的单点跃进,而在于数据、模型、软件的协同进化。从解决“鬼探头”反应滞后的技术短板,到构建支撑车路协同的未来架构,每一步进化都需要全产业链在数据闭环效率、模型训练优化、基础软件适配等层面的深度协作。


当数据闭环打破场景孤岛,当模型优化攻克算力高墙,当开源生态与软件连接技术碎片,自动驾驶才能真正驶入生活。这场变革不仅需要技术创新,更需产业协同——正如 Linux 定义开源 OS、Kubernetes 统一云原生,智驾领域亟待诞生自己的基础架构。当数据、模型、软件的铁三角牢固之时,“手握方向盘”终将成为一种怀旧仪式,而非出行刚需。


栏目介绍:

在 AI 重塑产业格局与国产化替代加速推进的双重浪潮下,《AI 进化论:智算时代 OS 的破局之路》以云、AI、安全等技术与服务器操作系统如何融合演进为主线,聚焦服务器操作系统在智算时代的进化之路,特邀学术权威、行业专家、客户代表围绕原生智能、原生安全、软硬协同等热点议题展开深度对话,并以阿里云服务器操作系统为例,系统性解析其技术架构、演进之路及场景应用价值,以期给行业带来启示与借鉴。


2025-10-13 14:234866

评论

发布
暂无评论
发现更多内容

Kubernetes的pod调度

急需上岸的小谢

10月月更

大数据入门学习框架

Lansonli

大数据 大数据学习框架 学习大数据

【一Go到底】第十八天---函数的注意事项

指剑

Go golang 10月月更

始料未及-- 元宇宙传来好消息,全球轰动

CECBC

【愚公系列】2022年10月 Go教学课程 031-结构体方法

愚公搬代码

10月月更

分布式协调服务的存在意义

穿过生命散发芬芳

分布式协调 10月月更

Serverless应用架构转型

阿泽🧸

Serverless 10月月更

2022年中国小微普惠数字化进程专题分析

易观分析

小微金融

你有真正的享受过闲暇吗?

暮春零贰

成长 时间管理 10月月更

一起聊服务架构的演进过程

南极仙翁

架构 技术 后端 服务架构

从《三体》到Silkpunk,这些中式科幻用什么打动了西方人?

脑极体

Java多线程 ThreadPoolExecutor自定义线程池

Yeats_Liao

后端 Java core 10月月更

Kubernetes能否帮助解决自动化

CTO技术共享

Kubernetes 个人成长 10月月更

JS Array数组几个循环实用方法总结

MegaQi

JavaScrip 10月月更

网络安全之等保2.0测评

网络安全学海

黑客 网络安全 信息安全 渗透测试 等保测评

数字货币:影响深远的创新

CECBC

作为码农,如何让35岁璀璨耀眼

南极仙翁

码农 生活随想 35岁危机 35岁焦虑 10月月更

2022-10-17:特殊的二进制序列是具有以下两个性质的二进制序列: 0 的数量与 1 的数量相等。 二进制序列的每一个前缀码中 1 的数量要大于等于 0 的数量。 给定一个特殊的二进制序列 S,以

福大大架构师每日一题

算法 rust 福大大

【愚公系列】2022年10月 Go教学课程 032-结构体方法继承

愚公搬代码

10月月更

搭建一套 gocd 的环境

lihui

CI/CD pipeline gocd

Kubernetes的pod

急需上岸的小谢

10月月更

kubernetes的Controller

急需上岸的小谢

10月月更

Java多线程 CompletionService和ExecutorCompletionService

Yeats_Liao

后端 多线程 Java core 10月月更

cstdio的源码学习分析10-格式化输入输出函数fprintf---宏定义/辅助函数分析05

桑榆

源码刨析 10月月更 C++

2022年证券行业818理财节,量变开始转向质变

易观分析

证券 理财节

搞一搞明白Vitepress的文档渲染基础

小鑫同学

前端 markdown vite markdown-it 10月月更

Java多线程 ThreadPoolExecutor-RejectedExecutionHandler拒绝执行策略

Yeats_Liao

后端 Java core 10月月更

Jenkins流水线(pipeline)实战之:从部署到体验

程序员欣宸

Java jenkins 10月月更

每个系统管理员都应该知道的 6 个 Linux 网络命令

wljslmz

Linux 网络命令 10月月更 系统管理员

用声网 Android UIKit 为实时视频通话应用添加自定义背景丨声网 SDK 教程

RTE开发者社区

视频 人工智能’ SDK 教程

从 “鬼探头惊魂”到“城市自由行”:自动驾驶如何靠数据、模型、软件破局?_阿里巴巴_付秋伟_InfoQ精选文章