写点什么

端到端终局背后:开源成重头戏,发力对象变特斯拉鼓吹的合成数据?

  • 2024-06-14
    北京
  • 本文字数:3129 字

    阅读完需:约 10 分钟

大小:1.56M时长:09:03
端到端终局背后:开源成重头戏,发力对象变特斯拉鼓吹的合成数据?

作者 | 华卫


随着 AI 和大模型技术的发展,自动驾驶技术也进入全新阶段,近来“端到端自动驾驶”作为其中最重要的一项技术演进趋势成为自动驾驶行业关注的焦点。

 

在 6 月 12 日辰韬资本联合南京大学上海校友会自动驾驶分会等主办的端到端引领自动驾驶新时代高峰论坛上,多位智能驾驶头部企业代表、以及来自投资机构、研究机构的产业专家,发表了对端到端技术的未来趋势以及数据短缺问题的前沿看法,并基于“大模型和物理世界 AGI 的发展趋势”展开了一场圆桌对话。

 

辰韬资本投资经理刘煜冬博士表示, 头部自动驾驶公司已经积累丰富的端到端研发经验,已经出现了 UniAD、FSD 等可量产的技术方案,未来半年到一年内量产上车;今年或明年,主机厂会有初步的端到端方案上车。

 

现场,辰韬资本还联合南京大学上海校友会自动驾驶分会等发布 2024 年度《端到端自动驾驶行业研究报告》。调研显示,其中 90%表示自己所供职的公司已投入研发端到端技术,端到端已逐渐成为自动驾驶行业的共识,但在落地方面也面临诸多挑战,包括技术路线、数据和算力需求、测试验证、组织资源投入等。

 

目前,华为、小鹏、元戎启行、商汤绝影等自动驾驶玩家纷纷提出端到端量产规划,预计模块化端到端系统将于 2025 年开始上车。

 

端到端的未来演进

 

“自动驾驶的架构演进分为四个阶段,从模块化/基于规则逐渐走向端到端/数据驱动,端到端定义范畴为第三与第四个阶段:模块化端到端、单一神经网络(One model 端到端)。强调生成能力的世界模型可以提供训练数据,也可以成为实现 one model 的方式。”

 

刘煜冬介绍,目前端到端面临 6 个落地挑战:技术路线未完全确定;训练数据要求高质量;训练算力需要几万到十万张 GPU,会限制大家的开发进度;测试验证的方法不成熟,传统方法是单模块测试;组织资源重心从工程师转向数据基建和数据投入;车载芯片算力和可解释性问题不会限制端到端的落地。

 

未来,开源社区会在端到端的技术变革中扮演重要角色,和 BEV 算法的演变相同。而闭环仿真将成为重要基础,这是除了端到端技术本身以外最重要的技术变化。芯片架构方面,芯片本身算力并不是限制,更多是芯片设计本身如何支持算法快速迭代,包括灵活的芯片 IP 和支持 transformer 的架构。

 

同时,他指出,端到端自动驾驶和机器人行业关联度很高,之后会经历三个阶段:1.自动驾驶向机器人行业借鉴技术;2.端到端技术反哺机器人;3.自动驾驶和机器人竞逐物理世界 AGI。自动驾驶的优势在于结构化场景和数据获取路径,机器人的优势为安全性要求低。

 

对此,鉴智机器人联合创始人兼 CTO 都大龙也做了进一步的解释。泛机器人系统之所以需要“感知决策规划”端到端模型,是因为有无穷无尽的问题无法用规则解决,只能用端到端来解决。未来,世界模型可以成为自动驾驶的 model,但当前因模型太大还不会,而端到端自动驾驶是终局路线。

 

合成数据 VS 真实数据

 

“合成数据是解决端到端数据短缺的最有效方法。”光轮智能创始人 CEO 谢晨指出,Sora 使用大量合成数据来进行训练;特斯拉约 30%使用合成数据;蔚来约 30%使用合成数据;Cruise 约 50%使用合成数据;英伟达自动驾驶约 80%使用合成数据。

 

其中,特斯拉认为,自动驾驶范式就是 Transformer 和数据,搭建数据闭环,通过车端数据回环做端到端算法。“100 万辆车可以体会到数据闭环的威力,改完代码然后发给欧洲的车队,一天数据就可以回来了。”此外,特斯拉在合成数据也有积累,最早将其用到感知,后来用于端到端的训练。

 

谢晨介绍,端到端自动驾驶主要需要三方面的数据,包括视觉和物理的真实性、Agent 交互性以及规模效率,而传统合成数据很难同时满足这三者。三年内,合成数据将是大模型数据最主要的数据来源。

 

而在都大龙看来,BEV 并不需要这么多数据,特斯拉 CEO 埃隆马斯克有点夸张。通过双目方案做 OCC 只需要 1%的数据,先加一些合理的约束,用一张图的形式去建模动态目标和静态目标之间的关系,就能够提升数据的利用效率和算力利用效率。需要注意的是,要保证建模是可导可微的,是可以端到端的去优化的。

 

至于合成数据和真实数据的比例以及重要性比较,智平方科技产品副总裁张鹏表示,当下肯定需要合成数据,但是以后找数据的模式可能会不一样,数据的需求在发生变化。人在自然界发现规律、验证规律和使用规律是一个过程,可能模型也需要这个过程。从底层来说还是如何去用数据。

 

“高质量的数据最重要,合成和真实数据两者比例需要看场景。”南京大学人工智能学院副院长戴新宇教授举例道,比如文本而言,合成数据可能不是好的场景,因为不符合人类的价值观,但是自动驾驶中合成数据可以模拟更多场景。

 

零一汽车智能驾驶合伙人王泮渠则指出,强化学习在 GPT3.5 和 4 中发挥了很大的作用,在端到端闭环中引入是高效利用仿真数据的思路。仿真数据和强化学习的结合是需要发力的点。

 

大模型和 AGI 的发展趋势

 

Q:Transformer 是未来大模型的基础架构吗?可否简单分享下对未来模型演进的推演?

 

南京大学人工智能学院副院长戴新宇:Transformer 从 17 年提出后,得到 NLP 以及多模态的验证,所以成为主流神经网络结构。现阶段效果很好,但是潜力还没发挥。Transformer 的缺点在于训练能耗大、乘法运算多、可解释性一般,虽然有思维链但没有很好的推理能力。未来 3-5 年 Transformer 还是有很大发展空间,但也有值得学术界探索的其他模型,目前关注神经符号模型,量子计算机等架构是否是 Transformer 以外的有潜力的模型。

 

零一汽车智能驾驶合伙人王泮渠:Transformer 的通用性和泛化性很强,优势是不管是什么模态,图像、声音或者文本都可以通过 query 深入然后进行编码,输出也很多样。其通用性保证了各种任务都可以进行无痛迁移和扩展,多任务网络整合到一个模型下。未来,Transformer 潜力很大但是不会一统天下。现在 Transformer 擅长大模型和决策,未来 Diffusion、3DGS 等 model 对于仿真和真实世界渲染会更有帮助。

 

智平方科技产品副总裁张鹏:Transformer 是当前比较有效且多种模态可以统一输出的基础,Diffusion 或者 3DGS 已经在细分领域应用了,更多优势在于落地和场景化的时候以什么样的成本达到什么样的上限,Transformer 可能只是一个过程。

 

弘晖基金投资总监周崇杰:Transformer 和人脑比较,推理效率和算力利用都有缺陷。现在有很惊艳的表现,未来无论是基于 Transformer 的优化或者混合模型或者新的架构模型,我认为都会有一些新的东西出来。

 

Q:scaling law 会遇到瓶颈吗?语言的 scaling law 可以复制到多模态吗?

 

王泮渠:从语言本身来看,GPT5 可能 90%的数据都来自于仿真数据,如果仿真数据没有上限的化那么 scaling law 没有上限。其他领域来说,数据是否可以赶上需求,比如自动驾驶的数据采集成本很高,并且涉及到安全性等。未来问题在于数据采集是否会遇到瓶颈,无法验证 scaling law。

 

戴新宇:多大的数据能让多模态达到跨越是一个问题,也不一定是数据量更大就更好,比如大象比人类的大脑神经元多很多,但是智商比人类低很多。饱和效应可能导致模型到了一定的规模,无法再达成大的飞跃。

 

张鹏:scaling law 在大语言模型之前经过大家的验证,多模态的数据比语言类数据更多,但是大家并没有找到多模态的范式去增大数据量,首先要找到这条路,再去验证多模态下 scaling law 是否成立。另外算力需要在某个场景下达到平衡点,比如自动驾驶,一定不需要把大模型放在车上。所以在某些场景下,可能并不需要这么多的数据量,更多是先找到规律再去寻找数据。

 

周崇杰:参数量大的模型目前效果更好,scaling law 在一定程度上可以实现,但受限于数据和高质量的数据,需要后续验证。另外算力和电力可能远远不够,2026 年对用电的需求可能到 8600 亿千瓦时,电力很难支撑,也对 scaling law 形成了挑战。所以寻找更好的数据、进行数据清洗或者对模型进行减秩和蒸馏都是需要探索的方向。

2024-06-14 18:128138

评论

发布
暂无评论
发现更多内容

英特尔锐炫家族迎新成员:锐炫A580兼顾价格与性能的全新选择

E科讯

突破零基础:NineData新手任务完全指南

NineData

数据恢复 SQL开发 NineData 新手任务 数据源创建

用友全球财务数智化解决方案助力企业对标世界一流财务体系,护航中企出海

用友BIP

智能财务 中企出海

离职原因千万不要这样说!

王磊

Java

发行版兴趣小组季度动态:Anolis OS 支持大热 AI 软件栈,引入社区合作安全修复流程

OpenAnolis小助手

AI 操作系统 CVE 龙蜥社区 发行版

利用ChatGPT提升测试工作效率——测试工程师的新利器(一) | 京东云技术团队

京东科技开发者

人工智能 测试 企业号10月PK榜

LAS Spark 在 TPC-DS 的优化揭秘

字节跳动数据平台

数据库 大数据 数据安全 数据研发 企业号10月PK榜

SRE实战:如何低成本推进风险治理?稳定性与架构优化的3个策略

TakinTalks稳定性社区

Mac上常用的视频编辑软件DaVinci Resolve Studio 18

展初云

Mac软件 视频编辑软件 达芬奇18

办公必备Microsoft 365 for Mac(原Office 365)

展初云

Office Mac软件

Spring Boot 项目中 Bean 注入的方式介绍

Apifox

Java Spring Boot annotation bean Spring Boot bean

开启中文智能之旅:探秘超乎想象的 Llama2-Chinese 大模型世界

汀丶人工智能

人工智能 自然语言处理 llama 大语言模型 llama2

私密离线聊天新体验!llama-gpt聊天机器人:极速、安全、搭载Llama 2

汀丶人工智能

人工智能 自然语言处理 nlp llama 大语言模型

ChatGPT 是如何产生心智的? | 京东云技术团队

京东科技开发者

人工智能 机器学习 ChatGPT 企业号10月PK榜

关于征集人工智能一体机系列标准参编单位的通知

中国信通院AI Infra工作组

侧发光透明LED显示屏特点优势

Dylan

商业 类型 LED显示屏 户外LED显示屏

中国水泥行业数字化采购:驱动产业链供应链现代化的关键

用友BIP

数智采购 水泥行业

OpenJDK17-JVM源码阅读-ZGC-并发标记 | 京东物流技术团队

京东科技开发者

ZGC 并发标记 企业号10月PK榜 JVM源码

基于Effect的组件设计 | 京东云技术团队

京东科技开发者

前端 React Hooks 企业号10月PK榜 effect

关于征集中国人工智能产业发展联盟“人工智能基础平台(AI Infra)工作组”首批成员单位的通知

中国信通院AI Infra工作组

用友深度参编!《煤炭行业信息技术应用创新发展报告(2023)》重磅发布

用友BIP

信创

EVE-NG:一种强大的网络模拟器和实验平台

小魏写代码

OP链DAPP质押挖矿系统开发源码搭建

l8l259l3365

如何导出带有材质的GLB模型?

3D建模设计

glb 材质 纹理 贴图

Databend join reorder 策略

Databend

软件测试/测试开发丨为什么接口自动化测试是提升职业技能的关键

测试人

Python 程序员 软件测试 接口测试 接口自动化

端到端终局背后:开源成重头戏,发力对象变特斯拉鼓吹的合成数据?_自动驾驶_华卫_InfoQ精选文章