演讲嘉宾|隋伟 博士
编辑|Kitty
策划|QCon 全球软件开发大会
传统的具身智能操作方法将视觉感知、语言理解和动作规划分割为独立模块,导致系统复杂、误差易累积且泛化能力不足。视觉语言动作模型(VLA)则实现了从多模态感知到动作生成的端到端学习,构建了 “所见即所动” 的智能决策闭环,极大地推动了具身智能发展。
然而视觉语言动作模型本身也存在诸多挑战,例如训练数据难以获取、模型结构缺少长时序和物理逻辑推理的能力。这意味着 VLA 虽然能实现一些操作功能但是对不同场景、不同任务的泛化性仍然存在挑战,无法满足实际的需求。
本文整理自地瓜机器人算法副总裁隋伟 博士在 2025 年 QCon 全球软件开发大会(上海站) 的分享“具身智能中的 VLA 技术及其应用”,内含涵盖 VLA 技术的基本原理和机制,以及在落地过程中涉及到的数据、评测等问题, 从而提升 VLA 的性能和易用性等等。
预告:将于 4 月 16 - 18 召开的 QCon 北京站设计了「具身智能与物理世界交互」专题,聚焦 VLA/VA 模型与数据体系两大核心,深度拆解具身智能技术链路。拟探讨模型现状、核心挑战与机会,分享高质量数据解决方案,解析仿真与 World Model 的赋能价值,破解核心技术瓶颈。敬请关注。
以下是演讲实录(经 InfoQ 进行不改变原意的编辑整理)。
我先简单介绍一下地瓜机器人,是一家专门聚焦机器人领域的公司。我们提供一整套机器人解决方案,包括底层芯片、操作系统、开发环境、数据算法以及云平台等。我们的目标是让机器人的开发变得更加简单,让每个人都能上手开发机器人算法。

我今天分享的主题是 VLA(视觉 - 语言 - 动作模型)。我会围绕 VLA 开发过程中遇到的各种问题,介绍目前的现状与挑战,涵盖从数据到模型、再到最终部署及应用中遇到的困难。
具身智能中 VLA 的现状和挑战
首先看 VLA 的现状与挑战。具身智能在这两年非常火热,被认为是继智能驾驶之后的另一个爆发点。其背景是底层 AI 模型的快速发展,尤其是像 VLM(视觉语言模型)这种离身智能大模型,已经具备了很好的通用性和泛化性。目前在聊天类应用、文生图以及 VLM 问答方面,技术已经做得非常成熟。下一步,技术必然会向具身智能演进,即让机器人的动作也具备这种通用能力。而且,具身智能的前景和市场容量远比智能驾驶要大。智能驾驶目前的普及率大约在 60% 到 70%,而具身智能未来会存在于各种场景中。

从功能、底层模型、数据和硬件本体四个维度来看,目前具身智能的现状如下:在功能成熟度方面,我们将本体任务分为上肢操作(Manipulation)、下肢移动(Locomotion)和对话。目前对话功能已经非常成熟,许多陪玩类机器人已经落地。在移动能力方面,我们能看到很多机器人跳舞或进行搏击比赛,但目前大多属于“盲眼运动”,虽然有一定的情绪价值,但缺乏与现实的感知交互。比如机器人在跳舞时,如果前面有障碍物,由于没有通过传感器感知世界,它依然会撞上去。
至于上肢操作,这是我们今天要讲的重点,也是与 VLA 关系最密切的方向,目前它是最具挑战性、最不成熟的。其底层模型正经历从 G1 到 G5 的发展阶段,现在大约处于 G2 到 G3 之间,即从传统的工业自动化向端到端学习过渡的过程。虽然 VLA 正在从分层式架构向端到端架构发展,但挑战巨大,核心在于数据。现有数据无法支撑 VLA 发挥出应有的性能,而数据采集目前也没有完美的解决方案。遥操作采集的数据真实,但效率极慢;仿真虽然能快速获取数据,但有效率较低。此外,硬件本体目前也不够稳定成熟,尽管成本在快速降低,但端侧算力依然面临挑战。虽然现在到处都是问题,但 VLA 在发展过程中肯定会遇到各种坎坷。它应该是一个螺旋式或波段式前进的过程,而我们现在正处于第一个波峰。
我们来看看 VLA 到底是为了解决什么问题。因为我之前从事自动驾驶领域,而自动驾驶是 AI 第一个大规模落地的场景,所以我比较倾向于通过自动驾驶这十年的发展路径和 AI 落地过程,来推演具身智能当前所处的阶段。
自动驾驶领域的一个重要节点是“端到端”技术的出现。特斯拉率先发布了端到端算法,通过模仿学习来解决拟人化的问题。在此之前,自动驾驶主要依靠规则化方案来生成轨迹,涵盖行驶方向、速度和加速度等。驾驶最关键的三个要素是安全性、舒适性和高效性。在端到端技术普及前,传统规则化方法很难同时兼顾这三点。比如,为了保证安全而让系统过于保守,效率就会降低;如果驾驶风格激进以提高效率,安全性和舒适性又会受到影响。端到端技术较好地解决了这个问题,因为它直接从专家数据中学习驾驶过程,让体验提升了一大截。

不过,端到端技术也遇到了泛化性和适应性的难题,核心还是数据问题。比如不同城市、不同风格的红绿灯和标志牌,一旦系统没见过相关数据,性能就会立即下降。既然现在的 VLM 已经具备了极强的通用性、泛化性和常识能力——例如你问它某个交通标志是什么意思、该怎么开,它能给出很好的语言描述——那我们就在想,能不能把这种能力引入到具身智能系统中,形成 VLA,让系统具备思考能力。目前在自动驾驶领域,已经有一两家头部玩家最近跑通了 VLA。相比端到端模型,VLA 的模型规模要大出 10 倍左右,端到端模型通常在 0.1B(亿级参数)量级,而 VLA 则在几个 B(十亿级参数)的量级,且训练数据量庞大,通常需要几十亿个短视频片段才能训练出一个性能较好的版本。
回到具身智能,即便是一个简单的动作,也存在技术方案的演进。第一种是模块化方案,类似于早期自动驾驶的思路,即“先检测再规划”。在 2019 年到 2020 年期间,很多 Demo 都是这么做的:先简单处理物体的姿态,再规划机械臂的操作。但问题在于,很多任务是无法直接规划的,尤其是自由度较高时。机械臂一般有 6 到 7 个自由度,人形机器人则有几十个,这不像自动驾驶只需在二维平面规划轨迹。
随后出现了模仿学习,即直接通过端到端的方式学习一条轨迹。它的好处是能完成一些规划不出来的复杂动作,并处理抓取柔性物体等任务。但它的局限性在于对数据的强依赖,于是便诞生了 VLA。VLA 的初衷是解决场景泛化、任务泛化和本体泛化这三个问题。我们希望利用 VLM“见多识广”的能力,让机器人也具备同样的通用性。从落地角度看,场景和任务的泛化优先级最高,本体泛化可以排在最后,因为单款机器人如果能具备通用性,其价值就已经非常巨大了。
关于 VLA 的模型架构,其实逻辑非常直接。现在的模型输入通常是多模态信息,一般包含图像、文本和本体状态。其中本体状态主要指姿态信息和关节角度等。这些信息经过编码器处理后,输入到基于 Transformer 架构的 VLM(视觉语言模型)中进行多模态融合。VLM 输出的 Token 包含了图像、文本和本体的综合信息,随后进入动作策略(Action Policy)模块。
在动作策略模块中,目前主流的方法有两种。一种是扩散策略(Diffusion Policy),这在文生图等生成式模型中很常见。它通过生成式的方式来产生复杂的轨迹,相比之下,传统的判别式方法在描述轨迹的能力上不如扩散策略,因此扩散策略在动作生成中占据了非常重要的位置。另一种方法是流匹配(Flow Matching),同样属于生成式,它与扩散策略的主要区别在于底层的数学建模不同。扩散策略的分布建模更复杂,而流匹配则是在生成过程中进行线性迭代。经过动作策略模块的处理,最终会输出机器人的关节动作,也就是 VLA 中的“A”。
同时,也有很多研究工作会让模型输出一些辅助信息。比如有些模型会输出文本,这是借鉴了像 DeepSeek 等大语言模型的思路,旨在让机器人具备“思考”能力。也就是说,在训练模型时,不仅要让它给出答案,还要让它理解为什么是这个答案。这属于思维链(CoT)或动作链(CoA)的范畴。另外,也有研究会让模型输出图像信息,即利用当前的姿态、图像和文本去预测下一时刻的图像,这就是世界模型(World Model)。其基本原理是,如果模型能基于当前数据准确预测下一刻的状态,就认为它学习到了物理规律。目前已经有一些工作将世界模型与 VLA 结合在一起进行训练。

在具体的架构实现上,目前主要有两种主流方案。一种是 VLM 直接输出特征(Feature)并传递给后续模块,这被称为“一段式”的端到端架构。另一种是分层式架构,VLM 输出的不是特征,而是语言形式的任务规划。例如,当输入指令是“收纳桌子”时,VLM 会先将任务拆解为具体的指令,比如“把杯子移到中央”、“把水倒掉”、“把垃圾丢掉”等,再将这些步骤逐一输出给下游模块执行。

我们来看一下目前的 VLM(视觉语言模型)究竟能做哪些事情。VLM 的设计初衷,一是解决任务的泛化性,二是处理复杂的长程任务。最近我去杭州参加了机器人国际会议的一个比赛,现场有六种任务,我重点观察了其中三种。第一种是叠衣服,这是典型的长程任务,要求机器人无论衣服如何摆放,都能将其折叠好;第二种是倒水;第三种是操作微波炉;第四种是收纳。此外,在近期的世界机器人大会(WRC)和世界人工智能大会上,我也看到了一些现场演示。比如打麻将,它采用的是分层架构,使用了一个经过麻将数据训练的 12B 规模的 VLM。机器人会通过语音告诉你该怎么出牌,再利用传统方法检测麻将位置并完成推牌或抓牌动作,体验效果还不错。还有做香囊,这是一个更长程的任务,需要把东西装进去并勒紧绳子,这是由智元机器人完成的。目前市面上看到的这些炫酷动作,背后基本都是 VLA 在支撑,且大多基于 OpenVLA 等模型,这代表了目前能力的上限。
可以说,对于单一任务,如果我们提供大量数据,模型是具备长程执行、理解和复杂任务处理能力的。但它最大的问题在于泛化性极弱。我们设计 VLA,是希望利用 VLM 在互联网上见过的海量数据,让机器人具备通用性和迁移能力。理想情况下,即使面对没见过的场景,模型也能凭借“常识”实现零样本(Zero-shot)能力。但实际测试下来,这种能力还不具备,原因主要有几点。
首先,VLM 中的“视觉 - 语言”数据与“动作”数据分布不一致。VLM 基座是通过互联网上大量的图文对训练的,而动作数据(A)必须靠真机实采。目前实采的数据量非常小,通常只有几百到几千条,与图文数据相比极其不均衡,导致 VLM 的知识无法有效迁移到动作上,模型处于严重的过拟合状态。其次是硬件限制。我们看到的很多流畅动作其实是经过 5 倍或 10 倍速处理的,实际操作时会有明显的抖动。受限于机械臂硬件本体,目前 VLA 还无法完成穿针引线这类精细化任务。
我们也做了一些泛化性验证,比如最简单的抓取和投放。实验发现,当背景发生变化(如移走测试环境中的黑色窗帘)、物体位置放远了一点,或者加入未训练过的干扰物(如一瓶咖啡),机器人就会失败。这说明目前的系统非常脆弱,原因就是数据量太少,多样性严重不足。
我们可以对比一下自动驾驶所需的数据量。自动驾驶可以看作是单一任务的具身智能,只负责“驾驶”。即便如此,要训练一个基本可用的模型,大约需要千万量级的视频片段,换算下来约为 10 万小时的数据,且这些数据必须分布在不同的空间和天气场景中。而目前具身智能领域,即便是一些领先的采集工厂,数据量也仅在百小时到千小时级别,还要应对无数种任务,这显然远远不够。
此外,自动驾驶的车辆是标准化的,动力学特性基本一致,数据容易复用且采集便利。但具身智能的硬件目前还没收敛,手部既有夹爪也有灵巧手,自由度从 7 个、11 个到 21 个不等,导致数据无法复用,智能化进程缓慢。

经常有人问:现在的具身智能相当于自动驾驶的什么阶段?是 2015 年还是 2012 年?我认为,从算法模型来看,具身智能完全可以对标 2025 年的自动驾驶,两者都在往端到端或 VLA 方向走,没有代差。但从硬件角度看,具身智能可能还不如 100 年前的汽车工业,因为那时候汽车已经实现流水线大规模生产,而现在的机器人还远未达到那个水准。
VLA 的主流架构
刚才我们讲到主流架构主要有两种:一种是分层式的,另一种是完全端到端的。这两者的核心区别在于 VLM(视觉语言模型)向下一层传递的是语言规划指令,还是直接传递特征(feature)。
分层式架构在输入传感器数据后,会由两个系统协同工作。所谓“慢系统”,就是我们常说的 VLM,它负责对数据进行推理。之所以称之为“慢”,是因为模型体量巨大,为了让它具备常识能力,必须经过海量数据训练,在现有的硬件条件下,其推理速度相对较慢。而“快系统”则是前面提到的端侧系统,它的模型较小,直接输出动作或轨迹,因此运行速度很快。我认为这种“快慢系统”的划分,本质上是受限于目前的硬件计算资源。如果未来端侧算力足够强大,其实就不需要这种区分了,所有环节都能实现实时响应。
在分层系统中,系统 2 负责思考并给出语言规划,再传达给快系统。比较典型的例子是 Figure 01 机器人展示的 Demo,它采用的就是分层式架构。由于需要部署在 Orin 等芯片上,为了克服无法实时处理的问题,必须构建快慢系统。去年在自动驾驶领域比较火的理想汽车,也率先推出了类似的快慢系统,其初衷同样是解决端侧部署时的算力限制。不过从工程角度来看,快慢系统会更复杂一些,因为模块越多,工程量就越大。相比之下,完全端到端的架构就简单得多,传感器数据输入后,中间全部交给 VLA 处理并直接输出结果,没有了快慢之分。
这两种架构各有优劣。完全端到端的上限更高,但它对数据的需求量极其庞大。分层式架构目前的优势在于对数据的依赖程度没那么高。因为 VLM 可以通过少量的针对性训练达到较好的语言规划效果,开发者只需要专注于训练后面的动作执行模块,甚至可以沿用传统的控制模块。就像我之前提到的打麻将机器人,它的快系统其实就是用传统方法实现的。在目前数据保有量有限的情况下,分层式是一个比较合理的选择。此外,分层式也更契合现在的智能体(Agent)或 MCP(多模型控制平台)架构,即由 VLM 充当“大脑”进行语言规划,再由快系统中的各种动作原子负责具体执行。

这是我们最近在做的一些探索,主要集中在分层式架构上。之所以选择这个方向,是因为我觉得目前纯粹搞端到端方案其实已经遇到了瓶颈。在数据量不够的情况下,大家做出来的东西很难体现出差异化,落地也非常困难。因此,我们的思路是先把 VLM(视觉语言模型)的能力利用起来,让它作为一个调度大脑,也就是 Agent,去调用各种各样的“动作原子”。

比如,驾驶可以被视为其中一个动作原子,当机器人需要执行驾驶任务时,Agent 就调用驾驶模块;收纳也是一个原子,它由许多“抓取与放置”(Pick and Place)动作组成。我们正在积累这些动作原子,当机器人面对复杂任务时,就由 VLM Agent 来进行任务分解和调度。这里面比较有挑战性的地方在于任务之间的衔接,即如何准确判断当前任务已经完成并开始下一个,以及当任务出错时,Agent 该如何调整调度流程。
在开发动作原子时,我们走的是 VA(视觉 - 动作)路线。我们发现现阶段语言在具体动作执行中起到的作用其实非常有限,直接通过 VA 实现反而更容易出效果。在方案设计上,我们选择了纯视觉方案,没有使用 RGBD。这主要是从本质原理考虑的,我们认为视觉能力已经足够强,人类也是靠双眼来完成各种观测任务的。后期的验证也证明,纯视觉方案在鲁棒性和迁移性上确实比点云方案更好。

此外,我们在模型中增加了 3D 感知信息。目前的 VLM 其实并不具备很强的空间理解能力,如果你去测试它,它很难给出物体准确的方位、距离或复杂的几何尺寸,因为它的训练数据里缺乏这些信息。而这些 3D 信息对于动作的泛化性至关重要。如果能在一个统一的 3D 空间里进行动作规划,泛化性会强很多。因此,我们在架构中增加了一个 3D 编码器(Encoder)模块。
这里用到了今年 CVPR 的最佳论文 VGGT,这是一个用于三维重建的视觉基础模型。我们知道,大模型正在改写各个研究领域,原先的导航规划现在变成了 VLN(视觉语言导航),原先的操作规划和控制现在变成了 VLA。VGGT 则是三维重建领域的代表,它基于 Transformer 架构,效果已经接近传统的 COLMAP 等三维重建方法,潜力巨大。我们做的工作就是将 VGGT 预训练的 3D 相关特征提取出来,接入到 VA 模型中。经过验证,这种做法在鲁棒性和效果上都超出了我们的预期。
这是我们目前使用的模型架构,其中 VGGT 的编码器部分负责生成特征。这些特征同时包含了语义信息和几何信息,我们将其直接输入模型以获取结果。

其实模型本身并不复杂,在 VLA 的落地开发中,大部分工作量并不在模型架构上。通常情况下,模型部分的搭建两三周就能搞定,而真正耗费精力的是数据工作。对于具身智能而言,还涉及到机器人硬件适配、数据采集和实机测试,这部分工作量往往会占到总周期的三分之二甚至四分之三。
目前具身智能开发的第一步通常是在仿真环境中进行的。由于真实世界的有效数据非常稀缺,我们需要先在具有物理引擎的仿真器中采集数据,验证模型的有效性。以“夹木块”和“堆木块”为例,这类任务在人类看来很简单,但对机器人来说挑战巨大,稍微有一点偏差就会导致失败。我们将自己的方案与传统算法进行了对比:DP 是基于 2D 图像输入的扩散策略算法,而 DP3 则是基于点云输入的版本。在真机测试中,我们的方案成功率明显更高,尤其在将木块放入盘子的任务中,表现几乎比 DP 翻了一倍。

在测试 VLA 的过程中,我们发现“泛化性”是一个核心痛点。目前的 VLA 方案,比如 OpenVLA,在光照发生变化时表现得很脆弱。例如环境光线由暗变亮,任务可能就会失败。但如果我们在 VA 模型中引入 3D 几何信息,系统就会表现出更好的鲁棒性,而现有的主流方案在处理这类场景时依然容易失误。
当我们通过 VA 实现了这些动作原子并建立起原子库后,就可以利用 Agent 这种大脑角色进行任务编排,从而完成长程的复杂任务。这种做法的优势在于能充分利用现有 VLM 的推理能力。目前 VLM 在任务规划上已经非常成熟,比如你让它规划收纳任务,或者给它一张路口的照片问它车辆该怎么开,它都能给出非常清晰的规划指令,甚至会提醒你注意避让前面的大卡车。现在的核心挑战在于,如何将这些高质量的语言规划准确地传递给 VA 模块去执行动作。
只要能把这一步打通,整个任务链就能串联起来。如右侧表格所示,这是一个完整的闭环流程:我们需要识别任务是否已完成。例如通过增加标志位来检测当前步骤的状态,如果任务完成,就调用下一个原子动作;如果没有完成,则返回重新执行。这种典型的类似 MCP 的架构,是目前完成复杂长程任务的有效路径。
这是另外一些实验效果的展示,包括积木在左手与右手之间的交接、一个盒子叠放到另一个盒子上,以及桌面的整理管理。在这些任务中,有些属于复杂的长程任务,有些则是通过 VA(视觉 - 动作)模型直接实现的。目前来看,只要数据质量足够高且训练到位,机器人都能完成得比较好。此外,我们使用的机械臂采用了谐波减速器,精度较高,对于完成插拔这类精细任务来说是完全够用的。

VLA 的数据方案
接下来谈谈数据方案,这是目前具身智能行业最大的痛点。很多从自动驾驶领域转过来的同事会觉得,具身智能的数据基础设施还处于非常原始的阶段。目前行业内数据采集主要有两种方案:第一种是遥操作,这其中又包含很多细分技术;第二种是仿真。关于到底是以仿真为主还是以真实数据为主,业内一直存在路线之争。但在我们看来,真实数据是必不可少的,仿真数据如果做得好能起到很大作用,如果做得不好,可能只是锦上添花。
在遥操作方面,主要有几种技术路径。第一种是惯性动捕设备,通过让采集人员穿上带有 IMU 惯性传感器的服装,在运动时捕捉身体各关节的数据。这种方式的优点是没有视觉遮挡问题,即使两人拥抱也能采集到数据;缺点是惯性传感器存在漂移,时间久了精度会下降。目前特斯拉采集 Optimus 工厂数据时,使用的就是这种惯性动捕设备。第二种是光学动捕设备,需要在空间内安装多个摄像头,采集者穿戴贴满 Marker 点的服装。它的精度非常高,能达到亚毫米级,但缺点是容易受遮挡影响,如果摄像头没捕捉到某些点,后期就需要大量人工修补。

还有一种常见的方式是外骨骼采集,即人带着同构或异构的机械臂进行操作。这种方式采集的数据几乎是 1:1 复刻,数据有效率很高,但采集效率相对较低。上述这些方式现在统称为“以人为中心”的数据采集,其最大的挑战在于人的关节结构与机器人并不一致,涉及到非常复杂的数据重定向(Retargeting)问题,有些人的动作不一定能直接迁移给机器人。最后是仿真数据,目前它主要用于大规模数据生产和自动化评测。当模型训练完成后,如果想要进行快速迭代测试,在仿真环境中进行是最高效的选择。
在仿真环境的建设中,首先需要考虑的是资产库的规模。仿真器本身只负责物理仿真和渲染,而具体的场景——无论是工厂环境还是桌面环境,以及执行任务所需的各类物体,都需要丰富的资产支撑。这些资产的储备是目前具身智能开发中的关键卡点。其次,物理仿真的质量也至关重要。机器人与自动驾驶不同,自动驾驶的目标是避免碰撞和接触,而机器人执行任务时,时时刻刻都需要与物体发生物理交互。

目前,像 MuJoCo 或 Isaac Gym 等成熟的仿真器在物理仿真方面表现较好。具身智能对传感器的仿真模型支持要求极高,目前主流的仿真平台包括我们与高校合作开发的成果,比如与上海交通大学合作的 RobotStudio,以及与清华大学合作的 DICOVERSE。此外,业界还有像 RoboVerse 等面向具身智能的仿真框架。以 DICOVERSE 为例,它的主要特点是具备“实对虚(Real-to-Sim)”再到“虚对实(Sim-to-Real)”的功能,通过 3D 高斯泼溅(3DGS)技术完成环境重建后再进行渲染,从而获得极高的真实感,便于数据生成和模型测试。

除了传统的数字孪生技术,我们最近还在尝试一种新的方案。业界常说的数字孪生追求的是对真实环境 1:1 的复刻,而我们提出了一个概念叫“数据表亲”。其核心逻辑是,在很多训练场景下,我们并不一定需要完全一致的 1:1 复刻,只要仿真环境中能出现类似的物体,就能达到训练效果。
目前,我们正针对桌面这类固定场景进行开发,通过输入一张图像或一段文字描述,利用生成式 AI 技术产生 3D 资产并构建出三维场景。更重要的是,这些生成的场景都具备物理仿真属性。正如我前面提到的,仿真器中数据资产的丰富程度决定了上限,而这种生成式的方法正是为了解决资产稀缺的问题。

这里举了一些具体的例子。左边是输入的原始图像,右边是生成的 3D 场景。可以看到,虽然两者并非完全一致,但物体基本上都实现了一一对应,这完全是通过大模型的方式生成的。在过去,如果我们要做这类物体重建,必须使用高精度激光扫描来生成 Mesh,那种方式效率很低,且复杂物体的 Mesh 重建难度极大。现在得益于底层 3D 生成式大模型的发展,我们可以比较容易地生成这些高精度、高逼真度的 3D 模型。

VLA 模型的量化部署
关于模型量化与部署,这是工程实践中非常关键的一环。在 GPU 上训练模型时,为了保证精度,通常使用 Float 32 或 FP16 等数据类型。但在推理阶段,这些类型的存储代价太高。举个简单例子,一个 1B(十亿参数)的模型,如果量化为 4 比特或 8 比特,模型大小约为 1GB 左右;若使用 Float 32,则需要 4GB。这会极大影响端侧的运行效率。因此,目前在端上运行时,都需要将模型量化并迁移到 ASIC(专用集成电路)上。目前主流的 VLM 量化方式通常是量化到 4 比特,且性能损失较小。通常芯片供应商会提供成熟的工具链来完成这种转换。在 VLA 中,量化的主要挑战在于扩散策略(Diffusion Policy)部分,因为它需要极高精度的姿态信息。在实际部署时,往往需要采用异构部署方案,根据任务特性将不同模块分配到 AI 加速器、CPU 或 DSP 上运行。

部署流程本质上是一个数据映射的过程,即将浮点数类型映射到 INT8 或 INT4 上。这个过程需要使用部分数据进行模型校准,观察映射后是否存在精度大幅下降(掉点)的情况。这些都是工具链提供的标准化处理流程。如果量化后性能无法满足要求,就必须回头重新修改模型结构。
总结与展望
总结来看,我们介绍了从数据采集、模型设计、训练到最终部署的完整开发过程。目前的现状是,整个 VLA 领域仍处于非常早期的阶段。首先是缺少高质量的数据,且机器人本体目前极不标准;其次模型结构尚不成熟,直接将 VLM 映射到 Action 这种“头重脚轻”的形式,难以建立起稳固的连接;最后是硬件本体的局限,目前市面上的机器人硬件还不足以支持完成各种复杂任务。一个验证标准是:即使在有人类遥操作的情况下,很多任务都不一定能顺利完成。
展望未来,有两个重要的探索方向。模型层面,大家正在尝试引入触觉信息、强化学习等技术。因为动作轨迹的训练不能仅靠简单的回归损失函数来完成,强化学习可以通过稀疏奖励(比如只告诉模型结果的好坏)来训练模型。此外,世界模型(World Model)也处于预研阶段,重点在于 3D 空间表达、记忆信息和思维链,我们认为这是改造 VLA 最关键的点。
我认为 VLA 要实现量产,除了端侧模型本身,更多的精力应该放在构建数据闭环上。现在的具身智能其实很像 Robotaxi。Robotaxi 在行驶中不能有人干预,但遇到困难时需要云端接管,随着技术进步,接管次数会逐渐降低,智能化随之提高。机器人也是如此,如果工作时旁边必须有人,其商业模式就无法成立。因此,我们可以借鉴 Robotaxi 的路线:先通过人工遥操作让机器人进入实际场景工作,在这一过程中收集大量数据,随着自动化程度的提升逐渐减少遥操作频率,最终实现真正的自主化。
演讲嘉宾介绍
隋伟博士,现任地瓜机器人算法副总裁。
2011 年,他于北京航空航天大学探测制导与控制技术专业毕业,之后进入中科院自动化研究所深造,并取得博士学位,其研究方向为模式识别与智能系统。
2016 年 7 月博士毕业后,担任模式识别国家重点实验室助理研究员,负责 3D 视觉感知方向的研发工作。
2019 年 1 月隋伟博士加入地平线,任高级算法工程师,主要负责机器人和自动驾驶场景下,基于旭日和征程系列芯片的 2.5D 及 3D 视觉算法研发。2020 年 12 月 - 2023 年 12 月,任研发总监,带领团队(30 人)成功开发了地平线高阶自动驾驶 BEV 感知方案,并且搭建了国内首套最为完备且先进的 4D Label 标注系统。目前旭日系列芯片出货量已达数百万片,BEV 感知方案也已在多个车型上定点量产,为自动驾驶领域的发展做出了重要贡献。隋伟博士在 ICRA、IROS、CVPR、TIP、TVCG 等国内外知名期刊和会议上先后发表学术论文 20 余篇,拥有专利 40 多项。此外,他长期担任 ICRA、IROS 等机器人会议的审稿人,同时担任《智能驾驶和机器视觉》《智能驾驶与多维重建》等自动驾驶相关著作的主编。
2023 年 11 月至今任地瓜机器人算法 VP ,负责面向消费机器人和具身智能的软件算法方案研发。
会议推荐
OpenClaw 出圈,“养虾”潮狂热,开年 Agentic AI 这把火烧得不可谓不旺。在这一热潮下,自托管 Agent 形态迅速普及:多入口对话、持久记忆、Skills 工具链带来强大生产力。但这背后也暴露了工程化落地的真实难题——权限边界与隔离运行、Skills 供应链安全、可观测与可追溯、记忆分层与跨场景污染、以及如何把 Agent 纳入团队研发 / 运维流程并形成稳定收益。
针对这一系列挑战,在 4 月 16-18 日即将举办的 QCon 北京站上,我们特别策划了「OpenClaw 生态实践」专题,将聚焦一线实践与踩坑复盘,分享企业如何构建私有 Skills、制定安全护栏、搭建审计与回放机制、建立质量 / 效率指标体系,最终把自托管 Agent 从可用的 Demo 升级为可靠的生产系统。






