作者 | 星工聚将团队
策划 | 华卫
当全行业都在试图用更大的参数量、更多的 Token 堆砌出机器人的“大脑”时,图灵奖得主 杨立昆 Yann LeCun 却在达沃斯泼下一盆冷水:现有的 LLM 缺乏对物理世界的真实理解。在具身智能迈入深水区的当下,星工聚将(XGSynBot)选择从“物理对齐”出发,重新探索通往具身 AGI 的技术路径。

当技术路径开始分化:数据驱动,还是物理理解?
在过去的一年里,具身智能领域正在被“规模路径依赖”所裹挟:大量团队开始押注海量视频数据与 VLA 模型,试图复刻 GPT 的“涌现”路径。
然而,现实给了沉重一击。在实验室里能优雅叠衣服的机器人,换个光照、换个桌面材质,甚至只是桌角的摩擦力稍有变化,动作就会瞬间变形。
星工聚将技术负责人陈牧指出,当前的具身智能探索,正在呈现出两种截然不同的技术路径:一种路径延续大模型逻辑,通过更大的数据规模与模型能力,去逼近对世界的理解;而另一种路径,则试图从物理世界本身出发,让机器人先建立对现实规律的认知,再去完成复杂任务。 物理世界变化太大,非结构化场景层出不穷,如果机器人不能理解物理原理,就永远无法做到真正的‘泛化’。
星工聚将的答案:从“语义对齐”到“物理对齐”
在 LLM 时代,我们通过 RLHF(人类反馈强化学习),让模型完成从“能说话”到“说人话”的跃迁,本质上是实现了语言与人类价值观的“语义对齐”。
但当智能进入物理世界,问题发生了变化:机器人面对的,不再是语言规则,而是重力、摩擦力与不确定的真实环境。
因此,星工聚将提出了一个不同于“语义对齐”的新范式——物理对齐(Physics Alignment)。所谓“物理对齐”,并不是让机器人记住更多动作,而是让它的感知与决策,能够与真实世界的物理规律对齐。换句话说:不是让机器人学会“怎么做”,而是先理解“为什么能这样做”。
在这一框架下,星工聚将将“物理对齐”定义为一种更底层的认知能力,而非单一算法优化问题——机器人真正缺少的,从来不是动作能力,而是对物理世界的“直觉”。
这种“直觉”,体现在三个逐层递进的能力上:
第一层:从“执行指令”到“理解空间”
机器人不再是机械地执行“扫地”这个动作,而是通过视觉感知环境,将任务拆解为对物理空间的理解:哪里是可通行区域,哪里存在障碍,动作如何在空间中展开。
第二层:从“识别物体”到“理解属性”
机器人开始建立对真实世界的属性认知——它不仅知道“这是一把扫把”,还知道它的材质、刚性与接触反馈。这种理解,让每一次抓取与移动都具备“分寸感”。
第三层:从“完成动作”到“动态校准”
在执行过程中,系统会基于实时物理反馈进行持续修正。机器人不再一次性输出动作,而是在行动中不断调整,从“做完”走向“做好”。
“我们不只是在记录机器人的动作轨迹,而是在记录机器人对物理反馈的数据。”星工聚将技术团队表示,“如果不解决物理对齐,机器人永远只是在实验室里做‘提线木偶’,无法真正走进非结构化的物理世界。”

“数字风洞”: 在计算与真实世界之间建立可验证的桥梁
如果说“物理对齐”解决的是认知问题,星工聚将认为接下来的挑战就如何在工程上,让这种认知真正落地。
长期以来,具身智能始终被一个经典难题所困扰——Sim-to-Real Gap(仿真与现实鸿沟)。传统路径中行业的主流做法是不断逼近“更真实的仿真”:提高建模精度、增加环境变量、扩展数据规模。但问题在于,这条路径的成本几乎是指数级增长的——仿真越精细,计算代价越高,却依然无法覆盖真实世界的复杂性。
而星工聚将选择了另一种思路:不再单纯追求“模拟得更像”,而是在仿真与真实之间,引入一个可测量、可校正的中间层 — “数字风洞”式的工程化物理基准平台。
这就类似于航空工业中的风洞实验,这一平台并不试图还原全部真实世界,而是通过构建一系列关键物理场景,让机器人在“接近真实”的环境中反复交互,并直接测量仿真与真实之间的偏差实现校准。
在这一机制下,数据的意义发生了变化,机器人不再只是被动接收训练数据,而是在每一次交互中,主动积累“物理误差”的反馈,并将其反向作用于模型与决策系统,一个不同于传统路径的数据飞轮也因此开始形成。
这种“纠错式学习”,带来的直接结果是:随着系统对物理规律理解的加深,模型对新增数据的依赖逐渐下降,训练成本从指数增长,转向更可控的线性收敛。
当行业仍在用更高的算力去填补仿真与现实的差距时,星工聚将试图让机器人先学会判断“哪里不对”,再学会“如何做对”。而这,正是其“物理对齐”能够走向工程落地的关键一步。
“物流认知引擎”: 成为机器人的“认知底座”
在 2026 年 3 月的 AWE 2026 与德国 LogiMAT 2026 展会上,星工聚将的 XG Z1 机器人给出了一个阶段性的答案。
在面对复杂多变的物流场景时,XG Z1 所展现出的并不只是单点能力,而是一种更关键的特征——跨场景的泛化能力,而这种能力,正源于其背后的“认知引擎”。
在这一引擎下,机器人的行为不再是对既有轨迹的简单复现,而是建立在对物理世界持续感知与实时判断之上的动态决策过程,它不再依赖“记住正确答案”,而是能够在变化中持续判断“什么才是正确的动作”。
真正的智能,不是对任务的记忆能力,而是对世界的理解能力。这一判断的背后,对应的是一整套从认知范式、工程路径到系统实现的完整技术闭环。
当“物理认知引擎”成为认知底座,具身智能长期面临的两个核心约束——高昂的数据成本与脆弱的泛化能力,也开始出现被重新定义的可能。

从“硅谷共识”到“物理对齐”
4 月底,星工聚将将开启硅谷高校行,带着“物理对齐”深入斯坦福和伯克利等高校进行深度拜访和交流。这不仅是一次技术交流,更是一次关于“世界模型”的技术碰撞。
在具身智能尚未形成统一范式的当下,技术路径的选择,本身就是战略判断。
对于星工聚将而言,这个问题并不复杂:我们选择一条尚未被验证,但更接近物理本质的路线。
虽然这条路并不热闹,但我们认为更具长期价值。





