作者 | 星工聚将团队

策划 | 华卫

当全行业都在试图用更大的参数量、更多的 Token 堆砌出机器人的“大脑”时，图灵奖得主杨立昆 Yann LeCun 却在达沃斯泼下一盆冷水：现有的 LLM 缺乏对物理世界的真实理解。在具身智能迈入深水区的当下，星工聚将（XGSynBot）选择从“物理对齐”出发，重新探索通往具身 AGI 的技术路径。

当技术路径开始分化：数据驱动，还是物理理解？

在过去的一年里，具身智能领域正在被“规模路径依赖”所裹挟：大量团队开始押注海量视频数据与 VLA 模型，试图复刻 GPT 的“涌现”路径。

然而，现实给了沉重一击。在实验室里能优雅叠衣服的机器人，换个光照、换个桌面材质，甚至只是桌角的摩擦力稍有变化，动作就会瞬间变形。

星工聚将技术负责人陈牧指出，当前的具身智能探索，正在呈现出两种截然不同的技术路径：一种路径延续大模型逻辑，通过更大的数据规模与模型能力，去逼近对世界的理解；而另一种路径，则试图从物理世界本身出发，让机器人先建立对现实规律的认知，再去完成复杂任务。物理世界变化太大，非结构化场景层出不穷，如果机器人不能理解物理原理，就永远无法做到真正的‘泛化’。

星工聚将的答案：从“语义对齐”到“物理对齐”

在 LLM 时代，我们通过 RLHF（人类反馈强化学习），让模型完成从“能说话”到“说人话”的跃迁，本质上是实现了语言与人类价值观的“语义对齐”。

但当智能进入物理世界，问题发生了变化：机器人面对的，不再是语言规则，而是重力、摩擦力与不确定的真实环境。

因此，星工聚将提出了一个不同于“语义对齐”的新范式——物理对齐（Physics Alignment）。所谓“物理对齐”，并不是让机器人记住更多动作，而是让它的感知与决策，能够与真实世界的物理规律对齐。换句话说：不是让机器人学会“怎么做”，而是先理解“为什么能这样做”。

在这一框架下，星工聚将将“物理对齐”定义为一种更底层的认知能力，而非单一算法优化问题——机器人真正缺少的，从来不是动作能力，而是对物理世界的“直觉”。

这种“直觉”，体现在三个逐层递进的能力上：

第一层：从“执行指令”到“理解空间”

机器人不再是机械地执行“扫地”这个动作，而是通过视觉感知环境，将任务拆解为对物理空间的理解：哪里是可通行区域，哪里存在障碍，动作如何在空间中展开。

第二层：从“识别物体”到“理解属性”

机器人开始建立对真实世界的属性认知——它不仅知道“这是一把扫把”，还知道它的材质、刚性与接触反馈。这种理解，让每一次抓取与移动都具备“分寸感”。

第三层：从“完成动作”到“动态校准”

在执行过程中，系统会基于实时物理反馈进行持续修正。机器人不再一次性输出动作，而是在行动中不断调整，从“做完”走向“做好”。

“我们不只是在记录机器人的动作轨迹，而是在记录机器人对物理反馈的数据。”星工聚将技术团队表示，“如果不解决物理对齐，机器人永远只是在实验室里做‘提线木偶’，无法真正走进非结构化的物理世界。”

“数字风洞”：在计算与真实世界之间建立可验证的桥梁

如果说“物理对齐”解决的是认知问题，星工聚将认为接下来的挑战就如何在工程上，让这种认知真正落地。

长期以来，具身智能始终被一个经典难题所困扰——Sim-to-Real Gap（仿真与现实鸿沟）。传统路径中行业的主流做法是不断逼近“更真实的仿真”：提高建模精度、增加环境变量、扩展数据规模。但问题在于，这条路径的成本几乎是指数级增长的——仿真越精细，计算代价越高，却依然无法覆盖真实世界的复杂性。

而星工聚将选择了另一种思路：不再单纯追求“模拟得更像”，而是在仿真与真实之间，引入一个可测量、可校正的中间层 — “数字风洞”式的工程化物理基准平台。

这就类似于航空工业中的风洞实验，这一平台并不试图还原全部真实世界，而是通过构建一系列关键物理场景，让机器人在“接近真实”的环境中反复交互，并直接测量仿真与真实之间的偏差实现校准。

在这一机制下，数据的意义发生了变化，机器人不再只是被动接收训练数据，而是在每一次交互中，主动积累“物理误差”的反馈，并将其反向作用于模型与决策系统，一个不同于传统路径的数据飞轮也因此开始形成。

这种“纠错式学习”，带来的直接结果是：随着系统对物理规律理解的加深，模型对新增数据的依赖逐渐下降，训练成本从指数增长，转向更可控的线性收敛。

当行业仍在用更高的算力去填补仿真与现实的差距时，星工聚将试图让机器人先学会判断“哪里不对”，再学会“如何做对”。而这，正是其“物理对齐”能够走向工程落地的关键一步。

“物流认知引擎”: 成为机器人的“认知底座”

在 2026 年 3 月的 AWE 2026 与德国 LogiMAT 2026 展会上，星工聚将的 XG Z1 机器人给出了一个阶段性的答案。

在面对复杂多变的物流场景时，XG Z1 所展现出的并不只是单点能力，而是一种更关键的特征——跨场景的泛化能力，而这种能力，正源于其背后的“认知引擎”。

在这一引擎下，机器人的行为不再是对既有轨迹的简单复现，而是建立在对物理世界持续感知与实时判断之上的动态决策过程，它不再依赖“记住正确答案”，而是能够在变化中持续判断“什么才是正确的动作”。

真正的智能，不是对任务的记忆能力，而是对世界的理解能力。这一判断的背后，对应的是一整套从认知范式、工程路径到系统实现的完整技术闭环。

当“物理认知引擎”成为认知底座，具身智能长期面临的两个核心约束——高昂的数据成本与脆弱的泛化能力，也开始出现被重新定义的可能。

从“硅谷共识”到“物理对齐”

4 月底，星工聚将将开启硅谷高校行，带着“物理对齐”深入斯坦福和伯克利等高校进行深度拜访和交流。这不仅是一次技术交流，更是一次关于“世界模型”的技术碰撞。

在具身智能尚未形成统一范式的当下，技术路径的选择，本身就是战略判断。

对于星工聚将而言，这个问题并不复杂：我们选择一条尚未被验证，但更接近物理本质的路线。

虽然这条路并不热闹，但我们认为更具长期价值。

创作场景

星工聚将：从“物理对齐”出发，重新探索具身 AGI 的技术路

当技术路径开始分化：数据驱动，还是物理理解？

星工聚将的答案：从“语义对齐”到“物理对齐”

“数字风洞”：在计算与真实世界之间建立可验证的桥梁

“物流认知引擎”: 成为机器人的“认知底座”

从“硅谷共识”到“物理对齐”

创作场景

星工聚将：从“物理对齐”出发，重新探索具身 AGI 的技术路

当技术路径开始分化：数据驱动，还是物理理解？

星工聚将的答案：从“语义对齐”到“物理对齐”

“数字风洞”： 在计算与真实世界之间建立可验证的桥梁

“物流认知引擎”: 成为机器人的“认知底座”

从“硅谷共识”到“物理对齐”

“数字风洞”：在计算与真实世界之间建立可验证的桥梁