写点什么

智源大会圆桌:大模型没有终局,具身智能可能是中国的 AlphaGo 时刻

  • 2026-06-12
    北京
  • 本文字数:8905 字

    阅读完需:约 29 分钟

论坛介绍:本次论坛是 2026 年 6 月 12 智源大会核心技术论坛之一,由蓝驰创投管理合伙人陈维广担任主持人,邀请到智源研究院院长王仲远、银河通用创始人兼 CTO 王鹤、面壁智能 CEO 李大海三位行业顶尖技术专家,围绕大模型行业最具争议的五大核心问题展开深度对谈。嘉宾从学术研究、技术创业和产业落地三个维度,分享了对大模型未来发展的独家判断。

核心观点速览

  1. 大模型技术远未收敛,不存在普遍趋同的终局,真正的护城河来自数据闭环、软硬协同设计和垂直场景的极致深耕

  2. Scaling Law 远未失效,已从纯语言模型扩展到多模态和具身智能,WAM(世界动作模型)将开启具身智能的规模化时代

  3. 端侧与云端将长期协同发展,终端大模型的 scaling 空间巨大,由硬件算力升级和量化技术进步共同驱动

  4. AI 安全与责任划分将遵循 "边实践边完善" 的路径,参考自动驾驶等技术的发展历程,逐步建立行业标准和治理体系

  5. 中国 AI 具备全球最完整的供应链、最丰富的落地场景和数量最多的年轻人才三大独特优势,具身智能将是中国实现弯道超车的核心赛道


陈维广:大家下午好,非常荣幸担任本次论坛的主持人。主办方给我的主题是:在大模型技术的成熟曲线上,我们该如何跨越?又该如何定义大模型的长期价值?今天也非常非常荣幸,能邀请到这三位嘉宾,他们能从三个不同的角度来去一起探讨这个主题。

大模型这几年发展得比较快,可是同时大家也能看到,不管是打榜还是一些第三方的评价,顶级模型的趋势在快速趋同。今天可能某某的 benchmark 数据很好,两个月后其他人就跟进了。再加上 token 的价格也快速在下探,还有一点就是开源模型也发展比较快,甚至有人说开源模型跟闭源模型的差距也就 3 到 6 个月。

在这种情况下,如果作为一个 AI 模型公司,它的长期价值来自哪?它的护城河来自哪?甚至有些人非常质疑说,AI 大模型的公司最终就会像卖水卖电的有量无价。我第一个问题就是,王鹤老师,从你的角度,你感觉 AI 的企业,尤其是这些大模型公司,它未来的长期价值以及护城河在哪里?

王鹤:我觉得这个问题其实更多表达了大家对数字世界里的智能,或者说对 LLM 这项技术现状的判断。但就像仲远博士刚刚讲的,LLM 本身仍然存在很多变数,如果再往后看多模态、VLM(视觉语言模型)或者视频生成,变数就更多了。

我本人主要从事具身智能领域,我认为整个行业刚刚在往收敛的方向发展。过去几年行业有 VLA(视觉语言动作模型),也有 World Model(世界模型),现在我认为整个行业正在向着 WAM(世界动作模型)的方向迭代:一个模型既能够做未来的预测,又能够做动作执行的预测;同时它既能够吸收人类的无动作标签数据,又能够吸收机器人的有动作标签数据。

具身智能现在的发展阶段,大概处在 GPT-1 到 GPT-2 这样的水平。往未来看,一旦行业进入 scaling(规模化)阶段,一切都会快速加速,这也意味着行业现在需要更大量的资金投入。

面向未来,具身智能真正的护城河是一个完整的体系:既有源头的数据供给,又有对不同种类数据(合成数据、人类数据、机器人数据)的提炼能力,还有硬件迭代和软硬 co-design 的能力,最后是模型的融合水平和向客户交付硬件的整套能力。这是迄今为止全世界范围内都没有出现过的综合型产品形态,所以它的护城河相当深,未来不管是做垂类应用的深度还是广度,都有无穷的潜力。

陈维广:所以是要做"六边形战士",面面俱到。大海老师怎么看?

李大海:我觉得场上嘉宾的观点是一致的,都不认同"大模型没有长期壁垒"这个结论。受两位嘉宾启发,我突然想到:大模型应该是我们以前说的"T 形人才"——它必须得是通用的,但仅仅是通用的、和其他人同质化是没有意义的,它一定得有自己的长板。

举个例子,现在美国大模型领域的当红企业是 Anthropic,它之所以强、被追捧,是因为它在通用模型的前提之上,把 Coding 能力做到了独步天下,因此才获得了现在的估值、行业认可和非常亮眼的商业成绩。所以大模型光是有横向的通用能力是不够的,一定得有纵向的长板。

另一方面,纵向长板怎么来?我非常认同王鹤老师讲的,我会用另外一个词叫闭环:一定要把大模型当成一个引擎、一个发动机,但这个发动机的设计和能力的持续极致优化,必须要和"整车"去协同,不能脱离应用空谈性能。你造的是 F1 赛车还是买菜车,对应的发动机需要做完全不同的特化。

从过去两年大模型的发展来看,一个非常重要的趋势是:模型正在以内化成一个系统的方式演进,包括现在我们做的 agentic 强化学习,其实就是带着整个智能体系统去做模型的进一步训练。面向未来,上下文记忆是一个非常重要的待突破方向,现在大家都在用 harness 的方式解决,但我认为这个方式不够,必须是 harness 加上模型的强化学习才行。

总结一下:我认为大模型的技术还远远没有收敛,同时任何一家模型公司都必须把技术的通用性和商业的通用性分开——真正通用的商业场景其实很少,要做好商业往往需要模型在特定方向上做极致的优化。只要每个公司找准自己的方向,都能构建起自己的护城河。

陈维广:仲远院长怎么看这个问题?

王仲远:坦率来讲,我个人并不完全认同"模型趋同、没有护城河"的观点。因为现在大模型整体的性能迭代还没有到瓶颈,我们还没办法断言最终会不会所有模型都趋同,未来可能是一超多强、多个巨头并存,也可能是大家能力相近,有很多种演化格局。

现阶段来看,榜单其实并不那么可信。各种各样的榜单看得人眼花缭乱,很多结果也没办法完全验证。老话讲"是骡子是马拉出来溜溜",那些敢于做真机展示、敢于进入实际场景落地的模型公司,是有底气的,也能够在真实场景中找到数据闭环。

所以今天还没办法下定论说未来模型公司都会趋同、没有护城河。智能技术还没有收敛,还在快速迭代演进,各种可能性和结果都有可能出现。

陈维广:看来这个行业大家很容易黑白分明,立刻就想下"大模型没有长期壁垒"的结论。但听你们介绍,场景、数据,包括刚才大海老师说的闭环能力都非常重要。从投资角度,我们接触的创业团队也很多,发现团队的基因差异其实很大:做大模型的团队有实验室氛围,做应用的团队更关注场景和需求。当然也不是说做大模型的就做不了应用,但确实这两种团队的文化和取向完全不一样,这也会逐渐形成一定的壁垒。

接下来是行业一直在拷问的一个问题:尤其是去年,大家感觉 scaling law 的红利变小了,甚至有人说预训练做得越多,模型能力也没有很大提升,所以去年有一波做强化学习、做后训练的热潮,后训练至少可以把能力做到一个比较好的水平,包括刚才蚂蚁的李老师也提到了 deep deep sheet 和 reasoning 能力的出现。所以行业就感觉,是不是接下来纯语言模型的发展会遇到瓶颈,边际效应递减?仲远院长,你怎么看这个问题?

王仲远:从我个人的观点,我其实还是比较坚信 scaling 还远没有到尽头。去年之所以媒体上会有很多关于 scaling law 是不是已经失效的探讨,但实际上从技术领域,从我们接触的很多大模型实际训练的公司,以及从今天这个时间点再回过头来看,很显然已经证明了 scaling 没有失效,只不过它变得更加多样化了。

去年大家会有"scaling 失效"这种论调,其中一个很重要的原因是大语言模型所使用的互联网数据已经用完了。大家觉得互联网数据只有一份,而语言模型以前主要靠预训练来提升性能,那预训练的数据用完了,性能自然就会遇到瓶颈。但实际上在过去两年,大家通过后训练以及推理优化,已经迎来了新一波的能力提升。

再往后通过 agent,包括今天智源大会早晨开幕式的圆桌上也探讨到了递归自进化,这些都已经证明了:即使互联网数据可能用完了,AI 的能力依然在持续提升——不仅仅是模型本身的能力提升,更是整个系统的能力越来越强,而且也开始从聊天工具变成执行工具。所以我们还是非常相信整个 scaling 的曲线还在延续,如果大家去看近期发布的很多模型,能力甚至呈现出指数级跃升的倾向。

早晨我其实也问了一下朱军,他的观点相对谨慎一些。可是我们看到了很多的模型,确实它的能力依然在快速提升。另外,智源研究院的定位一直是"做高校做不了、企业不愿意做或现阶段不愿意做的事",去探究下一个智能的曲线。

过去两年我们把重心放在多模态,用 Next Token Prediction 的方式去探究多模态的 Scaling。事实上我们发现,像物界 Emu3、Emu3.5,已经呈现出了一个多模态的 Scaling 范式:当我们复用了大规模现在的大语言模型的智算基础设施,数据和参数的增加确实带来了能力的提升。而我们的数据依然只用了不到 1%,参数也只有百亿级,但已经看到了非常明显的性能提升。

所以多模态的 scaling 范式,我们认为已经找到了至少一条可行的路径。当技术成熟的时候,我们就交给产业去做,然后我们又开始往下一个方向——物理世界的世界基座模型去探究,看看在世界模型上有没有 scaling 的范式。今天早晨我们也分享了正在研发当中的物界 Physics,它就在探究世界模型的 scaling 方式到底是什么。

所以我对这个问题还是非常乐观的:不管是已经成熟的语言模型、AI coding、数字世界的大模型,还是最终我们进入到物理世界的世界基座模型,依然还有非常多的 scaling 空间需要去探究。

陈维广:王鹤老师这边,因为 Physical AI 可能跟大语言模型还有点不一样,对不对?甚至有一些行业人说,VLA 都还没搞完,为什么突然间出现这么多搞世界模型的?你有什么看法?

王鹤:是这样的,银河通用和我本人是 deeply believe in scaling 的。其实在 WAM(世界动作模型)这个范式还没有出现之前,在 VLA(视觉语言动作模型)的范式里,我们就先用合成数据做了大量的 scaling。当时我们主要 focus 在一件事情上——抓取。我们想看看一个技能能不能通过 scaling 来变成一个真正的基模。

我们用了 10 亿帧仿真数据证明了:只要你把数据 scale 到这个程度,抓取就可以完全做到 Zero-Shot(零样本)。在真实世界随便给我一个东西,我们的端到端 GRASP VLA 模型,就能直接零样本解决这个问题。这是我们 2025 年初的工作,到今天为止,仍然没有一个靠真实世界遥操数据训练出来的模型,能达到我们这个 GRASP VLA 的零样本抓取能力。

但是我们立即就发现了一个问题:从合成数据的角度上讲,更多的任务超越抓取之后,什么时候能完全合成完?从真机遥操的角度,我在遥操路线刚刚出来的时候就讲过:什么东西都靠遥操是不行的,如果什么都靠遥操,我们很难 scaling。

但今天我想说的是,具身智能正在迎来一个非常光明的 scaling up 的时间点,就是因为 WAM(世界动作模型)。WAM 跟一般的 World Model 不太一样:今天大家讲的 World Model 是一个很宽泛的概念,前几天李飞飞老师也把 World Model 分成了好几类,有的是当 simulator

用的,有的是用于生成视频的。而我们讲的 WAM,它是以 action 为最核心,用未来的预测当做视觉层面对动作的 planning。

最关键的是,WAM 不需要动作标签。所以你可以想象一个机器人看人干一件事,它虽然没有 action label,但是它能把人的行为、大致的 course motion 学到。这样我们就能大量借用人类的第一视角视频,来帮助我们的具身智能往更多样化的任务、更多样化的场景、更全面的技能去 scale up。

这里也说一句:如果大家在 arXiv 上搜索 world action model,全世界第一篇 WAM 的论文就是银河通用在 2025 年 3 月份挂到 arXiv 上的。这个路线在我今天看来,能够真正把无尽的环境和任务融合进具身的基模训练里头。所以我认为 WAM 确实定义了一个超越 VLA 的新范式——因为 VLA 里所有东西都需要有 action label,它的 scaling 只能靠 robot data,但我们今天加入了 human data,真正迎来了 scaling up 的广阔空间。

甚至今年 4 月份的时候,NVIDIA Gear 具身智能实验室的主任,他在红杉的一个演讲里直接就说出来了:robotics 的 end game 就是 WAM。所以我感觉今天具身智能的预训练正在迎来一个蓬勃发展的状态,因为在数据获取的类型上,我们已经没有局限性了。

我能够预测:往未来看两年,具身智能将全面到达一个从 GPT-3.5 向 ChatGPT 转变的关键预训练 milestone。所以现在对我们来说是真正好的时机。但这也意味着,行业需要千万小时的高质量数据,以及百亿以上的单年投入,再加上大模型的能力,这三项加起来,才能成为冲刺具身智能"ChatGPT 时刻"的入场券。

陈维广:非常兴奋的 moment。所以我把这个问题稍微延展一下,是不是根据你这样的分析,意味着现在这些为了"世界模型"融资的公司全部都不靠谱?WAM 是不是靠谱?

王鹤:这个 WAM 也算是一种世界模型。但是我个人看,很多 World Model 它里面的一些 key feature,就比如这个东西能当 simulator,让机器人做强化学习。

在我看来,今天不能说全部靠谱,我们也有很多工作是拿 World Model 当做一个 differentiable simulator 能够交互的,但是希望 World Model 先把全世界任何东西都可以 simulate,都可以交互,再训出具身智能,我觉得应当不是这样的。

陈维广:还有一个差距.

王鹤:对,因为我们人也不能把全世界所有东西都 simulate,都能够精确的知道下一步的物理状态,但我照样可以 interact with everything,所以我并不觉得成为一个成熟的 world simulator 是建立具身智能 ChatGPT 的前提条件

陈维广:大海老师,我把那个问题稍微改一下。行业里通常有一个挑战:过去几年大家看到云端在快速 scaling,但终端因为资源受限,好像不能 scaling?你怎么看?还是说终端和云端其实可以一起 scaling?

李大海:首先简单的答案就是:肯定都在 scaling。其实面壁提出来的知识密度定律和 scaling 这两个东西,如果整合一下就是一个公式:大模型的智能整体等于大模型的知识密度乘以它的参数量

所以我们会看到,在今天还有人质疑 scaling 到底是不是失效的时候,事实上云端的 Coding 模型在变得越来越大——我们都知道 OPUS 的模型越来越大,国内所有的 Coding 模型也在越来越大。同时我们端侧模型也在越来越大:去年面壁给主机厂落地端侧模型,只能落 1 个 B(十亿参数)的模型,不是我们只能做 1B,是因为当时智能终端上能支撑模型跑起来的算力和带宽只有这么大。今天这个模型已经从 1B 涨到 4B 了,我觉得明年可能就变成几十 B 了,速度涨得非常非常快。

端侧其实是资源受限,具身智能本质上也是一个终端,具身大脑也一定是端侧模型。所以这个问题在模型层面上有非常大的 scaling 空间,受限的只是物理条件。

另外我还想补充一点:就算是大语言模型,在长上下文任务处理上也依然有非常大的空间,现在并没有做得特别好。不用讲复杂的技术细节,大家简单理解:人的大脑处理超长上下文任务做得非常优秀,而且功耗极低,但大模型在这类任务上的成本和效果都远远落后于人脑。这背后的巨大空间,依然要靠 Scaling 来填补。

所以我们觉得道阻且长,技术远远没有收敛。现在行业里常常会用一些阶段性的认知来制造叙事,但这些叙事的保质期非常短,我们一直在不断打破旧的认知。

陈维广:刚才你说端侧模型从 1B 涨到 4B,主要还是因为端侧的硬件变得更厚了,是吧?

李大海:对,包括我在第一个分享里面,我们也在用更多的技术让模型能够变得更大。因为我的知识粒度变高了,我的各种,比如说我的量化的技术的提升,所以导致我们用更大的模型,量化完以后,它用的内存,用的资源是一样多的。这些都是一些手段。

陈维广:嗯嗯,多问一个问,就是说这里有一个说法,就是从市场上说,端侧模型会起来,主要是因为大家觉得云端模型太贵了,都在想办法把这个计算放到终端,这个理论能成立吗?

李大海:我认为这是 Token 经济学的一部分。尤其是对于终端厂商来说,这个是一个非常清晰的算账的方式。在中国大家都知道,我们老百姓买手机、买汽车不可能去订阅的。我买了一台手机,我不会再想着说给手机厂商每个月交 19 块。

所以对于同时想给用户提供很好的设备上的 AI 体验的设备厂商来说,他就面临这个选择:就是我的后续的成本到底怎么负担?从算账的角度上讲,端和云一定要协同,因为端侧资源有限,不可能做和云端一样的工作。但是但凡端侧能做的,大家尽量还是希望能在端上做,我们这样的成本肯定是最低的。

陈维广:刚才我问的那两个问题,主要还是一些行业的一些看法。不管是做端侧的,云端的,或者是做具身跟 AI 的,你们能提升这个效率 3 倍、5 倍,甚至 10 倍都没问题。

可是最终如果出问题的话,因为我们不是在说嘛,agent 就会自动化的去审核,如果它出错误的话,谁来背这个黑锅?王鹤老师,你这个机器人很聪明,包括大模型,同样的,对不对?这块,你们有思考过这个吗?或者是有客户提出这个问题吗?至少我知道这些做 agent 的,时常就被客户挑战。如果完全把这个 agent 自动的去完成这个任务的话,如果出问题的话,谁来承担这个责任?

王仲远:对,首先其实这让我想起来今天早晨开幕式上,王坚博士的播客访谈,其实也涉及到这个问题,就人和 AI 到底如何共处?

那么我想一个新的技术的诞生,总会涉及到从人们对它最开始可能担忧恐惧,到后面开始适应或使用它,习惯它,以及它怎么去融入到这个社会,什么样的一个治理体系,什么样的一个政策,能跟这些技术一起来协作?我想,比如说像自动驾驶、辅助驾驶,其实已经开始在以前趟过了一遍这样的一些路,到底权责谁来定?到底是软件厂商的、硬件厂商的,还是用户的?其实 AI 后续包括智能体也会有类似这样的一个过程和阶段。

更多的是,一方面我们看到了这个技术对于生产力的提升,对于生产效率的提升。当它确实就像您说的,它如果已经提升了 3 倍、5 倍,我想这种技术就一定是没办法被阻碍的,它最终就会在工业,在我们的生活中变得越来越流行,越来越普遍。

另外一方面,到底如果出现了一些故障,或者出现了一些问题,它的责任的划分,这我觉得是整个社会治理体系政策的一些方面,我相信咱们人类已经经过了这么多年,这么多次的技术浪潮,会有办法解决的。

王鹤:我也简单的补充一点,其实机器人在工业自动化当中的应用,跟未来具身智能机器人在各行各业的应用,它既有不同,也有很强的相似性。

如果我们交付给工业客户,他其实不管你是具身的还是传统的,他主要看你做这道工序的成功率是多少。交付了以后,如果比如说在某一个环节失败,导致产线停工,跟员工出错导致产线停工一样,该怎么罚就怎么罚,所以其实如果我们今天是讲对经济活动的一个影响,那很简单,就是具身智能机器人一定要做到像人一样干的好活,并且,在经济任务上能负责任,我想这个是没有问题的。

那么更长远的其实是具身机器人跟人类在一些复杂的决策和又有体力的活,又有脑力活的交互当中,怎么能讲清楚权责?所以我觉得这个,从现在 agent 的大面积的使用,我相信未来能慢慢的给出我们一个方案。

今天使用这么多 Coding agent,那写了 bug,到底是谁的责任?那肯定还是使用这个 Coding agent 的人,他的使用没有做很全面的评测。那未来就是使用这个具身机器人在产线里头,那么谁为它负责?是不是也是这条产线的一个管理者和背后到底是技术漏洞还是管理漏洞为它负责?那么再往更远的未来,全部都是 AI,没有任何人类,谁为它负责?我相信我们会一步步的去探索出来背后的体系。

李大海:我来说点让大家毛骨悚然的真话。其实我觉得整个人类社会的发展就是建立在吃一堑长一智的范式上。就是我们现在大家都去坐飞机,飞机上有非常多让人很恼、很讨厌的一些安全规定.起飞降落的时候必须要收起小桌板呀,打开遮光板。为什么会有这些安全规定?都是历史上一次一次的空难,空难以后造成了严重的损害、损失,大家总结出来,原来这样是不安全的,去总结出这些一个一个的规定。

很多时候大家还不理解,事实就是这样,包括在某些交通的路段上,忽然之间限速 30,为什么要限速 30?因为超过 30 就特别容易出事故,这都是总结出来的。我觉得这是人类社会运行的一种比较常见的方式。好消息是,其实在人工智能的赋能底下,其实我们去填补安全漏洞,去发现安全的问题的效率也提高了。所以在有了新的技术以后,虽然可能无可避免的还是会先吃亏,再长智慧,还是要付出一些代价。但是我觉得这个代价可能会比以往时候付出的更少,这个是好的方向。

另外,就是我们作为企业,我们看到,其实我们的监管政府对于这些安全底线的工作,其实是非常非常的重视,所以企业在这个方面,从很早就开始考虑自己的社会责任,就已经开始考虑这些问题了。我们从第一天开始要通过网信办的安全备案,其实就要考虑大模型的内容生成是否符合各种各样的内容安全的这样的一个标准,这些都是我认为好的方向,但是总的来说,吃一堑长一智,这件事情可能真的无法避免。总会,安全问题总会从你想象不到的角度出现,给大家一个教训,这个教训再来变成我们让整个社会整个治理更安全的方式。这是我认为大家要理解的事情。

陈维广:说的非常好。我看到我们只有 3 到 4 分钟,最后一个问题,咱们嘉宾快速回答,你们从你们的自己的视角,以及你所处的领域,你觉得中国的 AI 和欧美的 AI,最终走出来不一样的地方在哪?仲远院长先来。

王仲远:对,我觉得咱们中国还是有很多很独特的优势,包括像供应链、制造业以及场景,所以其实我们自己本身,整个中国的市场也已经足够大,使得我们能够去孵化和催化很多的技术的产生和落地。当然我们肯定也希望这样的技术能够辐射到全球,所以我自己觉得结合中国的这些优势,像具身智能,像世界模型,很有可能是我们将来会有独特性,且在一定程度上领先的一些领。

王鹤:对,其实我明天在我们这个具身智能与人形机器人的论坛会主要谈这个事。我的 talk 的名字叫推动 embodied AI 的 AlphaGo 和 ChatGPT moment。

实际上,我坚信具身智能是中国的机会。具身智能的 AlphaGo 和 ChatGPT Moment,我坚信会在中国实现,这也是我们银河通用和中国具身智能人的责任。如果具身智能的 0 到 1 在中国完成,相信 1 到 100 必定是在中国成熟的。

李大海:我就补充一个点,就是人才。中国拥有最聪明的青年才俊,并且数量应该也是全球最大的。我觉得这个是最底层最重要的因素。有了这个因素,再加上刚才仲远老师提到的我们的生态,我们的优势,我们的整个供应链。我觉得这些因素叠加在一起,包括政府对于这个领域的重视和搭台唱,我觉得这些因素叠加以后,中国必定会在人工智能领域取得各方面的长足的进步和胜利。

陈维广:对,其实我们最近也做了一个比较,就是美国的这个 AI 人才跟中国的 AI 人才,很明显的就是中国的这个年轻化,这块是很明显的。所以看到智源的这个大会每年越办越大,对不对?也有很多这个年轻的研究员踊跃的参加,而且我们投的很多创业公司,他们其实除了这个创始人跟团队,他们其实也跟院校有很多合作,也跟智源这边有很多合作,我觉得这个可能跟美国是最大的不同嘛,这是从我们这边观察到。