作者｜华卫

“过去是人定义机器人，接下来则是 AI 定义机器人。”在星海图办的第一届全球开发者大会上，CEO 高继扬与 CTO 赵行首次完整披露了公司具身智能技术路线，提出具身智能正经历“本能智能—作业智能—进化智能”的三重跃迁。

高继扬认为，今天机器人的身体仍由人类工程师设计，而未来 AI 将围绕应用场景与任务，去定义和设计机器人自己的身体。本能智能直接作用于本体，让机器人像人一样天然学会驾驭身体，保持平衡、行走、奔跑；作业智能建立在本能智能之上，解决像人一样有序作业和操作的问题，语言是它的重要接口，星海图的 G 系列模型正是作业智能模型；进化智能则指向更深的问题：AI 能不能定义最优生产力形态。

会上，星海图发布新一代 VLA 基础模型 G0.5 并宣布开源，公布世界模型 Fast-WAM 与全身控制基础模型，自研双足人形机器人 Kengo（行客）现场首秀。它身高 1.4 米，以高性能运动小脑与具身大脑为核心，既能完成四连踢等高难度全身动作，也能胜任递物、搬箱、叠衣等贴近真实场景的双臂作业。

不同于大部分具身智能大脑企业从智能开始，星海图第一天就从整机做起，开辟了轮式双臂品类。做整机后发现制约性能的关键在于动力模组，于是自研动力模组，到今天 80%的动力单元是自研或与产业链共研的。再后来发现光做整机不够，又决定在 2025 年春节前后启动双足人形项目。

同时，星海图联合北京亦庄共建的数据公司“亦数智能”正式揭牌，启动“100 万小时超高质量真实数据计划”规划今年完成百万小时、未来三年迈向千万小时。星海图是行业内最早押注真实数据的公司。2025 年 8 月开源的数据集 GOD 是全球第一个开放场景具身操作数据集，下载量接近 60 万次。

“在百万小时到千万小时之间的数据量训练出来的具身基础模型，会带来非常突破性的改变。”高继扬算了一笔账：一个人从 0 到 18 岁，醒着和物理世界交互的总时长约 12 万小时。也就是说，人的大脑用了 12 万小时学会了怎么驾驭自己的身体。100 万小时相当于约 8.3 个人的学习总时长，1000 万小时相当于约 83 个人。而 GPT 等大语言模型的训练 Token 数，转换到具身基础模型训练上，大概就落在百万小时到千万小时之间。

之后他做出一个明确判断：依托数据供应链与整机供应链的叠加优势，未来两到三年，中国的具身基础模型能力有望整体超过美国，拿到世界第一的位置。

整机、模型、数据之外，星海图打出的第四张牌是生态。数据生态由亦数智能承载，星海图还联合凯辉基金发布创业孵化项目“星途计划”，面向具身智能早期创业团队提供资本、技术与场景支持，未来 3-5 年计划投资 30-50 家企业。"没有任何一家公司能够独自定义具身智能。"

而星海图所做的一切，都围绕同一个核心：具身智能基础模型。在他们看来，硬件与数据都服务于模型，而模型最终要回答的，是机器人如何在真实世界里创造生产力。“具身智能的‘GPT 时刻’可能不会像大语言模型那样明显，它的落地过程是随着能力边界逐个场景解锁的。若干年之后回头一看，原来机器人已经无处不在了，但我们已经记不得是哪一年开始。”高继扬在演讲中表示。

他透露，星海图的商业模式会发生变化，具体分成三个阶段：第一阶段整机销售，第二阶段方案订阅，第三阶段 Token 销售。“此时此刻，我们处于整机销售阶段。随着智能在一个生产力场景里面解锁，我们就会进入方案订阅阶段，整机会成为我们的收费入口，真正的毛利来源是方案。随着我们的智能从单一场景有用走向多场景、多任务通用，我们的收费单元就会从方案转向 Token 销售。”

有趣的是，这三个阶段背后的增长率不同：整机销售年化自然增长 30%-100%，这是行业规律；参考过去两年里一些 AI 公司的爆发，方案订阅是每年 3 倍到 10 倍的增长；Token 销售是 10 倍到 100 倍的增长。“前期是研发制造型行业，后期是人工智能行业，中后期是人工智能的规模化服务。我们公司并不追求在第一个阶段保持特别大的商业化业绩，因为我们觉得那意义不大。我们追求的是从第二个阶段开始的、真正的智能驱动商业化。”

演讲结束后，高继扬走进采访间，与我们就数据、模型、本体与商业化展开了更深层的对话，信息密度极高。

以下为本次对话的现场实录（经整理，略有删减）：

数据的“100 万小时”赌局：一两亿元太划算了

Q：数据在具身智能落地过程中扮演着什么样的角色，能不能做成一个标品？比如一个数据公司最终提供给每家应用企业，如果能的话，还需要从哪些方面入手？如果不能的话，是为什么？

高继扬：首先，我们从理论业务模型、业务模式角度来说是可以的，有一些公司专注做数据，然后把数据做成类标品或者做成数据服务。今天有一个嘉宾过来，海天瑞声 CEO 李总就是 A 股上市公司，做数据标品和数据服务的，所以从商业模型上来说这个是成立的。但是对于具身智能而言会有一个挑战：具身智能从整机到数据，或者从数采设备到数据再到模型训练，这几件事耦合的太紧密了，很多时候我们发现数据采上来之后这儿有问题、那有问题，就需要算法同学跟数采同学、运营同学紧密结合、交流、迭代，才能把数据质量提上来，不然采上来的数据是没那么有用的数据。

商业模型理论上成立，但真正业务发生过程又是数据模型和采集设备，采集设备可以是整机，也可以是一套 UMI 可穿戴设备，这三环紧密结合在一起。我们投资了一些数采设备企业，第二我们跟亦庄控股、亦庄机器人、亦庄国投联合发起公司，他们有很多场景，亦庄能够打开的场景去采集数据。再配合上设备、EDP 整个数据管线，再配合上我们自己对于要什么样的数据，因为我们就是训模型的企业，我们要什么样的数据特别懂，把这些要素凑一块，才有可能把刚才说的高质量标品数据集这件事给搞定。

Q：预训练阶段会采用少量的仿真数据，大部分用真机数据，成本上会不会有压力？

高继扬：坦率地讲，现在的预训练全部都是真实数据，基本没用仿真数据，这是现在的一个现状。未来在很长一段时间里面我们会坚持这一点，到 100 万小时之前，对于我们公司而言看不到用仿真数据的必要性。原因就在于真实数据可以更快地帮助我们铺满刚才说的那四个空间，而且更有效。

我之前一直谈一个观点，不应该只关注数据单项成本，应该关注智能总成本，采数据是为了搞智能，得回到我们的目的。而搞智能这件事，智能总成本分三部分：数据成本和算力成本，还有研发团队工程师成本。我们先第三部分先去掉，数据成本和算力成本，我们的实践至少是 1：10，1 块钱的数据至少 10 块钱去做训练才能把它训明白。意味着，搞 AI 有一个俗话 Gabor in，Gabor out。如果你的数据是不那么 work 的数据进来了，那产生的模型一定也没什么用。这里面，在数据上量之前一定先把数据质量解决掉，而什么是最高质量的数据？真实数据是最高质量的，真实里面再分真机数据和真人数据：human centric data、robot centric data。

这是我第一层逻辑，关注智能总成本。第二层逻辑，单向的看数据成本，数据成本到底是多少钱，Human centric data 我们实践下来是 50-100 元人民币一小时，根据地区差异还有波动和下浮的空间。robot centric data 遥操作数据，算上人工和各种机器折旧大概是 250 块钱一小时左右。现在市面上，比如 robot centric data 遥操作数据 300-350 都有，有 10%-20%的毛利，看他们自己的运营能力。综合去看是 100-150 块钱一小时，一个小时的成本、价格，意味着 100 万小时是 1-2 个亿的成本。今天做大语言模型训练，每年算力支出是几亿美金量级，相比于这几亿美金，这一两亿必须得花，而且太划算了。

Q：您在会上有讲到时间点，今年百万数据，到三年之后是千万数据，需要做哪些动作达成这个目标？对应这两个时间点，我们在下面展厅看到它叠衣服、分拣抓取物品，跟人相比还是很慢，有时候观众在边上看着挺着急的，对于这两个数据采集规划时间点，这种作业能力相应会达到什么样的程度？

高继扬：对于我们而言，整个行业里面含百万小时甚至更大规模的公司不止我们一家，挺多的，我们是有实实在在的路径，这个路径是：第一，我们和亦庄，亦庄帮我们做了很多事，全域开放数据采集场景包括调配各类资源，因为很多场景，我们作为民营企业想进也进不去，必须得有政府的协助和帮助。所以对于我们来说，我们是依托亦数智能平台铺开量。数据都是来自于人，数据量想上去，人的数量肯定得上去，所以这里面会是一个外包采集和众包采集相结合的模式，众包采集是生产和生活伴随式采集，大家日常做什么工作的时候就带上我们的设备，可能此时此刻就有几百个人带着我们的设备在采集，他们在作业或者工作当中的数据，这是生产伴随式采集。外包形式是我们还会雇一些人，就针对性场景和任务做特殊化采集。两种模式相结合做一个放量。

这些数据采到之后会给模型带来什么样的变化？您刚才提到一个很重要的点，速度问题，如果您再仔细观察，会发现叠衣服速度比分拣速度要快，很多时候我们看快慢不是一个绝对的事，我们得看迭代。三个月之前叠衣服速度跟分拣一样慢，经过三个月迭代，经济调数据、模型训练上调整，变快很多。所以我们看成长速度，我们认为现在具身基模成长速度要快于一个婴幼儿学习技能成长速度，所以从这个角度来说我们并不认为这事进展的慢。但是数据量的上升，从技术角度来看，并不直接带来模型直行速度的提升，模型直行速度与后训练关系很大.

采集的这些数据解决的是预训练问题，预训练解决什么问题？是解决泛化性问题，我要去到一个新场景，接受一个新任务，能不能不用新增数据就能做，哪怕做的很慢，但我就能做，我就理解这件事了，这是预训练解决的问题。后训练增补一些特定化的数据，就像我这个工人劳动者上岗工作之前总得再培训培训，这个培训过程就是后训练，经过培训，执行速度就上去了，就变快了，这是预训练和后训练之间的关系。

Q：现在有一个言论，他们觉得把数据卖到国外，其实是把枪支弹药递到对方的手上，这个观点您怎么看？星海图在未来数据交易方面有什么样的策略？

高继扬：首先对于数据卖到海外这件事，我们肯定从来没做过，对于其他友商情况不是特别了解。确实是，具身智能数据和大语言模型数据未来会有不一样，大语言模型数据 99%都是公开可得的，public data。但是具身智能数据 99%是 private data，都是私有的数据。更重要的是，很多数据从获取的那一刻都有很多隐私问题，比如说我们去到研发制造型企业，这样的企业核心资产之一是工艺，老师傅们的活是怎么干的，这些数据恨不得藏在自己手里。所以数据的安全问题、数据的隐私问题肯定是未来几年，当这个数据量起来之后特别重要的一个事，只不过现在大家还没关注到这个，因为现在还没那么多数据，所以现在这个阶段没那么重要，但未来一定会特别重要，而我们对安全问题和隐私问题特别关注，在符合国家法律法规基准之上做一些市场化的活动，这是我们的准则。

Q：今年是数据的规模化元年，是不是对于内里数据的认知，包括大家对于不同数据的侧重也能成为一种壁垒？如果形成壁垒的话，是否传导到模型包括到真机展示、demo 和场景落地的应用也能一到两年时间内产生一定的差距？

高继扬：是的，99%的 data 会是 private data，所以未来具身智能模型的制高点竞争很大程度上取决于你的数据怎么样，数据好不好，数据的差异传导到模型能力的差异，再传导到应用层面效果的差异，再传导到商业层面价值的差异，所以我觉得是一个链路问题。简而言之，这个事肯定是会发生的。

“VLA 与世界模型是同源共生，未来会走向融合”

Q：G0.5 模型开始逐渐应用到操作场景中任务中了，大概会在什么时间节点会应用到 Kengo 双足上？

高继扬：如果严格意义上探讨技术，G0.5 模型架构的设计其实是给双臂智能或者轮式双臂这样的品类去准备的，所以会普遍应用在 R1 Lite、R1 Pro，包括新发的单臂 R1Z。基于 Kengo 主力去发展的模型，比如本能智能模型。再稍微讲点技术，作业智能现在是什么？无论是 VLA 还是世界模型也好都是模仿学习为主，模仿学习是主线，强化学习是作料是这样的感觉，本能智能模型，强化学习是主线，是主要的配料，这里面加入模仿成分。

整个行业过去几年里面已经呈现出这样的趋势，包括英伟达搞的 Sonic 包括跳舞用的 Mimic 这类算法都是强化学习框架里加模仿学习，最终具身智能答案现在世界上没有人知道，但是这个答案配方无论是强化学习+模仿学习某种形式的组合，今天我们看到大语言模型企业是这样，先模仿再强化。这两条路径：本能智能和作业智能最终会有一个融合，到那个融合阶段才是把 G0.5 一系列能力带到 Kengo 双足产品之上，所以我觉得会有一个过程。

Q：现在媒体有一句话评价星海图“用具身大脑终结行业有趣无智”，您对此是怎么评价的？您认为具身智能产业竞争的关键是在于最快的世界模型大小脑协同还是对自然语言的深度理解？

高继扬：所有做具身大脑的企业都有这样的一个目标，通过大脑配合身体，真正产生，真正让具身智能产生生产力。我们创业最早的时候提过两个词，具身智能一脑多形，第二个具身智能在脑不在形，核心在这儿，没有大脑的驱动，形体是一个破铜烂铁，没有什么价值。整个行业要突破一定是具身大脑或者具身基础模型完成突破，然后带动整个产业链的发展。产业链往上是整机、是零部件，产业链往下是应用，然后是整个分销体系。

Q：现在有数据模型，哪一块是我们最重要的部分或者优势部分，以及在资源分配上怎么考虑或者怎么规划的？

高继扬：战略上是整机+智能，最终目标是释放生产力量，物理世界生产力只有模型是不够的，整机也得足够好、足够的可靠性、足够的一致性、足够的负载能力。对于我们最终产生规模化的销售和足够高的毛利率来说，整机和智能缺一不可。在这两件事上，我觉得很难讲谁就比谁一定重要，因为对于最终商业成功都很重要。刚才有三句话描述我们公司：首先我们还是智能大脑企业，然后我们很重视硬件，整机+智能，然后我们的整机能力很好很强。是么一个辩证关系。从研发投入上来看，显然整机研发投入是远远低于智能的研发投入，我觉得差一个数量级肯定是有的，差一个数量级吧。

Q：星海图有围绕 AI 和数据模型的数据，这两个模型数据是否通用？

高继扬：这个问题特别好也特别重要，今年上半年有一些声音把 WIM（世界模型）和 VLA 给对立起来了，其实我们一直不认为这两个路线是对立的，它们是同源共生，而且未来会越来越走向融合，为什么这么说？训练 VLA 也好、训练 WIM 也好，回到它的底层是什么？就是把一些多模态数据变成 Token，然后通过多层的 Transformer，最后的监督方式、训练方式不一样，可能架构有些调整，变成了有一些模型叫 VLA，这些模型初始化的时候用 VLA，一类模型是 WIM，底层都是把输入数据变成了 Token，用多层的 Transformer 去做编码，再用某种方式做输出，然后用某一个方式做监督，其实底层都是这样的。

从这种角度来说，所有数据都是可以混用的，今天我们去希望训练 VLM 和 WIM，数据都是一样。今天我们提到的 human centric data 和 robot centric data 这两种，robot centric 就是我们的遥操作数据，human centric 包括 UMI 数据、Ego 数据。数据这件事，本质上我们采数据其实是为了能够铺满四个空间或者四个维度：第一个维度是动作，做什么动作。第二个维度是我操作什么对象，对象维度。第三个维度是场景，在什么场景里做这样的事。第四个是本体维度。

这么多种不同采集方式是为了更快更有效把四维度不同类型数据全部铺满、全部采集到，UMI 数据或者 Ego 数据本质上是什么？每个人男女老少、高矮胖瘦都不同，其实都是跨本体，不同类型本体，可以更快把这个问题解决掉，因为人的形态自如进入到环境里面，成本很低，所以采集效率很高。但最终这个机器人，模型还是部署到机器人本体上，机器人本体形态数据也是需要的，是这些东西的组合，使得我们在四个维度上都有足够好的数据，大概是这么个逻辑。

走向 Token 销售，未来潜力是改写 GDP 结构

Q：大会上看到星河图具身智能商业模式从整机销售到未来方案订阅、走向物理世界的 Token 销售，宇树去年已经营收 17 亿了，包括他们的人形机器人将近 6 亿营收，是否意味着整个商业模式有利差了，将来如果走向 Token 订阅，需要一定的装机量，怎么去跨越这个门槛呢？

高继扬：首先整个行业在今天这个阶段，我们看到的几乎所有销售全是以整机为中心的销售，大家没有说哪个方案提供了生产力，因为这个方案的能力，所以这个东西销售出去了。今天成熟市场是两个：一个是开发者或者科教研这一类的，第二类是表演娱乐这一类的。显而易见，刚才说的，宇树一定在展演娱乐市场里面遥遥领先，这是事实。

第二个阶段商业模式是面向生产力的场景方案订阅。生产力场景，我们看到现在没有任何一家企业真正有效地在生产力场景里面有效作业，这个市场大小是前面科教研开发者市场和展演娱乐市场几万倍的规模，本身这个市场在重写 GDP，今天所有 GDP 背后其实都是某种形式的生产，不存在有身位差，真正的星辰大海还没有展开。我觉得是这么个逻辑。

Q：Kengo 发布以来，产品公开参数并不是很多，关节模组方面是否有一些亮点和特别之处？它是一个万元级的人形机器人，现在人形机器人卷价格，您认为是怎样的价格更适合于商业化和成本控制？这是星海图第一款双足人形机器人，相对于其他人形企业来说晚一点，你对它的期待是什么，之后商业计划是什么？

高继扬：我们这个关节模组，很多和我们一起做的产品的产业链伙伴今天来到了现场，包括一起做电机、齿轮、检测器的、壳体的等等。从具体设计来说有两个特点，一个是整机通信全部是 EC 通信，行业里面有 Can 通信、485 通信，我们是整机 EC 通信，好处是同步性非常好，EC 通信是所有技术方案里通信最好的，但研发难度高一些，为期做好 EC 通信就会做好中空设计，因为 EC 通信对线数要求比较高，为了做好中空的设计，你在你的电机、电磁仿真、减速器设计上要做很多调整和优化。在整体性能方面，我觉得我们这个模组是行业最领先的第一梯队的性能状态。

整体来说，我自己认为，整机和供应链是一个有限游戏，智能和应用才是无限游戏。这里面有意思的点是，如果不玩好前面的有限游戏，是没机会玩好后面无限游戏的，我们花很多时间和精力去做自己的整机和供应链，目的还是为了做后面的智能和应用，这是真正的目的。

现在无论是做 Kengo 这样的双足还是做我们 R1 这样的轮式双臂，包括我们、包括行业，我相信部分已经做到了，有些可能会在今年做到，有些企业会稍微慢一点，但最终这些产品的成本会稳定在 1 万美金左右，也有可能会更低一点，这个价格区间未来两年左右时间，是很确定的供应链达到的成本。但这个成本并不决定了它的商业化能力，它的商业化潜力来自于它的大脑，它能干什么活、能干什么事。

这件事一旦打开之后，给大家算账，发达国家市场劳动力的价格是 4-5 万美金一年，算上各类成本，如果一个产品硬件 1 万美金，假设回本周期是一年，还有 3-4 万美金的空间，这 3-4 万美金空间是给谁的？是给智能的，智能如果能够完整一个岗位（不是一个人）意味着我们可以把这 3-4 万美金打开。行业打开，整机和供应链是有限游戏，智能和应用是无限游戏，为了玩这个无限游戏，得先把这个有限游戏搞好。但是真正的空间打开还得看智能、看大脑。就这么个逻辑。

Q：无限空间生产力场景是不是在工业领域？如果是的话，星海图未来主要聚焦的市场是不是就在工业领域？在您看来，工业领域市场空间会有多大？

高继扬：首先我觉得我们公司不会局限在一个子市场里面，我们在商业化上面或者应用上面总概括是“从开发者到生产力”，生产力无处不在，我们的产品也会无处不在。落地的过程是一个循序渐进的过程，第一步，我们现在是厘米级别进度，厘米级别进度能应用到哪里？是工业里面的上材料、搬运，物流里面的分拣、共包、分包，电商零售里面的拣选和打包等等这些环节。随着操作精度的上升，制作业里面更多场景，装配、线数、插拔、检测这些全部打开，毫米级别的进度。人的操作精度有三个档次厘米、毫米、0.1 毫米，外科大夫是 0.1 毫米的，大部分人是 1 毫米，我们能控制自己的指尖精度是 1 毫米。

再往未来看，制造业只是一个开始，农业、建筑业都是未来具身智能可以去改变的行业。我们这个行业特别好玩的一个事，上游是我们的下游，下游也是我们的上游，具身智能是未来中心性产业，所有行业都可以和具身智能产生上下游的往来和关系。未来真正的潜力是改写 GDP 结构，而不是简简单单的做一个表演或者做制造业里面某一个具体工作环节，这都不是它的真正未来。

Q：如果之后搭载了本能智能模型，接下来落地的场景是哪些？

高继扬：具体销售策略，还是由商务团队和整个直销、竞销体系去发布，今天现场也来了很多销售方面的伙伴，我就不展开说价格包括销售策略了。我可以说一下我们本能智能未来会怎么发展。本能智能最初级阶段是强化学习，现在能干啥？跳舞，跑跑跳跳，走一走，就干这个，它商业化展示、展演，可能有些通过租赁方式完成这样的销售。随着模型能力的提升，下面会有一个很重要的模型能力，我们认为是全身遥操作，Human Tracking，这事是很重要的。如果这个事形成现实，相当于每个人都有自己的远程化身，我就坐在办公室里面全身遥操，另外一个人在边缘电站里头、储能站里头，这样的应用就会解锁。

但模型的作业能力显著差于作业智能系列的模型，更多还是行作业这类巡视，轻作业这类场景。再随着技术发展，会跟我们的作业智能逐渐融合。当和作业智能逐渐融合的时候，就进入到非结构场景里面做一些不是轻作业的，而是重作业的事，操作各种各样的物体、开门、关门都可以做了，进入到制造业、建筑业等等，是这样的过程。在结构化场景里面，80%的环境都还是结构化场景，基本上都是经过人类改造的，比如我们这个是平地，在平地上有必要是双足吗？意义不大，还很吵，轮式挺好的，所以结构化场景里面大部分是轮式双臂品类去解决问题，这是我对未来的看法。

Q：您刚才提到第一阶段整机销售阶段不需要大规模商业化，但我们看到行业内有些公司会说自己做到 10 万台的下限或者说会在工厂做一些落地的展示，以及签一些大额的工业场景的订单，我不知道这是不是属于行业内现在商业化被资本强行催熟的一个现状，以及您觉得现在行业里头有哪些商业化落地不符合当前实际情况或者技术能力的？

高继扬：商业化这件事是不是大规模，大和小是相对概念，相对于什么是大、相对于什么是小，我们找的相对还是要回到规律，行业发展的规律，你超过了这个行业发展的规律，那个叫过度。我们认知的规律是什么？还是我们那个策略，从开发者到生产力。这个模型没有那么强生产力的时候，生产场景强行去部署一定是给你退回来。现在价值有用，很明确的就是两个市场：今天此时此刻的开发者市场和展演展示市场，这两个市场都是商业驱动的，其他是各种因素驱动的。如果做了太多那样市场的事就是过度，所以那种事我们可能会比较保守。

但是在我们认为已经打开的好市场方面我们会很激进，开发者市场全球几百个客户，我们在北美、新加坡、日本、韩国、欧洲、波兰、德国、法国都有我们的客户，国内几乎每个省份都有我们的客户，在这样的市场上我们又很激进。其实我们商业化做的挺好、挺猛的，但我们还是遵循整个产业成熟的规律，而我们相信的规律是什么？是从开发者到生产力逐渐成熟的，任何一个产品在过早阶段拔苗助长，最后导致的结果都不会特别好，因为价值不够，肯定是别的都是凑出来，最后导致的结果是客户不满意、团队也很累很拉扯，供应商也被牵扯的很厉害，我们一直讲坚持做正确的事，正确与否来自于这件事的事实是什么，发展规律是什么，回到这些东西上去判断此时此刻应该做什么。

Q：今年一季度有一个统计，具身行业融资了几百亿，不可避免，大家可能会提到泡沫问题，您怎么看待这种现象？星海图未来也会做投资，在这个环境下怎么去做一些务实的决策，无论是投资领域还是自己的公司？

高继扬：明白，泡沫这个问题是经常讨论的问题，任何行业发展都伴随着泡沫，或者任何新事物发现都是泡沫，是人们对一个事物发展无法做出精准预测，所以有的时候给出了过高的阶段性估计，然后这个估计大于结果的时候就是大家认为的泡沫。这事一定会出现。赢家往往在泡沫膨胀阶段和破灭阶段都可以获益。对于我们公司来说，现在还在泡沫膨胀阶段或者一个已经比较顶峰的阶段，我们通过这个阶段获取优质资源，大家的注意力，大家投入进来的资金其实都是很好的资源，我们希望能够和大家一起去把这部分优质资源整合在一起，把这事给做起来。

同时，我们时时刻刻去关注着资本市场什么时候会有下行，什么时候大家对这个事要开始验成果了，这件事一定会发生，我们做好准备的是什么呢？我们公司有一个价值观：“务实创新”，为什么创新之前一定加务实？解决问题的创新才是创新，天马行空对企业来说没什么价值、没什么意义，保证所有资源往这个去投，围绕着我们的智能主线（本能智能、作业智能、进化智能）去投入，其他小算法不投入，留给学术界去投入。在整机上聚焦这几类整机，同时和合作伙伴自研、共研，这就是我们的研发主线。在商业化上，从开发者到生产力，坚定的按照这个规律去做，不要过度的追求不符合这个阶段的商业化。其实很多时候过度追求不符合这个阶段的商业化，不是资产，而是负债。把所有这些事都做好。

如果大家看我访谈，我很喜欢曾国藩“结硬寨，打呆仗”，我觉得做很多事情都是这样，没什么捷径，没什么巧思路，我们知道自己不知道，也知道自己什么知道，知行合一，正面推进，一步一个脚印往前去走。

Q：您刚才提到数采成本百万小时，2 亿，训练几亿美金。这个数字规模是一天的规模还是 2-3 年的规模？它对于现在融资节奏来说是远远还没有达到融资泡沫还是说融资还不够？

高继扬：数据采集这件事，刚才我讲的，为了采到 100 万小时的数据，可能投入在 1-2 亿人民币。如果一年采到这个，今年就花这么多，两年采到这个是两年一共花这么多钱。不同企业节奏不一样，我们的目标刚才也说了大概是什么样的节奏推进这个事。第二个，成本和融资。现在投入企业几十亿都融了，这一两亿花得了，问题不大。而且数据这事本身还有社会化资本、政策性资金可以撬动的，所以数据这件事不用特别担心，接下来这一两年肯定就解决了。

Q：成本会不会太高了？

高继扬：我们思路一直比较清楚，支出路径和融资路径是两件事，融资路径是什么？融资路径是，首先你无法改变资本市场客观的变化周期，你只能利用资本市场上行时多搞点钱，能融钱多融点钱，这是大部分比较理性创业者都会采取的策略。另外一个是支出策略，具身智能这个行业背后的驱动力是什么？这个驱动力是 AI Scaling Law。什么是 Scaling？Scaling 今年是 1，明年是 5，后年可能是 30，再往后是 100，这叫 Scaling，也有可能今年是 1、明年是 10。什么不是 Scaling？今年是 1，明年 1.2，后年 1.4，这不是 Scaling。我们的节奏是 1、5、20、100，这么上去了，这是数据节奏，意味着支出节奏也是按照这个规模放大的。传统风险投资，融完资一看，我账面上的钱有 1 亿美金，一年花 2000 万美金，按照五年去发，这是传统模型，这个模型在 AI 这儿不 work，因为 AI 的驱动力是 Scaling Law，今年花 1000 万美金，明年就花 1 亿美金。所以这是两条路径：融资路径和支出路径，两件事。

创作场景

机器人整机是“有限游戏”？对话星海图创始人：具身智能商业化的三个阶段，终点是卖 Token

数据的“100 万小时”赌局：一两亿元太划算了

“VLA 与世界模型是同源共生，未来会走向融合”

走向 Token 销售，未来潜力是改写 GDP 结构