写点什么

这波 AI 淘金热里,卖“铲子”的公司正闷声发财,“征服 " 了几十家国内外巨头!

  • 2025-06-27
    北京
  • 本文字数:3350 字

    阅读完需:约 11 分钟

大小:1.66M时长:09:40
这波AI淘金热里,卖“铲子”的公司正闷声发财,“征服"了几十家国内外巨头!

作者 | 华卫


“选择合成数据赛道的底层逻辑其实很简单,AI 的快速爆发带来了数据需求,这个 Gap 要靠合成数据去填。”


光轮智能联合创始人兼总裁杨海波表示,在大语言模型领域不存在外部合成数据的发展机会,因为其自身就具备强大的数据生成能力,能够利用自身模型结合专家标注自我服务。然而,随着人工智能向物理世界拓展,给外部公司带来了供应合成数据的商机。


光轮智能正在做的事就是,提供帮助 AI 进入物理世界的 3D 合成数据。具体来说,光轮智能为具身智能行业提供拥有足够真实的物理交互能力的、人类示范在环的、场景足够丰富的仿真合成数据。


现在,光轮智能几乎服务了所有的国内外头部的具身智能企业和主机厂, 包括英伟达、Figure AI、DeepMind、Wayve、智元机器人、银河通用、比亚迪、博世等数十家公司。


在这背后,是一支年轻化的技术团队,成员以 90 后、00 后为主力,不仅吸纳了来自英伟达的仿真专家、阿里最年轻的算法人才,还招募了众多应届生。在创业初期短短几个月内,光轮智能的核心班底便基本就位,其中不乏因看好行业需求主动加入的成员。


成立几个月就赚钱了


这家成立仅数月的企业,在合成数据尚未成为风口时便完成多轮数千万级融资。杨海波透露,光轮智能的融资一直很顺利。


“我们原计划用三年教育市场,但 2024 下半年合成数据行业拐点比预期来得更迅猛。”


前不久,Meta 计划斥资约 150 亿美元入股合成数据独角兽 Scale AI 49% 股权的消息震惊业内。“谁掌握数据,谁就握住了下一轮 AI 竞速的加速键。”杨海波指出。


令人瞩目的是,光轮智能的团队在创立两三个月内即实现产品商业化落地。


最初,光轮智能以自动驾驶切入具身智能第一个规模化的场景,不仅与全球头部主机厂及 Tier1 供应商完成签约交付,更通过定制化数据方案助推中国自主品牌出海;既为行业提供城市导航辅助驾驶(NOA)长尾数据解决方案,又联合顶尖车企加速端到端智驾算法工程化落地。


“头部客户最前沿的需求我们都满足了,这是对我们商业化能力的最佳印证。”杨海波表示。


相比同赛道公司的最大优势


在杨海波看来,相比同赛道公司,光轮智能的最大优势是独特的技术视野与路径。


“合成数据,是具身智能发展的必经之路”,杨海波指出,光轮智能聚焦的是具身合成数据,而具身合成数据有四个必备条件,也是光轮智能的最大优势:一是要有足够真实的物理交互能力、二是要有专家示范在环、三是场景足够丰富、四是要实现数据闭环验证。


首先,纯依赖传统 AI 技术的公司难以生成在视觉及物理交互层面都足够真实的数据,不能满足具身智能算法训练的核心需求。例如,自动驾驶领域的合成数据主要服务于识别算法,着重视觉真实性,但无需模拟实际物理参数的复杂反馈。


然而,对于具身智能而言,正如杨海波所强调的“掌握游泳技能需要亲身体验水流变化而非仅观察动作分解,要让机器人具备类人学习能力需要模拟出真实的物理反馈”,数据必须具备与物理世界交互时的真实物理反馈,例如拉开冰箱门需要精确模拟作用力、摩擦阻力和门铰链的运动规律;操作微波炉旋钮则需体现触觉反馈以及机械阻尼。


因此,生成满足具身智能训练需求的高质量合成数据,其必备条件之一就是能够真实地模拟这些物理交互过程及其反馈机制。光轮智能注重数据在物理与视觉层面的双重真实,据杨海波介绍,去年下半年,光轮智能实现了在物理级别仿真技术上的重大突破。


其次,光轮智能把“人类专家示范”机制作为合成数据的核心,利用合成数据技术将人类示范数据进行放大与泛化,来确保 AI 学习到物理世界的信息,真正给到模型训练价值。


杨海波指出,模型表面上是依赖算法能力,但其突破性的进展往往来自于人类专家的示范数据。正如 OpenAI 借助数千名专业标注员提炼人类反馈,Scale AI 则有数万个博士、工程师等专家标注员,特斯拉 FSD V12/13 基于"五星级驾驶员"数据进行自动驾驶训练。具身同样需要专家的遥操作数据作为种子,再通过仿真泛化出多样化的操作范式,填补 99% 的具身 Pre-Train(预训练)阶段的数据缺口。


“合成数据本质是放大人的示范作用,我们不相信纯粹 AI 生成的合成数据能够实现对 AI 的喂养。” 杨海波表示,纯 AI 生成数据类似于把 AI 当成数据永动机,AI 不可能通过完全自我训练突破现有能力边界。


总的来说,视觉真实和物理交互真实是光轮智能做合成数据的两个重要前置条件,而“人类专家示范”机制作为确保合成数据能源源不断地吸收新认知的关键是一个隐含条件。


如何高效、高质量地放大真实数据中的人类示范,也是光轮智能做合成数据的核心技术挑战。据杨海波介绍,难点主要体现在三个维度:一,不同领域对真实性的要求不同;二,数据生成策略必须根据下游任务目标进行动态调整,以确保模型训练的有效性;三,需积累一套保障数据可靠性的成熟体系,如数据有效性验证、场景分布需与客户真实数据对齐等方面。


“场景的丰富多样性至关重要,业界常讨论 Sim2Real Gap,但 Real2Real 在场景丰富度上的巨大 Gap 却被低估了。” 杨海波表示,自动驾驶在封闭测试场训练得再完美,面对真实路况依然束手无策,根源就在于测试场景的复杂度和多样性远远不足。


当前,大多数具身智能的数据采集方式存在局限:先搭建特定硬件场景再收集数据。这种“硬绑定”模式不仅难以适应硬件的快速迭代,更因其覆盖场景极其有限,导致成本高昂、效率低下。而光轮智能具身合成数据的核心价值之一,就是能够灵活生成百万级差异化场景。


“合成数据只有具备闭环验证能力即生成的数据能训练算法在真实场景中落地,并通过模型微调和性能回溯持续验证其有效性,它才真正具备价值。”光轮正是通过这种闭环验证机制,持续强化合成数据的质量与模型的真实适应能力。


在谈到数据闭环验证时,杨海波特别强调,“我们与英伟达合作,通过光轮合成数据去 Finetune 与 Sim2Real 落地,将 GR00T N1 模型成功部署到汽车制造生产线上。”


规模化盈利背后


“在大厂内部做这件事情,是不合理的。”


据他介绍,做 3D 世界的合成数据,在商业模式上和认知上都需要形成一定的规模效应。第一,数据生产原料要可以规模化应用并服务于多个客户的多种需求,而大厂内部无法做到这一点。第二,合成数据本身的方法论非常重要,对合成数据的这种认知规模效应是体现在外部的,服务不同客户才会获得对于数据需求的不同认知,而大厂对于产品数据需求的认知是在完全闭环体系下得到的。


“一定要重视客户需求和产品化。”杨海波谈到,创业者应该是去盯着客户的真实需求。千万不能“拿着锤子去找钉子”,曲高和寡是创业很容易陷入的一个问题。要善于识别并聚焦于那些具体可落地的细分需求,选择技术可实现、商业价值闭环的精准方向,从单点突破建立商业正循环,这才是初创公司成功的关键。


另外,杨海波表示,对创业公司来说拒绝“囫囵吞枣”式接单很关键,要评估客户需求是否具有普遍性、客户企业的长期存续性、付费的可持续性,迭代选择出真正有长期付费意愿和付费能力的客户。


AI 赛道的创业跟过去不同了


“当大模型将技术门槛推向千亿参数量级,创业者的生存空间不在于重复造轮子,而在于成为新大陆的铺路人。”站在北京中关村的落地窗前,这位曾拥有体制内外多重工作经历的跨界创业者,向我们道出 AI 时代创业的变迁。


杨海波指出,AI 领域的竞赛已显现出更残酷的丛林法则。与互联网创业的"721 法则"不同,在大模型等 AI 领域的创业赛道,第一名以外,第二名都可能没有生存空间。这种“赢者通吃”的态势,倒逼创业者必须重构生存逻辑:既不能困守大厂闭环体系失去创新锐度,也不能脱离产业场景陷入技术空转。


他认为,现在做 AI 创业要重点关注两点:第一,确实要有具体的商业场景,创业者本身很容易犯闭门造车的错误。第二,要有自己的数据闭环来守住场景的长期性。“如果有场景但数据无法闭环,那么大概率大模型的能力往前演进走一步就会把你给卷掉,这个创业项目也就随之夭折了。”


“在这个赛道,冠军之外可能都是陪跑者。”光轮智能选择的破局点,是选择直接“卖数据”。这一模式不仅紧贴客户需求,也为其带来了稳定的现金流。


杨海波在最后强调,“我们要做 AGI 时代的‘卖水人’,客户需要的不是仿真工具,而是即用型的高质量具身数据。”正如 19 世纪加州淘金热中真正的赢家是提供铲子、牛仔裤的供应商,在当今 AI 军备竞赛里,光轮智能通过标准化、可复用的合成数据服务,正在成为智能时代不可或缺的基础设施供应商。


2025-06-27 18:5915

评论

发布
暂无评论

高性能存储SIG月度动态:erofs快照器合入containerd社区,ANCK支持virtio-blk直通

OpenAnolis小助手

操作系统 高性能存储 龙蜥社区 龙蜥社区SIG EROFS

下一代产品的“双向奔赴”  鸿蒙版百度网盘发布多项领先AI能力

极客天地

使用DataWorks Notebook实现智能图片标注,给你的图片加个“注释”

阿里云大数据AI技术

大数据 数据分析 ETL 多模态 Dataworks

这些搜索技巧你不会?

Immerse

高性能网络SIG双月动态:加速 SMC eBPF 透明替换特性上游化进程,并与上游深度研讨新特性

OpenAnolis小助手

操作系统 龙蜥社区 smc 龙蜥SIG月报

深入探究小红书笔记详情页面数据采集接口​

tbapi

小红书笔记详情接口 小红书API

TiCDC 新架构 v9.0.0 使用实践

TiDB 社区干货传送门

TiCDC新架构

用 tcpdump 分析 Java 客户端的 prepare 行为

TiDB 社区干货传送门

性能调优 故障排查/诊断

龙蜥社区第六届理事大会成功举行,共话技术创新与生态合作

OpenAnolis小助手

开源 龙蜥社区 OpenAnolis 龙蜥社区理事大会

TiDB × AI :DeepSeek 时代你需要什么样的数据基座

PingCAP

AI TiDB DeepSeek

今日最新消息!黑龙江网络安全等级保护备案新规定,速看!

黑龙江陆陆信息测评部

《Operating System Concepts》阅读笔记:p449-p459

codists

操作系统

SysOM 可观测体系建设(一):万字长文解读低开销、高精度性能剖析工具livetrace

OpenAnolis小助手

AI 可观测性 SysOM 龙蜥系统运维联盟 livetrace

CST软件如何用天线远场计算Group delay延时

思茂信息

cst CST软件 CST Studio Suite

荣耀时刻!第二届开放原子大赛-OS Copilot 学习赛获奖名单新鲜出炉

OpenAnolis小助手

开源 操作系统 龙蜥社区 龙蜥赛事

【Redis技术进阶之路】「原理分析系列开篇」探索事件驱动枚型与数据特久化原理实现(数据持久化的实现AOF)

码界西柚

数据库 redis redis持久化 aof Redis底层原理

Karmada v1.13 版本发布!新增应用优先级调度能力

华为云原生团队

云计算 容器 云原生

探秘能源行业AI密码:云鼎科技用大模型实现了″四个转变″

Alter

“官方网站+公开课程”双赋能,鸿蒙游戏开发者服务焕新升级

最新动态

《汽车电机MES系统实战指南:打造柔性化智能产线的4大核心模块与3项关键技术突破》​

万界星空科技

mes 制造业工厂 电机MES 汽车电机 汽车电机mes

保姆级离线 TiDB V8+ 解释

TiDB 社区干货传送门

8.x 实践

重塑家庭观影标准,海信激光电视探索X1斩获艾普兰奖

新消费日报

重识 APO:DeepSeek 掀起可观性领域变革 | 龙蜥生态

OpenAnolis小助手

AI 系统运维 apo 龙蜥生态 DeepSeek

龙蜥 2024 年度“最佳合作伙伴”揭晓!申威、AMD 等多家新晋贡献厂商实力登榜

OpenAnolis小助手

操作系统 龙蜥社区 OpenAnolis 龙蜥社区年度优秀贡献者

数字化转型投入大、见效慢?中小企业该如何应对?

天津汇柏科技有限公司

数字化转型

电子签借贷真实吗?315报道引发的行业地震!电子签到底冤不冤?

易成研发中心

Karmada v1.13 版本发布!新增应用优先级调度能力

华为云开发者联盟

容器 云原生 集群 Karmada

电子签高利贷实况解读:央视3·15乌龙曝光,电子签行业替高利贷买单

易成研发中心

在京东做技术是种什么体验?| 13位零售人告诉你答案

京东零售技术

多智能体强化学习的算力调度创新,让每一份算力都创造广告价值 | 京东零售技术实践

京东零售技术

【2月13日 - 3月14日】TiCDC 新架构试用通道正式开启,全新升级,抢先体验,多重参与奖励等你拿!

TiDB 社区干货传送门

这波AI淘金热里,卖“铲子”的公司正闷声发财,“征服"了几十家国内外巨头!_AI&大模型_华卫_InfoQ精选文章