写点什么

“AI 六小虎”两年混战,新的较量开始

  • 2025-04-16
    北京
  • 本文字数:4935 字

    阅读完需:约 16 分钟

大小:2.47M时长:14:23
“AI六小虎”两年混战,新的较量开始

智谱被曝启动上市备案,但六小虎胜者未定。


“AI 六小虎”是过去两年国内大模型时代的一个标志,指的是当年最早完成 10 亿+美元融资,且均拥有自研千亿参数级大模型,在国际基准测试中与 GPT-4、Llama 等对标的大模型创业公司。

 

这是当时那个阶段中国大模型的代表,代表了一个时代的认知。但如今,随着六家公司分化出各自不同的道路,这个符号背后代表的大模型发展也有了不同的含义。


两年时间基本完成第一轮较量

 

2023 年上半年,百川智能、阶跃星辰、零一万物和月之暗面成立,DeepSeek 也是这一年成立。智谱和 MiniMax 要更早些,分别是在 2019 年和 2021 年。

 

在过去两年多时间里,大模型公司主要围绕着模型层、产品层和营销层三个方面展开较量。

 

总体看来,MiniMax、月之暗面前期在技术上的对外分享并不多,反而是在产品上更有优势,比如月之暗面巨额投放的 kimi、MiniMax 主打出海的 AI 虚拟人物聊天软件 Talkie 等,其应用的知名度高于大模型本身。而百川、阶跃星辰、零一万物和智谱入局后都先将精力放在了模型研发上,大模型的知名度高于后推出的应用。

 

过去两年间,对国内大模型公司基座模型研发影响最大的就是 OpenAI。从 1 亿多参数的 GPT-1 到 1.8 万亿参数的 GPT-4,模型参数成为早期大模型创企的必争指标。在去年上半年,AI 六小虎大都迈入了千亿参数模型行列,但之后基座模型的参数规模也基本停留在了这个阶段。

 

  • 百川最早在 23 年 6 月发布了中英文语言模型 Baichuan-7B,24 年 1 月发布了超千亿参数的大语言模型 Baichuan 3,四个月后发布 Baichuan4。

  • 阶跃星辰在成立一年后的 24 年 3 月,首发了千亿参数语言大模型 Step-1、Step-1V 千亿参数多模态大模型和 Step-2 万亿参数 MoE 语言大模型预览版。当年 7 月,又发布了 Step-2 正式版、Step-1.5V 多模态大模型和 Step-1X 图像生成大模型。

  • 零一万物在当年 11 月开源发布首款预训练大模型 Yi-34B,24 年 5 月发布千亿参数闭源大模型 Yi - Large。

  • MiniMax 的 ABAB 大模型在 2023 年 8 月通过备案,向公众开放。去年 4 月,ABAB 6.5 万亿参数的 MoE 模型发布,支持 245k 上下文窗口。

  • 智谱 2021 年开源百亿大模型 GLM-10B,2022 年 8 月就发布了千亿参数大模型 GLM-130B,2024 年 1 月迭代到最新的 GLM-4。

  • 这一时期,月之暗面并未公布基座模型的参数信息,技术上是靠长上下文出圈。

 

第一轮关于参数的争夺基本落幕。但当前,基座模型的参数量还远远没有达到瓶颈和人类顺利使用大模型的需求目标,不再卷参数规模反映出了大模型一直以来都面临的困境。

 

正如白鲸开源 CEO 郭炜所说,大模型公司竞争的关键要素其实一直没有变化,模型参数规模还是重要的衡量指标,只不过中国原创大模型都遇到了“三不够”的挑战:钱不够、卡不够、数据不够,这种情况下,大模型参数很难提上去。

 

基座模型最核心的问题在于需要持续投入高额算力和密集的高端人才,处于追赶阶段的大模型公司需要投入更多。另外,基座模型的盈利周期较长,短期内难以拥有自我造血能力,这就要求企业要么持续大规模融资,要么自身具备足够雄厚的现金流来支撑长期竞争。

 

但对于初期还在快速向前奔跑的公司来说,降本不是一件重要的事情,占领市场更重要。郭炜认为,等发现“三不够”的时候再做降本这件事也来得及,但就要看公司的战略决心和战略眼光了。

 

在“三不够”的情况下,AI 六小虎早已分化赛道,这并非完全因为 DeepSeek,更多是在资源不足下,有的企业开始转而求其次,在新大模型下蒸馏和工程化创新、在细分领域深耕领域大模型、在全球化领域想办法做应用挣钱,这些是无奈的选择。

 

比如,百川现已转向垂直模型。早在去年 2 月,百川发布了医疗垂域通用大模型 baichuan2-Turbo,同年 12 月推出全链路领域增强金融大模型 Baichuan4 - Finance。今年 3 月消息称,百川再收缩和裁撤金融业务、all in 医疗,此外也暂停了预训练。

 

零一万物在去年 5 月就放弃了原定的万亿参数 Yi-X-Large 模型训练计划,转而训练更轻量化、更具商业落地前景的 MoE(混合专家)模型 Yi-Lightning。2025 年更是与阿里云合作,将耗费成本和精力更大的超大模型交给阿里训练,并明确表示不会再做万亿以上超大参数模型。

 

张鹏则在近期表示智谱依然还在做预训练模型,并非只训小模型。去年底,阶跃星辰称自己坚持预训练、继续冲击 AGI。MiniMax、月之暗面目前也未有停止预训练的消息。可见,基础大模型的参数之争或许不再激烈,但整体竞争还远远没到得出结果的时候。



DeepSeek 催化各方迅速决策

 

推理是大模型烧钱背景下做出的一个重要路径选择。OpenAI 在 2024 年 9 月发布的推理模型 GPT-o1 成为大模型竞争的一个分界点,而后来者 DeepSeek 无疑成为这次游戏的最大赢家之一。

 

有投资人指出,DeepSeek 的出圈并不是靠模型能力碾压 OpenAI 或 Claude、达到三五倍的用户体验优势,而是通过一种极具中国特色的“制造业式”成本控制——在各个维度性能差距仅 5%-10%的情况下,将推理成本压缩到了 1/30 至 1/50。

 

这就好比在软件商店里用极致性价比实现了突围,这种出圈方式反过来也印证了当前行业的竞争逻辑。DeepSeek 探索出的这条路径目前给其他几家的技术路线带来了挑战。

 

DeepSeek 的爆火和开源无疑让投资人和大模型企业纷纷紧张,但他们最终得出的结论是:目前还远未到能对整个行业格局下定论的时候,整个行业仍处于你追我赶的发展阶段,并非终局。

 

而 DeepSeek 最重要的行业影响之一在于帮助整个生态的参与者快速找准了自己的战略定位。如果说之前大家还在犹豫是做大模型、应用开发还是深耕垂直领域的话,DeepSeek 则让各方迅速认清了适合自己的发展方向。

 

  • 百川智能战略收缩,聚焦在了 B 端医疗领域深耕,比如与北京儿童医院合作推进医疗大模型,逐渐深化技术场景化能力。但目前基座模型迭代速度放缓,其 C 端应用发展不及预期,近期人才流失也较为严重。

  • 阶跃星辰目前有万亿级模型和多模态技术储备,长期以来较为低调,市场声量、用户认知度可能不及其他五家。

  • 零一万物刻意控制模型研发成本,聚焦在轻量级模型上。商业化路径确定 To B 市场,通过性价比和本地化服务与大厂竞争,此外海外用户付费意愿强,单款产品年收入过亿元。但其灵活调整的战略也带来了人才流动和业务重心频繁转变的挑战。

  • Minimax 作为国内首家多模态大模型创业公司,有一定多模态技术积累,而且国内外产品双线布局,取得了可观商业化收入,2024 年收入或达 7000 万美元,其中多数来自 Talkie。但多模态领域竞争激烈,海外产品也会面临合规等风险。

  • 智谱还在持续迭代基础模型和多模态模型,并技术开源。商业化路径也较为清晰,其在 B 端和 G 端市场表现突出。但 B 端服务上有被质疑“只会做定制化项目”,可能限制规模化发展,C 端应用开发和流量不够突出。此外,智谱目前已在北京证监局办理辅导备案,由中国国际金融股份有限公司担任辅导机构,为其上市进程做准备。

  • 月之暗面有很突出的 C 端产品 Kimi,但前期过于依赖大厂流量投放,用户黏性和可持续性面临挑战。此外,模型信息透明度较低,最初建立的长文本优势被快速打破,需建立新的技术突破,C 端也面临大厂挤压风险。

 

此外,AI 六小虎的分化,也让大厂迎来了赶超的最佳时机,如阿里的 Qwen、字节的豆包等大模型,腾讯混元也在后续发力,吸纳了大量 DeepSeek 红利和流量。

 

郭炜分析称,AI 六小虎的“三不够”,正是大厂的“三够”,与 C 端 App 短期烧钱就能烧出结果不同,大模型是一个长期的“全面战争”,大厂“三够”情况下更能坚持下去。

 

“大模型没有技术壁垒”

 

对于是否还要投入基础模型的问题,答案其实无外乎坚持和转向。

 

现在,大模型公司面临的选择基本就是:要么转向投入较低的方向、以维持更长时间实现盈利,要么继续争取更多资金去摘取“皇冠上的明珠”,但这要看市场是否还愿意支持这个还要持续高投入三、五年之久的梦想。至于最终登顶的是谁,取决于其选择的发展路径和关键环节的把握,而答案可能需要等两到三年的时间才能分晓。

 

有一部分人并不太看好继续坚持基座模型。某大厂高管认为,如果做不到 DeepSeek 的水平,可能就没必要投入基座大模型的研发了。现在这个赛道的门槛已经高到离谱——光是训练集群就得从 1 万张显卡起步,绝大多数公司根本承担不起这种成本。DeepSeek 团队也纯粹是因为老板资金雄厚。其认为,现阶段最现实的路径还是等他们即将开源的新版本。只要完整的技术方案公开,行业跟进的成本会大幅降低。

 

在该高管看来,除非出现革命性的技术路线突破,比如多模态领域找到新方向才值得重点关注,因为多模态技术能整合图像、语音等多媒体数据,理论上具备近乎无限的数据扩展空间。

 

但是,基座模型的战略价值依然显著,它不仅为上层应用提供技术底座,还对整个 AI 生态发展有不可替代的推动作用。

 

如果要想在大模型上继续突破,有业内人士认为必须在两个维度有所突破:第一是模型能力必须足够惊艳,但这一点很难:第一波从 60%到 80%准确率容易,但现在从 95%到 97%会异常艰难;第二是成本控制,能否用更创新的架构实现比 DeepSeek 更低的推理成本,然后出圈,这也是很好的一条路径。但如果这两点都做不到,那就需要认真考虑战略转型:是拥抱开源生态做 ToB 服务,还是彻底转向产品化做 ToC 应用。

 

值得注意的是,郭炜指出,大模型没有技术壁垒,或者说,在商业世界里技术本身就不是壁垒。“虽然有些绝对,但是创业之后我深刻理解到:超强的技术算法优势背后是人才的竞争,是战略的先知先决,是困难时刻战略方向的坚持,是大量资本的投入,这都与技术无关。所以,模型技术能力在短期竞争内有决定性作用,但是在中长线竞争当中绝对不是最重要的壁垒。”

 

但目前大模型公司基本已经形成了开源的共识。“拥抱开源是 AI 六小虎的唯一出路。”郭炜说道。

 

“大模型周期太长、投入太大了,一家公司很难融到那么多钱、买到那么多卡、找到那么多数据,只有充分利用开源的方式建立起市场的认知标准,全民一起共建才有胜利的希望。否则,DeepSeek 及其开源大模型相关生态会碾压过去 AI 六小虎的所有成就。那么,AI 六小虎也只能是“AI 六小猫”,去做细分领域模型和应用了。”郭炜分析称。

 

一直以来,国内外的大模型公司都面临着闭源与开源路线的选择。经过两年以来的开闭源之争,天平已经明显倾向了开源,之前闭源的 OpenAI、百度等也开始拥抱开源。而在被曝出开启上市辅导的同一天,智谱又一口气上线并开源了三大类最新的 GLM 模型。

 

商业化,重要吗?

 

另外,最近可以看到大模型企业开始纷纷“秀客户”,来证明自己的商业落地能力。

 

郭炜表示,商业化对 AI 六小虎不是那么重要,反而收缩战线,形成单点突破(比如 DeepSeek)比全面出击商业化重要得多。

 

关于这一点,王小川在百川两周年的全员信中也提到了过早商业化的问题,基础模型、垂直模型、C 端应用到过早商业化,全面布局的结果就是极大增加了百川智能组织的复杂度。

 

而有的投资人则认为,大模型企业必须紧跟场景,发挥数据优势、完善商业闭环。“无论世界怎么变化,商业的本质始终存在。”核心打法是要做出差异化。

 

实际上,对于一直在寻求融资的 AI 六小虎来说,不商业化似乎也是不可能的。与 DeepSeek 不同,AI 六小虎融到的钱总有一天会花完,他们必须要自我造血、创造现金流。

 

普遍来看,业内人士更看好 To B 领域,因为这项技术能够大幅提高效率、降低成本,并减少人力投入,因此开始产生一些收入,尤其 DeepSeek 极大减轻了市场教育压力,很多企业是主动部署,而非被动推销。但在 To C 领域,目前还没有出现爆款应用,另外紧贴大模型能力开发的应用,一旦基础模型升级,很多应用可能就要彻底改变。

 

关键在于什么样的应用场景能让用户愿意支付如此高昂的成本使用 AI 来解决问题。研究领域相对特定且拥有高质量数据集,这个场景下,用户可能愿意为了发表论文每个月支付 200 美金。但在更发散、更泛化的环境里,情况就完全不同了。

结束语

 

在最终没有跑出结果之前很难谈优劣,创业者永远都是和时间赛跑,太早就是“先烈”,太晚汤都喝不到。合适的时机、合适的场景做出合适的产品,是创业者最难的决策,也是最有意思的挑战。

 

在郭炜看来,AI 六小虎是大模型领域的先驱,也是这个市场最好的“教育者”,如果没有他们,大多数技术开发者都无法接触到廉价的国产大模型,也就不会有 DeepSeek 的爆点。然而,最终先驱是不是先烈,还是看“三不够”场景下,如何在大模型领域形成自己的生态和闭环。

 

“不要妄谈任何一个这个时代的大模型创业者,所有人都是勇士。”郭炜说道。

2025-04-16 10:468965

评论

发布
暂无评论

深入理解C++右值引用和移动语义:全面解析

小万哥

后端 开发 C++11 右值引用 移动语义

测试用例设计指南

京东科技开发者

软件测试 测试用例

视频动态壁纸:Dynamic Wallpaper 激活版

真大的脸盆

Mac Mac 软件 动态壁纸 高清动态壁纸

Last Week in Milvus

Zilliz

非结构化数据 Milvus 向量数据库

掌握C++中static关键字的多种使用场景

小万哥

c++ 程序员 后端 开发 static

MySQL kill会话不起作用?

GreatSQL

MySQL greatsql社区

机器学习算法(二): 基于鸢尾花数据集的朴素贝叶斯(Naive Bayes)预测分类

汀丶人工智能

数据挖掘 机器学习

微信小程序管理软件有哪些特点?

没有用户名丶

微信小程序

美团二面:细数 Redis 阻塞的9种情况

Java redis 面试

机器学习算法(三):基于horse-colic数据的KNN近邻(k-nearest neighbors)预测分类

汀丶人工智能

数据挖掘 机器学习

集成Health Kit时因证书问题出现错误码50063的解决方案

HarmonyOS SDK

HMS Core

Qualcomm QCN9074 4x4 MIMO 802.11ax MX6974 F5 WIFI6 Module

MAXON

QCN9074

大模型落地比趋势更重要,NLP+金融如何看得见、摸得着?

脑极体

AI金融

链上衍生品赛道成新趋势,Protradex生态成首要推动者

股市老人

TLS、SSL、CA 证书、公钥、私钥。。。今天捋一捋!

江南一点雨

gRPC TLS CA ssl

熬了一个月肝完这份阿里P8的Java面试手册,我从20K变成了30K

Java你猿哥

Java 面经 校招 春招 八股文

ClickHouse为什么这么快

数新网络官方账号

Clickhouse

C++编程必备:对象生命周期管理的最佳实践

小万哥

c++ 后端 生命周期 对象模型 RAII

当你对 redis 说你中意的女孩是 Mia

京东科技开发者

c++ 数据库 redis 缓存 企业号 3 月 PK 榜

春招升级打怪拿offer,10w+字总结的Java面试题(附答案)够你刷

Java java面试 Java八股文 Java面试题 Java面试八股文

太全了!马士兵内部共享—1658页《Java面试突击核心讲》

Java java面试 Java八股文 Java面试题 Java面试八股文

智能控制 | AIRIOT智慧楼宇管理解决方案

AIRIOT

物联网 智慧楼宇

架构训练营 - 模块七作业

Sam

架构实战营

ProTradex是链上衍生品领域发展的强力推手

鳄鱼视界

Protradex,一个专注于链上衍生品交易市场的收益优化聚合平台

股市老人

三天吃透MongoDB面试八股文

程序员大彬

Java mongodb

贪心算法思想与练习

timerring

贪心算法

天天预约 | 预约小程序分销功能,最全的操作指南来啦!

天天预约

小程序 SaaS 系统 预约工具 分销

全新升级|ECS成熟度评估与洞察,助你精准定位运维风险

云布道师

ECS

“AI六小虎”两年混战,新的较量开始_AI&大模型_褚杏娟_InfoQ精选文章