写点什么

90 后清华学霸带队、成立不足一年估值破百亿元,“狂卷”长文本的月之暗面 Kimi 正被大厂“围剿”

  • 2024-03-25
    北京
  • 本文字数:3384 字

    阅读完需:约 11 分钟

大小:1.72M时长:10:00
90后清华学霸带队、成立不足一年估值破百亿元,“狂卷”长文本的月之暗面Kimi 正被大厂“围剿”

上周,月之暗面(Moonshot AI)公司宣布旗下对话式 AI 助理产品 Kimi 应用现已支持 200 万字无损上下文输入。去年 10 月发布时,Kimi 仅支持 20 万字的无损上下文输入长度。而在此前,GPT-4Turbo-128k 公布的数字约 10 万汉字,百川智能发布的 Baichuan2-192K 能够处理约 35 万个汉字。


因为在长上下文窗口技术上取得突破,月之暗面这款产品 Kimi 在业界和资本市场都引起了巨大的轰动,更催生了与之相关的“Kimi 概念股”:近来因 Kimi 概念被市场高度关注的九安医疗,3 月 20 日—22 日,股票交易异常波动,收盘价格涨幅偏离值累计超 20%。


Kimi 之所以能够在短时间内获得如此高的关注度,与其卓越的长文本读取和解析能力密不可分。


长文本技术,即模型处理和理解超长文本内容的能力,也就是让大模型能够更全面地理解和分析复杂的文字内容,提高大模型的整体性能和准确性。


在当今信息爆炸的时代,处理大量的长文本数据成为了许多企业和个人用户的迫切需求。而 Kimi 正是满足了这一需求,凭借其强大的长文本处理能力,赢得了市场的广泛认可。不仅如此,Kimi 的用户数量也在短时间内激增,巨大的流量涌入使得其服务器一度承受了巨大的压力,21 日下午,月之暗面旗下大模型应用 kimi 的 APP 和小程序均无法正常使用。


此前,月之暗面发布情况说明:从 2024.3.209:30:00 开始,观测到 Kimi 的系统流量持续异常增高,流量增加的趋势远超对资源的预期规划。这导致了从 2024.3.2010:00:00 开始,有较多的 SaaS 客户持续的体验到 429:engineisoverloaded 的异常问题,并对此表示深表抱歉。


公开资料显示,月之暗面成立于 2023 年 4 月,法定代表人杨植麟毕业于清华大学交叉信息学院。截至目前,月之暗面公司已完成三笔融资,获红杉中国、真格基金等机构投资,最新一轮融资超 10 亿美元,投资方包括阿里、红杉中国、小红书、美团等,估值达 25 亿美元(约合人民币 180 亿元),是国内最主要的大模型独角兽之一。


然而,就在 Kimi 风头正劲的时候,行业内的大厂们也坐不住了,纷纷宣称他们在长文本处理能力上也有了新进展。阿里巴巴的通义千问项目开放了 1000 万字的长文本处理能力,这一数字远超 Kimi 目前能提供的 200 万字长文本处理能力。


360 公司也不甘示弱,其 360 智脑开始内测 500 万字的长文本处理功能,并计划将其整合至 360AI 浏览器中。


百度作为国内互联网巨头之一,也宣布计划在下月推出 200 万至 500 万字的长文本处理能力。那么,大厂们都在卷的长文本处理能力为什么如此重要?它能切实解决哪些问题?这项能力会成为未来大模型竞争的关键差异点吗?


AI 前线采访了某大模型研发公司一位技术专家 Jack,他是 Kimi 的第一批注册用户,使用的是月之暗面宣传的 20k 上下文的模型。


据 Jack 表示,“Kimi 最大的优势是对上下文的总结能力相当好,可以快速的帮助我们理解文章的重点,而其短板是,当我们需要快速定位文章的具体信息时,它就无法满足需求了,依旧是总结,而不是给出确切的信息。”


“比如进行文章辅助阅读时,Kimi 对文章的章节进行总结,能大概梳理文章的内容,但是要对定位具体文章内容时,它是无法定位的,还是依靠了大语言模型的总结能力,没有更独特的处理方式。”


某数据平台公司技术专家 Petter 表示自己也曾测试过 Kimi,当时他充值了 50 元钱测试了 Web 版本和 API,让 Peter 觉得有趣的是充值系统竟然是银行转账。


Petter 称:“Kimi Web 版本优势是很慷慨,免费无限制使用,而且可以支持大文本的输入,生成长度也还不错,生成效果中规中矩。API 版本相比较而言,价格有一定优势。”


“我主要测试的是编码和翻译类问题。编码和翻译其实都非常吃窗口,而且对生成长度也有要求,而 Kimi 的优势正好是长窗口支持。效果我个人认为是中规中矩,但是应该是在国内第一梯队。”

长文本能力,是赢下大模型之战的“核弹级武器”吗?


长文本处理其实应该叫窗口。如果把大模型比作一个操作系统,那么长窗口实际上就是操作系统里的内存,内存越大,应用开发会越简单。


可以看出,在大模型技术不断更新的如今,并不是 Kimi 一家在长文本处理能力上下足了功夫。


今年 2 月初,谷歌发布了 Gemini 1.5Pro,这个模型最大的特点就是创下了最长上下文窗口的纪录。


根据官方披露,Gemini1.5 Pro 将上下文窗口容量提到了 100 万 token(极限为 1000 万 token),远远超出了 Gemini 1.0 最初的 32000 个 token,此前的 SOTA 模型也才将上下文窗口容量提高到了 20 万 token。


这意味着 Gemini1.5 Pro 可以自如地处理 22 小时的录音、超过十倍的完整的 1440 页的书(587,287 字)《战争与和平》,以及四万多行代码、三小时的视频。


凭借超长上下文理解能力,Gemini 1.5 Pro 得到了很多用户的认可。很多测试过 Gemini 1.5 Pro 的人更是直言,这个模型被低估了。


当然,除了谷歌在卷“上下文长度”,国外其他大模型巨头们也都在这项能力上不甘示弱。去年下半年,GPT-3.5 上下文输入长度从 4 千增长至 1.6 万 token,GPT-4 从 8 千增长至 3.2 万 token;Anthropic 一次性将上下文长度打到了 10 万 token;LongLLaMA 将上下文的长度扩展到 25.6 万 token,甚至更多。


大厂都在卷的这个能力,会成为未来大模型差异化竞争的关键点吗?


Petter 表示:“大模型终究需要应用落地,而应用落地很重要的一点就是长窗口支持,否则就是无穷无尽的 RAG tricks,耗费应用层工程师大量的精力,效果还要打折扣。未来长窗口将会是大模型的标配,但也会有天花板。目前来看,谁先在这一方面做得好,谁就能优先获得应用生态优势”。


就此问题 AI 前线还采访了某数据库厂商的技术专家 Lucky,他从数据角度分析了长文本能力在大模型竞争中的重要性。


Lucky 表示,“大模型的长文本能力可以视为赢得这场大模型技术之战的‘核弹级武器’之一。”


在技术层面,长文本能力的实现依赖于模型的参数量和内存容量。一个模型如果能够支持更长的上下文,就意味着它能够处理更复杂的信息,拥有更大的“内存”来学习和记忆,从而在应用效果上更加深入和广泛。比如,处理法律合同、分析市场趋势、梳理小说情节等,这些都需要模型具有处理长文本的能力。


从实际应用的角度看,长文本技术的突破使得大模型能够应对更多样化的需求。谁先突破这项技术谁就能先吃到市场的红利。例如月之暗面的 Kimi Chat 目前超越了市面上大多数仅支持数万字文本量的大模型。这样的技术进步使得律师、分析师等专业人士能够更方便地使用 AI 应用处理工作中遇到的超长文本,极大提升了工作效率和准确性,也让月之暗面收获了比以往更多的关注。


对于长文本未来的发展趋势,Petter 也坦言,就像现在内存从 64k 发展到了普通 PC 的 128G、服务器的 1TB、总是会有个上限,这个上限在哪里由硬件显存、位置编码、算法多层等决定。

多家上市公司回应是否与 Kimi 合作


月之暗面初次亮相于大众视野中就自带光环:这家公司的创始人杨植麟是 90 后,清华大学的高材生,创始团队也备受瞩目,一年内完成了三次融资……今年 2 月,该公司完成了一笔巨额融资,以超过 10 亿美元的 B 轮融资,阿里巴巴领投,砺思资本和小红书跟投,投后估值达到了约 25 亿美元。


Kimi 的火爆,引发相关概念股震动。截至 3 月 21 日收盘,华策影视 20cm 涨停,掌阅科技两连板,中广天择涨停,海天瑞声涨超 5%,中文在线、因赛集团、慈文传媒都有不同程度涨幅。


与此同时,市场上也出现“这些企业是否和 Kimi 有合作”的疑问。近日,多家上市公司回应了相关问题。


中广天择在投资者互动平台上表示,公司与万兴科技的合作主要是为其音视频模型训练提供优质的版权数据,这表明中广天择在与万兴科技的合作中可能涉及到月之暗面的技术支持。


海天瑞声称过往未曾与月之暗面产生过业务合作;易点天下表示公司已接入 Kimi Chat;卫宁健康表示自研医疗大模型 WiNGPT 目前未用到 Kimi 相关技术;中广天择也发公告表示目前公司和 Kimi 没有合作。


在回答投资者关于“公司作为自动驾驶车载中控系统供应商,是否考虑在驾驶辅助系统里面接入 Kimi 语言大模型、科大讯飞的星火大模型?”的问题时,华安鑫创表示,公司重视技术创新,相关内容处于内部讨论阶段,暂未接入。


月之暗面方面在接受媒体采访时表示,月之暗面的开放平台是面向所有开发者和企业用户开放的,任何合规的开发者和企业,都可以将 Kimi 智能助手背后的同款大模型 API 接入到自己的产品或服务中。


值得注意的是,3 月 20 日,行业大模型解决方案提供商循环智能宣布,与通用大模型公司月之暗面达成战略合作。据了解,循环智能将基于月之暗面的通用大模型,为业界提供针对各种业务场景的行业大模型解决方案及应用。


特别说明:此文章中的提到的技术专家 Jack、Petter 和 Lucky 均为化名。

2024-03-25 16:215410
用户头像
李冬梅 加V:busulishang4668

发布了 1179 篇内容, 共 800.9 次阅读, 收获喜欢 1299 次。

关注

评论 1 条评论

发布
用户头像
概念股也太概念了,做为客户都能沾光,笑死了
2024-03-29 14:40 · 北京
回复
没有更多了
发现更多内容

用Python保住“设计大哥“的头发,直接甩给他10000张参考图,爬虫采集【稿定设计】平面模板素材

梦想橡皮擦

11月日更

传统IT开发与低代码开发争议白热化,技术开发规则或将重构?

优秀

低代码 低代码开发 低代码平台

中国邮政邮科院 X StarRocks:统一OLAP平台,大幅降低运维成本

StarRocks

数据库 大数据 数据分析 StarRocks

【得物技术】基于自注意机制的图像识别算法

得物技术

算法 图像识别 识别 图像 算法实践

惊为天人!Alibaba新产SpringBoot深度历险(嵩山版)开源

热爱java的分享家

Java 架构 面试 程序人生 编程语言

技术分享 | 让实时协同的框架绘图变得丝滑起来

ShowMeBug

架构 绘图 实时消息

我为什么坚持在公司开分享会?

boshi

团队管理 知识管理

Can't Connect to MySQL Server on IP Address (10061) 错误的解决方案

蒋川

MySQL 数据库 MySQL 运维 MySQL 数据库

阿里云发布云原生加速器,携手生态企业拥抱数字时代

阿里巴巴云原生

云计算 阿里云 云原生 生态企业 创投

Elasticsearch写入数据的过程是什么?以及是如何更新索引数据的

热爱java的分享家

Java 架构 程序人生 编程语言 架构师

大规模任务调度在 AfterShip 的高可用实践

AfterShip

高可用 任务调度 基础架构

24H营业的无人售药机上线 EasyDL帮你实现“排队自由”

百度大脑

人工智能 百度

linux shell 命令行移动光标快捷键之跳到行首尾

WindFlying

跨越速运 x StarRocks:统一查询引擎,强悍性能带来极速体验

StarRocks

数据库 大数据 数据分析 StarRocks

NLP进阶,使用TextRNN和TextRNN_ATT实现文本分类

AI浩

36道Java经典基础与高级面试题,面完(18K)你同意吗?

热爱java的分享家

Java 架构 程序人生 编程语言 经验分享

Python代码阅读(第60篇):列表是否包括指定的元素

Felix

Python 编程 列表 阅读代码 Python初学者

起飞!Alibaba全新出品JDK源码学习指南(终极版)限时开源

热爱java的分享家

Java 架构 面试 程序人生 编程语言

文本检测实战:使用OpenCV实现文本检测(EAST 文本检测器)

AI浩

自定义View:如何手动实现ViewGroup的拖拽

Changing Lin

11月日更

前端遇到的那些技术难点

CRMEB

AfterShip 亿级流量 API 网关的演进

AfterShip

架构演进 kong API Gateway

“阿里爸爸”又爆新作!Github新开源303页Spring全家桶高级笔记

热爱java的分享家

Java 架构 面试 程序人生 编程语言

19 K8S之临时/hostPath/网络存储卷

穿过生命散发芬芳

k8s 11月日更

StarRocks在格洛博电商系统的应用实践

StarRocks

数据库 大数据 数据分析 StarRocks

猿辅导 x StarRocks:构建统一OLAP平台,全面升级数据分析能力

StarRocks

数据库 数据分析 StarRocks

内测邀请|宜搭应用搭建体验全新升级,邀您抢先体验!

一只大光圈

钉钉 低代码 数字化转型 低代码平台 钉钉宜搭

Lenovo x StarRocks:简化数据处理链路,极大提升BI分析效率

StarRocks

数据库 大数据 数据分析 StarRocks

MatrixDB 4.3 新特性:从“持续聚集”说起

YMatrix 超融合数据库

时序数据库 分布式时序数据库 MatrixDB

阿里云发布云原生加速器,携手生态企业拥抱数字时代

阿里巴巴中间件

云计算 阿里云 云原生 中间件 数字化

Go 语言学习查缺补漏ing Day1

Regan Yue

Go 语言 11月日更

90后清华学霸带队、成立不足一年估值破百亿元,“狂卷”长文本的月之暗面Kimi 正被大厂“围剿”_生成式 AI_李冬梅_InfoQ精选文章