写点什么

90 后清华学霸带队、成立不足一年估值破百亿元,“狂卷”长文本的月之暗面 Kimi 正被大厂“围剿”

  • 2024-03-25
    北京
  • 本文字数:3384 字

    阅读完需:约 11 分钟

大小:1.72M时长:10:00
90后清华学霸带队、成立不足一年估值破百亿元,“狂卷”长文本的月之暗面Kimi 正被大厂“围剿”

上周,月之暗面(Moonshot AI)公司宣布旗下对话式 AI 助理产品 Kimi 应用现已支持 200 万字无损上下文输入。去年 10 月发布时,Kimi 仅支持 20 万字的无损上下文输入长度。而在此前,GPT-4Turbo-128k 公布的数字约 10 万汉字,百川智能发布的 Baichuan2-192K 能够处理约 35 万个汉字。


因为在长上下文窗口技术上取得突破,月之暗面这款产品 Kimi 在业界和资本市场都引起了巨大的轰动,更催生了与之相关的“Kimi 概念股”:近来因 Kimi 概念被市场高度关注的九安医疗,3 月 20 日—22 日,股票交易异常波动,收盘价格涨幅偏离值累计超 20%。


Kimi 之所以能够在短时间内获得如此高的关注度,与其卓越的长文本读取和解析能力密不可分。


长文本技术,即模型处理和理解超长文本内容的能力,也就是让大模型能够更全面地理解和分析复杂的文字内容,提高大模型的整体性能和准确性。


在当今信息爆炸的时代,处理大量的长文本数据成为了许多企业和个人用户的迫切需求。而 Kimi 正是满足了这一需求,凭借其强大的长文本处理能力,赢得了市场的广泛认可。不仅如此,Kimi 的用户数量也在短时间内激增,巨大的流量涌入使得其服务器一度承受了巨大的压力,21 日下午,月之暗面旗下大模型应用 kimi 的 APP 和小程序均无法正常使用。


此前,月之暗面发布情况说明:从 2024.3.209:30:00 开始,观测到 Kimi 的系统流量持续异常增高,流量增加的趋势远超对资源的预期规划。这导致了从 2024.3.2010:00:00 开始,有较多的 SaaS 客户持续的体验到 429:engineisoverloaded 的异常问题,并对此表示深表抱歉。


公开资料显示,月之暗面成立于 2023 年 4 月,法定代表人杨植麟毕业于清华大学交叉信息学院。截至目前,月之暗面公司已完成三笔融资,获红杉中国、真格基金等机构投资,最新一轮融资超 10 亿美元,投资方包括阿里、红杉中国、小红书、美团等,估值达 25 亿美元(约合人民币 180 亿元),是国内最主要的大模型独角兽之一。


然而,就在 Kimi 风头正劲的时候,行业内的大厂们也坐不住了,纷纷宣称他们在长文本处理能力上也有了新进展。阿里巴巴的通义千问项目开放了 1000 万字的长文本处理能力,这一数字远超 Kimi 目前能提供的 200 万字长文本处理能力。


360 公司也不甘示弱,其 360 智脑开始内测 500 万字的长文本处理功能,并计划将其整合至 360AI 浏览器中。


百度作为国内互联网巨头之一,也宣布计划在下月推出 200 万至 500 万字的长文本处理能力。那么,大厂们都在卷的长文本处理能力为什么如此重要?它能切实解决哪些问题?这项能力会成为未来大模型竞争的关键差异点吗?


AI 前线采访了某大模型研发公司一位技术专家 Jack,他是 Kimi 的第一批注册用户,使用的是月之暗面宣传的 20k 上下文的模型。


据 Jack 表示,“Kimi 最大的优势是对上下文的总结能力相当好,可以快速的帮助我们理解文章的重点,而其短板是,当我们需要快速定位文章的具体信息时,它就无法满足需求了,依旧是总结,而不是给出确切的信息。”


“比如进行文章辅助阅读时,Kimi 对文章的章节进行总结,能大概梳理文章的内容,但是要对定位具体文章内容时,它是无法定位的,还是依靠了大语言模型的总结能力,没有更独特的处理方式。”


某数据平台公司技术专家 Petter 表示自己也曾测试过 Kimi,当时他充值了 50 元钱测试了 Web 版本和 API,让 Peter 觉得有趣的是充值系统竟然是银行转账。


Petter 称:“Kimi Web 版本优势是很慷慨,免费无限制使用,而且可以支持大文本的输入,生成长度也还不错,生成效果中规中矩。API 版本相比较而言,价格有一定优势。”


“我主要测试的是编码和翻译类问题。编码和翻译其实都非常吃窗口,而且对生成长度也有要求,而 Kimi 的优势正好是长窗口支持。效果我个人认为是中规中矩,但是应该是在国内第一梯队。”

长文本能力,是赢下大模型之战的“核弹级武器”吗?


长文本处理其实应该叫窗口。如果把大模型比作一个操作系统,那么长窗口实际上就是操作系统里的内存,内存越大,应用开发会越简单。


可以看出,在大模型技术不断更新的如今,并不是 Kimi 一家在长文本处理能力上下足了功夫。


今年 2 月初,谷歌发布了 Gemini 1.5Pro,这个模型最大的特点就是创下了最长上下文窗口的纪录。


根据官方披露,Gemini1.5 Pro 将上下文窗口容量提到了 100 万 token(极限为 1000 万 token),远远超出了 Gemini 1.0 最初的 32000 个 token,此前的 SOTA 模型也才将上下文窗口容量提高到了 20 万 token。


这意味着 Gemini1.5 Pro 可以自如地处理 22 小时的录音、超过十倍的完整的 1440 页的书(587,287 字)《战争与和平》,以及四万多行代码、三小时的视频。


凭借超长上下文理解能力,Gemini 1.5 Pro 得到了很多用户的认可。很多测试过 Gemini 1.5 Pro 的人更是直言,这个模型被低估了。


当然,除了谷歌在卷“上下文长度”,国外其他大模型巨头们也都在这项能力上不甘示弱。去年下半年,GPT-3.5 上下文输入长度从 4 千增长至 1.6 万 token,GPT-4 从 8 千增长至 3.2 万 token;Anthropic 一次性将上下文长度打到了 10 万 token;LongLLaMA 将上下文的长度扩展到 25.6 万 token,甚至更多。


大厂都在卷的这个能力,会成为未来大模型差异化竞争的关键点吗?


Petter 表示:“大模型终究需要应用落地,而应用落地很重要的一点就是长窗口支持,否则就是无穷无尽的 RAG tricks,耗费应用层工程师大量的精力,效果还要打折扣。未来长窗口将会是大模型的标配,但也会有天花板。目前来看,谁先在这一方面做得好,谁就能优先获得应用生态优势”。


就此问题 AI 前线还采访了某数据库厂商的技术专家 Lucky,他从数据角度分析了长文本能力在大模型竞争中的重要性。


Lucky 表示,“大模型的长文本能力可以视为赢得这场大模型技术之战的‘核弹级武器’之一。”


在技术层面,长文本能力的实现依赖于模型的参数量和内存容量。一个模型如果能够支持更长的上下文,就意味着它能够处理更复杂的信息,拥有更大的“内存”来学习和记忆,从而在应用效果上更加深入和广泛。比如,处理法律合同、分析市场趋势、梳理小说情节等,这些都需要模型具有处理长文本的能力。


从实际应用的角度看,长文本技术的突破使得大模型能够应对更多样化的需求。谁先突破这项技术谁就能先吃到市场的红利。例如月之暗面的 Kimi Chat 目前超越了市面上大多数仅支持数万字文本量的大模型。这样的技术进步使得律师、分析师等专业人士能够更方便地使用 AI 应用处理工作中遇到的超长文本,极大提升了工作效率和准确性,也让月之暗面收获了比以往更多的关注。


对于长文本未来的发展趋势,Petter 也坦言,就像现在内存从 64k 发展到了普通 PC 的 128G、服务器的 1TB、总是会有个上限,这个上限在哪里由硬件显存、位置编码、算法多层等决定。

多家上市公司回应是否与 Kimi 合作


月之暗面初次亮相于大众视野中就自带光环:这家公司的创始人杨植麟是 90 后,清华大学的高材生,创始团队也备受瞩目,一年内完成了三次融资……今年 2 月,该公司完成了一笔巨额融资,以超过 10 亿美元的 B 轮融资,阿里巴巴领投,砺思资本和小红书跟投,投后估值达到了约 25 亿美元。


Kimi 的火爆,引发相关概念股震动。截至 3 月 21 日收盘,华策影视 20cm 涨停,掌阅科技两连板,中广天择涨停,海天瑞声涨超 5%,中文在线、因赛集团、慈文传媒都有不同程度涨幅。


与此同时,市场上也出现“这些企业是否和 Kimi 有合作”的疑问。近日,多家上市公司回应了相关问题。


中广天择在投资者互动平台上表示,公司与万兴科技的合作主要是为其音视频模型训练提供优质的版权数据,这表明中广天择在与万兴科技的合作中可能涉及到月之暗面的技术支持。


海天瑞声称过往未曾与月之暗面产生过业务合作;易点天下表示公司已接入 Kimi Chat;卫宁健康表示自研医疗大模型 WiNGPT 目前未用到 Kimi 相关技术;中广天择也发公告表示目前公司和 Kimi 没有合作。


在回答投资者关于“公司作为自动驾驶车载中控系统供应商,是否考虑在驾驶辅助系统里面接入 Kimi 语言大模型、科大讯飞的星火大模型?”的问题时,华安鑫创表示,公司重视技术创新,相关内容处于内部讨论阶段,暂未接入。


月之暗面方面在接受媒体采访时表示,月之暗面的开放平台是面向所有开发者和企业用户开放的,任何合规的开发者和企业,都可以将 Kimi 智能助手背后的同款大模型 API 接入到自己的产品或服务中。


值得注意的是,3 月 20 日,行业大模型解决方案提供商循环智能宣布,与通用大模型公司月之暗面达成战略合作。据了解,循环智能将基于月之暗面的通用大模型,为业界提供针对各种业务场景的行业大模型解决方案及应用。


特别说明:此文章中的提到的技术专家 Jack、Petter 和 Lucky 均为化名。

2024-03-25 16:215228
用户头像
李冬梅 加V:busulishang4668

发布了 1093 篇内容, 共 707.9 次阅读, 收获喜欢 1243 次。

关注

评论 1 条评论

发布
用户头像
概念股也太概念了,做为客户都能沾光,笑死了
2024-03-29 14:40 · 北京
回复
没有更多了
发现更多内容

iVX如何拿捏中大型工程建筑行业砼管理系统

代码制造者

无代码开发 低代码开发中大型系统

为什么我需要AI助手辅助学习python

阿里云云效

Python

流媒体分享系列之广告归因方案

马说IT

广告 流媒体 归因 广告归因 广告归因技术

黑龙江三级等保-信息安全等级保护制度中的重要级别

黑龙江陆陆信息测评部

如何在Mac上查找、打开和检查活动监视器,教你轻松管理你的Mac任务进程

阿拉灯神丁

CleanMyMac 设计软件 mac系统维护 Mac任务管理器 系统优化软件

YashanDB AVG函数

YashanDB

YashanDB BIN函数

YashanDB

昇腾大规模专家并行技术解码 —— All to All 通信优化

科技热闻

2025 年 AI 编程新风向:从智能辅助到自主开发的跨越

飞算JavaAI开发助手

编程 AI 代码

2025 程序员薪资大洗牌:掌握这 3 个 AI 核心技术,薪资瞬间翻倍

飞算JavaAI开发助手

编程 AI 开发者

Kairos 的野望:构建“智能体即服务”生态,让万物皆可 “Agent”

股市老人

看一个有经验的程序员如何学习一门新语言

马说IT

flutter 编程 前端 跨平台 学习分享

想考试PMP的同学看过来

马说IT

项目管理 pmp IT PMP Certification PMP考试

Easysearch VS Opensearch 数据写入与存储性能对比

极限实验室

easysearch OpenSearch

流媒体分享系列之广告归因

马说IT

广告 流媒体 广告归因 归因技术

低代码困局:方法论迷途与破局之道

代码制造者

低代码

SvelteKit 最新中文文档教程(19)—— 最佳实践之身份认证

冴羽

前端 前端框架 React Svelte SvelteKit

流媒体分享系列之用户画像

马说IT

广告 流媒体 用户画像 剧情

“AI+财务”4月活动地图,诚邀您就近入场!

用友智能财务

财务 峰会 会计

为什么我需要AI助手辅助学习python

阿里巴巴云原生

Python

Web3 项目开发的技术难点

北京木奇移动技术有限公司

区块链技术 软件外包公司 web3开发

华为云生态大会2025前瞻:为伙伴们打通行业智能跃迁通路

Alter

大模型如何辅助软件测试与质量体系?

思码逸研发效能

软件测试 研发效能 软件质量 智能化测试 思码逸

一文弄懂用Go实现MCP服务

王中阳Go

Go MCP

25亿专项激励金!百度联盟发布“智跃计划”,开放四大能力赋能开发者

极客天地

表 vs 物化视图:核心区别与选型指南

镜舟科技

分析型数据库 StarRocks 物化视图 实时分析 MPP 架构

看图学会Kubernetes

马说IT

Docker Kubernetes k8s 学习笔记 虚拟化技术

单月飙涨 300%!揭秘MSKE三大核心优势

MSKE铭文

#区块链 比特币行情 MSKE铭文 比特币铭文

为什么mac文件拖拽不了 mac文件拖不进硬盘里 macbookpro文件无法拖进移动硬盘

阿拉灯神丁

mac三指操作设置 NTFS 磁盘管理器 Tuxera NTFS2024 文件拖拽工具 Mac文件管理

去中心化云算力的12项特征,不只是算力分布式

PowerVerse

去中心化 算力 分布式,

夏日炎炎,透明屏如何散热“冷静”?

Dylan

电子 LED display LED显示屏 夏令营 LED屏幕

90后清华学霸带队、成立不足一年估值破百亿元,“狂卷”长文本的月之暗面Kimi 正被大厂“围剿”_生成式 AI_李冬梅_InfoQ精选文章