2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

面壁小钢炮 3.0 重磅发布!“无限”长文本,性能超 Kimi

  • 2024-09-11
    北京
  • 本文字数:1677 字

    阅读完需:约 6 分钟

大小:830.82K时长:04:43
面壁小钢炮 3.0 重磅发布!“无限”长文本,性能超 Kimi

近日,面壁智能宣布,旗舰端侧模型面壁「小刚炮」系列进化为全新 MiniCPM 3.0 基座模型,再次以小博大,以 4B 参数,带来超越 GPT-3.5 的性能。


据介绍,MiniCPM 3.0 量化后仅 2GB 内存,端侧友好,主要特点包括:


  • 无限长文本,榜单性能超越 Kimi,超长文本也不崩;

  • 性能比肩 GPT-4o 的端侧最强 Function Calling;

  • 超强 RAG 外挂三件套,中文检索第一、生成超 Llama3-8B。


MiniCPM 3.0 开源地址:


GitHub:

🔗 https://github.com/OpenBMB/MiniCPM

HuggingFace:

🔗 https://huggingface.co/openbmb/MiniCPM3-4B


“提前近 4 个月,我们实现了初代面壁小钢炮发布时立下的 Flag:今年内让 GPT-3.5 水平的模型在端侧跑起来!”面壁智能团队表示。


据悉,MiniCPM 3.0 再次挖掘端侧模型的极致性能,仅 4B 参数,在包括自然语言理解、知识、代码、数学等多项能力上对 GPT-3.5 实现赶超,在 Qwen2-7B、 Phi-3.5、GLM4-9B、LLaMa3-8B 等一众中外知名模型脱颖而出。



历经数次调整,面壁团队构建了全新技术架构。围绕 Scaling Law 的核心,面壁将提升知识密度视为高效大模型的第一性原理(知识密度 = 模型能力 / 参与计算的模型参数),并且提出了大模型时代的“摩尔定律”:模型知识密度不断提升,平均每 8 个月提升一倍,内部称为“面壁定律”。


新一代小钢炮集长文本、Function Call 与 RAG 等大模型重要能力于一身,在这些呼声极高的模型功能上,MiniCPM 3.0 集结各家所长。

面壁“无限”长文本,性能超 Kimi


上下文长度是衡量大模型基础能力的一项重要指标,更长的上下文长度意味大模型拥有更大的“内存”和更长的“记忆”,不仅能提高大模型处理数据的能力上限,还能拓宽大模型应用的广度和深度。


面壁提出 LLMxMapReduce 长本文分帧处理技术 ,一举实现“无限”长文本。除了超越 GPT-4、KimiChat 等标杆模型的优异表现( InfiniteBench 榜单成绩),面壁还表示,文本越长,4B 小钢炮凭借愈加稳定的表现,可以展现出越强的性能优势。



InfiniteBench 大模型长文本能力的权威评测集


检索、数学、代码、问答和摘要等多维度能力评估


① MiniCPM 3.0 表现超越 GPT-4、KimiChat、Qwen2-70B;

② 千亿模型 Qwen2-70B、Llama3-70b 结合 LLMxMapReduce 也取得更佳表现。



InfiniteBench Zh.QA 评测结果显示,4B 参数的面壁小钢炮整体性能优于 Kimi,在更长的文本上表现出相较更强的稳定性。



LLMxMapReduce 技术框架图


GPT-4o 级 Function calling ,终端 Agent 应用蓄势待发


智能体应用是端侧 AI 必争之地,其中一项至关重要的技术是 Function Calling(函数调用),它能够将用户模糊化的输入语义转换为机器可以精确理解执行的结构化指令,并让大模型连接外部工具和系统,例如通过语音在手机上调用日历、天气、邮件、浏览器等 APP 或相册、文件等本地数据库,从而打开终端设备 Agent 应用的无限可能,也让人机交互更加自然和方便。


据介绍,MiniCPM 3.0 拥有端侧最强 Function calling 性能 ,在权威评测榜单 Berkeley Function-Calling Leaderboard 上,其性能接近 GPT-4o,并超越 Llama 3.1-8B、Qwen-2-7B、GLM-4-9B 等众多模型。



RAG 外挂三件套


端侧模型也能“开外挂”,RAG(检索增强生成技术)让模型引用外部知识库,检索到最新、最可靠的专业知识,确保生成内容更加可信,大大减少大模型的幻觉问题。大模型 +RAG 在行业中极其实用,尤其是对法律、医疗等依赖专业知识库、对大模型幻觉容忍度极低的垂直行业。


这次,面壁一口气带来超强 RAG 外挂三件套:MiniCPM-Embedding(检索模型)、MiniCPM-Reranker(重排序模型)和面向 RAG 场景的 LoRA 插件(生成模型),款款优秀:


  • MiniCPM-Embedding(检索模型)中英跨语言检索取得 SOTA 性能,在评估模型文本嵌入能力的权威评测集 MTEB 的检索榜单上中文第一、英文第十三 ;

  • MiniCPM-Reranker(重排序模型)在中文、英文、中英跨语言测试上取得 SOTA 性能 ;

  • 经过针对 RAG 场景的 LoRA 训练后,MiniCPM 3.0-RAG-LoRA 在开放域问答(NQ、TQA、MARCO)、多跳问答(HotpotQA)、对话(WoW)、事实核查(FEVER)和信息填充(T-REx)等多项任务上的性能表现,超越 Llama3-8B 和 Baichuan2-13B 等业内优秀模型。


2024-09-11 16:587816

评论

发布
暂无评论
发现更多内容

谁是 AI 搜索先锋?阿里云携手 Elastic 正式启动先锋者招募!

阿里云大数据AI技术

elastic 阿里云 搜索 AI搜索

PB 级大数据新势力!Apache SeaTunnel 亮相 Cloudberry 杭州 Meetup(附报名)

Apache SeaTunnel

Dify基于TiDB的数据架构重构实践

TiDB 社区干货传送门

智能制造:数字化转型的五大陷阱

积木链小链

数字化转型 制造业 智能制造

JimuReport 积木报表 v1.9.5发布,免费的可视化报表

JEECG低代码

报表 可视化数据 报表打印 数据报表

“从PMO到VMO价值交付管理” — Agile VMO业务敏捷CVP认证 | 7月5-6日 · 北京线下面授周末班

ShineScrum

PMO 企业转型 VMO

【开始报名啦】4 月 12 日 TiDB 社区活动在南京!传统技术栈替换和 AI 浪潮正当时,面向未来的国产数据库怎么选择?转发海报参与新款双肩包抽奖!

TiDB 社区干货传送门

国产化不是选择题,而是必答题

TiDB 社区干货传送门

“数字创新产品课程” 4月25-26日 · CSPO认证在线课程

ShineScrum

产品负责人 CSPO认证

数字藏品NFT的智能合约开发

北京木奇移动技术有限公司

数字藏品 软件外包公司 音乐NFT 体育NFT

实战经验深度解析 | 博睿数据制造行业精选案例集发布!

博睿数据

MES系统助力漆包线工厂,轻松攻克生产管理难点

万界星空科技

数字化 mes 漆包线mes 漆包线 制造业工厂

Karmada Dashboard 首个版本发布!开启多云编排可视化新篇章

华为云原生团队

云计算 容器 云原生

数字藏品(NFT)项目的线上运营

北京木奇移动技术有限公司

软件外包公司 音乐NFT 体育NFT

AI口语练习APP的开发

北京木奇移动技术有限公司

软件外包公司 AI口语 AI口语练习APP

AI口语练习APP的运营

北京木奇移动技术有限公司

软件外包公司 AI口语练习 AI英语学习

告别数据难题:淘宝商品评论API带来高效解决方案

tbapi

淘宝API 淘宝商品评论采集 淘宝商品评论API 天猫商品评论API

MySQL遇到AI:字节跳动开源 MySQL 虚拟索引 VIDEX

字节跳动开源

虚拟索引技术 解耦架构 可扩展接口 生产验证 多形态部署

Web3可能是为AI Agents(代理)构建的

PowerVerse

AGI #Web3 AI Agents

Fabric8 Kubernetes 教程——job、service、ingress、statefulSet、daemonSet

FunTester

为什么大模型在 OCR 任务上表现不佳?

Baihai IDP

程序员 AI OCR LLMs Baihai IDP

Apache SeaTunnel 用户征稿计划启动!分享数据集成实践经验,赢社区荣誉!

Apache SeaTunnel

让企业沟通更顺畅,BeeWorks Meet局域网视频软件的五大优势

BeeWorks

音视频 即时通讯 IM 私有化部署 局域网视频软件

BeeWorks Meet:为企业打造专属的私有化线上会议系统

BeeWorks

即时通讯 即时通讯IM 私有化部署 企业级应用 局域网视频软件

数字藏品(NFT)项目的上线流程

北京木奇移动技术有限公司

软件外包公司 音乐NFT 体育NFT

深度解析:通过 AIBrix 多节点部署 DeepSeek-R1 671B 模型

火山引擎开发者社区

AI时代的数据底座:火山引擎多模态数据湖的设计与实践

火山引擎开发者社区

技术管理者,首先应该学会预期管理

老张

团队管理 职场成长

Java 开发中的 AI 黑科技:如何用 AI 工具自动生成 Spring Boot 项目脚手架?

飞算JavaAI开发助手

java spingboot #程序员

“PO高阶精进课程” 5月10-11日 · A-CSPO认证【提前报名特惠】

ShineScrum

YashanDB出席胶东CIO十周年峰会 自研数据管理方案驱动智造升级

极客天地

面壁小钢炮 3.0 重磅发布!“无限”长文本,性能超 Kimi_AI&大模型_褚杏娟_InfoQ精选文章