2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

面壁智能低调开源大模型“理科状元”!LeetCode 周赛超越 80% 人类选手,推理性能超 Llama3-70B

  • 2024-05-06
    北京
  • 本文字数:2153 字

    阅读完需:约 7 分钟

大小:1.08M时长:06:16
面壁智能低调开源大模型“理科状元”!LeetCode 周赛超越80%人类选手,推理性能超 Llama3-70B

在 4 月 18 日 Llama3 发布前两天,面壁智能低调开源了大模型 Eurux-8x22B。据悉,该模型在代码和数学等体现大模型核心素质的复杂推理综合性能方面超越 Llama3-70B,刷新开源大模型 SOTA,堪称“理科状元”。

 

除了开源时间早于 LlaMa3,Eurux-8x22B 的激活参数仅有 39B,推理速度更快,目前支持 64k 上下文,相比之下 Llama3-70B 的上下文大小为 8K。

 


此外,Eurux-8x22B 由 Mistral-8x22B 对齐而来,综合性能不输 Llama3-70B。



Eurux-8x22B 模型和对齐数据,全家桶开源:

 

https://github.com/OpenBMB/Eurus

https://huggingface.co/openbmb/Eurux-8x22b-nca

 

LeetCode 周赛超越 80%的人类选手

 

复杂推理能力是体现大模型性能差异的最核心能力之一,也是大模型真正落地应用所需的关键能力所在。根据测评,Eurux-8x22B 在代码和数学等复杂推理的综合性能方面刷新开源大模型 SOTA。

 


具体而言,Eurux-8x22B 在 LeetCode (180 道 LeetCode 编程真题)和 TheoremQA(美国大学水准的 STEM 题目)这两个具有挑战性的基准测试中,超过现有开源模型。

 

那么开源大模型“理科状元”Eurux-8x22B 在实际应用中表现如何呢?

 

代码能力方面,面壁智能让其参加了近期的一场 LeetCode 周赛,这是一个检验人类程序员编程能力的真实竞技场。

 

结果显示,Eurux-8x22B 的 Python 编程能力非常优秀,成功解决了四道算法题中的三道,其综合排名超越了 80%的人类参赛选手,可以初步通过互联网大厂的程序员编程面试。下面是周赛中 Eurux-8x22B 对一道中等难度算法题的真实解答:




除了代码能力优秀,Eurux-8x22B 解答数学题也是轻而易举。

 

例如,给它一道高中排列组合题,Eurux-8x22B 首先给出了清晰的解题思路,然后一步步地拆解执行,再进行结果汇总,最后得到了正确答案。

 


再考察它一道代数题,Eurux-8x22B 直击要害,运用二项式定理,清晰简洁地给出了正确解答。



接着给它一道向量代数题,Eurux-8x22B 也能轻松拿下:



高考函数题可能是令很多人回忆起来就头疼的一类题,Eurux-8x22B 也能解答无误:



(注:Eurux-8x22B 没有针对中文语料进行额外的微调和对齐。)

 

大模型“上分神器”

 

面壁智能是国内极少数兼具大模型算法与 infra 能力的团队:匹配大模型作为系统工程的本质要求,打造了一条从数据原材料、到模型制作过程中训练与调校工艺环环相扣的全流程高效模型生产线,被戏称为“大模型界最强 Buff 厂”。

 

本次 Eurux-8x22B 更快、更长、理科更好的全方位惊艳成绩,即来自面壁 Ultra 对齐技术(Ultra Series)更新:新增了大规模、高质量对齐数据集 UltraInteract。

 

UltraInteract 是专门设计用于提升大模型推理能力的大规模、高质量的对齐数据集,包含了覆盖数学、代码和逻辑推理问题的 12 个开源数据集的 86K 条指令和 220K 偏好对,共有五十万(条)左右数据。而相比之下,LLaMA 3-70B 模型则是使用了千万量级的对齐数据,这从侧面证明了 UltraInteract 数据集的优质性——数据质量胜过数据数量。

 

面壁智能团队是如何构建高质量的对齐数据?

 

  • 严格质量控制和筛选。首先,面壁从多个开源数据集中抽样出难度较高、考察多样推理能力的 86k 复杂推理问题,并使用多个模型来采样答案。通过自动化格式检查和人工质量抽查结合的方式保证了答案格式的一致性和内容的正确性。

 

  • 逐步推理。对于每条指令,模型都会按照思维链(CoT)格式进行逐步推理(如下图①),生成格式统一但模式多样的推理过程。

 

  • 多轮交互。在模型给出推理过程之后,会自动与答案对比确定推理过程是否正确(如下图②),如果不正确,UltraInteract 会使用另一个批评模型(如下图③)指出错误并给出改进建议,生成新的逐步推理(如下图④),再与策略模型进行多轮交互(如下图⑤⑥),直到答案正确或达到轮数上限为止。这一步有助于模型学会反思和改错能力,在实际表现中让其可以更好地和人进行多轮交互问答。

 


图注:UltraInteract 两轮交互的过程

 

  • 首创偏好树结构。为了深入探究偏好学习在复杂推理中的作用,UltraInteract 还为每个问题都构建了一棵偏好树(如下图所示),其中问题作为根节点,每个回复作为一个子节点,每一轮生成两个节点(一对一错相配对)。所有正确推理对应的节点都可以用于 SFT,而配对的节点则可以用于偏好学习。

 


图注:UltraInteract(第三列)是当前唯一一个树状结构的对齐数据集

 

除了 UltraInteract 数据集的大力加持,偏好对齐也对 Eurux-8x22B 的推理性能提升有所帮助。

 

面壁智能团队发现,在推理任务中,提升正确答案的奖励值对于偏好对齐的效果十分重要,因为正确答案的空间比错误答案更有限,因此更加重要,模型在训练过程中不能偏离正确答案。然而,当前流行的 DPO 算法会使正确答案和错误答案的奖励值共同降低,因此在实验中效果不佳。面壁智能采用了另外两种偏好对齐算法 KTO 和 NCA,取得了更好的效果,能在 SFT 的基础上进一步提升模型性能。

 

此外,UltraInteract 数据集也在开源社区受到了广泛好评:

 



据悉,面壁 Ultra 对齐技术此前已经“强壮”了全球超 200 个大模型,尤其擅长提升大模型“以小博大”能力。例如,在面壁 Ultra 数据集的加持下,Zephyr-7B 以更小规模,在不少指标上超越了 LLaMA2-70B-Chat,同时帮助“小钢炮”MiniCPM-2B 取得与 Mistral-7B 一较高下的惊艳表现。

 

面壁智能表示,未来将持续开源高效大模型及其数据集,开源开放的精神最终将惠及所有人。

 

2024-05-06 14:195519

评论

发布
暂无评论
发现更多内容

秒懂算法 | 基于主成分分析法、随机森林算法和SVM算法的人脸识别问题

TiAmo

机器学习 算法 随机森林

面向增长,用友招聘云发布新一代人才配置解决方案!

用友BIP

人才 平台 招聘管理系统

sequence:从认识到会使用,今儿给你讲的透透的

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 3 月 PK 榜

2023最新后端中大厂面经&在面试过程中如何反问?

王中阳Go

高效工作 学习方法 面试 面试题 大厂面经

开源即时通讯IM框架 MobileIMSDK:快速入门

JackJiang

网络编程 即时通讯 IM

你也能成为“黑客”高手——趣谈Linux Shell编程语言

京东科技开发者

Linux 系统架构 操作系统 开发 企业号 3 月 PK 榜

从传统数据库痛点看分布式数据库选型问题

OceanBase 数据库

双机热备三个优势简单说明-行云管家

行云管家

负载均衡 高可用 服务器 双机热备

用友BIP事项会计 X 全面预算:多维数智预算助力企业敏捷算赢未来

用友BIP

智能会计

Serverless 时代开启,云计算进入业务创新主战场

Serverless Devs

Serverless

FTP上传文件速度太慢怎么办?

镭速

flutter系列之:在flutter中自定义themes

程序那些事

flutter 架构 大前端 Web 程序那些事

零信任分段如何防止内网漫游?

权说安全

零信任

Node.js 未来发展趋势

京东科技开发者

Java 机器学习 前端 物联网 nodejs

详解基于 Celestia、Eclipse 构建的首个Layer3 链 Nautilus Chain

股市老人

某游戏公司基于OceanBase 4.0的运营分析AP实践

OceanBase 数据库

2022 IoTDB Summit:中航王闯《Apache IoTDB 在中航机载智能云制造系统的应用解决方案》

Apache IoTDB

数据库 大数据 IoTDB

企业是否具备等保测评资质在哪里查?怎么查?

行云管家

等保 等级保护 等保测评

从青铜到王者,揭秘 Serverless 自动化函数最佳配置

Serverless Devs

Serverless 云原生

基于 eBPF 的 Serverless 多语言应用监控能力建设

Serverless Devs

Serverless

云原生应用配置管理的5个最佳实践

HummerCloud

云原生

一万年太久,只争朝夕 | Foundation model的进展仍不够快

Baihai IDP

人工智能 AI 大模型 企业号 3 月 PK 榜 Foundation Models

高并发场景下,如何优化服务器的性能

华为云开发者联盟

高并发 开发 华为云 华为云开发者联盟 企业号 3 月 PK 榜

超越ChatGPT:大模型的智能极限

OneFlow

人工智能 深度学习 ChatGPT

软件测试 | 精准化测试

测吧(北京)科技有限公司

测试

DockQuery x 达梦 国产数据库生态“加速跑”

BinTools图尔兹

#数据库 信创产业 达梦认证

户外led显示屏在安装设计指南

Dylan

LED显示屏 户外LED显示屏 户内led显示屏

走进RocketMQ(四)高性能网络通信

白裤

Java RocketMQ io RocketMQ网络通信

2022 IoTDB Summit:京东刘刚《Apache IoTDB 在京东万物互联场景中的应用》

Apache IoTDB

大数据 时序数据库 IoTDB

详解Docker容器运行GUI程序的方法

华为云开发者联盟

开发 华为云 华为云开发者联盟 企业号 3 月 PK 榜

面壁智能低调开源大模型“理科状元”!LeetCode 周赛超越80%人类选手,推理性能超 Llama3-70B_AI&大模型_褚杏娟_InfoQ精选文章