NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

智源研究院 FlagEval 大模型评测平台更新 8 月榜单:新增通义千问、Llama2 等多个模型评测,评测基座模型代码生成能力

  • 2023-08-16
    北京
  • 本文字数:1277 字

    阅读完需:约 4 分钟

智源研究院FlagEval大模型评测平台更新8月榜单:新增通义千问、Llama2等多个模型评测,评测基座模型代码生成能力

为推动大模型在产业落地和技术创新,今年 6 月智源研究院发布了“开源商用许可语言大模型系列+开放评测平台” 两大重磅成果,打造“大模型进化流水线”。

 

FlagEval(天秤)是北京智源人工智能研究院推出的大模型评测体系及开放平台,旨在建立科学、公正、开放的评测基准、方法、工具集,协助研究人员全方位评估基础模型及训练算法的性能。

 

FlagEval 大语言模型评测体系当前包含 6 大评测任务,20+评测数据集,80k+评测题目。除了知名的公开数据集 HellaSwag、MMLU、C-Eval 等,FlagEval 还集成了包括智源自建的主观评测数据集 Chinese Linguistics & Cognition Challenge (CLCC) ,北京大学等单位共建的词汇级别语义关系判断、句子级别语义关系判断、多义词理解、修辞手法判断评测数据集,更多维度的评测数据集也在陆续集成中。

 

自 6 月 9 日上线以来,FlagEval 在短短一个月内就已收到 200+模型评测申请,并更新了首期 SFT 模型排行榜和大模型 2023 高考排行榜。在 FlagEval 8 月榜单最新榜单中,新增了通义千问、Llama2 等多个模型评测,也新增了基座模型代码生成能力评测。

 

新增多个明星开源模型评测:Llama2 / Qwen / InternLM / MPT / Falcon

 

基座模型(Base Model)榜单:

 

Qwen-7B、InternLM-7B 超越 Llama2,分列第一、第二名。

 


有监督微调模型(SFT Model)榜单:

 

InternLM-chat-7B 夺魁,刷新中英客观评测记录,悟道·天鹰 AquilaChat 排名第二;

 

Qwen-chat-7B 中英文客观评测结果欠佳,远低于其基座模型的客观评测表现;但在中文主观评测上,Qwen-chat-7B 以 75.4% 准确率排名第一,与第二名 ChatGLM2-6B(62.1%)拉开较大差距。

 

备受关注的 Llama2 基座模型 7B、13B 综合评测结果相比于第一代提升了 10%、25%;Llama2-Chat 7B、13B 英文能力突出,中文存在明显短板,中文主观评测准确率仅为 18.3%、22%,在 SFT 模型榜单上排名第三,仅次于 InternLM 和悟道·天鹰 Aquila。

 

新增针对基座模型 HumanEval 代码生成能力评测

 

近期,“代码生成能力”新晋成为大语言模型领域的热门话题,开源基座模型如 Llama2 的技术报告特别强调了“代码生成能力”作为其关键特性。 

 

基座模型强大的代码生成能力为后续的代码语料微调提供了坚实基础。因此,本期榜单引入了针对基座模型的 HumanEval 评测:

 

Pass@1 的评测结果显示,国产大模型 Qwen、InternLM 超越 Llama2-13B,分列第一、第二名。

 

Pass@100 结果显示,悟道·天鹰 Aquila-7B 的表现接近 Llama-13B,但与第二代 Llama2-13B 相比仍有一定差距。

 

HumanEval 是由 OpenAI 编写发布的代码生成评测数据集,包含 164 道人工编写的 Python 编程问题,模型针对每个单元测试问题生成 k(k=1,10,100)个代码样本,如果有任何样本通过单元测试,则认为问题已解决,并报告问题解决的总比例,即 Pass@k 得分。

 


Falcon-7b HumanEval 评测结果出自 Meta Llama2 官方论文 :

 

https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/

 

评测说明:

在评测时,FlagEval 根据数据集的不同规模进行了自动化采样。

更多评测结果请登录官网查看:https://flageval.baai.ac.cn/

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2023-08-16 18:374163
用户头像
李冬梅 加V:busulishang4668

发布了 814 篇内容, 共 381.6 次阅读, 收获喜欢 1002 次。

关注

评论

发布
暂无评论
发现更多内容

c语言简介

Geek_f510ff

c C语言

2019年度CMMI V2.0性能报告

IPD产品研发管理

产品 项目管理 性能 质量 CMMI

我与声网Agora

june

Java 集合处理/ 空值处理/ 异常处理,使用心得分享!

brother ben

cobra-强大的CLI应用程序库

happlyfox

GitHub cli 28天写作 2月春节不断更 Go 语言

基于matlab的控制系统与仿真3-根轨迹、bode图、Nyquist图

AXYZdong

matlab 2月春节不断更

华为云PB级数据库GaussDB(for Redis)解析第二期:Redis消息队列Stream的应用探讨

华为云开发者联盟

数据库

话题讨论 | 如何看待公司发开工红包?

happlyfox

话题讨论 28天写作 2月春节不断更 话题王者 红包

java-时间的使用

建安

Java android SpringBoot 2

数据中心架构设计比较

CPU高速缓存与极性代码设计

华为云开发者联盟

缓存 数据 cpu 存储

Idea快捷键操作

刘大明

IDEA

流批一体生产应用!Bigo 实时计算平台建设实践

Apache Flink

flink

为什么挤破头进大厂,大厂如何设置薪资职级体系?

不脱发的程序猿

HR 校园招聘 28天写作 二月春节不断更 互联网行业薪资

算力平台软件开发|算力平台系统APP开发

系统开发

一个员工的离职成本,很恐怖!

不脱发的程序猿

职场 HR 28天写作 二月春节不断更 员工离职

园区网为主的 DNS 架构设计

冯骐

程序员 运维 监控 网络 DNS

深入理解Deno是如何借助PowerShell进行安装脚本

梁龙先森

大前端 deno shell脚本编写 PowerShell 28天写作

Open-Falcon 中的交换机监控

冯骐

运维 监控 网络 交换机 Go 语言

Spark Shuffle 内部机制(三)

hanke

大数据 spark 开源 数据

BFF (Backend for frontend)避坑指南

码猿外

架构 微服务 BFF

Mybatis association关联查询

フェイト ゼロ

可能是Java Stream的最佳实践(一)

ES_her0

28天写作

新一代信息技术赋能山东政务!区块链政务平台解决方案

源中瑞-龙先生

带你快速了解Flutter的发展和应用

anyRTC开发者

flutter 音视频 WebRTC 跨平台 sdk

python与c++区别之print

沈阳

数据驱动业务增长的底层逻辑2.0

小飞象@木木自由

产品 数据分析 运营 业务增长

字节码角度分析i++和++i的区别

现实中游走

Java 字节码

kafka consumer group

Eric

新病毒兼容M1芯片,已经感染3万台Mac

Geek_b0cff7

Windows下JMeter分布式压测环境搭建

行者AI

Jmeter

智源研究院FlagEval大模型评测平台更新8月榜单:新增通义千问、Llama2等多个模型评测,评测基座模型代码生成能力_AI 工程化_李冬梅_InfoQ精选文章