50万奖金+官方证书,深圳国际金融科技大赛正式启动,点击报名 了解详情
写点什么

智源研究院 FlagEval 大模型评测平台更新 8 月榜单:新增通义千问、Llama2 等多个模型评测,评测基座模型代码生成能力

  • 2023-08-16
    北京
  • 本文字数:1277 字

    阅读完需:约 4 分钟

智源研究院FlagEval大模型评测平台更新8月榜单:新增通义千问、Llama2等多个模型评测,评测基座模型代码生成能力

为推动大模型在产业落地和技术创新,今年 6 月智源研究院发布了“开源商用许可语言大模型系列+开放评测平台” 两大重磅成果,打造“大模型进化流水线”。

 

FlagEval(天秤)是北京智源人工智能研究院推出的大模型评测体系及开放平台,旨在建立科学、公正、开放的评测基准、方法、工具集,协助研究人员全方位评估基础模型及训练算法的性能。

 

FlagEval 大语言模型评测体系当前包含 6 大评测任务,20+评测数据集,80k+评测题目。除了知名的公开数据集 HellaSwag、MMLU、C-Eval 等,FlagEval 还集成了包括智源自建的主观评测数据集 Chinese Linguistics & Cognition Challenge (CLCC) ,北京大学等单位共建的词汇级别语义关系判断、句子级别语义关系判断、多义词理解、修辞手法判断评测数据集,更多维度的评测数据集也在陆续集成中。

 

自 6 月 9 日上线以来,FlagEval 在短短一个月内就已收到 200+模型评测申请,并更新了首期 SFT 模型排行榜和大模型 2023 高考排行榜。在 FlagEval 8 月榜单最新榜单中,新增了通义千问、Llama2 等多个模型评测,也新增了基座模型代码生成能力评测。

 

新增多个明星开源模型评测:Llama2 / Qwen / InternLM / MPT / Falcon

 

基座模型(Base Model)榜单:

 

Qwen-7B、InternLM-7B 超越 Llama2,分列第一、第二名。

 


有监督微调模型(SFT Model)榜单:

 

InternLM-chat-7B 夺魁,刷新中英客观评测记录,悟道·天鹰 AquilaChat 排名第二;

 

Qwen-chat-7B 中英文客观评测结果欠佳,远低于其基座模型的客观评测表现;但在中文主观评测上,Qwen-chat-7B 以 75.4% 准确率排名第一,与第二名 ChatGLM2-6B(62.1%)拉开较大差距。

 

备受关注的 Llama2 基座模型 7B、13B 综合评测结果相比于第一代提升了 10%、25%;Llama2-Chat 7B、13B 英文能力突出,中文存在明显短板,中文主观评测准确率仅为 18.3%、22%,在 SFT 模型榜单上排名第三,仅次于 InternLM 和悟道·天鹰 Aquila。

 

新增针对基座模型 HumanEval 代码生成能力评测

 

近期,“代码生成能力”新晋成为大语言模型领域的热门话题,开源基座模型如 Llama2 的技术报告特别强调了“代码生成能力”作为其关键特性。 

 

基座模型强大的代码生成能力为后续的代码语料微调提供了坚实基础。因此,本期榜单引入了针对基座模型的 HumanEval 评测:

 

Pass@1 的评测结果显示,国产大模型 Qwen、InternLM 超越 Llama2-13B,分列第一、第二名。

 

Pass@100 结果显示,悟道·天鹰 Aquila-7B 的表现接近 Llama-13B,但与第二代 Llama2-13B 相比仍有一定差距。

 

HumanEval 是由 OpenAI 编写发布的代码生成评测数据集,包含 164 道人工编写的 Python 编程问题,模型针对每个单元测试问题生成 k(k=1,10,100)个代码样本,如果有任何样本通过单元测试,则认为问题已解决,并报告问题解决的总比例,即 Pass@k 得分。

 


Falcon-7b HumanEval 评测结果出自 Meta Llama2 官方论文 :

 

https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/

 

评测说明:

在评测时,FlagEval 根据数据集的不同规模进行了自动化采样。

更多评测结果请登录官网查看:https://flageval.baai.ac.cn/

2023-08-16 18:375889
用户头像
李冬梅 加V:busulishang4668

发布了 1180 篇内容, 共 801.9 次阅读, 收获喜欢 1300 次。

关注

评论

发布
暂无评论
发现更多内容

《算法导论(第4版)》阅读笔记:p14-p16

codists

算法

现代框架对SEO的深度影响

溪抱鱼

国际化 SEO SEO工具

鸿蒙应用开发中的生命周期管理:从组件到应用的全流程解析

谢道韫

鸿蒙 HarmonyOS HarmonyOS NEXT 实践分享

连锁药店如何安全访问总部运营系统?贝锐花生壳带来解决方案

贝锐

内网穿透 ERP

什么是AI大模型?看deepseek用通俗易懂的语言解释

我再BUG界嘎嘎乱杀

人工智能 AI AI大模型 大模型 大语言模型

AI实践探索:辅助生成测试用例

小巫debug日记

测试用例 AI编程

莫想到有一天得重新写个 etcd client

八苦-瞿昙

关于懒加载,LazyForEach和Repeat的区别,哪一个性能更好呢?

cfx

鸿蒙 开发工具 HarmonyOS HarmonyOS NEXT

YashanDB 知识库|STATISTICS_LEVEL 设置为 ALL,性能掉到冰点?一条参数搞清楚根因

数据库砖家

数据库

需求分析不好做?这门华为新课免费试听!

YG科技

Kagi搜索:互联网搜索的净土,值得你的每一分钱

AI段舸

AI 搜索软件

阿里Java开发手册:编程规约、异常日志、单元测试、安全规 约、MySQL 数据库、工程结构、设计规约!

程序员高级码农

Java 程序员 java 技术提升

Arthas vmtool(从 jvm 里查询对象,执行 forceGc)

刘大猫

Java 监控 Arthas 监控工具 vmtool

AI工具如何一键生成图表?5个流行的图表生成软件盘点!

职场工具箱

人工智能 图表 AI软件 AIGC 可视化工具

TikTok直播卡顿怎么解决?教你几个方法!

Ogcloud

SD-WAN tiktok直播 tiktok直播网络 tiktok网络 sd-wan专线

100台电脑局域网搭建攻略和设备配置指南

Ogcloud

局域网 企业组网 局域网组建 局域网搭建 企业网络搭建

湖仓一体架构在金融典型数据分析场景中的实践

镜舟科技

数据分析 金融 存算分离架构 StarRocks 湖仓一体

这款AI助手竟能自动生成行程+前端代码?

VyrnSynx

CodeBuddy首席试玩官

11.多用组合和少继承

杨充

常见应用层DDoS攻击

天翼云开发者社区

安全 DDoS

uniapp跨平台开发HarmonyOS NEXT应用初体验

幽蓝计划

鸿蒙跨平台开发

从AI助手到个性化数字分身:WeClone & Second Me打造本地化、私有化的个性化AI代理系统

汀丶人工智能

人工智能

使用LLaMA-Factory快速训练自己的专用大模型

我再BUG界嘎嘎乱杀

人工智能 AI 大模型

室内LED全彩显示屏P3与P5

Dylan

LED显示屏 全彩LED显示屏 led显示屏厂家 户内led显示屏 规格说明

城市感知网络体系,构筑全域数字化新基石

脑极体

AI

用 CodyBuddy 帮我写自动化运维脚本

悟空聊架构

AI 悟空聊架构 CodeBuddy首席试玩官

uniapp开发HarmonyOS NEXT应用之项目结构详细解读

幽蓝计划

鸿蒙适配unity的交互方法

cfx

鸿蒙 HarmonyOS HarmonyOS NEXT

闺蜜机行业市场销量涨超42%,小度科技持续领跑行业

科技大数据

从0到上线,CodeBuddy 如何帮我快速构建旅游 App?

VyrnSynx

CodeBuddy首席试玩官

手动开发?给我一条提示词,CodeBuddy能做的你都做不到!

VyrnSynx

CodeBuddy首席试玩官

智源研究院FlagEval大模型评测平台更新8月榜单:新增通义千问、Llama2等多个模型评测,评测基座模型代码生成能力_AI 工程化_李冬梅_InfoQ精选文章