AI实践哪家强?来 AICon, 解锁技术前沿,探寻产业新机! 了解详情
写点什么

谷歌发布 LLM 评测工具 LMEval

  • 2025-06-07
    北京
  • 本文字数:1359 字

    阅读完需:约 4 分钟

大小:451.45K时长:02:34
谷歌发布LLM评测工具LMEval

LMEval 旨在帮助人工智能研究人员和开发人员比较不同大语言模型的性能。LMEval 的设计宗旨是准确、多模态且易于使用,已经被用于评估主流大模型在安全性和可靠性方面的表现


LMEval 的推出背景之一是大模型的快速更新和迭代。谷歌研究人员表示,这种快速发展的趋势使得对这些模型进行快速且可靠的评估变得尤为关键,以确保它们能够满足特定应用场景的需求。LMEval 的核心优势在于与广泛的大语言模型供应商兼容、通过增量基准执行提高效率、支持多模态评估(包括文本、图像和代码)以及通过加密存储结果以增强安全性。


为了实现跨供应商支持,能够在不同模型之间复用统一定义的评估基准至关重要,尽管这些模型的 API 存在显著差异。为此,LMEval 使用了LiteLLM框架,允许开发人员使用 OpenAI API 格式调用各种 LLM 供应商,包括 Bedrock、Hugging Face、Vertex AI、Together AI、Azure、OpenAI、Groq 等。LiteLLM 将输入转换为符合每个供应商特定要求的完成、嵌入和图像生成端点,并生成统一的输出格式。


为了提高执行效率,LMEval 只执行针对新模型、新提示词或新问题所必需的评估项目,这要归功于一个遵循增量评估模型的智能评估引擎。


LMEval 使用 Python 编写,并且在GitHub上开源。运行评估需要遵循一系列步骤。首先是定义基准,指定要执行的任务(例如,在图片中检测眼睛颜色)、提示词、图像和预期结果,然后列出要评估的模型并运行基准:


benchmark = Benchmark(name='Cat Visual Questions',                      description='Ask questions about cats picture')
...
scorer = get_scorer(ScorerType.contain_text_insensitive)task = Task(name='Eyes color', type=TaskType.text_generation, scorer=scorer)category.add_task(task)
# add questionssource = QuestionSource(name='cookbook')# cat 1 question - create question then add media imagequestion = Question(id=0, question='what is the colors of eye?', answer='blue', source=source)question.add_media('./data/media/cat_blue.jpg')task.add_question(question)
...
# evaluate benchmark on two modelsmodels = [GeminiModel(), GeminiModel(model_version='gemini-1.5-pro')]
prompt = SingleWordAnswerPrompt()evaluator = Evaluator(benchmark)eval_plan = evaluator.plan(models, prompt) # plan evaluationcompleted_benchmark = evaluator.execute() # run evaluation
复制代码


你还可以选择将评估结果保存到 SQLite 数据库,并将数据导出到 pandas 进行进一步分析和可视化。LMEval 使用加密技术存储基准数据和评估结果,以防止被爬取或索引。


LMEval 还提供了 LMEvalboard,一个可视化仪表盘,方便你查看整体性能、分析单个模型或比较多个模型。


如上所述,LMEval 已被用于创建 Phare LLM 基准测试,旨在评估 LLM 的安全性和可靠性,包括抑制幻觉的能力、事实准确性、偏见和潜在危害。


LMEval 并不是目前唯一可用的跨供应商 LLM 评估框架,其他类似的框架还有Harbor BenchEleutherAI的LM评估工具。Harbor Bench 仅限于文本提示词,其特别之处是使用 LLM 来评判结果质量。相比之下,EleutherAI 的 LM 评估工具包含了 60 多个基准测试,并允许用户使用 YAML 定义新的基准测试。


原文链接

https://www.infoq.com/news/2025/05/google-lmeval-benchmark/

2025-06-07 08:007120

评论

发布
暂无评论
发现更多内容

机器学习服务活体检测算法荣获CFCA权威安全认证

HarmonyOS SDK

HMS Core

手写一个react,看透react运行机制

flyzz177

React

再快一点?Web 3动态内容如何加速?

Java全栈架构师

程序员 程序人生 Web 后端 架构师

软件测试 | 简历中应该如何描述才能体现出软技能的实力 ?

霍格沃兹测试开发学社

IOS技术分享| IOS快对讲调度场景实现

anyRTC开发者

音视频 呼叫邀请 快对讲 语音对讲 视频对讲

react源码分析:组件的创建和更新

flyzz177

React

时序数据库 TDengine 携手北京科技大学设计研究院,助力冶金工业智慧化

TDengine

数据库 tdengine 时序数据库

NFTScan 与 MintKit 达成战略合作伙伴,由 NFTScan 为其提供 NFT API 数据服务

NFT Research

NFT 数据基础设施

灵活高效又美丽,谈谈我们的产品体验升级思路

嘉为蓝鲸

自动化运维 嘉为蓝鲸 IT服务管理中心

隐私计算技术开源的整体现状

京东科技开发者

开源 经验分享 隐私计算 隐私安全

如何把照片变成“漫画脸”?一招教会你一键生成氛围感动漫头像

互联网民工阿强

图片 图片处理 动漫 漫画头像 ACGAN-动漫头像

vivo 实时计算平台建设实践

vivo互联网技术

大数据 flink 实时计算

中国北京|HICOOL 2023 全球创业大赛

科兴未来News

Hicool 海外 #双创赛事#

小游戏引擎选型注意事项

FinFish

游戏 小游戏 小游戏引擎

研运至简,创新无限!嘉为品牌VI全新升级

嘉为蓝鲸

自动化运维 嘉为蓝鲸 品牌升级

极盾科技CEO丁杨:让数据安全回归场景、业务和价值

极盾科技

数据安全

中台KPI怎么设计?

博文视点Broadview

react的useState源码分析

flyzz177

React

融云获 2022 中国技术先锋年度评选「中国技术品牌影响力企业」奖

融云 RongCloud

Jupyter Notebook入门指南

京东科技开发者

前端 服务端 Server 多编程语言 企业号 1 月 PK 榜

深度分析React源码中的合成事件

flyzz177

React

从react源码看hooks的原理

flyzz177

React

如何导入本地数据?

Towify

深入React源码揭开渲染更新流程的面纱

flyzz177

React

语音社交App系统源码中语音厅App搭建之开宝箱游戏机制说明以及技术文档

山东布谷科技胡月

语音直播源码 语音社交软件 语音直播app 语音厅平台搭建 语音聊天APP源码

DevEco Studio新特性分享-跨语言调试,让调试更便捷高效

HarmonyOS开发者

HarmonyOS

AI将产生创富的第5次浪潮

felix

机器学习 模型开发

RocketMQ Compaction Topic的设计与实现

Apache RocketMQ

RocketMQ 消息队列

如何用弹出对话框实现登录页非空提示?

Towify

高性能且小巧的脚本语言 LuaJIT

ooooooh灰灰

lua 后端 JIT 网关

谷歌发布LLM评测工具LMEval_Google_Sergio De Simone_InfoQ精选文章