首届AICon深圳正式启动|AI实践哪家强?来 AICon,解锁技术前沿,探寻产业新机! 了解详情
写点什么

谷歌发布 LLM 评测工具 LMEval

  • 2025-06-07
    北京
  • 本文字数:1359 字

    阅读完需:约 4 分钟

大小:451.45K时长:02:34
谷歌发布LLM评测工具LMEval

LMEval 旨在帮助人工智能研究人员和开发人员比较不同大语言模型的性能。LMEval 的设计宗旨是准确、多模态且易于使用,已经被用于评估主流大模型在安全性和可靠性方面的表现


LMEval 的推出背景之一是大模型的快速更新和迭代。谷歌研究人员表示,这种快速发展的趋势使得对这些模型进行快速且可靠的评估变得尤为关键,以确保它们能够满足特定应用场景的需求。LMEval 的核心优势在于与广泛的大语言模型供应商兼容、通过增量基准执行提高效率、支持多模态评估(包括文本、图像和代码)以及通过加密存储结果以增强安全性。


为了实现跨供应商支持,能够在不同模型之间复用统一定义的评估基准至关重要,尽管这些模型的 API 存在显著差异。为此,LMEval 使用了LiteLLM框架,允许开发人员使用 OpenAI API 格式调用各种 LLM 供应商,包括 Bedrock、Hugging Face、Vertex AI、Together AI、Azure、OpenAI、Groq 等。LiteLLM 将输入转换为符合每个供应商特定要求的完成、嵌入和图像生成端点,并生成统一的输出格式。


为了提高执行效率,LMEval 只执行针对新模型、新提示词或新问题所必需的评估项目,这要归功于一个遵循增量评估模型的智能评估引擎。


LMEval 使用 Python 编写,并且在GitHub上开源。运行评估需要遵循一系列步骤。首先是定义基准,指定要执行的任务(例如,在图片中检测眼睛颜色)、提示词、图像和预期结果,然后列出要评估的模型并运行基准:


benchmark = Benchmark(name='Cat Visual Questions',                      description='Ask questions about cats picture')
...
scorer = get_scorer(ScorerType.contain_text_insensitive)task = Task(name='Eyes color', type=TaskType.text_generation, scorer=scorer)category.add_task(task)
# add questionssource = QuestionSource(name='cookbook')# cat 1 question - create question then add media imagequestion = Question(id=0, question='what is the colors of eye?', answer='blue', source=source)question.add_media('./data/media/cat_blue.jpg')task.add_question(question)
...
# evaluate benchmark on two modelsmodels = [GeminiModel(), GeminiModel(model_version='gemini-1.5-pro')]
prompt = SingleWordAnswerPrompt()evaluator = Evaluator(benchmark)eval_plan = evaluator.plan(models, prompt) # plan evaluationcompleted_benchmark = evaluator.execute() # run evaluation
复制代码


你还可以选择将评估结果保存到 SQLite 数据库,并将数据导出到 pandas 进行进一步分析和可视化。LMEval 使用加密技术存储基准数据和评估结果,以防止被爬取或索引。


LMEval 还提供了 LMEvalboard,一个可视化仪表盘,方便你查看整体性能、分析单个模型或比较多个模型。


如上所述,LMEval 已被用于创建 Phare LLM 基准测试,旨在评估 LLM 的安全性和可靠性,包括抑制幻觉的能力、事实准确性、偏见和潜在危害。


LMEval 并不是目前唯一可用的跨供应商 LLM 评估框架,其他类似的框架还有Harbor BenchEleutherAI的LM评估工具。Harbor Bench 仅限于文本提示词,其特别之处是使用 LLM 来评判结果质量。相比之下,EleutherAI 的 LM 评估工具包含了 60 多个基准测试,并允许用户使用 YAML 定义新的基准测试。


原文链接

https://www.infoq.com/news/2025/05/google-lmeval-benchmark/

2025-06-07 08:007158

评论

发布
暂无评论

KeyShot 2023.3 Pro for mac(3D渲染和动画制作软件)

展初云

Mac 渲染和动画软件 KeyShot

如何挑选代理IP

Geek_ccdd7f

守护 C 盘,Python 相关库设置

北桥苏

Python conda anconda

在跨境数据传输方面,如何应对跨国企业面临的挑战和风险

镭速

跨境数据传输

动态IP代理是怎么实现的?

Geek_ccdd7f

亚马逊云AI大语言模型应用下的创新Amazon Transcribe的使用

淼.

软件测试/测试开发丨​利用人工智能ChatGPT批量生成测试数据

测试人

软件测试

一图看懂华为云CodeArts Link六大特性

华为云开发者联盟

开发工具 华为云 华为云开发者联盟 华为云CodeArts

选购护眼台灯,全网都没有说清一个关键点!——照度均匀度

电子信息发烧客

超级App的前端框架也可以足够轻量

FN0

前端框架 超级app

合约交易所开发

区块链技术

中馥集团双11当日发货销售额突破1000万!

电子信息发烧客

iStat Menus for Mac(系统活动监控软件)

展初云

Mac软件 iStat Menus

三大开源向量数据库大比拼

互联网工科生

向量数据库

代理IP按流量计费贵么?

Geek_ccdd7f

解决室内种植最大弊端的是方法—植物生长灯

电子信息发烧客

关于WMS三个核心问题的解读

万界星空科技

跨国企业在数据跨境传输中应该知道的五大要点

镭速

跨境数据传输 数据跨境传输

NLP技术如何为搜索引擎赋能

不在线第一只蜗牛

nlp NLP 大模型 技术 优化体系

python爬虫代理的渠道有哪些

Geek_ccdd7f

动作活体检测能力支持自定义扫描动作,开发者接入更高效

HarmonyOS SDK

HMS Core

数字马力面经和答案解析!社招岗

王磊

Java 面试 java面试

11月创作挑战赛开启!新奖品、新标准~

Openlab_cosmoplat

用友Fast by BIP On天翼云重磅发布,一站式服务大型企业数智化!

用友BIP

天翼云 大型企业数智化速达包

LRTimelapse for Mac(延时摄影视频制作)

展初云

Mac软件 lrTimelapse 延时摄影视频制作软件

用二维码展示产品,随时查看图文并茂的介绍

草料二维码

区块链开发:区块链软件开发包装相关解析

区块链软件开发推广运营

dapp开发 区块链开发 链游开发 NFT开发 公链开发

谷歌发布LLM评测工具LMEval_Google_Sergio De Simone_InfoQ精选文章