50万奖金+官方证书,深圳国际金融科技大赛正式启动,点击报名 了解详情
写点什么

谷歌发布 LLM 评测工具 LMEval

  • 2025-06-07
    北京
  • 本文字数:1359 字

    阅读完需:约 4 分钟

大小:451.45K时长:02:34
谷歌发布LLM评测工具LMEval

LMEval 旨在帮助人工智能研究人员和开发人员比较不同大语言模型的性能。LMEval 的设计宗旨是准确、多模态且易于使用,已经被用于评估主流大模型在安全性和可靠性方面的表现


LMEval 的推出背景之一是大模型的快速更新和迭代。谷歌研究人员表示,这种快速发展的趋势使得对这些模型进行快速且可靠的评估变得尤为关键,以确保它们能够满足特定应用场景的需求。LMEval 的核心优势在于与广泛的大语言模型供应商兼容、通过增量基准执行提高效率、支持多模态评估(包括文本、图像和代码)以及通过加密存储结果以增强安全性。


为了实现跨供应商支持,能够在不同模型之间复用统一定义的评估基准至关重要,尽管这些模型的 API 存在显著差异。为此,LMEval 使用了LiteLLM框架,允许开发人员使用 OpenAI API 格式调用各种 LLM 供应商,包括 Bedrock、Hugging Face、Vertex AI、Together AI、Azure、OpenAI、Groq 等。LiteLLM 将输入转换为符合每个供应商特定要求的完成、嵌入和图像生成端点,并生成统一的输出格式。


为了提高执行效率,LMEval 只执行针对新模型、新提示词或新问题所必需的评估项目,这要归功于一个遵循增量评估模型的智能评估引擎。


LMEval 使用 Python 编写,并且在GitHub上开源。运行评估需要遵循一系列步骤。首先是定义基准,指定要执行的任务(例如,在图片中检测眼睛颜色)、提示词、图像和预期结果,然后列出要评估的模型并运行基准:


benchmark = Benchmark(name='Cat Visual Questions',                      description='Ask questions about cats picture')
...
scorer = get_scorer(ScorerType.contain_text_insensitive)task = Task(name='Eyes color', type=TaskType.text_generation, scorer=scorer)category.add_task(task)
# add questionssource = QuestionSource(name='cookbook')# cat 1 question - create question then add media imagequestion = Question(id=0, question='what is the colors of eye?', answer='blue', source=source)question.add_media('./data/media/cat_blue.jpg')task.add_question(question)
...
# evaluate benchmark on two modelsmodels = [GeminiModel(), GeminiModel(model_version='gemini-1.5-pro')]
prompt = SingleWordAnswerPrompt()evaluator = Evaluator(benchmark)eval_plan = evaluator.plan(models, prompt) # plan evaluationcompleted_benchmark = evaluator.execute() # run evaluation
复制代码


你还可以选择将评估结果保存到 SQLite 数据库,并将数据导出到 pandas 进行进一步分析和可视化。LMEval 使用加密技术存储基准数据和评估结果,以防止被爬取或索引。


LMEval 还提供了 LMEvalboard,一个可视化仪表盘,方便你查看整体性能、分析单个模型或比较多个模型。


如上所述,LMEval 已被用于创建 Phare LLM 基准测试,旨在评估 LLM 的安全性和可靠性,包括抑制幻觉的能力、事实准确性、偏见和潜在危害。


LMEval 并不是目前唯一可用的跨供应商 LLM 评估框架,其他类似的框架还有Harbor BenchEleutherAI的LM评估工具。Harbor Bench 仅限于文本提示词,其特别之处是使用 LLM 来评判结果质量。相比之下,EleutherAI 的 LM 评估工具包含了 60 多个基准测试,并允许用户使用 YAML 定义新的基准测试。


原文链接

https://www.infoq.com/news/2025/05/google-lmeval-benchmark/

2025-06-07 08:007536

评论

发布
暂无评论
发现更多内容

百分点认知智能实验室:智能校对的技术原理和实践

百分点科技技术团队

MySQL事务学习笔记

风翱

MySQL 9月日更

爬虫初探: 重定向处理与新闻明细页解析

程序员架构进阶

Python 实战问题 9月日更 spider

Flutter 多引擎支持 PlatformView 以及线程合并解决方案

字节跳动终端技术

字节跳动 大前端 跨平台 火山引擎

低代码在这些方面充满优势

低代码小观

程序员 低代码 企业管理 开发平台 低代码开发

挑战进阶教程,和MindSpore更近一步!

Geek_6cdeb6

mindspore

多租户的共享与隔离

金蝶天燕云

云计算 多租户

关于技术团队搭建&管理的一些思考

LigaAI

团队管理

被腾讯问蒙的各种Redis复杂问题

hanaper

【Vuex 源码学习】第二篇 - vuex 插件安装 install 逻辑

Brave

源码 vuex 9月日更

使用PaddleNLP打造精准文献检索系统,看万方系统升级放大招!

百度大脑

人工智能 nlp 飞桨

如何利用极狐GitLab CI/CD 完成 Jenkins 的迁移

极狐GitLab

CI/CD #GitLab

架构实战训练营|作业|模块3

Frode

架构实战

hutool如何实现数据导出到Excel

卢卡多多

hutool 数据导出 9月日更

Vue进阶(幺幺幺):实现浏览器全屏

No Silver Bullet

Vue 9月日更

跟着我乔鲁诺学面试(大误)

姬翔

9月日更

Python——Map-Reduce

在即

9月日更

【架构实战营作业】模块三:学生管理系统架构设计文档

聆息

推荐一个Mac端的截图工具

IT蜗壳-Tango

9月日更

微前端拆分实践

Teobler

大前端 服务拆分

GaussDB(for MySQL)如何快速创建索引?华为云数据库资深架构师为您揭秘

华为云数据库小助手

华为云 GaussDB 华为云数据库 GaussDB(for MySQL)

影像篡改与识别(三):人工智能时代

腾讯安全云鼎实验室

AI 影像识别

☕【JVM 技术指南】「理论总结笔记」Java 虚拟机垃圾回收认知和调优的"思南(司南)"【下部】

码界西柚

ZGC JVM G1垃圾回收器 9月日更

算法裁员,释放出了哪些“恶之花”?

脑极体

链路压测中如何记录每一个耗时的请求

FunTester

性能测试 接口测试 测试框架 FunTester 链路压测

数据湖特点

奔向架构师

数据湖 9月日更

区块链将帮助监管科技突破壁垒,刺激金融市场的监管活力

CECBC

【直播预告】从校园学习到职场实践——淘系技术开学季特别分享系列

阿里巴巴大淘宝技术

程序员 应聘tips

学生管理系统详细设计

缘分呐

设计 学生管理系统架构

内网渗透攻击技术的利用

网络安全学海

网络安全 信息安全 渗透测试 WEB安全 安全漏洞

从特岗教师的需求金字塔,重新理解乡村、教育和科技

脑极体

谷歌发布LLM评测工具LMEval_Google_Sergio De Simone_InfoQ精选文章