写点什么

谷歌推出 LLM-Evalkit,为提示词工程带来秩序与可衡量性

作者:Robert Krzaczyński

  • 2025-10-23
    北京
  • 本文字数:1121 字

    阅读完需:约 4 分钟

大小:565.78K时长:03:13
谷歌推出LLM-Evalkit,为提示词工程带来秩序与可衡量性

谷歌推出 LLM-Evalkit,一个基于 Vertex AI SDK 构建的开源框架,旨在让大语言模型的提示词工程变得更加有序且可衡量。这款轻量级工具旨在用统一的、数据驱动的工作流取代以往分散的文档和基于猜测的迭代方式。


正如 Michael Santoro 所指出的,任何与大语言模型合作过的人都深知其中的痛点:他们在一个控制台中进行实验,然后在其他地方保存提示词,并且对结果的衡量缺乏一致性。LLM-Evalkit 将它们整合到一个连贯的环境中——一个可以创建、测试、版本化和并排比较提示词的地方。通过保留变更的共享记录,团队终于能够清晰地跟踪哪些提示词改进提升了性能,而不再依赖于模糊的记忆或繁琐的电子表格。


该工具包的核心理念很简单:停止猜测,转而进行精准衡量。与其凭借主观感受去评判哪个提示词“似乎”更好,用户可以明确地定义一个具体任务,精心构建一个具有代表性的数据集,并借助客观的指标来评估输出结果。这一框架让每一次的改进都变得可量化,将原本的直觉判断转变为有据可依的实证分析。


这种方法与现有的谷歌云工作流无缝集成。LLM-Evalkit 基于 Vertex AI SDK 构建,并与谷歌的专业评估工具紧密相连,从而在实验与性能跟踪之间搭建起一个结构化的反馈循环。团队能够便捷地运行测试、精准地比较输出结果,并且为所有提示词的迭代维护一个权威且统一的真实数据源,无需在多个复杂环境中来回切换。


与此同时,谷歌在设计该框架时充分体现了包容性理念。LLM-Evalkit 提供了无代码界面,极大地降低了操作门槛,使得从开发人员、数据科学家到产品经理、用户体验(UX)作家等更广泛的专业人士群体都能轻松上手。通过降低技术障碍,有力地促进了技术团队成员与非技术团队成员之间的快速迭代和紧密协作,真正将提示设计词打造为一项跨学科的协同工作。


Santoro 在 LinkedIn 上表达了他的兴奋之情:

我十分荣幸地宣布,我参与开发了一个全新的开源框架——LLM-Evalkit!它旨在为在谷歌云上使用大语言模型的团队简化提示词工程流程。


这一宣布引起了该领域从业者的广泛关注。一位用户在 LinkedIn 上评论道:

这看起来非常棒。我们一直苦于没有一个集中化的系统来跟踪提示词,尤其是当模型不断升级时这个问题愈发凸显。我迫不及待地想试用一下。


LLM-Evalkit 已经作为开源项目在 GitHub 上发布,并且与 Vertex AI 实现了深度集成,同时谷歌云控制台中还提供了详细的教程供用户参考。新用户可以充分利用谷歌提供的 300 美元试用积分来探索这一强大的工具。


借助 LLM-Evalkit,谷歌致力于将提示词工程从一种依赖直觉的即兴调整转变为一种可重复、透明且不断进化的流程——每一次迭代都将使其变得更加智能、高效。


【声明:本文由 InfoQ 翻译,未经许可禁止转载。】


查看英文原文https://www.infoq.com/news/2025/10/llm-evalkit/

2025-10-23 15:007260

评论

发布
暂无评论

寿光教育城乡一体化的秘诀,藏在“教育一朵云”里

脑极体

云平台

软件测试/人工智能丨身份运算符

测试人

人工智能 软件测试

和鲸科技携手深圳数据交易所,“数据+数据开发者生态”赋能人工智能产业发展

ModelWhale

人工智能 数据要素 数据科学家 工业数字化 深圳数据交易所

MongoDB和阿里云携手驱动WeLab 引领超千万用户迈向智能金融未来

极客天地

Amazon CodeWhisperer 免费的 AI 代码生成助手!最新体验反馈~

亚马逊云科技 (Amazon Web Services)

人工智能 亚马逊云科技 云上探索实验室 Amazon CodeWhisperer

【FAQ】推送前台应用的通知处理功能没生效,如何进行排查?

HarmonyOS SDK

HMS Core

别划走!3分钟看懂 Git 底层工作原理

伤感汤姆布利柏

和鲸科技荣获第三届光合组织解决方案大赛集智赛道优秀奖

ModelWhale

人工智能 信创 数据科学 海光 光合组织

四川大学携手和鲸打造课内workshop,趣味实践教学助力数据思维培养

ModelWhale

Python 数据分析 人才培养 数据思维 四川大学

GeminiDB Cassandra接口新特性PITR发布:支持任意时间点恢复

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 华为云GeminiDB

奥特曼被指爱权力胜过金钱;人类才是「幻觉问题」根本原因丨 RTE 开发者日报 Vol.103

RTE开发者社区

软件测试/人工智能丨成员运算符

测试人

人工智能 软件测试

CSS属性isolation,走过路过不要错过!

伤感汤姆布利柏

CSS 前端

龙智DevSecOps研讨会年终专场来了!龙智、Jama与清晖敏捷专家邀您共探如何打好DevOps基础、赋能创新

龙智—DevSecOps解决方案

在自动化测试时,Python常用的几个加密算法,你有用到吗

华为云开发者联盟

Python 开发 自动化测试 华为云 华为云开发者联盟

INTO领航:2023社交变革峰会揭示数字社交的未来格局

极客天地

LED透明屏市场前景展望

Dylan

全球经济下行 中美贸易 LED LED显示屏 led显示屏厂家

推出 Amazon EC2 C7i 实例

亚马逊云科技 (Amazon Web Services)

机器学习 分布式 ebs

MySQL:从MySQL看主从架构高可用性实现

互联网工科生

MySQL 数据库

2023滨海湾人工智能论坛举办,范向伟代表和鲸科技共同发起成立工业智能算法联盟

ModelWhale

人工智能 算法 大模型 算料 滨海湾

SVN优缺点详解及版本控制系统选型建议

龙智—DevSecOps解决方案

svn 版本控制

Blackhat Europe 2023 | 百度安全揭秘多平台NPU背后的安全风险

百度安全

谷歌推出LLM-Evalkit,为提示词工程带来秩序与可衡量性_AI&大模型_InfoQ精选文章