50万奖金+官方证书,深圳国际金融科技大赛正式启动,点击报名 了解详情
写点什么

谷歌推出 LLM-Evalkit,为提示词工程带来秩序与可衡量性

作者:Robert Krzaczyński

  • 2025-10-23
    北京
  • 本文字数:1121 字

    阅读完需:约 4 分钟

大小:565.78K时长:03:13
谷歌推出LLM-Evalkit,为提示词工程带来秩序与可衡量性

谷歌推出 LLM-Evalkit,一个基于 Vertex AI SDK 构建的开源框架,旨在让大语言模型的提示词工程变得更加有序且可衡量。这款轻量级工具旨在用统一的、数据驱动的工作流取代以往分散的文档和基于猜测的迭代方式。


正如 Michael Santoro 所指出的,任何与大语言模型合作过的人都深知其中的痛点:他们在一个控制台中进行实验,然后在其他地方保存提示词,并且对结果的衡量缺乏一致性。LLM-Evalkit 将它们整合到一个连贯的环境中——一个可以创建、测试、版本化和并排比较提示词的地方。通过保留变更的共享记录,团队终于能够清晰地跟踪哪些提示词改进提升了性能,而不再依赖于模糊的记忆或繁琐的电子表格。


该工具包的核心理念很简单:停止猜测,转而进行精准衡量。与其凭借主观感受去评判哪个提示词“似乎”更好,用户可以明确地定义一个具体任务,精心构建一个具有代表性的数据集,并借助客观的指标来评估输出结果。这一框架让每一次的改进都变得可量化,将原本的直觉判断转变为有据可依的实证分析。


这种方法与现有的谷歌云工作流无缝集成。LLM-Evalkit 基于 Vertex AI SDK 构建,并与谷歌的专业评估工具紧密相连,从而在实验与性能跟踪之间搭建起一个结构化的反馈循环。团队能够便捷地运行测试、精准地比较输出结果,并且为所有提示词的迭代维护一个权威且统一的真实数据源,无需在多个复杂环境中来回切换。


与此同时,谷歌在设计该框架时充分体现了包容性理念。LLM-Evalkit 提供了无代码界面,极大地降低了操作门槛,使得从开发人员、数据科学家到产品经理、用户体验(UX)作家等更广泛的专业人士群体都能轻松上手。通过降低技术障碍,有力地促进了技术团队成员与非技术团队成员之间的快速迭代和紧密协作,真正将提示设计词打造为一项跨学科的协同工作。


Santoro 在 LinkedIn 上表达了他的兴奋之情:

我十分荣幸地宣布,我参与开发了一个全新的开源框架——LLM-Evalkit!它旨在为在谷歌云上使用大语言模型的团队简化提示词工程流程。


这一宣布引起了该领域从业者的广泛关注。一位用户在 LinkedIn 上评论道:

这看起来非常棒。我们一直苦于没有一个集中化的系统来跟踪提示词,尤其是当模型不断升级时这个问题愈发凸显。我迫不及待地想试用一下。


LLM-Evalkit 已经作为开源项目在 GitHub 上发布,并且与 Vertex AI 实现了深度集成,同时谷歌云控制台中还提供了详细的教程供用户参考。新用户可以充分利用谷歌提供的 300 美元试用积分来探索这一强大的工具。


借助 LLM-Evalkit,谷歌致力于将提示词工程从一种依赖直觉的即兴调整转变为一种可重复、透明且不断进化的流程——每一次迭代都将使其变得更加智能、高效。


【声明:本文由 InfoQ 翻译,未经许可禁止转载。】


查看英文原文https://www.infoq.com/news/2025/10/llm-evalkit/

2025-10-23 15:001

评论

发布
暂无评论

前端基础一之HTML篇

ベ布小禅

8月日更

OLAP 简介

LeifChen

OLAP 多维分析 8月日更

JAVA对于文件IO操作的支持

卢卡多多

Java 文件 io 8月日更

模块5作业

Geek_35a345

网络攻防学习笔记 Day107

穿过生命散发芬芳

网络安全 8月日更

架构实战营 - 模块五作业

Julian Chu

架构实战营

智能时代的信任口诀:让计算远离算计

脑极体

iOS开发:真机调试提示XXX, but code signing identity Apple Development问题

三掌柜

8月日更 8月

架构实战营 - 模块五作业

李东旭

「架构实战营」

你知道关闭页面时怎么向后台发送消息吗?

编程三昧

JavaScript 大前端 8月日更

Java 操作 Office:POI word之网络图片处理

程序员架构进阶

Java Apache POI 实战问题 8月日更

JavaScript 中 Array map() 方法

HoneyMoose

前端之算法(六)分而治之

Augus

算法 8月日更

分享 6 个实用的 Vue 技巧

devpoint

Vue Vue3 8月日更

《社会心理学》-怎么说服他人(整理稿)

箭上有毒

8月日更

介绍一个好用的网络工具traceroute命令

liuzhen007

8月日更

如何写好一篇自媒体文案:把握节奏引起共鸣

石头IT视角

python--构造方法笔记

加里都好

极光开发者周刊【No.0813】

极光GPTBots-极光推送

Elasticsearch 日志监控方案

Se7en

ElastricSearch第三弹之存储原理(详细+易懂)

阿Q说代码

ES 8月日更 flush Refresh translog

Linux之wget命令

入门小站

Linux

Lodash 是什么

HoneyMoose

架构训练营模块5-作业

sophiahuxh

QDS07 Mysql 安装指定版本

耳东@Erdong

MySQL 8月日更 qds

【设计模式】观察者模式

Andy阿辉

C# 编程 后端 设计模式 8月日更

在线图片水印平铺工具

入门小站

工具

架构实战营 模块五 作业

一雄

作业 架构实战营 模块五

JavaScript 中 Array map() 方法

HoneyMoose

也许你曾对怎么样才算认真做事情感到好奇,这本书给我三个启发,我想与你分享。

叶小鍵

谷歌推出LLM-Evalkit,为提示词工程带来秩序与可衡量性_AI&大模型_InfoQ精选文章