谷歌推出LLM-Evalkit，为提示词工程带来秩序与可衡量性

谷歌推出 LLM-Evalkit，一个基于 Vertex AI SDK 构建的开源框架，旨在让大语言模型的提示词工程变得更加有序且可衡量。这款轻量级工具旨在用统一的、数据驱动的工作流取代以往分散的文档和基于猜测的迭代方式。

正如 Michael Santoro 所指出的，任何与大语言模型合作过的人都深知其中的痛点：他们在一个控制台中进行实验，然后在其他地方保存提示词，并且对结果的衡量缺乏一致性。LLM-Evalkit 将它们整合到一个连贯的环境中——一个可以创建、测试、版本化和并排比较提示词的地方。通过保留变更的共享记录，团队终于能够清晰地跟踪哪些提示词改进提升了性能，而不再依赖于模糊的记忆或繁琐的电子表格。

该工具包的核心理念很简单：停止猜测，转而进行精准衡量。与其凭借主观感受去评判哪个提示词“似乎”更好，用户可以明确地定义一个具体任务，精心构建一个具有代表性的数据集，并借助客观的指标来评估输出结果。这一框架让每一次的改进都变得可量化，将原本的直觉判断转变为有据可依的实证分析。

这种方法与现有的谷歌云工作流无缝集成。LLM-Evalkit 基于 Vertex AI SDK 构建，并与谷歌的专业评估工具紧密相连，从而在实验与性能跟踪之间搭建起一个结构化的反馈循环。团队能够便捷地运行测试、精准地比较输出结果，并且为所有提示词的迭代维护一个权威且统一的真实数据源，无需在多个复杂环境中来回切换。

与此同时，谷歌在设计该框架时充分体现了包容性理念。LLM-Evalkit 提供了无代码界面，极大地降低了操作门槛，使得从开发人员、数据科学家到产品经理、用户体验（UX）作家等更广泛的专业人士群体都能轻松上手。通过降低技术障碍，有力地促进了技术团队成员与非技术团队成员之间的快速迭代和紧密协作，真正将提示设计词打造为一项跨学科的协同工作。

Santoro 在 LinkedIn 上表达了他的兴奋之情：

我十分荣幸地宣布，我参与开发了一个全新的开源框架——LLM-Evalkit！它旨在为在谷歌云上使用大语言模型的团队简化提示词工程流程。

这一宣布引起了该领域从业者的广泛关注。一位用户在 LinkedIn 上评论道：

这看起来非常棒。我们一直苦于没有一个集中化的系统来跟踪提示词，尤其是当模型不断升级时这个问题愈发凸显。我迫不及待地想试用一下。

LLM-Evalkit 已经作为开源项目在 GitHub 上发布，并且与 Vertex AI 实现了深度集成，同时谷歌云控制台中还提供了详细的教程供用户参考。新用户可以充分利用谷歌提供的 300 美元试用积分来探索这一强大的工具。

借助 LLM-Evalkit，谷歌致力于将提示词工程从一种依赖直觉的即兴调整转变为一种可重复、透明且不断进化的流程——每一次迭代都将使其变得更加智能、高效。

【声明：本文由 InfoQ 翻译，未经许可禁止转载。】

查看英文原文：https://www.infoq.com/news/2025/10/llm-evalkit/

创作场景

谷歌推出 LLM-Evalkit，为提示词工程带来秩序与可衡量性