50万奖金+官方证书,深圳国际金融科技大赛正式启动,点击报名 了解详情
写点什么

谷歌推出 LLM-Evalkit,为提示词工程带来秩序与可衡量性

作者:Robert Krzaczyński

  • 2025-10-23
    北京
  • 本文字数:1121 字

    阅读完需:约 4 分钟

大小:565.78K时长:03:13
谷歌推出LLM-Evalkit,为提示词工程带来秩序与可衡量性

谷歌推出 LLM-Evalkit,一个基于 Vertex AI SDK 构建的开源框架,旨在让大语言模型的提示词工程变得更加有序且可衡量。这款轻量级工具旨在用统一的、数据驱动的工作流取代以往分散的文档和基于猜测的迭代方式。


正如 Michael Santoro 所指出的,任何与大语言模型合作过的人都深知其中的痛点:他们在一个控制台中进行实验,然后在其他地方保存提示词,并且对结果的衡量缺乏一致性。LLM-Evalkit 将它们整合到一个连贯的环境中——一个可以创建、测试、版本化和并排比较提示词的地方。通过保留变更的共享记录,团队终于能够清晰地跟踪哪些提示词改进提升了性能,而不再依赖于模糊的记忆或繁琐的电子表格。


该工具包的核心理念很简单:停止猜测,转而进行精准衡量。与其凭借主观感受去评判哪个提示词“似乎”更好,用户可以明确地定义一个具体任务,精心构建一个具有代表性的数据集,并借助客观的指标来评估输出结果。这一框架让每一次的改进都变得可量化,将原本的直觉判断转变为有据可依的实证分析。


这种方法与现有的谷歌云工作流无缝集成。LLM-Evalkit 基于 Vertex AI SDK 构建,并与谷歌的专业评估工具紧密相连,从而在实验与性能跟踪之间搭建起一个结构化的反馈循环。团队能够便捷地运行测试、精准地比较输出结果,并且为所有提示词的迭代维护一个权威且统一的真实数据源,无需在多个复杂环境中来回切换。


与此同时,谷歌在设计该框架时充分体现了包容性理念。LLM-Evalkit 提供了无代码界面,极大地降低了操作门槛,使得从开发人员、数据科学家到产品经理、用户体验(UX)作家等更广泛的专业人士群体都能轻松上手。通过降低技术障碍,有力地促进了技术团队成员与非技术团队成员之间的快速迭代和紧密协作,真正将提示设计词打造为一项跨学科的协同工作。


Santoro 在 LinkedIn 上表达了他的兴奋之情:

我十分荣幸地宣布,我参与开发了一个全新的开源框架——LLM-Evalkit!它旨在为在谷歌云上使用大语言模型的团队简化提示词工程流程。


这一宣布引起了该领域从业者的广泛关注。一位用户在 LinkedIn 上评论道:

这看起来非常棒。我们一直苦于没有一个集中化的系统来跟踪提示词,尤其是当模型不断升级时这个问题愈发凸显。我迫不及待地想试用一下。


LLM-Evalkit 已经作为开源项目在 GitHub 上发布,并且与 Vertex AI 实现了深度集成,同时谷歌云控制台中还提供了详细的教程供用户参考。新用户可以充分利用谷歌提供的 300 美元试用积分来探索这一强大的工具。


借助 LLM-Evalkit,谷歌致力于将提示词工程从一种依赖直觉的即兴调整转变为一种可重复、透明且不断进化的流程——每一次迭代都将使其变得更加智能、高效。


【声明:本文由 InfoQ 翻译,未经许可禁止转载。】


查看英文原文https://www.infoq.com/news/2025/10/llm-evalkit/

2025-10-23 15:007105

评论

发布
暂无评论

Linux之crontab命令

入门小站

Linux

千万级学生管理系统考试试卷存储方案

面向对象的猫

Tensorflow随笔(二)

毛显新

人工智能 深度学习 tensorflow keras

业务架构图的定位:表达业务层级和关系

arctec

趁着课余时间学点Python(六)终止循环,阻断循环

ベ布小禅

8月日更

iOS开发:实现点击常用控件弹出地区选择框(万能方法)

三掌柜

8月日更 8月

Go并发之同步异步、异步回调

Regan Yue

高并发 协程 Go 语言 8月日更

架构师实战营模块四作业

袁小芬

毕业设计电商秒杀系统

梦寐凯旋

#架构实战营

【LeetCode】用两个栈实现队列Java题解

Albert

算法 LeetCode 8月日更

oeasy教您玩转vim - 10 - # 插入新行

o

电商秒杀系统

Presley

07-数据库存储架构

Lane

kubernetes/k8s CRI分析-kubelet创建pod分析

良凯尔

Kubernetes 源码分析 Kubernetes Plugin #Kubernetes# cri-o

每个人都可以说不

escray

学习 极客时间 朱赟的技术管理课 8月日更

毕业总结

Chris Cheng

架构训练营

数字化加速碳基文明向硅基文明的演进

小鲸数据

数字化 数字孪生 碳基文明 硅基文明

架构实战营 - 模块四作业

Julian Chu

架构实战营

在线身份证号码提取生日工具

入门小站

工具

毕业设计

Chris Cheng

【Flutter 专题】74 图解基本 DropdownButton 下拉选项框按钮

阿策小和尚

Flutter 小菜 0 基础学习 Flutter Android 小菜鸟 8月日更

我能行我能行!字节三面 + 微信四面 +PayPal 四面, 大厂面经分享

Java 编程 程序员 架构 IT

前端之数据结构(四)

Augus

数据结构 8月日更

【设计模式】组合模式

Andy阿辉

C# 后端 设计模式 8月日更

Flutter Android 端 Activity/Fragment 流程源码分析

工匠若水

flutter android 0 基础学习 Flutter 8月日更

奥运背后的5G赛场,竟然也这么激烈?

白洞计划

期末设计

Geek_9cf7b5

一款非常简单的基于WebRTC的视频预览播放器(具有贴图、视频特效)

liuzhen007

8月日更

08-消息队列备选架构选择和细化

Lane

总结

wade

#架构实战营

架构设计能力提升

arctec

谷歌推出LLM-Evalkit,为提示词工程带来秩序与可衡量性_AI&大模型_InfoQ精选文章