Evalite 横空出世：AI 驱动应用的 TypeScript 测试利器

由 Matt Pocock 开发的 TypeScript 原生评估运行器 Evalite 为 AI 驱动的应用程序量身定制了一套测试框架，让开发者可以编写可复现的评估、捕获追踪信息，并可通过本地 Web UI 进行快速迭代。该项目已发布 v1 beta 版本，目标是成为“ LLM 时代的 Vitest/Jest”，为打分、追踪和成本优化提供专用工具链。

Evalite 将评估视为测试套件，并提供更丰富的输出。它运行 .eval.ts 文件，每个数据点都会被打分，并内置了 scorer 与追踪捕获，方便用户以编程的方式检查模型输出、调用链和行为。它在本地启动 dev server，支持热重载与交互式 UI 查看追踪。因为是基于 Vitest，所以用户可以继续使用熟悉的测试语法（mock、生命周期钩子等）。

v1 beta 版本专注于开发者体验和迭代速度。官方的快速上手文档演示了如何安装 Evalite、添加 eval:dev 脚本，并用现成 scorer（如 autoevals）写一条简单的评估。Evalite 也支持程序化运行，提供 watch / run-once 等多种模式，并可将结果持久化到自定义存储中，方便用户长期跟踪评估趋势。

Evalite 为生产级工作流提供了不少特性。它内置 scorer，并支持自定义 scorer，可对领域专属的指标进行编码。Evalite 的追踪系统可捕获输入、LLM 调用与中间状态，让调试与根因分析更加有迹可循。

最近，Evalite 宣布支持缓存 AI SDK 模型，用户对此反应热烈，有评论者称该功能“极大提升了速度与迭代效率”。

社区反馈非常积极，GitHub 仓库已收获上千 star，发布节奏十分活跃。作者在 X 上发布的 v1 beta 公告迅速引起用户的关注，有人表示“明天就在真实的项目里用上”。另一位用户解释了项目存在的意义：

市面上有许多评估运行器……Evalite 的不同之处在于，它完全在本地运行，数据完全由你掌控。

由于仍处在早期阶段，难免会遇到问题，例如最近有人指出依赖声明的 bug，不过作者已进行了修复，并表示正在积极修复早期用户反馈的问题。

Evalite 采用了 MIT 开源协议，刻意避免了厂商锁定，可对接任意 LLM，存储与 scorer 均可插拔。随着越来越多组织构建智能体与 LLM 驱动的功能，Evalite 希望让评估变得更加可复现、类型安全、且足够快，成为日常开发流程的一部分。早期用户可以期待它的快速迭代，它为 TypeScript 优先的 AI 应用测试提供了一条颇具吸引力的路径。

原文链接：

https://www.infoq.com/news/2025/11/evalite-ai-testing/

创作场景

Evalite 横空出世：AI 驱动应用的 TypeScript 测试利器