写点什么

Evalite 横空出世:AI 驱动应用的 TypeScript 测试利器

作者:Daniel Curtis

  • 2025-12-01
    北京
  • 本文字数:954 字

    阅读完需:约 3 分钟

大小:469.80K时长:02:40
Evalite 横空出世:AI 驱动应用的 TypeScript 测试利器

Matt Pocock 开发的 TypeScript 原生评估运行器 Evalite 为 AI 驱动的应用程序量身定制了一套测试框架,让开发者可以编写可复现的评估、捕获追踪信息,并可通过本地 Web UI 进行快速迭代。该项目已发布 v1 beta 版本,目标是成为“ LLM 时代的 Vitest/Jest”,为打分、追踪和成本优化提供专用工具链。


Evalite 将评估视为测试套件,并提供更丰富的输出。它运行 .eval.ts 文件,每个数据点都会被打分,并内置了 scorer 与追踪捕获,方便用户以编程的方式检查模型输出、调用链和行为。它在本地启动 dev server,支持热重载与交互式 UI 查看追踪。因为是基于 Vitest,所以用户可以继续使用熟悉的测试语法(mock、生命周期钩子等)。


v1 beta 版本专注于开发者体验和迭代速度。官方的快速上手文档演示了如何安装 Evalite、添加 eval:dev 脚本,并用现成 scorer(如 autoevals)写一条简单的评估。Evalite 也支持程序化运行,提供 watch / run-once 等多种模式,并可将结果持久化到自定义存储中,方便用户长期跟踪评估趋势。


Evalite 为生产级工作流提供了不少特性。它内置 scorer,并支持自定义 scorer,可对领域专属的指标进行编码。Evalite 的追踪系统可捕获输入、LLM 调用与中间状态,让调试与根因分析更加有迹可循。


最近,Evalite 宣布支持缓存 AI SDK 模型,用户对此反应热烈,有评论者称该功能“极大提升了速度与迭代效率”。


社区反馈非常积极,GitHub 仓库已收获上千 star,发布节奏十分活跃。作者在 X 上发布的 v1 beta 公告迅速引起用户的关注,有人表示“明天就在真实的项目里用上”。另一位用户解释了项目存在的意义:

市面上有许多评估运行器……Evalite 的不同之处在于,它完全在本地运行,数据完全由你掌控。


由于仍处在早期阶段,难免会遇到问题,例如最近有人指出依赖声明的 bug,不过作者已进行了修复,并表示正在积极修复早期用户反馈的问题


Evalite 采用了 MIT 开源协议,刻意避免了厂商锁定,可对接任意 LLM,存储与 scorer 均可插拔。随着越来越多组织构建智能体与 LLM 驱动的功能,Evalite 希望让评估变得更加可复现、类型安全、且足够快,成为日常开发流程的一部分。早期用户可以期待它的快速迭代,它为 TypeScript 优先的 AI 应用测试提供了一条颇具吸引力的路径。


原文链接

https://www.infoq.com/news/2025/11/evalite-ai-testing/

2025-12-01 17:003522

评论

发布
暂无评论

mac电脑怎么彻底清除卸载的软件,苹果电脑卸载软件的实用技巧

阿拉灯神丁

性能优化 CleanMyMac X 卸载软件 应用程序卸载 mac 效率工具

产品UIUE行动报告

鲸品堂

企业号 2024年12月PK榜

Grequests,非常 Nice 的 Python 异步 HTTP 请求神器

左诗右码

《Hive编程指南》读书笔记

京东科技开发者

Milvus×OPPO:如何构建更懂你的大模型助手

Zilliz

Embedding OPPO 向量检索 Milvus

【免费开源】JeecgBoot单点登录源码全部开源了

JEECG低代码

低代码 单点登录 低代码平台 JeecgBoot

AI赋能低代码平台的潜力:从自动化到个性化的全面解析

天津汇柏科技有限公司

低代码 AI人工智能

KubeBlocks v0.9.2发布啦!支持容器镜像滚动更新、MySQL支持Jemalloc...快来升级体验更多新功能!

小猿姐

MySQL 数据库 redis 云计算 Kubernetes Serverless

面对不同大小的需求,如何评估研发团队各角色的效能水平?

思码逸研发效能

DevOps 研发效能 研发团队 效能管理

通义灵码“打工”1年记:写了10亿行代码,服务上万家企业

阿里巴巴云原生

阿里云 云原生

小红书笔记详情 API 接口:获取、应用与收益全解析

科普小能手

API API 接口 小红书笔记接口 小红书API 小红书笔记详情数据采集

ChatGPT应用的开发流程

北京木奇移动技术有限公司

软件开发 AI应用 AI智能体

软通智慧:鲲鹏原生开发助力 城市治理平台信息查询效率提升17%

极客天地

测试开发工程师如何打造高效的质量体系

测试人

软件测试

手把手教你华为鸿蒙开发之第八节

The Wang

HarmonyOS NEXT

仅需一小时,教你用豆包MarsCode 学会图像物体识别

TRAE.ai

程序员 AI 开发 代码 识别工具

使用Docker构建集成Supervisor的自定义镜像

代码忍者

Milvus 2.5:全文检索上线,标量过滤提速,易用性再突破!

Zilliz

全文检索 Milvus 新版本发布 标量过滤

一种轻量分表方案-MyBatis拦截器分表实践

京东科技开发者

Taro小程序开发性能优化实践

京东科技开发者

Evalite 横空出世:AI 驱动应用的 TypeScript 测试利器_大前端_InfoQ精选文章