
LMEval 旨在帮助人工智能研究人员和开发人员比较不同大语言模型的性能。LMEval 的设计宗旨是准确、多模态且易于使用,已经被用于评估主流大模型在安全性和可靠性方面的表现。
LMEval 的推出背景之一是大模型的快速更新和迭代。谷歌研究人员表示,这种快速发展的趋势使得对这些模型进行快速且可靠的评估变得尤为关键,以确保它们能够满足特定应用场景的需求。LMEval 的核心优势在于与广泛的大语言模型供应商兼容、通过增量基准执行提高效率、支持多模态评估(包括文本、图像和代码)以及通过加密存储结果以增强安全性。
为了实现跨供应商支持,能够在不同模型之间复用统一定义的评估基准至关重要,尽管这些模型的 API 存在显著差异。为此,LMEval 使用了LiteLLM框架,允许开发人员使用 OpenAI API 格式调用各种 LLM 供应商,包括 Bedrock、Hugging Face、Vertex AI、Together AI、Azure、OpenAI、Groq 等。LiteLLM 将输入转换为符合每个供应商特定要求的完成、嵌入和图像生成端点,并生成统一的输出格式。
为了提高执行效率,LMEval 只执行针对新模型、新提示词或新问题所必需的评估项目,这要归功于一个遵循增量评估模型的智能评估引擎。
LMEval 使用 Python 编写,并且在GitHub上开源。运行评估需要遵循一系列步骤。首先是定义基准,指定要执行的任务(例如,在图片中检测眼睛颜色)、提示词、图像和预期结果,然后列出要评估的模型并运行基准:
你还可以选择将评估结果保存到 SQLite 数据库,并将数据导出到 pandas 进行进一步分析和可视化。LMEval 使用加密技术存储基准数据和评估结果,以防止被爬取或索引。
LMEval 还提供了 LMEvalboard,一个可视化仪表盘,方便你查看整体性能、分析单个模型或比较多个模型。
如上所述,LMEval 已被用于创建 Phare LLM 基准测试,旨在评估 LLM 的安全性和可靠性,包括抑制幻觉的能力、事实准确性、偏见和潜在危害。
LMEval 并不是目前唯一可用的跨供应商 LLM 评估框架,其他类似的框架还有Harbor Bench和EleutherAI的LM评估工具。Harbor Bench 仅限于文本提示词,其特别之处是使用 LLM 来评判结果质量。相比之下,EleutherAI 的 LM 评估工具包含了 60 多个基准测试,并允许用户使用 YAML 定义新的基准测试。
原文链接:
评论