

 写点什么

模型评估

收录了模型评估频道下的 50 篇内容

TensorFlow 工程实战（一）：用 TF-Hub 库微调模型评估人物年龄

如何使用TF-Hub库对预训练模型进行微调？

作者 : 李金洪策划: 蔡芳芳

2019-08-13

6397

Amazon SageMaker Processing – 完全托管的数据处理和模型评估

今天，我们非常高兴地推出 Amazon SageMaker Processing，这是Amazon SageMaker 的一项新功能

作者 : 亚马逊云科技 (Amazon Web Services）

2019-12-11

Hugging Face 推出全新检索模型评估基准框架 RTEB

Hugging Face 发布检索嵌入基准框架 RTEB，旨在更准确地衡量嵌入模型在真实检索场景下的泛化能力。

作者：Robert Krzaczyński 译者: 明知山

2025-10-21

谷歌 Metrax 为 JAX 引入了预定义的模型评估指标

Metrax是一个JAX库，最近由谷歌开源，为分类、回归、自然语言处理（NLP）、视觉和音频模型提供了标准化的性能指标实现。

作者 : Sergio De Simone 译者: 刘雅梦策划: 丁晓昀

2025-12-24

大语言模型评估全解：评估流程、评估方法及常见问题

随着对大语言模型（LLM）评估领域的深入研究，我们更加清楚地认识到全面理解评估过程中的问题对于有效评估LLM至关重要。本文探讨了机器学习模型评估中出现的常见问题，并深入研究了LLM对模型评估领域带来的重大挑战。在评估方法方面，我们将其划分为直接评

人工智能

白海科技

LLMOps

大模型评估

企业号 7 月 PK 榜

Baihai IDP

2023-07-17

大模型落地高风险区，如何一步步避开陷阱？｜对话 AI 原生《云智实验室》

在经历了两年的混战后，大模型终于从技术走向应用，“不卷参数、卷落地”已经成了行业共识。但大模型落地并非易事，要想清楚场景价值，也要选对实现路径。

作者 : 凌敏

2025-01-08

智能风控模型的自动化迭代

本文主要分享在智能风控体系下模型如何做到全流程自动化的迭代。

作者 : DataFunTalk

2021-07-28

如何用大模型评估大模型——PAI-Judge 裁判员大语言模型的实现简介

阿里云人工智能平台 PAI 推出 PAI-Judge 裁判员大模型，为用户构建符合应用场景的多维度、细粒度的评测体系，支持单模型评测和双模型竞技两种模式，允许用户自定义参数，实现准确、灵活、高效的模型自动化评测，为模型迭代优化提供数据支撑。

人工智能

大模型

LLM

PAI

模型评测

阿里云大数据AI技术

2025-03-21

首批！华为云盘古研发大模型通过代码大模型评估，获当前最高等级

在通用能力、专用场景能力应用成熟度三个能力域上均获优异结果。

人工智能

华为云

华为云开发者联盟

华为云盘古大模型

企业号2024年6月PK榜

华为云开发者联盟

2024-06-13

评分规则 + 微调：大模型评估的「黄金组合」

在AI飞速进化的今天，两个看似传统的方法正成为大模型评估的关键密钥：监督微调（SFT）与评分规则评估（rubric-based evaluation）。它们如同教育的两面——一个耐心教导模型如何回应，一个精准评判模型的表现优劣。Old Is New Again？一起走进本期AppenTalk

微调

SFT

澳鹏Appen

2025-12-16

DeepSeek 浪潮下，MedHELM 如何重塑 AI 医疗大模型评估？

DeepSeek 开源推动医疗智能化，多家医院已部署相关技术。大型语言模型在医疗领域潜力大，但传统评估方式有局限。 MedHELM 应运而生，经科学构建流程评估不同规模模型，发现其各有优劣。目前评估面临挑战，后续将持续优化，它有望推动医疗行业智能化升级。

AI医疗

大模型评估

医疗大模型

DeepSeek

Medhelm

GPU算力

2025-04-21

支持向量机 -SVC 的模型评估指标

根据我们之前在Precision处的分析，其实可以看得出来，当样本均衡过后，假正率会更高，因为有更多紫色点被判断错误，而样本均衡之前，假正率比

Python

机器学习

算法

sklearn

11月月更

烧灯续昼2002

2022-11-29

模型评估指标 -1- 基础篇 -FPR/TPR/F1/ROC/AUC

导语：本文是模型评估指标系列的第一篇，将详细地介绍分类模型中基于混淆矩阵衍生出来的各个指标的计算公式，如准确率，精确率，召回率，FPR，TPR，ROC曲线的绘制逻辑，AUC的计算公. 本文首发在个人知乎和微信公众号：一直学习一直爽

机器学习

模型评估

分类模型

一直学习一直爽

2021-02-28

“驯服”可控大模型，白海发布一站式大模型微调平台 IDP LM

在大模型如火如荼的背后，幻觉（hallucination）倾向就越发的明显，它正在越发的生产着 “完全没有出处的非真实内容”。这样对于商业化而言是一个巨大的挑战，来面对一个不可控、不可预测和不可靠的大模型……

作者 : InfoQ编辑部

2023-06-29

OpenAI 发布大模型现实世界软件工程基准测试 SWE-Lancer

OpenAI 发布 SWE-Lancer 基准测试，评估 AI 大语言模型在现实世界软件工程任务中的表现。

作者：Daniel Dominguez 译者: 明知山策划: 丁晓昀

2025-04-06

如何用 Delta-p 统计量解释 Logistic 回归模型

在本文中，作者Maarit Widmann和Alfredo Roccato讨论了如何使用基于Delta-p统计量的解决方案来预测信贷资格。

Maarit Widmann 译者: 刘雅梦

2020-09-30

Caicloud Clever v1.4.0 发布：云原生 AI 中台加速企业 AI 落地

近年来，AI 技术在企业业务研发中的占比逐年升高。

作者 : 才云科技

2020-03-02

InfoQ 2024 年趋势报告：人工智能、机器学习和数据工程篇

InfoQ编辑团队和嘉宾讨论了人工智能、机器学习和数据工程领域的当前趋势。

作者：Srini Penchikala, Mandy Gu, Namee Oberst等译者: 明知山策划: 丁晓昀

2024-10-10

Gemini 3 预训练负责人警告：模型战已从算法转向工程化！合成数据成代际跃迁核心，谷歌碾压 OpenAI、Meta 的秘密武器曝光

以绝对王者之姿强势突围，一登场就刷新了行业的认知边界。直接“横扫”多项权威基准测试，以“世界最强多模态理解”“交互最深智能体”“推理怪兽”的姿态，强势碾压全球所有同类模型。

作者 : 高允毅

2025-12-26

AI 原生应用全栈可观测实践：以 DeepSeek 对话机器人为例

本文以 DeepSeek 对话机器人为例，深入介绍 AI 原生应用架构的可观测需求、挑战与方案实践。比如 DeepSeek 为何频繁出现服务器繁忙？如何评估 DeepSeek 与其他模型的性能、成本与效果差异？如何优化 DeepSeek 对话机器人的终端用户体验？等等。

作者 : Kitty 策划: QCon全球软件开发大会

2025-09-03

创作场景

模型评估

TensorFlow 工程实战（一）：用 TF-Hub 库微调模型评估人物年龄

Amazon SageMaker Processing – 完全托管的数据处理和模型评估

Hugging Face 推出全新检索模型评估基准框架 RTEB

谷歌 Metrax 为 JAX 引入了预定义的模型评估指标

大语言模型评估全解：评估流程、评估方法及常见问题

大模型落地高风险区，如何一步步避开陷阱？｜对话 AI 原生《云智实验室》

智能风控模型的自动化迭代

如何用大模型评估大模型——PAI-Judge 裁判员大语言模型的实现简介

首批！华为云盘古研发大模型通过代码大模型评估，获当前最高等级

评分规则 + 微调：大模型评估的「黄金组合」

DeepSeek 浪潮下，MedHELM 如何重塑 AI 医疗大模型评估？

支持向量机 -SVC 的模型评估指标

模型评估指标 -1- 基础篇 -FPR/TPR/F1/ROC/AUC

“驯服”可控大模型，白海发布一站式大模型微调平台 IDP LM

OpenAI 发布大模型现实世界软件工程基准测试 SWE-Lancer

如何用 Delta-p 统计量解释 Logistic 回归模型

Caicloud Clever v1.4.0 发布：云原生 AI 中台加速企业 AI 落地

InfoQ 2024 年趋势报告：人工智能、机器学习和数据工程篇

Gemini 3 预训练负责人警告：模型战已从算法转向工程化！合成数据成代际跃迁核心，谷歌碾压 OpenAI、Meta 的秘密武器曝光

AI 原生应用全栈可观测实践：以 DeepSeek 对话机器人为例

热点文章