在 2025 收官前,看清 Data + AI 的真实走向,点击查看 BUILD 大会精华版 了解详情
写点什么

评估模型

收录了 评估模型 频道下的 50 篇内容

爱奇艺短视频质量评估模型
爱奇艺短视频质量评估模型

短视频信息流产品是目前最炙手可热的互联网产品,完全占领了用户的碎片时间,据艾瑞统计2018年短视频产品月独立设备数有6亿+台。

谷歌Metrax为JAX引入了预定义的模型评估指标
谷歌 Metrax 为 JAX 引入了预定义的模型评估指标

Metrax是一个JAX库,最近由谷歌开源,为分类、回归、自然语言处理(NLP)、视觉和音频模型提供了标准化的性能指标实现。

极客说|深度对比:SFT、ReFT、RHLF、RLAIF、DPO、PPO
极客说|深度对比:SFT、ReFT、RHLF、RLAIF、DPO、PPO

最近 OpenAI Day2 展示的 demo 可能把 ReFT 带火了,接下来,本文对比 SFT、ReFT、RHLF、DPO、PPO 这几种常见的技术。

深度解析:如何最大化BERT性能
深度解析:如何最大化 BERT 性能

本文阐述了一种评估预训练 BERT 模型以提高性能的方法。

“从头开始训练模型,几乎没有意义”
“从头开始训练模型,几乎没有意义”

构建支持和增强人类能力的AI工具,而不是试图完全取代人类。

DeepSeek、Claude 3.7只是个开始,为“AI 应用落地”吹哨的另有其人
DeepSeek、Claude 3.7 只是个开始,为“AI 应用落地”吹哨的另有其人

这两年我们见证了太多“最强大模型”的发布,从拼参数到拼上下文,从拼多模态到拼成本,似乎陷入了各大模型轮番屠榜的无限流中。

新增模型检验,指标自动评估模型效果|ModelWhale 版本更新
新增模型检验,指标自动评估模型效果|ModelWhale 版本更新

ModelWhale 将编程建模、模型训练、数据&算力管理等功能深度整合,通过逐级开放的基础设施,与 Jupyter Notebook 交互式、Canvas 低代码拖拽式、CloudIDE 三种即开即用的云分析环境,为研究者团队解决数据安全应用、底层工程繁复、研究成果流转困难等问题。

人工智能
机器学习
大数据
数据分析
模型训练
基于二代征信报告的信用评估模型实践

与一代征信系统相比,二代征信系统在收录数据、信息更新、信用分计算、用户权益保护等方面有所改进。

金融
征信
风控
对话式AI
质量评估模型助力风险决策水平提升

无论自动化测试任务执行、项目准出还是项目流程流转主要依赖人员判断,而人员能力是有区别的,进而会影响质效,本文章主要介绍我们在探索和实践的一条路径,就是通过机器学习模型,让计算机自动,辅助甚至是替代人工,进行决策。

机器学习
企业号十月 PK 榜
智能测试
质量评估模型
OSS Compass 开源指南针正式发布:聚焦开源生态健康评估,不再单一看 star 数
OSS Compass 开源指南针正式发布:聚焦开源生态健康评估,不再单一看 star 数

OSS Compass 是一个用于开源生态健康评估的平台,面向 GitHub、Gitee 等平台所有开源项目开放。

评估模型效果:深入解读混淆矩阵、精准率、召回率和 F1 score

在评估模型效果时,混淆矩阵、精准率、召回率和F1分数是常用的指标,它们可以提供对模型性能的全面评估。下面我们将对这些指标进行深入解读:

测试
长上下文不再难:KV Cache 全生命周期优化实战
长上下文不再难:KV Cache 全生命周期优化实战

在 AICon2025 上海站上,微软亚洲研究院研究开发工程师姜慧强带来了题为《以 KV 缓存为中心的高效长文本方法》的演讲,分享了 SCBench 这一全面的基准测试工具,并对目前主流的推理优化方法进行梳理,还介绍了各类高效长文本方法,包括 MInference, MMInference, RetrievalAttention 等。

国内低代码哪家强?深入探讨低代码选型关键指标和评估模型
国内低代码哪家强?深入探讨低代码选型关键指标和评估模型

本文将深入研究低代码平台的关键指标和评估模型,为信息化从业者提供深刻洞察,助力决策者在众多选择中做出明智选择,找到真正适合业务需求的理想平台。

低代码开发平台
国内低代码
低代码选择
低代码平台比较
低代码排名
LMOps 工具链与千帆大模型平台
LMOps 工具链与千帆大模型平台

随着技术的发展,企业和机构对于大模型的需求不断增加,百度智能云在这方面提供了专业的产品,为产业带来了重大的变化和挑战。

智能风控模型的自动化迭代
智能风控模型的自动化迭代

本文主要分享在智能风控体系下模型如何做到全流程自动化的迭代。

低代码平台运营效果评估模型:AICE
低代码平台运营效果评估模型:AICE

本文以项目实战的方式来介绍低代码平台运营效果评估模型:AICE,该模型兼顾了用户在低代码平台引入后期,从帮助、融入到生态形成等纬度进行凝练。

低代码
企业号 2 月 PK 榜
京东大模型革命电商搜推技术:挑战、实践与未来趋势
京东大模型革命电商搜推技术:挑战、实践与未来趋势

大模型对搜推技术产生了深远的影响,极大地推动了搜推技术的演进趋势,使得搜推更加的智能化和个性化,然而在搜推中引入大模型时同样面临一系列的挑战,例如商品知识的幻觉,复杂查询的理解,个性化商品推荐,隐私和安全等问题。

AWS DeepRacer League 虚拟赛道现已开放,立即训练您的模型吧!
AWS DeepRacer League 虚拟赛道现已开放,立即训练您的模型吧!

AWS DeepRacer 是一款 1/18 比例的四轮驱动车,配备大量车载硬件和软件。

谷歌发布LLM评测工具LMEval
谷歌发布 LLM 评测工具 LMEval

LMEval用于帮助人工智能研究人员和开发人员比较不同大语言模型的性能,已经被用于评估主流大模型在安全性和可靠性方面的表现。

OpenAI 发布大模型现实世界软件工程基准测试 SWE-Lancer
OpenAI 发布大模型现实世界软件工程基准测试 SWE-Lancer

OpenAI 发布 SWE-Lancer 基准测试,评估 AI 大语言模型在现实世界软件工程任务中的表现。

评估模型专题_资料-InfoQ中文网