写点什么

评估模型

收录了 评估模型 频道下的 50 篇内容

爱奇艺短视频质量评估模型
爱奇艺短视频质量评估模型

短视频信息流产品是目前最炙手可热的互联网产品,完全占领了用户的碎片时间,据艾瑞统计2018年短视频产品月独立设备数有6亿+台。

FACTS基准测试套件问世,用于评估大型语言模型的事实准确性
FACTS 基准测试套件问世,用于评估大型语言模型的事实准确性

FACTS基准测试套件发布,这是一个旨在系统性评估大型语言模型事实准确性的全新行业基准。

谷歌Metrax为JAX引入了预定义的模型评估指标
谷歌 Metrax 为 JAX 引入了预定义的模型评估指标

Metrax是一个JAX库,最近由谷歌开源,为分类、回归、自然语言处理(NLP)、视觉和音频模型提供了标准化的性能指标实现。

新增模型检验,指标自动评估模型效果|ModelWhale 版本更新
新增模型检验,指标自动评估模型效果|ModelWhale 版本更新

ModelWhale 将编程建模、模型训练、数据&算力管理等功能深度整合,通过逐级开放的基础设施,与 Jupyter Notebook 交互式、Canvas 低代码拖拽式、CloudIDE 三种即开即用的云分析环境,为研究者团队解决数据安全应用、底层工程繁复、研究成果流转困难等问题。

人工智能
机器学习
大数据
数据分析
模型训练
基于二代征信报告的信用评估模型实践

与一代征信系统相比,二代征信系统在收录数据、信息更新、信用分计算、用户权益保护等方面有所改进。

金融
征信
风控
对话式AI
智能体成新型攻击入口?模型上线前OpenAI内部到底审什么?董事会成员首次详解
智能体成新型攻击入口?模型上线前 OpenAI 内部到底审什么?董事会成员首次详解

今天 AI 安全真正的挑战,已经不再只是“模型会不会说错话”。

质量评估模型助力风险决策水平提升

无论自动化测试任务执行、项目准出还是项目流程流转主要依赖人员判断,而人员能力是有区别的,进而会影响质效,本文章主要介绍我们在探索和实践的一条路径,就是通过机器学习模型,让计算机自动,辅助甚至是替代人工,进行决策。

机器学习
企业号十月 PK 榜
智能测试
质量评估模型
评估模型效果:深入解读混淆矩阵、精准率、召回率和 F1 score

在评估模型效果时,混淆矩阵、精准率、召回率和F1分数是常用的指标,它们可以提供对模型性能的全面评估。下面我们将对这些指标进行深入解读:

测试
国内低代码哪家强?深入探讨低代码选型关键指标和评估模型
国内低代码哪家强?深入探讨低代码选型关键指标和评估模型

本文将深入研究低代码平台的关键指标和评估模型,为信息化从业者提供深刻洞察,助力决策者在众多选择中做出明智选择,找到真正适合业务需求的理想平台。

低代码开发平台
国内低代码
低代码选择
低代码平台比较
低代码排名
LMOps 工具链与千帆大模型平台
LMOps 工具链与千帆大模型平台

随着技术的发展,企业和机构对于大模型的需求不断增加,百度智能云在这方面提供了专业的产品,为产业带来了重大的变化和挑战。

低代码平台运营效果评估模型:AICE
低代码平台运营效果评估模型:AICE

本文以项目实战的方式来介绍低代码平台运营效果评估模型:AICE,该模型兼顾了用户在低代码平台引入后期,从帮助、融入到生态形成等纬度进行凝练。

低代码
企业号 2 月 PK 榜
Windsurf 推出 Arena Mode,可在开发过程中对比 AI 模型
Windsurf 推出 Arena Mode,可在开发过程中对比 AI 模型

Windsurf 在其 IDE 中推出 Arena Mode,支持开发者在实际编码场景里并排对比多款大模型,可在开发环境中直接评估,无需依赖公共基准或外部评测网站。

火山引擎多媒体实验室 AIGC 视频画质理解大模型 VQ-Insight 入选 AAAI 2025 Oral
火山引擎多媒体实验室 AIGC 视频画质理解大模型 VQ-Insight 入选 AAAI 2025 Oral

火山引擎多媒体实验室和北京大学合作的论文 VQ-Insight: Teaching VLMs for AI-Generated Video Quality Understanding via Progressive Visual Reinforcement Learning 被选为本次会议口头汇报文章。

Legare Kerrison 与 Cedric Clyburn 谈 LLM 性能与评估
Legare Kerrison 与 Cedric Clyburn 谈 LLM 性能与评估

有效衡量基于大语言模型(LLM)的应用性能,已经成为企业采用 AI 技术的关键因素。来自红帽团队的 Legare Kerrison 与 Cedric Clyburn 近日在 Arc of AI 2026 大会上分享了评估与优化 LLM 推理的实用方法。他们讨论了 RAG(检索增强生成)与 Agentic AI 等 AI 应用中不同工作负载的资源需求与成本影响,同时强调了 Requests Per Second(RPS)、Time to First Token(TTFT)以及 Inter-Token Latency(ITL)等指标在应用评估中的重要性。

一线实践视角:在资源受限的环境中构建大语言模型
一线实践视角:在资源受限的环境中构建大语言模型

在本文中,作者认为基础设施和算力限制可以驱动创新,展示了如何通过更小、更高效的模型、合成数据生成以及严谨的工程实践,即使在严峻的资源约束下,也能够构建出具有影响力的大语言模型 AI 系统。

安势信息受邀参加COSCon'25 第十届中国开源年会|「4D开源组件评估模型+清源SCA」,精准锁定权威组件,守护软件供应链!
安势信息受邀参加 COSCon'25 第十届中国开源年会|「4D 开源组件评估模型 + 清源 SCA」,精准锁定权威组件,守护软件供应链!

安势信息受邀参加COSCon'25 第十届中国开源年会|「4D开源组件评估模型+清源SCA」,精准锁定权威组件,守护软件供应链!

软件供应链安全
安势信息
清源SCA
COSCon'25
第十届中国开源年会
告别“语义黑盒”:当 Agent 走进生产环境,我们如何驯服它的“不可预测”?
告别“语义黑盒”:当 Agent 走进生产环境,我们如何驯服它的“不可预测”?

随着大模型 Agent 从实验原型迈向核心业务生产,工程化的重心正经历从“验证可行性”向“追求确定性”的本质跃迁。Agent 的本质是“自主”、“涌现”、“不可预测”——这些词本身就和“确定性”对着干。但企业要的是什么?是可用、是可靠、是出了事能找到原因、是敢把核心业务交给它。那么,一个本质上不确定的系统,我们能把它变得足够“确定”吗?如果能,靠什么?可观测性在这个命题里,扮演的是什么角色?

评估模型专题_资料-InfoQ中文网