《HarmonyOS:领航者说》技术公开课来啦,大咖分享、实战解码,不容错过 了解详情
写点什么

评估指标

收录了 评估指标 频道下的 50 篇内容

大语言模型系统评估新框架:微观指标构建方法论
大语言模型系统评估新框架:微观指标构建方法论

文章围绕大语言模型系统评估微观指标展开。指出单一指标有局限性,应将模型视为系统的一部分进行评估。构建能预警用户问题、聚焦业务的指标体系很关键,指标需与业务目标一致且随实践优化。同时,建议采用渐进式开发模式,先搭建基础框架,再逐步完善指标体系。

让你的AI绿起来,艾伦研究所提出深度学习效率评估标准Green AI
让你的 AI 绿起来,艾伦研究所提出深度学习效率评估标准 Green AI

培养一个靠谱的AI需要消耗大量的算力。随着摩尔定律的终结,AI的计算成本正在疯长,几乎每隔几个月计算基线就要翻一番。听起来可能有点吓人,可事实就是,从2012年到2018年,AI算力消耗几乎增长了30万倍。

机器学习评估指标 AUC 综述
机器学习评估指标 AUC 综述

AUC 的什么特性让它如此受欢迎?有没有更好的指标替代 AUC?

如何评价推荐系统的结果质量?
如何评价推荐系统的结果质量?

本文是对推荐系统评测标准制定经验总结。

基于深度学习的推荐系统效果遭质疑,它真的有带来实质性进展吗?
基于深度学习的推荐系统效果遭质疑,它真的有带来实质性进展吗?

作者通过这篇论文揭示了当前机器学习领域的一些潜在问题,并呼吁大家改进该领域的科学实践。

深度解读字节跳动的画质评估工具:抖音也在用~
深度解读字节跳动的画质评估工具:抖音也在用~

从抖音集团内部画质评估体系的建设历程着笔,主要分享画质评测对于业务的重要性、主要应用场景和内部产品的一些典型实践。

极客说|深度对比:SFT、ReFT、RHLF、RLAIF、DPO、PPO
极客说|深度对比:SFT、ReFT、RHLF、RLAIF、DPO、PPO

最近 OpenAI Day2 展示的 demo 可能把 ReFT 带火了,接下来,本文对比 SFT、ReFT、RHLF、DPO、PPO 这几种常见的技术。

不要掉入“AI 工程就是一切”的陷阱
不要掉入“AI 工程就是一切”的陷阱

关于数据、模型、产品和人。

通过 Top 500 美拍短视频看 AV1 的性能表现
通过 Top 500 美拍短视频看 AV1 的性能表现

美图会持续跟进 AV1 在移动端和主流浏览器上的解码支持的成熟度,针对核心用户的视频内容率先应用 AV1 编码。

工业制造的智能化转型:从传统决策到运筹优化
工业制造的智能化转型:从传统决策到运筹优化

随着工业智能化和数字化转型的深入推进,制造业企业在决策管理中面临越来越复杂的挑战。

不只看数字:软件开发企业如何评估客户端工程师绩效
不只看数字:软件开发企业如何评估客户端工程师绩效

本文将深入探讨可用于评估客户端工程师绩效的度量指标。

深度学习分类任务常用评估指标

​​​​摘要:这篇文章主要向大家介绍深度学习分类任务评价指标,主要内容包括基础应用、实用技巧、原理机制等方面,希望对大家有所帮助。

机器学习
深度学习
怎样量化评价搜索引擎的结果质量

搜索质量评估是搜索技术研究的基础性工作,也是核心工作之一。评价(Metrics)在搜索技术研发中扮演着重要角色,以至于任何一种新方法与他们的评价方式是融为一体的。本文总结业界常用的相关性评价指标和量化评价方法。供对此感兴趣的朋友参考。

基于量化分析的低代码平台体验优化实践 | 低代码技术内幕
基于量化分析的低代码平台体验优化实践 | 低代码技术内幕

本文将介绍基于净推荐值(Net Promoter Score,NPS)和结构方程模型(Structural Equation Model,SEM)方法的低代码用户体验管理体系。

DiDi Food中的智能补贴实战漫谈
DiDi Food 中的智能补贴实战漫谈

本文将主要介绍DiDi Food对这个方向上一些探索和实践经验。

模型评价方法(一)
模型评价方法(一)

本文来自微信京东数科技术说公众号。

深度学习应用篇-推荐系统[11]:推荐系统的组成、场景转化指标(pv点击率,uv点击率,曝光点击率)、用户数据指标等评价指标详解
深度学习应用篇 - 推荐系统 [11]:推荐系统的组成、场景转化指标(pv 点击率,uv 点击率, 曝光点击率)、用户数据指标等评价指标详解

在网络技术不断发展和电子商务规模不断扩大的背景下,商品数量和种类快速增长,用户需要花费大量时间才能找到自己想买的商品,这就是信息超载问题。为了解决这个难题,个性化推荐系统(Recommender System)应运而生。

人工智能
深度学习
推荐系统
搜索推荐
6 月 优质更文活动
多标签分类中的损失函数与评价指标
多标签分类中的损失函数与评价指标

各位朋友大家好,欢迎来到月来客栈。在前面的一篇文章[1]中笔者介绍了在单标签分类问题中模型损失的度量方法,即交叉熵损失函数。同时也介绍了多分类任务中常见的评价指标及其实现方法[2]。在接下来的这篇文章中,笔者将会详细介绍在多标签分类任务中两种常见

PyTorch
多标签
多标签分类
文本分类
英伟达重磅开源Kaolin:基于PyTorch的3D深度学习加速工具
英伟达重磅开源 Kaolin:基于 PyTorch 的 3D 深度学习加速工具

Kaolin提供了可用于三维深度学习系统的可微三维模块。

打造工业级推荐系统(七):怎么评估推荐系统的效果?
打造工业级推荐系统(七):怎么评估推荐系统的效果?

本篇文章作者来详细说明怎么评估(Evaluating)推荐系统的效果,有哪些评估手段,在推荐业务中的哪些阶段进行评估,具体的评估方法是什么。借此希望更好地帮助大家在实际业务中实施推荐系统评估模块。

评估指标专题_资料-InfoQ中文网