收录了 评估指标 频道下的 50 篇内容
文章围绕大语言模型系统评估微观指标展开。指出单一指标有局限性,应将模型视为系统的一部分进行评估。构建能预警用户问题、聚焦业务的指标体系很关键,指标需与业务目标一致且随实践优化。同时,建议采用渐进式开发模式,先搭建基础框架,再逐步完善指标体系。
培养一个靠谱的AI需要消耗大量的算力。随着摩尔定律的终结,AI的计算成本正在疯长,几乎每隔几个月计算基线就要翻一番。听起来可能有点吓人,可事实就是,从2012年到2018年,AI算力消耗几乎增长了30万倍。
AUC 的什么特性让它如此受欢迎?有没有更好的指标替代 AUC?
本文是对推荐系统评测标准制定经验总结。
作者通过这篇论文揭示了当前机器学习领域的一些潜在问题,并呼吁大家改进该领域的科学实践。
从抖音集团内部画质评估体系的建设历程着笔,主要分享画质评测对于业务的重要性、主要应用场景和内部产品的一些典型实践。
最近 OpenAI Day2 展示的 demo 可能把 ReFT 带火了,接下来,本文对比 SFT、ReFT、RHLF、DPO、PPO 这几种常见的技术。
关于数据、模型、产品和人。
美图会持续跟进 AV1 在移动端和主流浏览器上的解码支持的成熟度,针对核心用户的视频内容率先应用 AV1 编码。
随着工业智能化和数字化转型的深入推进,制造业企业在决策管理中面临越来越复杂的挑战。
本文将深入探讨可用于评估客户端工程师绩效的度量指标。
搜索质量评估是搜索技术研究的基础性工作,也是核心工作之一。评价(Metrics)在搜索技术研发中扮演着重要角色,以至于任何一种新方法与他们的评价方式是融为一体的。本文总结业界常用的相关性评价指标和量化评价方法。供对此感兴趣的朋友参考。
本文将介绍基于净推荐值(Net Promoter Score,NPS)和结构方程模型(Structural Equation Model,SEM)方法的低代码用户体验管理体系。
本文将主要介绍DiDi Food对这个方向上一些探索和实践经验。
本文来自微信京东数科技术说公众号。
在网络技术不断发展和电子商务规模不断扩大的背景下,商品数量和种类快速增长,用户需要花费大量时间才能找到自己想买的商品,这就是信息超载问题。为了解决这个难题,个性化推荐系统(Recommender System)应运而生。
各位朋友大家好,欢迎来到月来客栈。在前面的一篇文章[1]中笔者介绍了在单标签分类问题中模型损失的度量方法,即交叉熵损失函数。同时也介绍了多分类任务中常见的评价指标及其实现方法[2]。在接下来的这篇文章中,笔者将会详细介绍在多标签分类任务中两种常见
Kaolin提供了可用于三维深度学习系统的可微三维模块。
本篇文章作者来详细说明怎么评估(Evaluating)推荐系统的效果,有哪些评估手段,在推荐业务中的哪些阶段进行评估,具体的评估方法是什么。借此希望更好地帮助大家在实际业务中实施推荐系统评估模块。