写点什么
创作场景
- 记录自己日常工作的实践、心得
- 发表对生活和职场的感悟
- 针对感兴趣的事件发表随笔或者杂谈
- 从 0 到 1 详细介绍你掌握的一门语言、一个技术,或者一个兴趣、爱好
- 或者,就直接把你的个人博客、公众号直接搬到这里
登录/注册
收录了 模型评估 频道下的 50 篇内容

如何使用TF-Hub库对预训练模型进行微调?

今天,我们非常高兴地推出 Amazon SageMaker Processing,这是Amazon SageMaker 的一项新功能

Hugging Face 发布检索嵌入基准框架 RTEB,旨在更准确地衡量嵌入模型在真实检索场景下的泛化能力。

Metrax是一个JAX库,最近由谷歌开源,为分类、回归、自然语言处理(NLP)、视觉和音频模型提供了标准化的性能指标实现。

随着对大语言模型(LLM)评估领域的深入研究,我们更加清楚地认识到全面理解评估过程中的问题对于有效评估LLM至关重要。 本文探讨了机器学习模型评估中出现的常见问题,并深入研究了LLM对模型评估领域带来的重大挑战。在评估方法方面,我们将其划分为直接评

在经历了两年的混战后,大模型终于从技术走向应用,“不卷参数、卷落地”已经成了行业共识。但大模型落地并非易事,要想清楚场景价值,也要选对实现路径。

本文主要分享在智能风控体系下模型如何做到全流程自动化的迭代。
阿里云人工智能平台 PAI 推出 PAI-Judge 裁判员大模型,为用户构建符合应用场景的多维度、细粒度的评测体系,支持单模型评测和双模型竞技两种模式,允许用户自定义参数,实现准确、灵活、高效的模型自动化评测,为模型迭代优化提供数据支撑。

在通用能力、专用场景能力应用成熟度三个能力域上均获优异结果。

在AI飞速进化的今天,两个看似传统的方法正成为大模型评估的关键密钥:监督微调(SFT)与评分规则评估(rubric-based evaluation)。它们如同教育的两面——一个耐心教导模型如何回应,一个精准评判模型的表现优劣。Old Is New Again?一起走进本期AppenTalk

DeepSeek 开源推动医疗智能化,多家医院已部署相关技术。大型语言模型在医疗领域潜力大,但传统评估方式有局限。 MedHELM 应运而生,经科学构建流程评估不同规模模型,发现其各有优劣。目前评估面临挑战,后续将持续优化,它有望推动医疗行业智能化升级。
根据我们之前在Precision处的分析,其实可以看得出来,当样本均衡过后,假正率会更高,因为有更多紫色点被判断错误,而样本均衡之前,假正率比

导语:本文是模型评估指标系列的第一篇,将详细地介绍分类模型中基于混淆矩阵衍生出来的各个指标的计算公式,如准确率,精确率,召回率,FPR,TPR,ROC曲线的绘制逻辑,AUC的计算公. 本文首发在个人知乎和微信公众号:一直学习一直爽

在大模型如火如荼的背后,幻觉(hallucination)倾向就越发的明显,它正在越发的生产着 “完全没有出处的非真实内容”。这样对于商业化而言是一个巨大的挑战,来面对一个不可控、不可预测和不可靠的大模型……

OpenAI 发布 SWE-Lancer 基准测试,评估 AI 大语言模型在现实世界软件工程任务中的表现。

在本文中,作者Maarit Widmann和Alfredo Roccato讨论了如何使用基于Delta-p统计量的解决方案来预测信贷资格。

近年来,AI 技术在企业业务研发中的占比逐年升高。

InfoQ编辑团队和嘉宾讨论了人工智能、机器学习和数据工程领域的当前趋势。

以绝对王者之姿强势突围,一登场就刷新了行业的认知边界。直接“横扫”多项权威基准测试,以“世界最强多模态理解”“交互最深智能体”“推理怪兽”的姿态,强势碾压全球所有同类模型。

本文以 DeepSeek 对话机器人为例,深入介绍 AI 原生应用架构的可观测需求、挑战与方案实践。比如 DeepSeek 为何频繁出现服务器繁忙?如何评估 DeepSeek 与其他模型的性能、成本与效果差异?如何优化 DeepSeek 对话机器人的终端用户体验?等等。