写点什么
创作场景
- 记录自己日常工作的实践、心得
- 发表对生活和职场的感悟
- 针对感兴趣的事件发表随笔或者杂谈
- 从 0 到 1 详细介绍你掌握的一门语言、一个技术,或者一个兴趣、爱好
- 或者,就直接把你的个人博客、公众号直接搬到这里
登录/注册
收录了 评估模型 频道下的 50 篇内容

短视频信息流产品是目前最炙手可热的互联网产品,完全占领了用户的碎片时间,据艾瑞统计2018年短视频产品月独立设备数有6亿+台。

FACTS基准测试套件发布,这是一个旨在系统性评估大型语言模型事实准确性的全新行业基准。

Metrax是一个JAX库,最近由谷歌开源,为分类、回归、自然语言处理(NLP)、视觉和音频模型提供了标准化的性能指标实现。

ModelWhale 将编程建模、模型训练、数据&算力管理等功能深度整合,通过逐级开放的基础设施,与 Jupyter Notebook 交互式、Canvas 低代码拖拽式、CloudIDE 三种即开即用的云分析环境,为研究者团队解决数据安全应用、底层工程繁复、研究成果流转困难等问题。

今天 AI 安全真正的挑战,已经不再只是“模型会不会说错话”。
无论自动化测试任务执行、项目准出还是项目流程流转主要依赖人员判断,而人员能力是有区别的,进而会影响质效,本文章主要介绍我们在探索和实践的一条路径,就是通过机器学习模型,让计算机自动,辅助甚至是替代人工,进行决策。
作者:冯伟

本文入选顶会ACM Multimedia
在评估模型效果时,混淆矩阵、精准率、召回率和F1分数是常用的指标,它们可以提供对模型性能的全面评估。下面我们将对这些指标进行深入解读:

本文将深入研究低代码平台的关键指标和评估模型,为信息化从业者提供深刻洞察,助力决策者在众多选择中做出明智选择,找到真正适合业务需求的理想平台。

随着技术的发展,企业和机构对于大模型的需求不断增加,百度智能云在这方面提供了专业的产品,为产业带来了重大的变化和挑战。

本文以项目实战的方式来介绍低代码平台运营效果评估模型:AICE,该模型兼顾了用户在低代码平台引入后期,从帮助、融入到生态形成等纬度进行凝练。

Windsurf 在其 IDE 中推出 Arena Mode,支持开发者在实际编码场景里并排对比多款大模型,可在开发环境中直接评估,无需依赖公共基准或外部评测网站。

火山引擎多媒体实验室和北京大学合作的论文 VQ-Insight: Teaching VLMs for AI-Generated Video Quality Understanding via Progressive Visual Reinforcement Learning 被选为本次会议口头汇报文章。

有效衡量基于大语言模型(LLM)的应用性能,已经成为企业采用 AI 技术的关键因素。来自红帽团队的 Legare Kerrison 与 Cedric Clyburn 近日在 Arc of AI 2026 大会上分享了评估与优化 LLM 推理的实用方法。他们讨论了 RAG(检索增强生成)与 Agentic AI 等 AI 应用中不同工作负载的资源需求与成本影响,同时强调了 Requests Per Second(RPS)、Time to First Token(TTFT)以及 Inter-Token Latency(ITL)等指标在应用评估中的重要性。

在本文中,作者认为基础设施和算力限制可以驱动创新,展示了如何通过更小、更高效的模型、合成数据生成以及严谨的工程实践,即使在严峻的资源约束下,也能够构建出具有影响力的大语言模型 AI 系统。

安势信息受邀参加COSCon'25 第十届中国开源年会|「4D开源组件评估模型+清源SCA」,精准锁定权威组件,守护软件供应链!

随着大模型 Agent 从实验原型迈向核心业务生产,工程化的重心正经历从“验证可行性”向“追求确定性”的本质跃迁。Agent 的本质是“自主”、“涌现”、“不可预测”——这些词本身就和“确定性”对着干。但企业要的是什么?是可用、是可靠、是出了事能找到原因、是敢把核心业务交给它。那么,一个本质上不确定的系统,我们能把它变得足够“确定”吗?如果能,靠什么?可观测性在这个命题里,扮演的是什么角色?