写点什么
创作场景
- 记录自己日常工作的实践、心得
- 发表对生活和职场的感悟
- 针对感兴趣的事件发表随笔或者杂谈
- 从 0 到 1 详细介绍你掌握的一门语言、一个技术,或者一个兴趣、爱好
- 或者,就直接把你的个人博客、公众号直接搬到这里
登录/注册
收录了 评估模型 频道下的 50 篇内容

短视频信息流产品是目前最炙手可热的互联网产品,完全占领了用户的碎片时间,据艾瑞统计2018年短视频产品月独立设备数有6亿+台。

FACTS基准测试套件发布,这是一个旨在系统性评估大型语言模型事实准确性的全新行业基准。

Metrax是一个JAX库,最近由谷歌开源,为分类、回归、自然语言处理(NLP)、视觉和音频模型提供了标准化的性能指标实现。

ModelWhale 将编程建模、模型训练、数据&算力管理等功能深度整合,通过逐级开放的基础设施,与 Jupyter Notebook 交互式、Canvas 低代码拖拽式、CloudIDE 三种即开即用的云分析环境,为研究者团队解决数据安全应用、底层工程繁复、研究成果流转困难等问题。

今天 AI 安全真正的挑战,已经不再只是“模型会不会说错话”。
无论自动化测试任务执行、项目准出还是项目流程流转主要依赖人员判断,而人员能力是有区别的,进而会影响质效,本文章主要介绍我们在探索和实践的一条路径,就是通过机器学习模型,让计算机自动,辅助甚至是替代人工,进行决策。
作者:冯伟

本文入选顶会ACM Multimedia

OSS Compass 是一个用于开源生态健康评估的平台,面向 GitHub、Gitee 等平台所有开源项目开放。
在评估模型效果时,混淆矩阵、精准率、召回率和F1分数是常用的指标,它们可以提供对模型性能的全面评估。下面我们将对这些指标进行深入解读:

本文将深入研究低代码平台的关键指标和评估模型,为信息化从业者提供深刻洞察,助力决策者在众多选择中做出明智选择,找到真正适合业务需求的理想平台。

随着技术的发展,企业和机构对于大模型的需求不断增加,百度智能云在这方面提供了专业的产品,为产业带来了重大的变化和挑战。

本文主要分享在智能风控体系下模型如何做到全流程自动化的迭代。

本文以项目实战的方式来介绍低代码平台运营效果评估模型:AICE,该模型兼顾了用户在低代码平台引入后期,从帮助、融入到生态形成等纬度进行凝练。

AWS DeepRacer 是一款 1/18 比例的四轮驱动车,配备大量车载硬件和软件。

LMEval用于帮助人工智能研究人员和开发人员比较不同大语言模型的性能,已经被用于评估主流大模型在安全性和可靠性方面的表现。

Windsurf 在其 IDE 中推出 Arena Mode,支持开发者在实际编码场景里并排对比多款大模型,可在开发环境中直接评估,无需依赖公共基准或外部评测网站。

火山引擎多媒体实验室和北京大学合作的论文 VQ-Insight: Teaching VLMs for AI-Generated Video Quality Understanding via Progressive Visual Reinforcement Learning 被选为本次会议口头汇报文章。

在 AICon 北京站上,快手李岩带来多模态创新应用实践分享