时隔16年Jeff Barr重返10.23-25 QCon上海站,带你看透AI如何重塑软件开发! 了解详情
写点什么

AgentOps 实战:字节复杂 Agent 的效果评测与迭代优化|QCon 上海

  • 2025-10-20
    北京
  • 本文字数:1705 字

    阅读完需:约 6 分钟

大小:898.95K时长:05:06
AgentOps 实战:字节复杂 Agent 的效果评测与迭代优化|QCon 上海

如果你也关注 Agent、AI 搜索、多模态、工程化等话题,一定不要错过这 100+可落地的实践案例!


10 月 23 日-10 月 25 日,QCon全球软件开发大会将在上海举办。本次大会将聚焦 Agentic AI、具身智能、强化学习框架、端侧大模型实践、多智能体协作等热门话题,以及 AI 时代下的软件研发、可观测、开源等技术实践,邀请来自腾讯、阿里、字节跳动、华为、蚂蚁集团、小红书等企业的技术专家,和来自清华大学、北京邮电大学、浙江大学的顶尖高校讲师,和你一起重构技术认知与能力边界!


字节跳动技术专家史海量已确认出席并发表题为AgentOps 实战:字节复杂 Agent 的效果评测与迭代优化的主题分享。2025 年,Agent 从概念验证进入生产落地阶段,企业从传统 chatbot 转向多轮、多模态、跨工具的复杂智能体开发。相比传统软件测试,Agent 效果评测面临指标定义模糊、结果不确定性高、线上表现波动大等新挑战。本次演讲将结合字节在多业务线 Agent 落地过程中的经验,系统解析从评测集构建、指标体系设计、到持续集成与线上监测的全链路实践方法,探讨如何在不确定的 AI 行为中建立可复用的效果评测体系,并支撑快速迭代与线上稳定运行。


史海量,字节跳动 AI Platform 部门技术专家,扣子罗盘效果评测后端技术负责人。持续关注大模型领域的 AgentOps 的前沿动态和效果评测解决方案,对 AI 应用效果评测有深入的实践和理解。他在本次会议的详细演讲内容如下:


演讲提纲

1. 引言

  • 背景

    Agent 应用开发现状

    企业从传统 Chatbot 到复杂 Agent 开发测试迭代转变

    从实验性项目到生产级应用的转变

    AgentOps:Agent 效果评测新范式

    传统应用测试 VS Agent 效果评测

  • 挑战

    持续集成:区别于工程质量的确定性指标,面对大模型的不确定性,如何快速达到线上生产标准?

    线上监测:效果如何持续线上应用的效果并不断优化迭代?

    面对越发复杂智能的 Agent,如何设计好科学的指标,全方位的评判 Agent 各个环节?

2. Agent 效果评测核心流程解析

  • 效果评测核心流程

    测试阶段:离线评测质量准出、持续集成

    线上阶段:在线评测持续监测效果、迭代优化

3. 字节效果评测的实践步骤

  • 构建持续迭代的评测集数据

    多模态、多轮对话等评测集的构建方法

  • 选择适合不同业务场景的评测指标

    Agent、多模态、多轮对话、一致性等业务指标设计与实践

    LLM-As-Juge、Code 等评估方法实践

  • 基于灵活智能的评测实验结果,发现 badcase

    单实验分析、多实验结果的对比分析的方法

    洞察 insight:如何用 Agent 智能发现问题给出建议

  • 线上阶段持续的效果观测、优化和迭代

    用在线评测的方式发现线上性能和效果问题

4. 用户案例

  • 字节内部:直播业务

    短视频合规审核场景,人审如何转大模型机审提效,评测集管理、多模态、多轮对话评测方法

  • 商业化:Agent 评测解决方案

    全码 Agent 应用,基于 trace 的在线评测、评测集管理能力

5. 未来规划与展望

  • 复杂 Agent / Multi-Agent 如何进行更好的效果评测

您认为,这样的技术在实践过程中有哪些痛点?

  • 面对越发复杂智能的 Agent,如何设计好科学的指标,全方位的评判 Agent 各个环节?

  • 如何做好开发阶段的效果准出评测和线上阶段的线上效果监测?

  • 如何结合业务情况,构建合适的评测集和选择合适的评估指标?

演讲亮点

  • 评测集管理构建、评估器选择与设计、评测报告分析洞察等最佳实践分享

  • Agent 在线评测、多模态评测、多轮对话评测等多种场景化评测方法分享

  • 基于字节内部真实业务的效果评测最佳实践

听众收益

  • 了解 AI 应用效果评测的通用评测流程和方法

  • 了解字节内部真实业务效果评测的最佳实践、一手经验


除此之外,本次大会还策划了多模态融合技术与创新应用混沌工程与全链路压测实践Data Infra for AIAgentic AI加速与反哺:AI 时代的可观测实践Vibe Coding端侧大模型的创新与应用大模型推理的工程实践AI 搜索技术的深水区模型训练与微调具身智能:当 AI 学会“动手思考”大模型驱动的制造革命AI4SE:软件研发提质增效实践AI 重塑视觉创作体验从“炫技”走向“实用”的 AI 产品大模型驱动的智能数据分析等 20 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 上海站现场带来前沿技术洞察和一线实践经验。


目前,所有大会演讲嘉宾已结集完毕,更多详情可联系票务经理 18514549229 咨询。


2025-10-20 16:217

评论

发布
暂无评论

微信小程序开发在全局配置和资源加载优化在获取接口上的节点信息实战

恒山其若陋兮

前端 11月月更

深入React源码揭开渲染更新流程的面纱

goClient1992

React

带你实现react源码的核心功能

goClient1992

React

react的useState源码分析

flyzz177

React

架构实战营模块 6 作业

陌生流云

架构实战营

对于基于鸿蒙系统的应用支持多语言Arkui框架的线性容器类和PieChart的研究实战

恒山其若陋兮

前端 11月月更

【个人成长】《代码的艺术》视频分享合集

非晓为骁

职业规划 开发 软件工程能力 代码的艺术

Jan Ozer:高清直播互动场景下的硬编码如何选型?

声网

人工智能 编码 视频

Zebec流支付生态,开启多链布局的“两手准备”

股市老人

【web 开发基础】PHP 中的默认(缺省)参数的函数 (33)

迷彩

缺省参数 函数 web开发基础 11月月更 默认参数

C++---类型萃取---std::remove_cv/std::remove_cv

桑榆

C++ STL 11月月更

K8S环境的Jenkin性能问题处理续篇(任务Pod设置)

程序员欣宸

Kubernetes jenkins 11月月更

使用keytool生成Tomcat证书

源字节1号

如何给 Fiori Elements 应用添加自定义按钮

汪子熙

前端开发 web开发 Fiori SAP UI5 11月月更

【活动回顾】Apps Everywhere 上海站圆满结束

亚马逊云科技 (Amazon Web Services)

人工智能 机器学习

软件测试之 Contract Testing

QE_LAB

契约测试 测试技术

react源码分析:组件的创建和更新

flyzz177

React

算法基础:单链表图解及模板总结

timerring

算法 11月月更 单链表

【web 开发基础】PHP中的引用参数的函数 (32)

迷彩

web开发基础 11月月更 引用传递 引用参数函数 值传递

HarmonyOS 3重磅版本更新,Mate Xs 2等更多设备支持超级中转站!

极客天地

手写一个react,看透react运行机制

goClient1992

React

react源码分析:深度理解React.Context

flyzz177

React

《算法》世界一

初学者

算法 网络 11月月更

基于OpenHarmony的ArkUI框架进阶对于高性能容器类和持久化和原子化的运用

恒山其若陋兮

前端 11月月更

2022年第三季度泛出行行业洞察:泛出行行业正在经历数智化升级的关键时期,用户规模保持平稳增长,行业整体良性发展

易观分析

数智化 泛出行

Kafka SASL 用户认证机制

spacerrobot

kafka 认证授权 SASL SCRAM JAAS

自动化测试成熟度模型

老张

DevOps 自动化测试

如何用科学的方法“撞大运”? | 学点运气

赵新龙

CTO 创新 与运气竞争

【web 开发基础】PHP中的伪类型参数的函数 (31)

迷彩

函数 web开发基础 11月月更 伪类型参数函数 伪类型

《算法》世界二

初学者

算法 网络 11月月更

AgentOps 实战:字节复杂 Agent 的效果评测与迭代优化|QCon 上海_AI&大模型_QCon全球软件开发大会_InfoQ精选文章