2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

AgentOps 实战:字节复杂 Agent 的效果评测与迭代优化|QCon 上海

  • 2025-10-20
    北京
  • 本文字数:1705 字

    阅读完需:约 6 分钟

大小:898.95K时长:05:06
AgentOps 实战:字节复杂 Agent 的效果评测与迭代优化|QCon 上海

如果你也关注 Agent、AI 搜索、多模态、工程化等话题,一定不要错过这 100+可落地的实践案例!


10 月 23 日-10 月 25 日,QCon全球软件开发大会将在上海举办。本次大会将聚焦 Agentic AI、具身智能、强化学习框架、端侧大模型实践、多智能体协作等热门话题,以及 AI 时代下的软件研发、可观测、开源等技术实践,邀请来自腾讯、阿里、字节跳动、华为、蚂蚁集团、小红书等企业的技术专家,和来自清华大学、北京邮电大学、浙江大学的顶尖高校讲师,和你一起重构技术认知与能力边界!


字节跳动技术专家史海量已确认出席并发表题为AgentOps 实战:字节复杂 Agent 的效果评测与迭代优化的主题分享。2025 年,Agent 从概念验证进入生产落地阶段,企业从传统 chatbot 转向多轮、多模态、跨工具的复杂智能体开发。相比传统软件测试,Agent 效果评测面临指标定义模糊、结果不确定性高、线上表现波动大等新挑战。本次演讲将结合字节在多业务线 Agent 落地过程中的经验,系统解析从评测集构建、指标体系设计、到持续集成与线上监测的全链路实践方法,探讨如何在不确定的 AI 行为中建立可复用的效果评测体系,并支撑快速迭代与线上稳定运行。


史海量,字节跳动 AI Platform 部门技术专家,扣子罗盘效果评测后端技术负责人。持续关注大模型领域的 AgentOps 的前沿动态和效果评测解决方案,对 AI 应用效果评测有深入的实践和理解。他在本次会议的详细演讲内容如下:


演讲提纲

1. 引言

  • 背景

    Agent 应用开发现状

    企业从传统 Chatbot 到复杂 Agent 开发测试迭代转变

    从实验性项目到生产级应用的转变

    AgentOps:Agent 效果评测新范式

    传统应用测试 VS Agent 效果评测

  • 挑战

    持续集成:区别于工程质量的确定性指标,面对大模型的不确定性,如何快速达到线上生产标准?

    线上监测:效果如何持续线上应用的效果并不断优化迭代?

    面对越发复杂智能的 Agent,如何设计好科学的指标,全方位的评判 Agent 各个环节?

2. Agent 效果评测核心流程解析

  • 效果评测核心流程

    测试阶段:离线评测质量准出、持续集成

    线上阶段:在线评测持续监测效果、迭代优化

3. 字节效果评测的实践步骤

  • 构建持续迭代的评测集数据

    多模态、多轮对话等评测集的构建方法

  • 选择适合不同业务场景的评测指标

    Agent、多模态、多轮对话、一致性等业务指标设计与实践

    LLM-As-Juge、Code 等评估方法实践

  • 基于灵活智能的评测实验结果,发现 badcase

    单实验分析、多实验结果的对比分析的方法

    洞察 insight:如何用 Agent 智能发现问题给出建议

  • 线上阶段持续的效果观测、优化和迭代

    用在线评测的方式发现线上性能和效果问题

4. 用户案例

  • 字节内部:直播业务

    短视频合规审核场景,人审如何转大模型机审提效,评测集管理、多模态、多轮对话评测方法

  • 商业化:Agent 评测解决方案

    全码 Agent 应用,基于 trace 的在线评测、评测集管理能力

5. 未来规划与展望

  • 复杂 Agent / Multi-Agent 如何进行更好的效果评测

您认为,这样的技术在实践过程中有哪些痛点?

  • 面对越发复杂智能的 Agent,如何设计好科学的指标,全方位的评判 Agent 各个环节?

  • 如何做好开发阶段的效果准出评测和线上阶段的线上效果监测?

  • 如何结合业务情况,构建合适的评测集和选择合适的评估指标?

演讲亮点

  • 评测集管理构建、评估器选择与设计、评测报告分析洞察等最佳实践分享

  • Agent 在线评测、多模态评测、多轮对话评测等多种场景化评测方法分享

  • 基于字节内部真实业务的效果评测最佳实践

听众收益

  • 了解 AI 应用效果评测的通用评测流程和方法

  • 了解字节内部真实业务效果评测的最佳实践、一手经验


除此之外,本次大会还策划了多模态融合技术与创新应用混沌工程与全链路压测实践Data Infra for AIAgentic AI加速与反哺:AI 时代的可观测实践Vibe Coding端侧大模型的创新与应用大模型推理的工程实践AI 搜索技术的深水区模型训练与微调具身智能:当 AI 学会“动手思考”大模型驱动的制造革命AI4SE:软件研发提质增效实践AI 重塑视觉创作体验从“炫技”走向“实用”的 AI 产品大模型驱动的智能数据分析等 20 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 上海站现场带来前沿技术洞察和一线实践经验。


目前,所有大会演讲嘉宾已结集完毕,更多详情可联系票务经理 18514549229 咨询。


2025-10-20 16:214002

评论

发布
暂无评论

linux shell 命令行移动光标快捷键之跳到行首尾

WindFlying

NLP进阶,使用TextRNN和TextRNN_ATT实现文本分类

AI浩

Lenovo x StarRocks:简化数据处理链路,极大提升BI分析效率

StarRocks

数据库 大数据 数据分析 StarRocks

阿里云发布云原生加速器,携手生态企业拥抱数字时代

阿里巴巴云原生

云计算 阿里云 云原生 生态企业 创投

36道Java经典基础与高级面试题,面完(18K)你同意吗?

热爱java的分享家

Java 架构 程序人生 编程语言 经验分享

“阿里爸爸”又爆新作!Github新开源303页Spring全家桶高级笔记

热爱java的分享家

Java 架构 面试 程序人生 编程语言

StarRocks在格洛博电商系统的应用实践

StarRocks

数据库 大数据 数据分析 StarRocks

24H营业的无人售药机上线 EasyDL帮你实现“排队自由”

百度大脑

人工智能 百度

猿辅导 x StarRocks:构建统一OLAP平台,全面升级数据分析能力

StarRocks

数据库 数据分析 StarRocks

Elasticsearch写入数据的过程是什么?以及是如何更新索引数据的

热爱java的分享家

Java 架构 程序人生 编程语言 架构师

Go 语言学习查缺补漏ing Day1

Regan Yue

Go 语言 11月日更

【得物技术】基于自注意机制的图像识别算法

得物技术

算法 图像识别 识别 图像 算法实践

惊为天人!Alibaba新产SpringBoot深度历险(嵩山版)开源

热爱java的分享家

Java 架构 面试 程序人生 编程语言

文本检测实战:使用OpenCV实现文本检测(EAST 文本检测器)

AI浩

跨越速运 x StarRocks:统一查询引擎,强悍性能带来极速体验

StarRocks

数据库 大数据 数据分析 StarRocks

中国邮政邮科院 X StarRocks:统一OLAP平台,大幅降低运维成本

StarRocks

数据库 大数据 数据分析 StarRocks

阿里云发布云原生加速器,携手生态企业拥抱数字时代

阿里巴巴中间件

云计算 阿里云 云原生 中间件 数字化

MatrixDB 4.3 新特性:从“持续聚集”说起

YMatrix 超融合数据库

时序数据库 分布式时序数据库 MatrixDB

19 K8S之临时/hostPath/网络存储卷

穿过生命散发芬芳

k8s 11月日更

用Python保住“设计大哥“的头发,直接甩给他10000张参考图,爬虫采集【稿定设计】平面模板素材

梦想橡皮擦

11月日更

起飞!Alibaba全新出品JDK源码学习指南(终极版)限时开源

热爱java的分享家

Java 架构 面试 程序人生 编程语言

Python代码阅读(第60篇):列表是否包括指定的元素

Felix

Python 编程 列表 阅读代码 Python初学者

自定义View:如何手动实现ViewGroup的拖拽

Changing Lin

11月日更

Can't Connect to MySQL Server on IP Address (10061) 错误的解决方案

蒋川

MySQL 数据库 MySQL 运维 MySQL 数据库

AfterShip 亿级流量 API 网关的演进

AfterShip

架构演进 kong API Gateway

内测邀请|宜搭应用搭建体验全新升级,邀您抢先体验!

一只大光圈

钉钉 低代码 数字化转型 低代码平台 钉钉宜搭

传统IT开发与低代码开发争议白热化,技术开发规则或将重构?

优秀

低代码 低代码开发 低代码平台

我为什么坚持在公司开分享会?

boshi

团队管理 知识管理

大规模任务调度在 AfterShip 的高可用实践

AfterShip

高可用 任务调度 基础架构

技术分享 | 让实时协同的框架绘图变得丝滑起来

ShowMeBug

架构 绘图 实时消息

前端遇到的那些技术难点

CRMEB

AgentOps 实战:字节复杂 Agent 的效果评测与迭代优化|QCon 上海_AI&大模型_QCon全球软件开发大会_InfoQ精选文章