
如果你也关注 Agent、AI 搜索、多模态、工程化等话题,一定不要错过这 100+可落地的实践案例!
10 月 23 日-10 月 25 日,QCon全球软件开发大会将在上海举办。本次大会将聚焦 Agentic AI、具身智能、强化学习框架、端侧大模型实践、多智能体协作等热门话题,以及 AI 时代下的软件研发、可观测、开源等技术实践,邀请来自腾讯、阿里、字节跳动、华为、蚂蚁集团、小红书等企业的技术专家,和来自清华大学、北京邮电大学、浙江大学的顶尖高校讲师,和你一起重构技术认知与能力边界!
字节跳动技术专家史海量已确认出席并发表题为《AgentOps 实战:字节复杂 Agent 的效果评测与迭代优化》的主题分享。2025 年,Agent 从概念验证进入生产落地阶段,企业从传统 chatbot 转向多轮、多模态、跨工具的复杂智能体开发。相比传统软件测试,Agent 效果评测面临指标定义模糊、结果不确定性高、线上表现波动大等新挑战。本次演讲将结合字节在多业务线 Agent 落地过程中的经验,系统解析从评测集构建、指标体系设计、到持续集成与线上监测的全链路实践方法,探讨如何在不确定的 AI 行为中建立可复用的效果评测体系,并支撑快速迭代与线上稳定运行。
史海量,字节跳动 AI Platform 部门技术专家,扣子罗盘效果评测后端技术负责人。持续关注大模型领域的 AgentOps 的前沿动态和效果评测解决方案,对 AI 应用效果评测有深入的实践和理解。他在本次会议的详细演讲内容如下:
演讲提纲
1. 引言
背景
Agent 应用开发现状
企业从传统 Chatbot 到复杂 Agent 开发测试迭代转变
从实验性项目到生产级应用的转变
AgentOps:Agent 效果评测新范式
传统应用测试 VS Agent 效果评测
挑战
持续集成:区别于工程质量的确定性指标,面对大模型的不确定性,如何快速达到线上生产标准?
线上监测:效果如何持续线上应用的效果并不断优化迭代?
面对越发复杂智能的 Agent,如何设计好科学的指标,全方位的评判 Agent 各个环节?
2. Agent 效果评测核心流程解析
效果评测核心流程
测试阶段:离线评测质量准出、持续集成
线上阶段:在线评测持续监测效果、迭代优化
3. 字节效果评测的实践步骤
构建持续迭代的评测集数据
多模态、多轮对话等评测集的构建方法
选择适合不同业务场景的评测指标
Agent、多模态、多轮对话、一致性等业务指标设计与实践
LLM-As-Juge、Code 等评估方法实践
基于灵活智能的评测实验结果,发现 badcase
单实验分析、多实验结果的对比分析的方法
洞察 insight:如何用 Agent 智能发现问题给出建议
线上阶段持续的效果观测、优化和迭代
用在线评测的方式发现线上性能和效果问题
4. 用户案例
字节内部:直播业务
短视频合规审核场景,人审如何转大模型机审提效,评测集管理、多模态、多轮对话评测方法
商业化:Agent 评测解决方案
全码 Agent 应用,基于 trace 的在线评测、评测集管理能力
5. 未来规划与展望
复杂 Agent / Multi-Agent 如何进行更好的效果评测
您认为,这样的技术在实践过程中有哪些痛点?
面对越发复杂智能的 Agent,如何设计好科学的指标,全方位的评判 Agent 各个环节?
如何做好开发阶段的效果准出评测和线上阶段的线上效果监测?
如何结合业务情况,构建合适的评测集和选择合适的评估指标?
演讲亮点
评测集管理构建、评估器选择与设计、评测报告分析洞察等最佳实践分享
Agent 在线评测、多模态评测、多轮对话评测等多种场景化评测方法分享
基于字节内部真实业务的效果评测最佳实践
听众收益
了解 AI 应用效果评测的通用评测流程和方法
了解字节内部真实业务效果评测的最佳实践、一手经验
除此之外,本次大会还策划了多模态融合技术与创新应用、混沌工程与全链路压测实践、Data Infra for AI、Agentic AI、加速与反哺:AI 时代的可观测实践、Vibe Coding、端侧大模型的创新与应用、大模型推理的工程实践、AI 搜索技术的深水区、模型训练与微调、具身智能:当 AI 学会“动手思考”、大模型驱动的制造革命、AI4SE:软件研发提质增效实践、AI 重塑视觉创作体验、从“炫技”走向“实用”的 AI 产品、大模型驱动的智能数据分析等 20 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 上海站现场带来前沿技术洞察和一线实践经验。
目前,所有大会演讲嘉宾已结集完毕,更多详情可联系票务经理 18514549229 咨询。

评论