OPPO算法专家宋阳确认出席AICon北京站，分享Citywalk 场景中的 VideoAgent 设计与实践

12 月 19-20 日， AICon全球人工智能开发与应用大会收官之站将在北京举办，本次大会将以 “探索 AI 应用边界” 为主题，聚焦企业级 Agent 落地、上下文工程、AI 产品创新等多个热门方向，围绕企业如何通过大模型提升研发与业务运营效率的实际应用案例，邀请来自阿里、字节、华为、京东、快手、美团等头部企业、大厂以及明星创业公司的专家，带来一线的大模型实践经验和前沿洞察。一起探索 AI 应用的更多可能，发掘 AI 驱动业务增长的新路径！

OPPO 算法专家宋阳已确认出席并将在「多模态从技术突破到创新应用落地」专题发表题为《从视频理解到实时交互：Citywalk 场景中的 VideoAgent 设计与实践》的主题分享。OPPO 在 2025 年开发者大会上发布了“AI 实景对话”首次让助手“走出屏幕”。在线下门店场景中，他们与大众点评达成深度合作，支持用户在逛街时（CityWalk），通过实景对话功能调用手机中大众点评的店铺信息与菜单数据，完成类似“AI 版探店助手”的体验。即使站在餐厅门口，也无需手动搜索，AI 即可提供评价、推荐菜品与价格信息。

CityWalk Agent 作为“AI 实景对话”一个独特的 Agent，在实际场景中遇到并解决了诸多技术挑战：

路由意图：粗粒度路由识别 CityWalk 领域，细粒度意图识别锚定上屏卡。
店铺指代：结合用户多轮语音提问和点击动作准确关联店铺名，支持随时打断。
记忆管理：综合历史对话和历史画面，动态管理视频记忆。
后处理：基于 poi 坐标距离和相似度过滤，店名难例 rag 和图像超清。

通过组合优化，CityWalk Agent 意图店名的召回率和准确率达到了 90%以上的效果。

宋阳目前专注视频智能体的落地应用，以及更高效的视频记忆管理机制。近两年深耕大模型与多模态研发，主导的 AndesGPT-math 与 AndesVL-citywalk 分别在 2024 与 2025 年的 OPPO 开发者大会上亮相。他长期负责语音算法落地，曾多次斩获权威语音榜单冠军，拥有 10 年一线实战经验。他在本次会议的详细演讲内容如下：

1、同行 VideoAgent 产品或有影响力的开源项目
2、CityWalk Agent 整体交互流程图和“AI 实景对话”其它 Agent
3、技术拆解（路由意图、店铺指代、记忆管理）和实际案例，推荐 AndesVL
4、VideoAgent 未来技术展望
这样的技术在实践过程中有哪些痛点？
在流式视频问答中，将 videoqa 转化为单帧 imageqa 可以解决大部分问题，但是仍然存在多画幅问题，目前取帧数量动态调整算法尚处于研究阶段，过多取帧会引入更大时延，过少取帧会牺牲效果，于是产生了 tradeoff。
演讲有哪些前沿亮点？
点击链路：通过主体检测圈定店铺牌匾 grounding，结合 visual prompt 进行准确的店铺锚定，在多店场景尤为好用。
视频记忆：围绕时间戳的记忆回溯，综合历史 qa 和历史 caption 检索店铺，无需用户持续对着店铺拍摄。
反思模块：结合下游 mcp 反馈，避开非餐饮短板领域，持续提升意图和上屏卡的准确率。
听众收益
CityWalk Agent 整体交互链路和各子模块设计思路；
同行 VideoAgent 产品或者有影响力的开源项目；
VideoAgent 未来技术展望，例如端侧 omni 和云端 vlm 协作。

除此之外，本次大会还策划了LLM 时代的软件研发新范式、Context Engineering、Data+AI / Agent 落地实践、大模型系统工程、企业级 Agent 的设计与落地、大模型时代下的搜广推系统实践、多模态从技术突破到创新应用落地等 10 多个专题论坛，届时将有来自不同行业、不同领域、不同企业的 50+资深专家在 AICon 北京站现场带来前沿技术洞察和一线实践经验。

现在报名即可以享受 9 折优惠，单张门票立省 580 元，详情可扫码或联系票务经理 13269078023 咨询。

创作场景

OPPO 算法专家宋阳确认出席 AICon 北京站，分享 Citywalk 场景中的 VideoAgent 设计与实践