
12 月 19-20 日, AICon全球人工智能开发与应用大会收官之站将在北京举办,本次大会 将以 “探索 AI 应用边界” 为主题,聚焦企业级 Agent 落地、上下文工程、AI 产品创新等多个热门方向,围绕企业如何通过大模型提升研发与业务运营效率的实际应用案例,邀请来自阿里、字节、华为、京东、快手、美团等头部企业、大厂以及明星创业公司的专家,带来一线的大模型实践经验和前沿洞察。一起探索 AI 应用的更多可能,发掘 AI 驱动业务增长的新路径!
OPPO 算法专家宋阳已确认出席并将在「多模态从技术突破到创新应用落地」专题发表题为《从视频理解到实时交互:Citywalk 场景中的 VideoAgent 设计与实践》的主题分享。OPPO 在 2025 年开发者大会上发布了“AI 实景对话”首次让助手“走出屏幕”。在线下门店场景中,他们与大众点评达成深度合作,支持用户在逛街时(CityWalk),通过实景对话功能调用手机中大众点评的店铺信息与菜单数据,完成类似“AI 版探店助手”的体验。即使站在餐厅门口,也无需手动搜索,AI 即可提供评价、推荐菜品与价格信息。
CityWalk Agent 作为“AI 实景对话”一个独特的 Agent,在实际场景中遇到并解决了诸多技术挑战:
路由意图:粗粒度路由识别 CityWalk 领域,细粒度意图识别锚定上屏卡。
店铺指代:结合用户多轮语音提问和点击动作准确关联店铺名,支持随时打断。
记忆管理:综合历史对话和历史画面,动态管理视频记忆。
后处理:基于 poi 坐标距离和相似度过滤,店名难例 rag 和图像超清。
通过组合优化,CityWalk Agent 意图店名的召回率和准确率达到了 90%以上的效果。
宋阳目前专注视频智能体的落地应用,以及更高效的视频记忆管理机制。近两年深耕大模型与多模态研发,主导的 AndesGPT-math 与 AndesVL-citywalk 分别在 2024 与 2025 年的 OPPO 开发者大会上亮相。他长期负责语音算法落地,曾多次斩获权威语音榜单冠军,拥有 10 年一线实战经验。他在本次会议的详细演讲内容如下:
1、同行 VideoAgent 产品或有影响力的开源项目
2、CityWalk Agent 整体交互流程图和“AI 实景对话”其它 Agent
3、技术拆解(路由意图、店铺指代、记忆管理)和实际案例,推荐 AndesVL
4、VideoAgent 未来技术展望
这样的技术在实践过程中有哪些痛点?
在流式视频问答中,将 videoqa 转化为单帧 imageqa 可以解决大部分问题,但是仍然存在多画幅问题,目前取帧数量动态调整算法尚处于研究阶段,过多取帧会引入更大时延,过少取帧会牺牲效果,于是产生了 tradeoff。
演讲有哪些前沿亮点?
点击链路:通过主体检测圈定店铺牌匾 grounding,结合 visual prompt 进行准确的店铺锚定,在多店场景尤为好用。
视频记忆:围绕时间戳的记忆回溯,综合历史 qa 和历史 caption 检索店铺,无需用户持续对着店铺拍摄。
反思模块:结合下游 mcp 反馈,避开非餐饮短板领域,持续提升意图和上屏卡的准确率。
听众收益
CityWalk Agent 整体交互链路和各子模块设计思路;
同行 VideoAgent 产品或者有影响力的开源项目;
VideoAgent 未来技术展望,例如端侧 omni 和云端 vlm 协作。
除此之外,本次大会还策划了LLM 时代的软件研发新范式、Context Engineering、Data+AI / Agent 落地实践、大模型系统工程、企业级 Agent 的设计与落地、大模型时代下的搜广推系统实践、多模态从技术突破到创新应用落地等 10 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 50+资深专家在 AICon 北京站现场带来前沿技术洞察和一线实践经验。
现在报名即可以享受 9 折优惠,单张门票立省 580 元,详情可扫码或联系票务经理 13269078023 咨询。








评论