写点什么

OPPO 算法专家宋阳确认出席 AICon 北京站,分享 Citywalk 场景中的 VideoAgent 设计与实践

  • 2025-11-09
    北京
  • 本文字数:1417 字

    阅读完需:约 5 分钟

大小:762.06K时长:04:20
OPPO算法专家宋阳确认出席AICon北京站,分享Citywalk 场景中的 VideoAgent 设计与实践

12 月 19-20 日, AICon全球人工智能开发与应用大会收官之站将在北京举办,本次大会 将以 “探索 AI 应用边界” 为主题,聚焦企业级 Agent 落地、上下文工程、AI 产品创新等多个热门方向,围绕企业如何通过大模型提升研发与业务运营效率的实际应用案例,邀请来自阿里、字节、华为、京东、快手、美团等头部企业、大厂以及明星创业公司的专家,带来一线的大模型实践经验和前沿洞察。一起探索 AI 应用的更多可能,发掘 AI 驱动业务增长的新路径!


OPPO 算法专家宋阳已确认出席并将在「多模态从技术突破到创新应用落地」专题发表题为从视频理解到实时交互:Citywalk 场景中的 VideoAgent 设计与实践的主题分享。OPPO 在 2025 年开发者大会上发布了“AI 实景对话”首次让助手“走出屏幕”。在线下门店场景中,他们与大众点评达成深度合作,支持用户在逛街时(CityWalk),通过实景对话功能调用手机中大众点评的店铺信息与菜单数据,完成类似“AI 版探店助手”的体验。即使站在餐厅门口,也无需手动搜索,AI 即可提供评价、推荐菜品与价格信息。


CityWalk Agent 作为“AI 实景对话”一个独特的 Agent,在实际场景中遇到并解决了诸多技术挑战:

  1. 路由意图:粗粒度路由识别 CityWalk 领域,细粒度意图识别锚定上屏卡。

  2. 店铺指代:结合用户多轮语音提问和点击动作准确关联店铺名,支持随时打断。

  3. 记忆管理:综合历史对话和历史画面,动态管理视频记忆。

  4. 后处理:基于 poi 坐标距离和相似度过滤,店名难例 rag 和图像超清。


通过组合优化,CityWalk Agent 意图店名的召回率和准确率达到了 90%以上的效果。


宋阳目前专注视频智能体的落地应用,以及更高效的视频记忆管理机制。近两年深耕大模型与多模态研发,主导的 AndesGPT-math 与 AndesVL-citywalk 分别在 2024 与 2025 年的 OPPO 开发者大会上亮相。他长期负责语音算法落地,曾多次斩获权威语音榜单冠军,拥有 10 年一线实战经验。他在本次会议的详细演讲内容如下:


1、同行 VideoAgent 产品或有影响力的开源项目

2、CityWalk Agent 整体交互流程图和“AI 实景对话”其它 Agent

3、技术拆解(路由意图、店铺指代、记忆管理)和实际案例,推荐 AndesVL

4、VideoAgent 未来技术展望


这样的技术在实践过程中有哪些痛点?

在流式视频问答中,将 videoqa 转化为单帧 imageqa 可以解决大部分问题,但是仍然存在多画幅问题,目前取帧数量动态调整算法尚处于研究阶段,过多取帧会引入更大时延,过少取帧会牺牲效果,于是产生了 tradeoff。

演讲有哪些前沿亮点?

  1. 点击链路:通过主体检测圈定店铺牌匾 grounding,结合 visual prompt 进行准确的店铺锚定,在多店场景尤为好用。

  2. 视频记忆:围绕时间戳的记忆回溯,综合历史 qa 和历史 caption 检索店铺,无需用户持续对着店铺拍摄。

  3. 反思模块:结合下游 mcp 反馈,避开非餐饮短板领域,持续提升意图和上屏卡的准确率。


听众收益

  1. CityWalk Agent 整体交互链路和各子模块设计思路;

  2. 同行 VideoAgent 产品或者有影响力的开源项目;

  3. VideoAgent 未来技术展望,例如端侧 omni 和云端 vlm 协作。

除此之外,本次大会还策划了LLM 时代的软件研发新范式Context EngineeringData+AI / Agent 落地实践大模型系统工程企业级 Agent 的设计与落地大模型时代下的搜广推系统实践多模态从技术突破到创新应用落地等 10 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 50+资深专家在 AICon 北京站现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 580 元,详情可扫码或联系票务经理 13269078023 咨询。



2025-11-09 10:002

评论

发布
暂无评论

如何通过观测云的RUM找到前端加载的瓶颈--可观测性入门篇

Yestodorrow

可观测性

leetcode22_Valid_Parentheses_有效的括号

okokabcd

LeetCode

从0开始学Java——抛出和声明异常的代码实现

java易二三

Java 程序员 计算机 科技

mac端好用的Java开发分析 JProfiler 13 激活中文版附密钥

胖墩儿不胖y

Mac Mac 软件 Java开发分析工具 Java分析

Spring Cloud OpenFeign - 远程调用

java易二三

Java spring 程序员 计算机 科技

软件测试 | web跟踪元素属性

测吧(北京)科技有限公司

测试

推荐系统系列之推荐系统概览(上)

亚马逊云科技 (Amazon Web Services)

Amazon

搜文本搜位置搜图片,1小时玩转Elasticsearch

阿里云大数据AI技术

软件测试 | 查看隐藏表单域

测吧(北京)科技有限公司

测试

软件测试 | 使用TamperData观察实时的响应头

测吧(北京)科技有限公司

测试

敏捷采购:如何在采购中应用敏捷方法

ShineScrum

敏捷 敏捷采购

软件测试 | 修改特定的元素属性

测吧(北京)科技有限公司

ARTS 打卡第 1 周: Jackson如何自定义属性的序列化策略

前行

#Jackson #正则表达式 #IDEA高效使用技巧

数据安全架构总结及案例分享

I

安全架构师 架构设计 数据安全 安全架构

软件测试 | 使用WebScarab观察实时的POST数据

测吧(北京)科技有限公司

测试

软件测试 | 使用以URL方式编码的数据

测吧(北京)科技有限公司

测试

使用 appuploader 工具流程(Windows 版本) 作者:雪奈椰子

如何快速优化 CnosDB 数据库性能与延迟:使用 Jaeger 分布式追踪系统

CnosDB

时序数据库 开源社区 CnosDB 工程师有话说

SpringBoot3集成RocketMq

RocketMQ springboot SpringBoot3

数跨新阶,原生新纪 | 2023 数字化转型发展大会蓄力启航

信通院IOMM数字化转型团队

数字化转型 大会 IOMM 数字化转型峰会

Programming abstractions in C阅读笔记: p114-p117

codists

ARTS 打卡第 7 天

自由

ARTS 打卡计划

注册与充值操作手册

zhizhi

AI azure openai AIGC zhizhi

Presto 设计与实现(二):一切从 0 开始?

冰心的小屋

数据湖 presto presto 设计与实现

CommunityOverCode Asia 议程上线|Apache Flink 项目实践

Apache Flink

大数据 flink 实时计算

SQLite数据库实现数据增删改查

芯动大师

产品经理:实现一个微信输入框

南城FE

JavaScript 微信 前端 交互 输入框

WPS Office AI实战总结,智能化办公时代已来

MavenTalker

Microsoft 365 Copilot WPSAI

OPPO算法专家宋阳确认出席AICon北京站,分享Citywalk 场景中的 VideoAgent 设计与实践_AI&大模型_AICon 全球人工智能开发与应用大会_InfoQ精选文章