写点什么

OPPO 算法专家宋阳确认出席 AICon 北京站,分享 Citywalk 场景中的 VideoAgent 设计与实践

  • 2025-11-09
    北京
  • 本文字数:1417 字

    阅读完需:约 5 分钟

大小:762.06K时长:04:20
OPPO算法专家宋阳确认出席AICon北京站,分享Citywalk 场景中的 VideoAgent 设计与实践

12 月 19-20 日, AICon全球人工智能开发与应用大会收官之站将在北京举办,本次大会 将以 “探索 AI 应用边界” 为主题,聚焦企业级 Agent 落地、上下文工程、AI 产品创新等多个热门方向,围绕企业如何通过大模型提升研发与业务运营效率的实际应用案例,邀请来自阿里、字节、华为、京东、快手、美团等头部企业、大厂以及明星创业公司的专家,带来一线的大模型实践经验和前沿洞察。一起探索 AI 应用的更多可能,发掘 AI 驱动业务增长的新路径!


OPPO 算法专家宋阳已确认出席并将在「多模态从技术突破到创新应用落地」专题发表题为从视频理解到实时交互:Citywalk 场景中的 VideoAgent 设计与实践的主题分享。OPPO 在 2025 年开发者大会上发布了“AI 实景对话”首次让助手“走出屏幕”。在线下门店场景中,他们与大众点评达成深度合作,支持用户在逛街时(CityWalk),通过实景对话功能调用手机中大众点评的店铺信息与菜单数据,完成类似“AI 版探店助手”的体验。即使站在餐厅门口,也无需手动搜索,AI 即可提供评价、推荐菜品与价格信息。


CityWalk Agent 作为“AI 实景对话”一个独特的 Agent,在实际场景中遇到并解决了诸多技术挑战:

  1. 路由意图:粗粒度路由识别 CityWalk 领域,细粒度意图识别锚定上屏卡。

  2. 店铺指代:结合用户多轮语音提问和点击动作准确关联店铺名,支持随时打断。

  3. 记忆管理:综合历史对话和历史画面,动态管理视频记忆。

  4. 后处理:基于 poi 坐标距离和相似度过滤,店名难例 rag 和图像超清。


通过组合优化,CityWalk Agent 意图店名的召回率和准确率达到了 90%以上的效果。


宋阳目前专注视频智能体的落地应用,以及更高效的视频记忆管理机制。近两年深耕大模型与多模态研发,主导的 AndesGPT-math 与 AndesVL-citywalk 分别在 2024 与 2025 年的 OPPO 开发者大会上亮相。他长期负责语音算法落地,曾多次斩获权威语音榜单冠军,拥有 10 年一线实战经验。他在本次会议的详细演讲内容如下:


1、同行 VideoAgent 产品或有影响力的开源项目

2、CityWalk Agent 整体交互流程图和“AI 实景对话”其它 Agent

3、技术拆解(路由意图、店铺指代、记忆管理)和实际案例,推荐 AndesVL

4、VideoAgent 未来技术展望


这样的技术在实践过程中有哪些痛点?

在流式视频问答中,将 videoqa 转化为单帧 imageqa 可以解决大部分问题,但是仍然存在多画幅问题,目前取帧数量动态调整算法尚处于研究阶段,过多取帧会引入更大时延,过少取帧会牺牲效果,于是产生了 tradeoff。

演讲有哪些前沿亮点?

  1. 点击链路:通过主体检测圈定店铺牌匾 grounding,结合 visual prompt 进行准确的店铺锚定,在多店场景尤为好用。

  2. 视频记忆:围绕时间戳的记忆回溯,综合历史 qa 和历史 caption 检索店铺,无需用户持续对着店铺拍摄。

  3. 反思模块:结合下游 mcp 反馈,避开非餐饮短板领域,持续提升意图和上屏卡的准确率。


听众收益

  1. CityWalk Agent 整体交互链路和各子模块设计思路;

  2. 同行 VideoAgent 产品或者有影响力的开源项目;

  3. VideoAgent 未来技术展望,例如端侧 omni 和云端 vlm 协作。

除此之外,本次大会还策划了LLM 时代的软件研发新范式Context EngineeringData+AI / Agent 落地实践大模型系统工程企业级 Agent 的设计与落地大模型时代下的搜广推系统实践多模态从技术突破到创新应用落地等 10 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 50+资深专家在 AICon 北京站现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 580 元,详情可扫码或联系票务经理 13269078023 咨询。



2025-11-09 10:004388

评论

发布
暂无评论

不是吧,连公司里的卷王写代码都复制粘贴,这合理?

Liam

前端 代码 手写代码 代码阅读 写好代码

Linux进阶删除用户

flow

8月月更

Linux进阶新增用户组

flow

8月月更

Linux进阶删除用户组

flow

8月月更

传统数据中台又贵又复杂?何不试一试永久免费的下一代数据中台

雨果

数据中台 DaaS数据即服务

Wallys/QCA 9880/802.11ac Mini PCIe Wi-Fi Module, Dual Band, 2,4GHz / 5GHz advanced edition

wallys-wifi6

MySQL数据指令

武师叔

8月月更

[ Kitex 源码解读 ] Kitex 请求重试的分类及实现原理

baiyutang

Go 微服务架构 云原生 kitex CloudWeGo

43%非常看好TypeScript…解读“2022前端开发者现状报告”

华为云开发者联盟

typescript 开发者 前端

uniapp电影购票选座系统源码

清风

源码 计算机毕业设计

艺术与科技的狂欢,云端XR支撑阿那亚2022砂之盒沉浸艺术季

阿里云弹性计算

vr 视觉计算 云XR平台 沉浸式体验 GPU实例

华为云全流程护航《流浪方舟》破竹首发,打造口碑爆款

华为云开发者联盟

云计算 后端 华为云 流浪方舟

【Python】:如何利用Python实现文件操作

翼同学

Python 编程语言 文件操作 8月日更 入门学习

进行知识管理的好处有哪些?

Geek_da0866

说了半天跨平台,今儿咱就来跨跨!(完结篇)——Kubernetes上手实践

为自己带盐

Docker WSL2 k8s入门 签约计划第三季 8月月更

Linux进阶显示用户UID和GID

flow

8月月更

用Python自动生成 图文并茂的数据分析 报告

程序员晚枫

Python pip Office 自动化办公

体验远超Hue,这才是技术人员最喜欢的SQL工具

雨果

sql hue DaaS数据即服务

叮~点击定制你的数字车手证,参与挑战吉尼斯世界纪录™ 称号

亚马逊云科技 (Amazon Web Services)

Amaozn DeepRacer

Linux进阶切换用户

flow

8月月更

Substrate 源码更新导读八月第1周: 新版事务化存储层启用默认模式, Polkadot v0.9.27发布

彭亚伦

Substrate polkadot 波卡

作为开发人员,您应该熟悉的 7 个 JavaScript 概念

flow

8月月更

对数学直观、感性的认知是理解数学、喜爱数学的必经之路,这本书做到了!

图灵教育

高中数学

毕昇编译器优化:Lazy Code Motion

华为云开发者联盟

云计算 后端 表达式 毕昇编译器

【Python】:如何处理异常报错?

翼同学

Python 编程语言 异常处理 8月月更 入门学习

阿里云张新涛:支持沉浸式体验应用快速落地,阿里云云XR平台发布

阿里云弹性计算

视觉计算 云XR平台 沉浸式体验 GPU实例

论文分享:「FED BN」使用LOCAL BATCH NORMALIZATION方法解决Non-iid问题

隐语SecretFlow

密码学和算法 机器学习/深度学习

crm系统哪家好?好用的crm管理系统推荐

优秀

CRM系统

【燃】是时候展现真正的实力了!一文看懂2022华为开发者大赛技术亮点

华为云开发者联盟

云计算 华为云 开发者大赛

怎样选择一个好的SaaS知识库工具?

Geek_da0866

OpenHarmony——内核对象队列之算法详解(下)

OpenHarmony开发者

OpenHarmony

OPPO算法专家宋阳确认出席AICon北京站,分享Citywalk 场景中的 VideoAgent 设计与实践_AI&大模型_AICon 全球人工智能开发与应用大会_InfoQ精选文章