OPPO研究院成立智能感知与交互研究部，首次公开展示研发成果_AI&大模型_罗燕珊



 写点什么

一年一度的全球计算机视觉顶级会议 CVPR（Conference on Computer Vision and Pattern Recognition 国际计算机视觉与模式识别会议）落下帷幕，该会议是由 IEEE（国际计算机视觉与模式识别会议）举办的计算机视觉和模式识别领域的顶尖会议。每年汇聚全球顶尖的相关专家、学者和研究者，共同关注和探讨计算机视觉技术的发展方向与趋势。

InfoQ 了解到，在 CVPR 2020 的一系列学术竞赛中，OPPO 共获得两项第一、两项第三，获奖技术成果包括：将模糊的照片智能处理清晰的超分技术，凭照片定位拍摄方位技术以及通过录像识别人类行为技术。

据悉，此次 OPPO 参加 CVPR 2020 的多项获奖成果均来自今年年初新成立的智能感知与交互研究部门。今年 3 月，前小鹏首席科学家郭彦东加入 OPPO 并担任 OPPO 智能感知首席科学家，领导快速组建并完善专业科研团队。目前，智能感知与交互研究部已初具规模，并引进了许多顶尖科技公司与科研院校人才。

郭彦东表示：“非常高兴能在今年的 CVPR 竞赛中取得优秀成绩，这是 OPPO 研究院智能感知与交互研究部成立以来首次公开展示研发成果，分别对应环境感知、以人为本的计算、以及数字生成三个核心研究方向，充分反映了 OPPO 在人工智能领域的深厚积淀与实力。”

在本次大会上，OPPO 获得第一名的技术成果为：将模糊图片“算”清晰的“极端超级分辨率感知”技术；此外，通过照片计算拍照方位的"手持设备视觉定位"技术则获得第三名和分项第一；通过读取录像智能识别其中人类行为的“长视频行为识别”技术同时获得第三名。

超分技术成果，凭空将模糊图片算清晰

“极端超分辨率感知”（ Perceptual Extreme Super-Resolution）是 CVPR 难度最高的赛项之一，要求从模糊的低分辨率图片中，获得细节更清晰、更接近真实情况的高清图像。

针对这项挑战，OPPO 提出了独创的神经网络架构 RFB-ESRGAN，通过更智能的方式提取原图特征，用分布式算法提高计算效率，以更多元的采样与计算模型配合，通过计算把模糊的图片清晰放大了 16 倍，从全球 280 多个顶尖参赛团队中脱颖而出，获得第一名。

OPPO 极端超分辨率感知处理效果，最左侧图片红框内为原图，最右侧为最终结果

这项技术将在未来为诸多应用场景提供帮助，例如将用户手机拍摄到的模糊影像处理成细节丰富的高清效果，修复图像受到损坏的老照片、老电影，或者对卫星、航天图像进行细节分析等工作。

人工智能程序对图片从多维度进行分析

视觉定位和长视频行为识别

在“手持设备视觉定位”挑战（Visual localization for handheld devices challenge）中，OPPO 获得了面向室外场景的数据集(Aachen Day-Night)第一名，与面向室内场景的数据集(InLoc)第三名。

“视觉定位”是通过搜集和分析图像中的海量信息，对自身拍摄方位作出精确判断。OPPO 团队自主设计的全新分析流程，可以智能分析图像信息的分类标签及图像深浅信息，大量排除错误结果，从而显著提升分析准确程度。这一技术对未来的 AR 眼镜，智能机器人，精准导航等应用都能起到重要作用。例如，当智能机器人助手安装了摄像头之后，就可以利用视觉定位技术对拍摄到的图像作运算分析，获得准确定位，从而精准的移动。

此外，OPPO 在“长视频行为识别”（Activity detection in extended videos）赛项中获得了第三名。

“视频行为识别”是指在某段视频中分析并判断人或物体对象的行为动作。OPPO 的智能程序可高效识别并重组每一帧画面中的人物，辨别复杂动态视频中的人类行为。在一段数十人出镜的长视频中，它准确识别了视频中每个人走动或是聊天等的数十种动作。这项技术在未来能广泛应用在人机交互、运动分析等领域，例如未来的手机产品便可以自动识别正在运动的拍摄对象，并自动调节快门对焦。

视频行为识别结果

除 OPPO 研究院智能感知与交互研究部之外，OPPO 美国研究所也在 CVPR 上有所收获，取得了“真实世界超分辨率图像处理技术”（Real-World Super-Resolution Challenge：Track 1: Image Processing artifacts）第六名的成绩。

OPPO 美研所时空实验室主管孟子博在 CVPR 做了暗光影像技术演讲“穿透黑暗：从图像到视频”（Looking into the dark: from image to video），AI 计算机视觉高级技术总监全书学做了“从零开始构建可在智能手机和 AR 眼镜上运行的统一 SLAM 系统”演讲（Building a unified SLAM system running on both smartphone and AR glass from scratch）。

发布

暂无评论

创作场景

OPPO 研究院成立智能感知与交互研究部，首次公开展示研发成果

超分技术成果，凭空将模糊图片算清晰

视觉定位和长视频行为识别

评论

AI老师的作者：17岁的高中生，可能是你想要孩子成为的样子

揭秘阿里云Flink智能诊断利器——Fllink Job Advisor

2022 中国开源创新大赛，时序数据库 TDengine 榜上有名

咸阳有没有等保测评机构？在哪里？怎么联系？

GreptimeDB v0.3 正式发布｜分布式能力全面提升

金融集团企业资金管理难度加倍，用友BIP如何破解这个难题？

横空出世！京东技术专家狂推的Redis笔记，实战和原理两开花

10分钟了解Kubernetes网络

黑盒不黑：跨端 C/C++ 库一键源码调试方案

主动发现系统稳定性缺陷：混沌工程 | 京东云技术团队

2023年数智人力管理不容错过的2大神器

2022百度ESG报告发布：年度答卷展现安全信任承诺

软件测试 | Selenium验证页面元素

技术赋能-混流编排功能，助力京东618直播重保 | 京东云技术团队

Mybatis的parameterType造成线程阻塞问题分析 | 京东云技术团队

最强攻略 | 1分钟带你了解内测，成为BUG小能手！

不愧是阿里P8出手的并发编程笔记！颠覆了我以往"正确"的认知

阿里云 EMAS & 魔笔：5月产品动态

中国银行开启数智人力管理新征途

Openjob 1.0.2 重磅发布，新一代分布式任务调度框架

软件测试 | Web自动化测试

祝贺！Databend 入选 ICT 中国可信云优秀云原生创新案例

NFTScan 成为 CMC 官方 NFT 数据合作伙伴

【Clickhouse】ReplaceingMergeTree引擎final实现合并去重探索 | 京东云技术团队

世界500强潍柴动力携手用友BIP全球司库打造资金管理系统，正式启动！

TiDB 7.1 LTS 发版：为关键业务提供业务稳定性和多租户场景支持

苹果MR Vision Pro将会带动哪些零部件出货？

理论+示例，详解GaussDB(DWS)资源管理

用户组是什么意思？怎么容易理解？有什么作用？

让ChatGPT来写今年的高考作文，能得几分？

Kubernetes 集群管理：Kurator or Kubespray

创作场景

OPPO 研究院成立智能感知与交互研究部，首次公开展示研发成果

超分技术成果，凭空将模糊图片算清晰

视觉定位和长视频行为识别

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载