2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

解读计算机视觉的 2021:「进化」的力量推动技术变革,元宇宙时代的重要技术基础

  • 2022-01-11
  • 本文字数:4237 字

    阅读完需:约 14 分钟

解读计算机视觉的2021:「进化」的力量推动技术变革,元宇宙时代的重要技术基础

回顾刚刚过去的 2021 年,笔者想要总结的最核心的关键词是“进化”。


从商业世界的维度看,我们的社会已经从依赖传统的碳基能源,逐步进化到汲取数字化能源。从物理世界中,开采数据、粗炼出信息、聚合出智慧,最终提高生产率。


另一方面,我们人类赖以生存的环境近些年也在发生剧烈的变化。2020 年初新冠疫情突然爆发,病毒本身在以极快的速度进化着,相应的疫苗也在飞速研发着,未来病毒还是会不断进化变异,病毒的变化与威胁促使很多技术飞快往前发展,一瞬间仿佛人类文明进程被按下了快进键,一切魔幻现实主义的事件在我们身边真实发生。


这仿佛《三体》里面描述的场景,三体星球常年处于乱纪元或者毁灭的恶劣环境中,但其科技领先地球文明上千年;人类后来被三体文明统治之后,理论物理的天花板被锁死,但各种应用技术突飞猛进,反超了之前的科技水平。这一切的一切无不是进化的力量促使着科技向着更加适应客观环境的方向发展,而唯一不变的就是变化本身。


站在 2021 年的尾牙,回首过去的一年,笔者总结了在进化的力量下催生的,计算机视觉在工业和学术界值得大家关注的几点进展:

回顾计算机视觉这一年

具身智能,从被动式 AI 转向主动式人工智能


具身智能翻译自英文 embodied AI,字面意思是具有身体的人工智能。此处强调的是智能体(agent)需要与真实世界进行交互,具身智能(embodied AI),强调智能体(agent)要与真实世界进行交互,并通过多模态的交互 — 不仅仅是让 AI 学习提取视觉上的高维特征,被“输入”的认知世界,而是通过“眼耳鼻舌身意”六根来主动获取物理世界的真实反馈,通过反馈进一步让智能体学习并使其更“智能”、乃至“进化”。


1986 年,著名的人工智能专家布鲁克斯(Rodney Brooks)提出:智能是具身化和情境化的,传统以表征为核心的经典 AI 进路是错误的,而清除表征的方式就是制造基于行为的机器人。这个理论和 19 世纪 60 年代最早提出的认知智能,也是与“当前主流深度神经网络的基于大脑是基于神经元连接的复杂系统-基于信息的表征与加工”相悖的。


提到具身智能和进化,就不得不提到李飞飞老师今年提出的一套非常新的计算框架——DERL(deep evolution reinforcement learning)深度进化强化学习。她提到了生物进化论与智能体进化的关系,并借鉴了进化论的理论应用于假设的智能体(unimal 宇宙动物)的进化学习中。


李飞飞首次在文章中证明了鲍德温效应,即没有任何基因信息基础的人类行为方式和习惯(不通过基因突变的有性繁殖进化),经过许多代人的传播,最终进化为具有基因信息基础的行为习惯的现象(进化的强化学习)。


并且李飞飞在设计 unimal 过程中也参考了拉马克的学说,来对智能体穿越不同复杂地形进行训练,“用进废退”即生物体的器官经常使用就会变得发达,而不经常使用就会逐渐退化。unimal 通过无性进化限定了三种方式(a.删除肢体 b.调整肢体长度 c.增加肢体)。

Facebook 进化为 meta,all in 元宇宙


扎克伯格提出云宇宙需要具备的八要素如下:Presence 开发平台/套件、虚拟化身(Avatars)、家庭空间(Home space)、隔空传输(Teleporting)、跨平台互操作(Interoperability)、隐私与安全(Privacy and safety)、虚拟商品(Virtual goods)以及自然界面(Natural interfaces)。


其中 Presence 是 meta 为 Oculus VR 头显开发者提供的元宇宙基础开发套件,提供的即为基于计算机视觉和智能语音技术的工具集,分别是 insight sdk、interaction sdk 和 voice sdk。


insight sdk 基于空间锚点和场景理解技术,可以帮助开发者在真实的空间中进行虚拟物体的摆放、且符合物品之间的空间关系、遮挡关系,类似 google 推出的 google AR core 和苹果的 AR kit;interaction sdk 主要基于手部动作的交互,具体操作包括指、戳、捏、投射等;voice sdk 是由 wit.ai 自然语言平台提供支撑,可以为开发者提供语音导航和搜索等功能。


进入元宇宙需要智能感知与交互技术这张门票,而这张门票里的视觉和语音技术是最重要的基石。

自动驾驶,全视觉方案撑起的特斯拉万亿市值


2021 年,被称作是自动驾驶的元年。


交通运输部发布了《促进道路交通自动驾驶技术发展和应用的指导意见》,政策利好自动驾驶行业的发展。


过去一年我们见证了一批自动驾驶独角兽公司的快速崛起、也见证了特斯拉的万亿市值神话。在 2021 的 tesla Open AI day 上,高级总监 Andrej Karpathy 介绍了特斯拉的最新自动驾驶进展。


众所周知,特斯拉摒弃了激光雷达,采用了全视觉方案,通过八个 RGB 摄像头完成对于空间的感知和建模。通过 Transformer 来实现多机位特征到结果的预测,通过融入不同相机的位置信息,获得准确的空间位置映射。


但视觉信息本身缺乏时序信息,因此特斯拉构建了视频时序网络框架,融入 IMU 信息提升定位/跟踪的准确性,并提出了 spatial RNN video 模块。构建了千人的自有标注团队、自动标注平台工具,从 2D-3D 到如今的 4D 标注(时空标注),即一次标注可覆盖多机位和多帧,3D、4D 的数据可以通过目标的移动、方向的转换,获得不同角度、视野的 2D 图像。同时通过环境(光照、天气、角度)、车辆、人、道路等场景的仿真、动态化的参数调节目标数量,用于重构无穷无尽的数据流从而重构各种场景来不断训练与提升模型的边界。


同时,特斯拉也对外展示了自研的 dojo 集群,一种对称的分布式计算架构,区别于主流的非对称的分布式架构,如此的设计为 tesla 带来了横向扩展算力,兼顾算力的同时,具备很好的编程灵活性。“算法+数据+算力”三轮驱动铸造了特斯拉的万亿市值,并使其将竞争对手远远甩在身后。


结合今年技术的突破创新,面向未来的思考,从人工智能的三驾马车 — 算法、数据和算力,笔者总结了以下三大趋势:

2022,三大趋势值得关注

面向内容生成的 AIGC(算法层面)


我们已经逐步迈向了元宇宙时代。


元宇宙区别于传统的游戏世界的最大差异是,元宇宙是现实宇宙的数字孪生,遵循客观世界的物质唯一性等客观规律,因此元宇宙世界也需要孪生大量现实世界的物体或是对于现实世界的人物进行重建,而这些海量的重建必然不能是按照传统游戏世界中的方法,由 CG 工程师一个个手工制作、其效率远远无法满足实际场景的需求。


因此面向内容生成的 AIGC(算法层面)是必要的。相关技术方向包括:图像超分、domain 迁移、外推、类似 CLIP(对比式语言图像预训练模型,可以从自然语言监督中有效学习视觉模型)的隐式神经表示 — 通过文字描述来生成图像等多模态的(CV+NLP)等相关技术。

SCV 合成(数据层面)


虚拟现实引擎有专门的生成合成数据的组件(比如 NVIDIA IsaacSim,Unity Perception),这些合成数据不仅美观,而且有助于训练更好的算法。


生成/合成的数据不仅仅作为元宇宙的必备要素,同时也是训练模型的重要原料。如前面提到的特斯拉会利用虚拟现实技术来生成驾驶场景的边缘场景和生产更多的新视角。如果我们有合适的工具来构建数据集,就可以省去繁琐地给数据手工打标的过程,更好地对计算机视觉算法进行开发和训练。


人眼能看到的东西远不如现实世界丰富,我们构建的算法只能关注到人类理解和标记出的信息范围内。但事实可能并不是那样,我们可以为传感器构建算法,来测量超越人类感知范围的东西。这些算法可以在虚拟现实中通过编程的方式进行有效训练。


知名数据分析公司 Gartner 认为在未来 3 年中,合成数据将比真实数据更占优势。在合成计算机视觉(SCV)中,我们使用虚拟现实引擎训练计算机视觉模型,并将训练好的模型部署到现实世界。

能效高模型(算力层面)


尽管现在学界很多 SOTA 模型很难离线运行在一些手机等可穿戴设备上,模型越重相应的延迟也会越长,如果完全放到云端运行会引入成本、网络时延、隐私等问题。同时占用大量的云端算力,也会产生海量能耗而不利于整个社会碳达峰/碳中和的诉求。


因此未来高能效的推理模型势必成为主流趋势,第一个方案就是分布式训练,即在矩阵当中引入 0 进行神经网络的训练,因为不是全部的维度都重要,尽管可能会影响性能,但是会大规模减少点乘运算从而减少网络训练时间。同时引入量化训练、剪枝、感知量化训练等也可以帮助大幅降低模型推理时间,从而提升模型能效,同时极大程度的避免因量化训练带来的精度损失。通过知识蒸馏训练一个高性能的 teacher 模型来训练 student 模型也可以帮助提升模型能效。

总结


笛卡尔说过:“我思故我在”,因为意识决定了我的存在。海德格尔后来对笛卡尔的观点进行了批判,他提出“我在故我思”,因为人们的存在才有意识,才能感知这个世界,如果人不是人、而是存在于其他的生物体里,比如蝴蝶、鲸鱼,那么人对于世界的认知也会不同。


笔者以为,无论是传统基于表征的深度学习,还是新提出的具身的、基于存在与时间的具身智能都还有很长的路要走。


但毫无疑问,如果要做到一个通用型的人工智能,多模态的、具身的、主动交互式的人工智能体一定是必由之路。


为何如此笃定?因为人工智能是人类-高级智慧体定义训练的一种人造的、类人的高级智能。既然如此,是不是应该具备人类这种高级智能体的特性呢?比如生物体的进化、比如高层次的智能:推理、演绎、下棋等,也包括低层次的智能:行走、交谈、感知。面向未来的 AI 产品方向应该是从传统的 2D 平面人工智能(比如图像分类、目标检测、分割等任务)向 3D 空间、向 4D 的方向发展(存在与时间)。


我们看到短视频/视频 vlog 这几年较原来的微博图文有了极大发展,因为它们可以带给用户基于时空的、环境的更多信息;发展向给用户更加沉浸式的体验,比如 AR/VR,提供的是基于空间、环境、时间的全方位的感知与体验;发展向具身的虚拟数字人/AI 智能助理,人形的机器人例如 tesla bot,是视觉+语音的多模态主动式的与用户交互;发展向智能车,对外适应环境适配复杂路况、交通情况进行智能驾驶,对内为驾驶员和乘客提供真实的“第三空间”,满足用户的不同场景需求。


虽然人类的肉身进化缓慢、但人类精神创造的科技进化日新月异。作为一名科技工作者和 AI 从业者,我无比期盼那一天的到来,期待 AI 创造一个让渺小人类抵御外部环境突变的世界,赋人类以力量,赋岁月以文明。


作者介绍


何苗,AI 技术产品化专家(语音语义和计算机视觉以及多模态融合方向)。北京理工大学信工实验班本硕,和君商学院六届学员。AI 技术能力产品化方面有丰富的经验,曾担纲中国移动“和苗®”系列智能音箱、智能电视产品经理;在计算机视觉领域,专注于以人为本的视觉计算、三维空间定位与重建等数字孪生相关方向,如曾负责自研“羽量级像素精度人脸检测技术”赋能 OPPO Reno6 系列手机核心卖点“AI 焕采美妆视频”,自发布以来累计调用近 3 亿次。笔名大仙河,《AI 产品经理的 7 堂必修课》系列文章深受读者喜爱。

2022-01-11 13:316100
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 597.5 次阅读, 收获喜欢 1982 次。

关注

评论

发布
暂无评论
发现更多内容

腾讯架构师推荐架构电子书:多线程+JVM+Nginx+Redis+SpringBoot

nginx redis 程序员 Spring Boot JVM

去年今日我凭借这份文档,摇身一变成了被BAT大牛们看中的幸运儿

Java spring 程序员 JVM Kakfa

2021年目前最新上千道Java面试题,刷完你不进大厂谁进大厂

Java 程序员 后端

CVE-2017-10271漏洞复现与分析

喀拉峻

网络安全 信息安全 渗透测试

18 应用服务器集群的伸缩性设计,java面试多线程和分布式

Java 程序员 后端

2021备战金三银四血拼一波算法:字节+百度,东软医疗java面试题

Java 程序员 后端

Java Spring Boot 项目中使用结构化日志节省时间

码语者

Spring Boot Logging

2021年第一波福利已送达!献上“独家全新,netty框架工作原理

Java 程序员 后端

13万字!腾讯高工手写JDK源码笔记 带你飙向实战,linux高级教程

Java 程序员 后端

2020云计算省赛总结,springboot教学视频

Java 程序员 后端

2021年Java面试题抢先看,够全!中篇(1),Java视频课资源

Java 程序员 后端

2021年高频Java面试题集锦(含答案),华为java面试视频直播

Java 程序员 后端

出自清华大牛之手的Redis源码核心手册,已被列为GitHub首推书籍

Java redis 编程 程序员

周傲英:替代工程只是契机,转型升级才是大势所驱

OceanBase 数据库

数据库 开源 数字化转型 云栖大会

杨传辉:深挖 OceanBase 背后的技术逻辑,助力数据库核心系统升级

OceanBase 数据库

数据库 开源 分布式 数字化转型 核心系统

开源项目|Go 开发的一款分布式唯一 ID 生成系统

AlwaysBeta

golang 开源 Go 语言

网易云音乐音视频算法的 Serverless 探索之路

阿里巴巴云原生

阿里云 Serverless 云原生 实践案例 合作伙伴

如果明天交任务,自己做今晚能完成,而让下属做需要一周时间,怎么办?

石云升

职场经验 11月日更

13 高可用的服务,字节跳动今日学习内容

Java 程序员 后端

2020年IT运维市场大前景到底怎么样,Java开发工程师需要掌握的技能

Java 程序员 后端

2021年最新基于Spring Cloud的微服务架构分析,mysql面试笔试题

Java 程序员 后端

18 张图,一文了解 8 种常见的数据结构,java编程入门类pdf

Java 程序员 后端

2019金九银十前端面经总结,牛客视频面试

Java 程序员 后端

2021年Java面试题抢先看,够全!中篇,rebbitmq教程

Java 程序员 后端

12 高可用的应用,微众银行java面试

Java 程序员 后端

NodeJs深入浅出之旅:异步I/O (中)🐉

空城机

JavaScript node.js 大前端 Node 11月日更

2020全网最新SQL优化面试专题及答案,java自学教程视频

Java 程序员 后端

2021年最新版阿里、腾讯、美团300道Java初级,你掌握了多少?

Java 程序员 后端

阿里云性能测试服务 PTS 新面貌 - 压测协议、施压能力全新升级

阿里巴巴云原生

阿里云 容器 云原生 性能测试 产品升级

2021年Java程序员请先把这几项硬技能熟悉掌握,再想着跳槽拿高薪(1)

Java 程序员 后端

2021年Java程序员请先把这几项硬技能熟悉掌握,再想着跳槽拿高薪

Java 程序员 后端

解读计算机视觉的2021:「进化」的力量推动技术变革,元宇宙时代的重要技术基础_AI&大模型_何苗_InfoQ精选文章