东亚银行、岚图汽车带你解锁 AIGC 时代的数字化人才培养各赛道新模式! 了解详情
写点什么

解读人工智能的 2021:超大规模预训练模型爆发,自动驾驶迎来商业化前夜

  • 2021-12-29
  • 本文字数:11660 字

    阅读完需:约 38 分钟

解读人工智能的2021:超大规模预训练模型爆发,自动驾驶迎来商业化前夜

本文是 “2021 InfoQ 年度技术盘点与展望” 系列文章之一,由 InfoQ 编辑部制作呈现,重点聚焦 AI 领域在 2021 年的重要进展、动态,希望能帮助你准确把握 2021 年 AI 领域的核心发展脉络,在行业内始终保持足够的技术敏锐度。


“InfoQ 年度技术盘点与展望”是 InfoQ 全年最重要的内容选题之一,将涵盖架构、AI、大数据、大前端、云计算、数据库、中间件、操作系统、开源、编程语言十大领域,后续将聚合延展成专题、迷你书、直播周、合集页面,在 InfoQ 媒体矩阵陆续放出,欢迎大家持续关注。


特此感谢何苗、侯军、蒋宏飞、刘知远、⻢泽君、吴韶华、许欣然、曾冠荣、张杰、张凯(按姓名首字母排序)对本文的贡献,他们的真知灼见,是本文能与大家见面的关键。


即将过去的 2021 年,又是跌宕起伏的一年。疫情仍没有结束的苗头,缺芯造成的供应链中断此起彼伏,与此同时,数字化、智能化转型已是大势所趋。全球企业和机构在不断学会适应“新常态”,并从中捕捉新的商业机会。


2021 年, 人工智能领域依然热潮汹涌。AphaFold2 成功预测 98%蛋白质结构,预训练大模型迎来大爆发,自动驾驶迈入商业化试点探索新阶段,元宇宙概念东风劲吹,首个关于 AI 伦理的全球协议通过,商汤科技即将摘得“AI 第一股”... 前沿技术突破令人欣喜,落地应用“润物细无声”般深入各行业,业界也开始正视人工智能的问题和挑战。


在岁末年初之际,InfoQ 采访了众多行业专家,回顾了 2021 年人工智能大模型、深度学习框架、 NLP、智能语音、自动驾驶、知识图谱等各项 AI 技术的发展情况,并展望了未来一年可能的技术趋势。

2021 年度 AI 技术突破

人工智能预测蛋白质结构

12 月 15 日,Nature 发布了《2021 年十大科学新闻》;12 月 17 日,Science 紧随其后,公布了《2021 年度十大科学突破》。Nature 和 Science 都将「人工智能预测蛋白质结构」评为本年度最重要的发现,Science 更是将其列为“2021 年十大科学突破进展”之首。


长期以来,蛋白质结构的预测一直是生物学领域的研究热点和难点。传统的蛋白质结构探测方法主要有三种:X 射线晶体学、核磁共振和冷冻电镜。但这些方法成本较高,研究周期漫长,且进展有限。


人工智能为这一困扰生物学界数十年的难题按下了快进键。


今年 7 月,蛋白结构两大 AI 预测算法 —— DeepMind 的 AphaFold2 和华盛顿大学等机构研发的 RoseTTAFold 相继开源。

AphaFold2“解锁”98%人类蛋白质组

7 月 16 日,DeepMind 在 Nature 发表论文,宣布已利用 Alpha Fold2 预测了 35 万种蛋白质结构,涵盖了 98.5%的人类蛋白质组,及其他 20 种生物几乎完整的蛋白质组。研究团队还公布了 AlphaFold2 的开源代码和技术细节。

RoseTTAFold 可十分钟内计算出蛋白质结构

同日,华盛顿大学蛋白设计研究所 David Baker 教授课题组及其他合作机构在 Science 上发表论文 ,公布了其开源蛋白质预测工具 RoseTTAFold 的研究结果。研究团队探索了结合相关思想的网络架构,并通过三轨网络获得了最佳性能。三轨网络产生的结构预测精度接近 CASP14 中的 DeepMind 团队的 AlphaFold2,且速度更快、所需计算机处理能力更低。仅用一台游戏计算机,在短短十分钟内就能可靠地计算出蛋白质结构。

其他研究进展

8 月,中国研究人员使用 Alpha Fold2 绘制了近 200 种与 DNA 结合的蛋白质结构图。11 月,德国和美国的研究人员利用 Alpha Fold2 和冷冻电镜绘制了核孔复合物的结构图。12 月 22 日,深势科技推出了蛋白结构预测工具 Uni-Fold,在国内首次复现谷歌 Alphafold2 全规模训练并开源训练、推理代码。

AI 技术 2021 年发展总结与展望

人工智能迈向“炼大模型”阶段

今年是超大规模预训练模型的爆发之年。


去年,GPT-3 横空出世,这个具有 1750 亿参数规模的预训练模型所表现出来的零样本与小样本学习能力刷新了人们的认知,也引爆了 2021 年 AI 大模型研究的热潮。


谷歌、微软、英伟达、智源人工智能研究院、阿里、百度、浪潮等国内外科技巨头和机构纷纷展开大模型研究和探索。

超大规模预训练模型的“军备竞赛”

2021 年 1 月,Google 推出的 Switch Transformer 模型以高达 1.6 万亿的参数量打破了 GPT-3 作为最大 AI 模型的统治地位,成为史上首个万亿级语言模型。


国内研究机构也不甘示弱。今年 6 月,北京智源人工智能研究院发布了超大规模智能模型“悟道 2.0”,达到 1.75 万亿参数,超过 Switch Transformer 成为全球最大的预训练模型。


值得一提的是,今年国产化大模型研发工作进展飞速,华为、浪潮、阿里、百度等都发布了自研的大模型。


浪潮人工智能研究院首席研究员吴韶华向 InfoQ 表示,现在业界提高模型参数量有两种技术路线,产生两种不同的模型结构,一种是单体模型,一种是混合模型。如浪潮的源大模型,华为的盘古大模型、百度的文心大模型、英伟达联合微软发布的自然语言生成模型 MT-NLG 等走的都是单体模型路线;而智源的悟道模型、阿里 M6 等走的是混合模型路线。

预训练模型技术新进展

OPPO 小布智能中心、 NLP 算法工程师曾冠荣认为,预训练模型在今年取得的重要技术进展有:


  • 知识表示和学习机理进一步创新突破 随着对预训练模型的深入理解,预训练模型的知识学习和表征的机理逐步明确,人们得以更加顺利地往模型里注入需要其学习的知识,在这些知识的加持下,对复杂任务的应对能力得到了大幅提升。

  • 对比学习、自监督和知识增强


以对比学习为中心,多种增强方法为工具的方式能进一步提升预训练模型的语义理解和表征能力,增强方法的深入让模型自监督成为可能,让对比学习对样本,尤其是正样本的依赖降低,数据依赖的降低势必让模型对少样本甚至无样本任务的适应性提升,模型能更好地完成这类型的任务,这将让预训练模型落地的成本再降低一个层次。

降低 AI 规模化落地的门槛

预训练大模型降低了 AI 应用的门槛,解决了 AI 应用的两个难题:数据和行业知识。它既不需要大量的标注数据,又保障了基础底座。


在预训练模型的业务定制优化和应用方面,曾冠荣认为,从第一个预训练语言模型 BERT 发布至今,已在多个热门任务下得到应用,逐步从一种“潮流”变成前沿技术的“基本操作”,如预训练模型已成为机器翻译领域的基础关键性技术。此外,预训练模型也成为大系统中的一部分,发挥着其语义理解的优势。


无论是业界还是科研,对预训练模型的使用方式逐渐灵活,能从预训练模型中拆解出适合任务的部分并组装到自己的实际任务模型中。


时至今日,对预训练大模型的性能优化仍未终止,在学界,仍有大量的研究在预训练模型的落地能力上努力,压缩、剪枝、蒸馏的工作仍起到重要作用。不止于算法本身,编译、引擎、硬件等方面的优化也在大步迈进。

小结和展望

吴韶华认为,整体而言,现在大规模预训练模型的研究,包括模型结构的演进和落地仍处在探索阶段,各家的持续探索正在不断扩大对大规模预训练模型的认知边界。


“大规模预训练模型是人工智能的最新技术高地,是对海量数据、高性能计算和学习理论原始创新的全方位考验”,清华大学教授、智源大模型技术委员会成员刘知远在接受 InfoQ 采访时展望了明年大模型的发展趋势。


刘知远表示,他明年将重点关注两个层面的问题:


一是人工智能技术正呈现“大一统”趋势,如预训练模型在 Prompt Tuning 等技术的支持下可用于很多不同的任务,再如 Transformer 模型框架正在从自然语言处理扩展到计算机视觉模态,接下来我们也许会看到更多的从框架、模型和任务等方面推进人工智能技术趋向统一的工作;另一个问题是,随着预训练模型规模增大,如何更好更高效地实现任务适配和推理计算,将是让大模型飞入千家万户的重要技术。

国产深度学习框架不再是“技术的跟随者”

过去十年涌现了大量的 AI 算法和应用,这背后都离不开开源深度学习框架提供的支持。


开源深度学习框架是 AI 算法研发和 AI 应用落地的“脚手架”,帮助 AI 研究员和开发者大幅降低算法研发门槛,提升研发效率。


IDC 的调研显示,中国人工智能领域 90%以上的产品都使用了开源的框架、库或者其他工具包。

新进展,新趋势

深度学习框架的发展核心是跟随着深度学习领域的发展而前进的。


开源深度学习框架旷视天元 MegEngine 研发负责人许欣然在接受 InfoQ 采访时,分享了过去这一年他所观察到的深度学习的新进展:


(1)以 ViT、Swin 为代表的 Transformer 类模型开始向 NLP 以外的领域进军,在更多场景中展现威力,让“大”模型的趋势愈演愈烈。


相应的,深度学习框架也在训练大模型方面进展颇多(如 DeepSpeed+ZeRO),多种混合并行方案层出不穷。无论是深度学习框架还是硬件厂商,都在思考 Transformer 是否是会长期固定的计算 pattern。


(2)A100 这类显卡的诞生,催生了一股从动态图回到静态图的趋势。本身对动态图更友好的框架也纷纷尝试通过编译的方式提升效率,比如 PyTorch 的 LazyTensor、Jax 的 XLA。 很多国产框架也在尝试通过动静结合的方式提升效率,比如旷视天元 MegEngine 推出的 Tensor Interpreter、MindSpore 的 Python 代码转静态图的方案等。


此外,MLIR 和 TVM 这两个深度学习编译器领域的灯塔都在快速增长,如何靠机器做好编译也正成为各个深度学习框架研发的主要方向。同时随着深度学习方法的持续发展,也诞生了更多的新兴框架,如图神经网络领域的 DGL。

技术自立之路

近两年,国产深度学习框架陆续开源且发展迅速,逐渐在开源框架市场占有一席之地。


在技术研发方面,国产框架不再是技术的“跟随者”的角色,研发出了很多领先的创新点,比如 MegEngine 的 DTR 技术、OneFlow 的 SBP 并行方案和 MindSpore 的 AKG 等等。此外,在功能、代码质量和文档等方面都达到了很高的水准。


在开源生态建设方面,各家也都持续投入,通过开源社区扶植、产学研合作等方式,助力国产开源生态的发展和人才培养。


业界现有的主流深度学习框架多来自国外大厂,目前,国内企业自研的深度学习框架还没有哪一款进阶成为国际主流的学习框架。


许欣然坦言,国产深度学习框架在生态建设上还有很长的路要走,既需要持续投入、不断完善生态建设,也需要找到差异化的技术竞争点,充分结合我国国情和国产硬件,发挥好自身的技术优势和更好的生态洞察力。

研发难点

现阶段,在深度学习框架方面,业界普遍面临的研发难点主要体现在以下三个方面:


(1)在训练侧,NPU 开始入场,不少厂商已经做出自己的训练芯片,如何高效对接训练 NPU 仍待解决;


(2)学术研究发展迅速,框架技术需要持续跟进,这为框架研发带来了一定挑战。接下来一段时间会持续一段大 Transformer 的趋势,那么,下一个趋势是什么?


(3)算力提升速度更多地开始依赖 DSA 硬件,只是单纯的手写 kernel 已难以支撑,框架需要更多的编译技术、domain knowledge 才能不断提升训练效率。 随着 NPU、GPU 等芯片的快速迭代,包括 MLIR、XLA、TVM 在内的编译技术将受到更多关注。

将更好地支持大模型训练

随着大模型的持续火热,预期深度学习框架将在并行策略、重计算等能力上不断提升,以更好地支持大模型的训练。


同时,目前训练大模型仍需消耗大量资源,如何依靠深度学习框架的力量节省计算资源,甚至在更小规模上完成任务,将是一个值得探索的技术方向。

智能语音这一年:技术突破不断,工业落地加速

语⾳领域的⼤规模预训练模型层出不穷

字节跳动 AILAB 语⾳技术总监⻢泽君向 InfoQ 表示,2021 年度,智能语音技术的演进呈现出三个层面的趋势:


(1)基础建模技术在打破领域边界加速融合,如 Transformer 系列模型在⾃然语⾔、视觉和语⾳领域都展现出⼀致性的优势,颇有“⼀统江湖”的意思。


(2) 超⼤规模⾃监督学习技术(self-supervised learning)在上述多个领域展现出很强的通⽤学习能⼒,即在海量⽆标签数据上训练⼤规模通⽤预训练模型,然后⽤少量有标签数据做精细调整就能取得⾮常好的效果。


过去⼀年里,基于这种两段训练模式的超⼤模型不断刷新各项学术算法竞赛纪录,在⼯业界也成为⼀种模型训练和调优范式。


最近⼀年,Facebook、亚⻢逊、⾕歌和微软等公司的研究学者陆续提出语⾳领域的⼤规模预训练模型, 如 Wav2vec、 HuBERT、 DecoAR、 BigSSL、WavLM 等。


(3)除基础技术外,在不同应⽤场合场景下,多个领域模态的技术也在快速相互融合,形成视觉、语⾳和语义结合的多模态综合系统,如虚拟数字⼈。

工业界落地加速

整体来说,智能语⾳技术在⼯业界的落地不断加速,来⾃业务和技术两个⽅向的合⼒共同作⽤牵引和驱动应⽤落地。


从应⽤场景的牵引看,⼀⽅⾯如短中⻓视频业务,在全球仍保持着较⾼的增⻓速度,视频内容创作者和内容消费者活跃度很⾼;另⼀⽅⾯,疫情令居家办公和远程协作的需求增⻓,智能语⾳技术能在视频会议中提供通信增强和语⾳识别等关键能⼒,为参会者提供更佳的会议体验;以智能汽⻋和虚拟现实 VR/AR 为代表的新场景不断出现,需要更⽅便、更低延迟、更沉浸式的语⾳交互体验。


从核⼼技术的驱动看,基础模型改进和⾃监督技术不断提升着模型性能上限,同时多模态技术融合使得技术⽅案的能⼒越来越强,可⽀持更复杂的场景并带来更好的体验。

商业化难点主要在于商业模式选择

马泽君认为,现阶段,智能语音商业化的难点主要是商业模式探索和路线选择的问题,具体包括如何更好地满⾜需求,控制成本以及保证交付质量。


⼀⽅⾯,AI 商业模式探索需要始终围绕需求展开,提升模型效果和在真实场景中解决用户或客户的问题不能等同。解决实际问题需要 AI 研发⼈员深⼊业务场景,理解需求和条件限制,找到合理的产品技术⽅案,并不断思考和抽象功能和技术,沉淀通⽤的技术解决⽅案,探索验证可规模化的标准产品,降低定制周期和代价。


另⼀⽅⾯,AI 技术研发成本⾮常⾼,如何通过优化算法低对领域数据依赖,建设⾃动化平台降低⼈⼒消耗和提升研发流程效率对成本控制⾮常关键。


最后还要重视交付质量和售后服务。只有同时做好上述三个环节,才能完成从需求到交付到服务的整个链路,从而奠定规模商业化的基础。

端到端和预训练等技术仍然值得关注

  • 端到端序列建模技术


(1)准确率和推理速度更上⼀层楼的端到端技术值得期待,其中对⻬机制(alignment


mechanism)是端到端序列建模的关键。字节跳动 AILAB 正在探索的连续整合发放 CIF 模型(Continuous Integrate-and-Fire)是一种创新的序列端到端建模对齐机制,具有软对齐、计算代价低和容易扩展的特性。


(2)在端侧设备上的端到端语⾳识别和合成技术落地值得关注,特别是轻量级、低功耗、⾼准确度和定制灵活的端到端语⾳识别和合成技术。


(3)端到端语⾳识别技术⽅向的热词定制和领域⾃适应技术⾮常可能有重⼤进展。


  • ⽆监督预训练技术 (1)超⼤数据规模和模型 size 的语⾳⽆监督预训练技术值得关注,语⾳⽆监督预训练的 BERT 已经出现(Wav2vec2.0/Hubert), 语⾳⽆监督预训练的 GPT-3 很可能在 2022 年到来。


(2)多模态语⾳⽆监督预训练技术也⾮常吸引⼈,该技术可能会极⼤地提升预训练模型的表征能⼒,从⽽带来⽆监督预训练技术更⼤范围的落地应⽤。


(3)无监督预训练技术在语⾳合成、⾳乐分类、⾳乐识别领域的应⽤同样值得关注,借助⽆监督预训练的声学⾳频表征,可以有效提升下游任务的性能。


  • 语⾳对抗攻击与防御技术。 (1)语⾳领域的对抗攻击,从攻击⼿段上来看,将从当前的⽩盒攻击,进⼀步进化成⿊盒攻击;从攻击内容来看,将从当前流⾏的 untarget 攻击进化成 target 攻击。

群雄逐鹿,谁能赢得自动驾驶之战?

2021 年,自动驾驶领域格外热闹。

造车热

今年,互联网大厂、新造车势力和传统企业纷纷进场布局自动驾驶,可以说能下场的巨头们基本上都下场造车了,自动驾驶“战场”群雄逐鹿,不知未来谁执牛耳?


在资本市场上,自动驾驶也备受追捧。据零壹智库分析,继 2016-2018 年热潮之后,2021 年自动驾驶领域迎来第二次投资热潮。今年 11 月,Momenta 完成超 10 亿美元 C 轮系列融资,创下本年度自动驾驶领域最大规模融资记录。

商业化前夜

Robotaxi 是自动驾驶最有价值的商业模式,现阶段,很多自动驾驶技术公司都在做 Robotaxi 的尝试。今年,很多自动驾驶车辆从封闭路测场地走向真实道路。百度、小马智行、文远知行、等企业已实现面向公众的示范运营,开始探索商业化。11 月,国内首个自动驾驶出行服务商业化试点在北京正式启动,百度和小马智行成为首批获许开展商业化试点的企业。业内人士认为,这标志着国内自动驾驶领域从测试示范迈入商业化试点探索新阶段。


今年,自动驾驶卡车赛道也格外火热,量产和商业化均提速,头部玩家走向上市。近日,毫末智行董事长张凯在接受 InfoQ 等媒体采访时谈到了自动驾驶卡车的发展,他表示,相对乘用车辅助自动驾驶运行场景的复杂性,RoboTruck 具有一些优势,例如长时间运行在较畅通的高速公路上,运行场景相对简单。现阶段,RoboTruck 走得是类似于乘用车般从辅助驾驶到无人驾驶渐进式的发展路线。从发展前景看,Robotruck 具备商业化闭环的可行性,但自动驾驶系统的量产将会是一个坎。


毫末智行 COO 侯军认为,2021 年是自动驾驶的爆发之年。一方面,得益于技术的持续进步、市场需求、政策加持、资本看好等各方面因素,高级别自动驾驶在落地探索方面,已有了初步的成果;另一方面,智能驾驶商业化落地也在快速渗透,开始走向量产时代。

2022,这些技术将是下半场竞争胜负的关键

根据张凯的预判,“2022 年将是自动驾驶行业发展最为关键的一年。乘用车辅助驾驶领域的竞争将会正式进入下半场,而下半场竞争的场景将会是城市开放场景。其他场景的自动驾驶也将正式进入商业化元年”。


张凯认为,2022 年,多项自动驾驶技术值得关注。


(1)数据智能将成为自动驾驶量产决胜的关键。 数据智能体系是自动驾驶商业化闭环的关键所在,搭建高效、低成本的数据智能体系有助于推动自动驾驶系统不断迭代前行。


(2)Transformer 与 CNN 技术深度融合,将会成为自动驾驶算法整合的粘合剂。Transformer 技术帮助自动驾驶感知系统理解环境语义更深刻,与 CNN 技术深度融合能解决 AI 大模型量产部署的难题,这是自动驾驶行业下半场竞争的关键技术。


(3)大算力计算平台将在 2022 年正式量产落地,Transformer 技术与 ONESTAGE CNN 技术都需要大算力计算平台做支撑。


(4)随着自动驾驶系统的量产和规模化,激光雷达与机器视觉组成的 AI 感知技术,将与大算力计算平台深度融合,这将大幅提升自动驾驶感知、认知模块的运行效率。

NLP,黄金时代持续?

这几年,NLP 处于快速发展阶段。去年,多位 NLP 专家评判,NLP 迎来了大爆发的黄金时代。那么今年,NLP 的发展情况如何?

基于提示的微调技术迅速流行

作业帮 NLP 资深算法专家蒋宏飞博士告诉 InfoQ,今年基于提示的微调 (prompt-based tuning)的技术迅速流行起来,这是一种人类知识和大模型较高效的结合模式。该技术是今年较值得关注的新进展。


“今年 NLP 在基础模型方面没有大的突破。预训练模型方面,今年涌现了很多很大的模型,但整体上同质化也较严重,对于工业界实践效果来讲,往往按照‘奥卡姆剃刀’原则,倾向于使用最适当的如 Bert 往往就够了”蒋宏飞表示。


现阶段,NLP 技术在发展过程中还存在不少技术挑战,其中之一便是很难获取到大量高质量的标注数据。深度学习依赖大规模标注数据,对于语音识别、图像处理等感知类任务,标注数据相对容易,但 NLP 往往是认识类任务,人的理解都有主观性,且任务和领域众多,导致大规模语料标注的时间成本和人力成本都很大。

与 CV、语音识别相比,NLP 项目在业务中落地往往较慢

NLP 落地项目往往和业务强相关。不像图像识别、语音识别,通用能力在具体业务也有大量落地场景,业务和算法协作边界和指标相对好确定。而 NLP 项目在业务中落地往往会比较慢,需要上下游不断深度磨合对齐。


NLP 解决的是最难的认知智能,而人类语言的歧义性、复杂性、动态性令其挑战重重。但 NLP 商业化落地必须面对这些本质的难题,所以不太可能有通用性的“一招吃遍天”的技术方案。


“尽管现在的预训练模型一直在往这个方向努力,但我认为起码目前这种 Transformer 式的,或者更通用地说,DNN 这种蜂巢智能式的技术范式不太行。所以,大家能看到也有不少研究学者在知识图谱类的各种其他范式上在做努力”蒋宏飞说。


通用性的模型既然走不通,那垂类单一具体场景任务为什么也不能快速搭建?这个问题又涉及到数据的问题。数据标准的对齐、数据标注一致且高效、数据覆盖度和均衡度、长尾数据的处理、数据动态漂移等都是 NLP 从业者每天面对的麻烦事。而相关的方法论和基础工具还很不系统、不齐备,这是未来想达到快速商业化目的前必须打好的基础。

明年,NLP 将在哪些场景实现规模化落地?

2022 年,NLP 的大规模化应用可能会出现在以下行业出现突破:


  • 教育智能化

  • 场景化高标准机器辅助翻译,如专业领域文档翻译、会议实时翻译等。

  • 服务运营智能化:培训、销售、营销、服务等场景的智能化。

  • 外文学习/写作智能辅助,参考 Grammarly 和 Duolingo 的快速发展。

  • 医疗智能化。文本广泛存在于电子病历、临床试验报告、医学产品说明书、医学文献中。分析、挖掘和利用这些文本,有大量且能直接使用的场景,可能会有突破式发展。

  • 代码智能分析。代码 bug 识别、代码智能优化等。

2022 年,NLP 值得关注的技术点

  • 基于提示的微调 (prompt-based tuning)的技术。

  • 具有逻辑推理的文本生成技术、具有良好控制性以及一致性的文本生成技术。文本生成要在严肃场景用起来就必须满足这些,否则只能应用在娱乐场景。

  • 多模态技术。如 NLP+CV、 NLP + Image、 NLP+ Speech 等。

  • 主动学习、数据增强等。NLP 大规模快速落地时的很多痛点需要这些技术来缓解。

  • 代码智能。代码问题识别、代码翻译、自动代码优化、代码工作量评估(如 Merico 的方案)。

元宇宙概念大火,计算机视觉是基石技术之一

回首过去的一年,OPPO AI 技术产品化专家(语音语义和计算机视觉以及多模态融合方向)何苗总结了计算机视觉在工业界和学术界的进展。

具身智能,从被动式 AI 转向主动式人工智能

具身智能(embodied AI),强调智能体(agent)要与真实世界进行交互,并通过多模态的交互 — 不仅仅是让 AI 学习提取视觉上的高维特征,被“输入”的认知世界,而是通过“眼耳鼻舌身意”六根来主动获取物理世界的真实反馈,通过反馈进一步让智能体学习并使其更“智能”、乃至“进化”。


今年 2 月,李飞飞提出了一套新的计算框架—— DERL(deep evolution reinforcement learning)深度进化强化学习。她提到了生物进化论与智能体进化的关系,并借鉴了进化论的理论应用于假设的智能体的进化学习中。

进入元宇宙,需要智能感知和交互这张门票

今年,元宇宙概念大火,各家纷纷入局。


Facebook 极为推崇元宇宙,为了表示投入元宇宙的决心,今年,Facebook 改名为 meta,并宣布 “all in 元宇宙”。


扎克伯格提出云宇宙需要具备八要素,其中之一是 Presence 开发平台/套件。Presence 是 meta 为 Oculus VR 头显开发者提供的元宇宙基础开发套件,提供的即为基于计算机视觉和智能语音技术的工具集,分别是 insight sdk、interaction sdk 和 voice sdk。


进入元宇宙需要智能感知与交互技术这张门票,而这张门票里的视觉和语音技术是最重要的基石。

趋势一:面向内容生成的 AIGC

元宇宙世界需要孪生大量现实世界的物体或是对于现实世界的人物进行重建,而这些海量的重建必然不能按照传统游戏世界中的方法,由 CG 工程师一个个手工制作,这样效率远远无法满足实际场景的需求。因此面向内容生成的 AIGC(算法层面)是必要的。相关技术方向包括:图像超分、domain 迁移、外推、类似 CLIP(对比式语言图像预训练模型,可以从自然语言监督中有效学习视觉模型)的隐式神经表示 — 通过文字描述来生成图像等多模态的(CV+NLP)等相关技术。

趋势二:SCV 合成

虚拟现实引擎有专门的生成合成数据的组件,这些合成数据不仅美观,而且有助于训练更好的算法。


生成/合成的数据不仅是元宇宙的必备要素,也是训练模型的重要原料。如果有合适的工具来构建数据集,就可省去繁琐的给数据手工打标的过程,更好地对计算机视觉算法进行开发和训练。


知名数据分析公司 Gartner 认为在未来 3 年中,合成数据将比真实数据更占优势。在合成计算机视觉(SCV)中,我们使用虚拟现实引擎训练计算机视觉模型,并将训练好的模型部署到现实世界。

制约知识图谱商业化落地的主要问题在于标准化

重要技术进展

知识图谱技术在过去这一年取得的重要技术进展有:


知识抽取方面,多模态信息抽取在同时处理文本和视频方面取得了进展;知识表示方面,自注意力机制的知识表示方法越来越走向实用;知识应用方面,很多行业开始构建行业知识库,用于各类下游任务。


明略科技资深科学家张杰在接受 InfoQ 采访时指出,现阶段,在知识图谱方面,业界普遍面临的研发难点主要体现在两个方面:算法方面,针对非结构化数据的信息抽取和实体对齐的准确度难以保障直接商用,需人工校验;工程方面,行业图谱构建成本高,需要大量的人工标注,另外构建进度也不是一蹴而就,需要业务专家不断运维。


张杰预测,2022 年,领域预训练语言模型和 Prompt 在知识图谱中的应用,有望使得信息抽取环节得到进一步提升。针对技能性知识的抽取技术和多模态抽取技术,商用前景广阔。

应用落地进展

2021 年,知识图谱技术的应用落地,在 ToC 场景中仍主要用于搜索、推荐的提升,在 ToB 场景中集中在可视化上。


张杰认为,现阶段,制约知识图谱商业化落地的主要因素在于标准化,行业图谱的 schema 很难在企业内部大范围内达成认知的一致性,影响了后续的标注、抽取、应用。


2022 年,知识图谱技术的大规模化应用可能会在制造业出现突破,制造业的知识密度高、重视标准化,头部企业重视数字化建设,积累了大量原始数据。

2022 年,值得关注的重要技术趋势

人工智能工程化

近两年,人工智能工程化(AI Engineering)格外受关注。在 Gartner 发布的 2021 年和 2022 年重要战略技术趋势中,人工智能工程化都被列入其中。人工智能工程化是一种实现人工智能模型操作化的综合方法。


不久前,Gartner 高级研究总监高挺曾在接受 InfoQ 采访时表示,AI 工程化本质上是 AI 在企业中大规模、全流程的落地过程,尽管目前大家现在对 AI 期待很高,但实际上 AI 目前的应用仍然是被低估的。因为,很多 AI 项目的价值只能体现在一些“点对点”的一次性的方案中。将 AI 大规模落地的工程化方法(包含 DataOps、ModelOps 和 DevOps)总和起来,便是“AI 的工程化”的一整套体系。


人工智能工程化对企业有很多好处,企业在进行人工智能落地的时候,落地效率、落地广泛度会更高。


可以预见,人工智能工程化将会是未来 2-3 年需要持续关注的方向,人工智能工程化应该关注三大核心要点:数据运维、模型运维、开发运维。


Gartner 预测,到 2025 年,10%建立人工智能工程化最佳实践的企业从其人工智能工作中产生的价值将至少比 90%未建立该实践的企业高出三倍。

生成式 AI 渐成趋势

生成式人工智能(Generative Artificial Intelligence)也被 Gartner 评为 2022 年重要战略技术趋势之一。


该机器学习方法从其数据中学习内容或对象,并运用数据生成全新、完全原创的实际工件。人们可以用 AI 来创造出一些新事物,如内容创作、创建软件代码、辅助药物研发等。


近日,机器学习大牛吴恩达发文回顾了 AI 在 2021 年的四个重要进展,其中之一便是,AI 生成音频内容呈现出主流化倾向。现在音乐家和电影制作人们,已经习惯于使用 AI 支持型音频制作工具。


在国内的优酷、爱奇艺等视频平台,AI 也已经广泛用于音、视频的内容生产和创作中,如 AI 辅助视频制作、智能字幕生成、智能翻译、特效生成等。


Gartner 认为,未来一段时间内,AI 会逐渐从一个做判断的机器变成一个做创造的机器。预计到 2025 年,生成式人工智能将占所有生成数据的 10%,而目前这一比例还不到 1%。


不过该技术还存在一定的争议,如会被滥用于诈骗、欺诈、政治造谣、伪造身份等,存在道德和法律风险。

元宇宙,狂热的新风口

2021 年,可能没什么技术名词比“元宇宙”热度更高了。全球很多公司都在讲元宇宙的概念,认为元宇宙是指向互联网的“终极形态”。如今,移动互联网的红利已经见顶,不知道互联网的尽头是否会是元宇宙?


所谓元宇宙,是一个虚拟时空间的集合, 由一系列的增强现实(AR), 虚拟现实(VR) 和互联网(Internet)所组成。元宇宙的实现,仰赖一系列前沿技术作支撑,包括人工智能、VR/VR、5G、云计算、大数据、区块链等基础设施。


元宇宙中可以重点关注的细分赛道有 VR/AR 、游戏、社交、Metahuman 等。文娱基金易凯资本在其元宇宙报告中也表示,长期看好基于上述形态的底层技术公司。易凯资本预测,在未来十年,元宇宙概念将依旧集中于社交、游戏、内容等娱乐领域,到 2030 年会渗透到提升生产生活效率的领域。

写在最后

总结人工智能在 2021 年的发展,涌现了不少激动人心的重大突破,人工智能也正在赋能、改变甚至颠覆许多行业。当然也仍有很多难点需要投入更多时间攻克。


近日,李彦宏对 AI 的未来发表评论:“人机共生”时代,中国将迎来 AI 黄金十年。而未来十年,AI 技术应用门槛将显著降低,为各行各业的智能化转型提供技术“大底座”。


人工智能发展已渐入深水区,期待明年以及之后的 10 年,人工智能能够在技术和落地上取得更多进展,为下一个“黄金十年”而努力。

采访嘉宾介绍(按姓名首字母排序):

何苗,OPPO AI 技术产品化专家

侯军,毫末智行 COO

蒋宏飞,作业帮 NLP 资深算法专家

刘知远,清华大学教授、智源大模型技术委员会成员

⻢泽君,字节跳动 AILAB 语⾳技术总监

吴韶华,浪潮人工智能研究院首席研究员

许欣然,旷视天元 MegEngine 研发负责人

曾冠荣,OPPO 小布智能中心、 NLP 算法工程师

张杰,明略科技资深科学家

张凯,毫末智行董事长

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2021-12-29 14:087195
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 492.5 次阅读, 收获喜欢 1966 次。

关注

评论 1 条评论

发布
用户头像
AlphaFold2

AphaFold2

2022-01-02 16:18
回复
没有更多了
发现更多内容

linux入门系列6--软件管理之rpm和yum仓库

黑马腾云

Linux centos 运维 rpm yum

更改用户host留下的坑

Simon

MySQL

37岁程序员被裁,想用6月工资跪舔领导划掉被裁名额,结果蒙了!

程序员生活志

LeetCode题解:11. 盛最多水的容器,双循环暴力法,JavaScript,详细注释

Lee Chen

大前端 LeetCode

IOTA架构下的数据采集

易观大数据

性能优化-技术专题-top和jstack分析高CPU问题

洛神灬殇

JVM

揭秘MySQL主从数据不一致

Simon

MySQL 主从复制

python自动生成一整月的排班表

不会写诗的王维

Python

王者荣耀为什么不使用微服务架构?

程序员生活志

史上最强DIY,手工制作一只会说话的机器狗

华为云开发者联盟

聊天机器人 nlp 华为云 语言识别 语言合成

5. JsonFactory工厂而已,还蛮有料,这是我没想到的

YourBatman

Jackson Fastjson JSON库 JsonFactory

因为套用这个模板,我成了公司最佳员工

华为云开发者联盟

网站架构 华为云 网站搭建 匀速建站 SEO

如何让我的简历有价值、有亮点

escray

学习 面试 简历

PHP中的错误和异常

书旅

php 异常 常见错误

火眼云CEO张陆鹏:A轮融资5000万,解密国内ABM生态首位玩家

ToB行业头条

LeetCode题解:66. 加一,倒序遍历+可中途退出,JavaScript,详细注释

Lee Chen

大前端 LeetCode

质量门禁:Verigreen开启Git的Commit门禁

陈磊@Criss

关于自增id 你可能还不知道

Simon

MySQL MySQL自增ID

【数据结构与算法】用动图解说数组、链表、跳表原理与实现

三钻

数组 链表 数据结构与算法 跳表

MySQL-长事务详解

Simon

MySQL mysql事务

哥尼斯堡七桥问题

InfoQ_aef2dd810f7f

MySQL视图介绍

Simon

MySQL

PM2 管理node.js开机自启动(非root用户)

不会写诗的王维

node.js

通过波士顿矩阵模型做产品定位

GuOjixIE

数据分析 产品定位 波士顿矩阵模型

基于Ambari的大数据平台搭建

数据社

大数据 hadoop ambari

Spring-技术专题-Bean的生命周期简介

洛神灬殇

spring

提高GIT中代码质量的七点优秀实践

程序员生活志

git 经验总结

区块链技术正向平台化、组件化、集成化演进

CECBC

大数据 区块链技术 科技

一位男程序员的英语学习之路

盛安德软件

设计模式-技术专题-建造者模式(Builder)

洛神灬殇

Java 设计模式

影响音视频延迟的关键因素(二): 采集、前处理、编解码

ZEGO即构

H264 API 3A算法

解读人工智能的2021:超大规模预训练模型爆发,自动驾驶迎来商业化前夜_AI&大模型_刘燕_InfoQ精选文章