写点什么

InfoQ 2022 年趋势报告:人工智能、机器学习和数据工程篇

作者:Srini Penchikala, Dr Einat Orr, Rags Srinivas等

  • 2022-08-08
  • 本文字数:3130 字

    阅读完需:约 10 分钟

InfoQ 2022年趋势报告:人工智能、机器学习和数据工程篇

本文是对2022年AI、ML和数据工程InfoQ趋势报告播客的总结,涉及 AI、ML 和数据工程领域的关键趋势和技术。

 


在这份年度报告中,InfoQ 的编辑们讨论了 AI、ML 和数据工程的现状,以及软件工程师、架构师或数据科学家应该关注的新趋势。我们将讨论整理成技术采用曲线,并附带了评论,帮助读者了解这些领域技术的发展状况。

 

在今年的播客中,InfoQ 的编辑团队加入了一位外部小组成员 Einat Orr 博士,他是开源项目LakeFS的联合创始人,也是 Treeverse 的联合创始人兼 CEO,他在最近举行的伦敦QCon大会上发表了演讲。

 

下面的内容总结了其中的一些趋势,以及不同的技术在技术采用曲线中的位置。

自然语言理解和自然语言生成的崛起

 

我们认为自然语言理解(NLU)和自然语言生成(NLG)技术应该处于早期采用者阶段。InfoQ 团队已经报道了该领域的最新进展,包括百度基于信息实体的增强语言表示(ERNIE)、Meta AI 的SIDE,以及特拉维夫大学的长语言序列标准化比较(SCROLLS)。

 

我们还报道了几个与 NLP 相关的开发成果,如谷歌研究团队的Pathways Language Model(PaLM)、EleutherAI 的GPT-NeoX-20B、Meta 的Anticipative Video Transformer(AVT),以及 BigScience Research Workshop 的T0系列 NLP 模型。

 

深度学习进入早期大众阶段

 

去年,随着越来越多的公司使用深度学习算法,我们将深度学习从创新者阶段移到了早期采用者阶段。自去年以来,深度学习解决方案和技术已经被广泛应用在企业中,因此我们正在将其从早期采用者阶段移到早期大众阶段。

 

已经有一些关于这个主题的播客(无代码深度学习和可视化编程)、文章(基于机构增量学习的深度学习系统松散耦合的深度学习服务使用Apache Spark和NVIDIA GPU加速深度学习)和新闻(BigScience的大型开放科学开放访问多语言模型、谷歌 AI 的深度学习语言模型Minerva、OpenAI 的开源框架Video PreTraining)。

视觉语言模型

 

与图像处理相关的 AI 模型发展还包括 DeepMind 的Flamingo,这是一种 80B 参数的视觉语言模型(VLM),结合了单独预训练的视觉和语言模型,可以回答用户用通过图像和视频提出的问题。

 

谷歌的 Brain 团队发布了Imagen,一个文本到图像的 AI 模型,可以根据文本描述生成逼真的场景图像。

 

另一个有趣的技术,数字助理,现在也进入到早期大众阶段。

流式数据分析:物联网和实时数据摄取

 

流式架构和流式数据分析已经被越来越多的公司采用,特别是在物联网和其他的实时数据摄取和处理场景中。

 

Sid Anand 关于构建高保真数据流的演讲和 Ricardo Ferreira 关于通过从批处理过渡到流式处理从动态数据中获取价值的演讲都是流式处理已成为战略数据架构必备要素的绝佳例子。此外,Chris Riccomini 在他的文章“数据工程的未来”中讨论了流式处理在整个数据工程中所扮演的重要角色。

 

Chip Huyen 在去年的 QCon Plus 在线大会上发表了关于实时机器学习流式基础设施的演讲,强调了实时机器学习流式基础设施的优势、实时机器学习的好处以及实现实时机器学习所面临的挑战。

 

作为对这一趋势的反映,流式数据分析和技术,如 Spark Streaming 已经进入了晚期大众阶段。数据湖即服务(Data Lake as a Service)也是如此,在去年获得了进一步的采用(如 Snowflake)。

AI/ML 基础设施:规模化构建

 

高度可伸缩、弹性、分布式、安全、高性能的基础设施可以成就或破坏企业的 AI/ML 战略。没有良好的基础设施作为基础,任何 AI/ML 计划都不可能长期取得成功。

 

在今年的 GTC 大会上,NVIDIA 发布了用于 AI 计算的下一代处理器H100 GPUGrace CPU Superchip

 

资源协调器(如 YARN)和容器编排技术(如 Kubernetes)现在都处于晚期大众阶段。Kubernetes 已经成为云平台事实上的标准,在将应用程序部署到云端方面,多云计算受到了越来越多的关注。Kubernetes 等技术可以实现 AI/ML 数据管道整个生命周期的自动化,包括模型的生产部署和后期支持。

 

在创新者阶段也有一些新进入者,包括云不可知 AI 计算、知识图、AI 结对编程(如 Github Copilot)和合成数据生成。

 

知识图继续在企业数据管理领域占有一席之地,它为不同的场景(包括数据治理)提供了实际的应用。

基于 ML 的编码助手:GitHub Copilot

 

去年发布的 GitHub Copilot 现在已经准备就绪。Copilot 是一个基于 AI 的服务,通过分析现有代码和注释帮助开发人员编写新代码。它会为开发人员生成基本函数,开发人员不需要从头编写这些函数,从而提升了开发人员的工作效率。除了 Copilot,未来也会出现更多的解决方案,它们提供了基于 AI 的结对编程,并自动化软件开发生命周期中的大部分步骤。

 

Nikita Povarov 在“面向开发者的 AI:是未来还是现实”一文中谈到了 AI 开发工具的作用。AI 开发者试图使用算法来增强程序员的工作,让他们变得更有效率。在软件开发当中,我们可以清楚地看到 AI 既执行人工任务,又提升了程序员的工作效率。

合成数据生成:保护用户隐私

 

在数据工程方面,自去年以来,合成数据生成是另一个获得大量关注和兴趣的领域。合成数据生成工具可用于生成安全的合成业务数据,有助于保护用户隐私。

 

亚马逊云科技推出了SageMaker Ground Truth等技术,用户现在可以使用这些技术创建有标签的合成数据。Ground Truth 是一种数据标记服务,可以生成数百万张自动标记的合成图像。

 

在 AI/ML 应用的整个生命周期中,数据质量至关重要。Einat Orr 博士在伦敦 QCon 大会上发表了关于大规模数据版本控制的演讲,并讨论了数据质量和大型数据集版本控制的重要性。数据的版本控制有助于重现一个流程或模型的输入和输出数据集之间的沿袭,并为审计提供相关信息。

 

在这次大会上,Ismaël Mejía讨论了如何在最新的数据管理方法(包括操作、共享和有助于我们创建和维护具有弹性和可靠性的数据架构的数据产品)中应用开源 API 和开放标准。

 

在另一篇文章“为现代数据系统构建端到端字段级沿袭”中,作者将数据沿袭作为数据管道根源和影响分析工作流的关键组件进行了讨论。为了更好地理解数据仓库源对象和目标对象之间的关系,数据团队可以使用字段级沿袭。对沿袭创建进行自动化,并将元数据抽象到字段级别可以减少进行根源分析所需的时间和资源。

 

新进入早期采用者阶段的包括与机器人和虚拟现实相关的技术(VR/AR/MR/XR)以及 MLOps。

MLOps:ML 和 DevOps 实践的结合体

 

MLOps 已经得到了很多公司的关注,因为它将 DevOps 的原则和最佳实践引入到了软件开发领域。

 

Francesca Lazzeri 在 QCon Plus 大会上提到,MLOps 是企业 AI 应用最重要的一个组成部分。她讨论了 MLOps 如何帮助数据科学家和应用程序开发人员将机器学习模型应用到生产环境中。MLOps 可以帮助我们跟踪、版本化、审计、认证、重用机器学习生命周期中的每一项资产,并提供编排服务以简化机器学习生命周期的管理。

 

MLOps 通过将人、流程和平台聚集在一起对融入了机器学习的软件交付进行自动化,为我们的用户提供持续的价值。

 

她还讨论了在生产环境中部署 ML 应用程序之前应该了解哪些东西,关键要点包括使用开源技术进行模型训练和部署,并通过机器学习管道自动化端到端 ML 生命周期。

 

Monte Zweben 谈到了将功能商店和模型部署等核心组件聚集在一起的 Unified MLOps。

 

在播客中讨论的其他主要趋势如下。

 

  • 在 AI/ML 应用中,转换器仍然是首选的架构。

  • ML 模型继续发展壮大,可以支持数十亿个参数(GPT-3、EleutherAI 的GPT-JGPT-Neo、Meta 的OPT模型)。

  • 用于机器学习训练的开源图像到文本数据集,如CLIPDALL-E,促进了数据民主化,人们都可以利用这些模型和数据集。

  • 机器人和虚拟现实的未来将主要出现在元宇宙中。

  • AI/ML 计算任务将受益于基础设施和云计算创新,如多云和云不可知计算。

 

要了解更多信息,请参考2022年AI、ML和数据工程播客录音和文本,以及InfoQ的AI、ML和数据工程专题内容。

 

原文链接

AI, ML, and Data Engineering InfoQ Trends Report—August 2022

 

2022-08-08 10:235890

评论

发布
暂无评论
发现更多内容

网络安全好就业吗?

喀拉峻

网络安全 安全 信息安全 渗透

架构训练营 - 模块 5 作业

焦龙

架构训练营

没有一个人喜欢被改变 ——阅读《高绩效教练》有感

研发管理Jojo

倾听 敏捷教练 引导和教练

独家交付秘籍,你确定不点开看看?

阿里巴巴云原生

阿里云 云原生 应用交付平台 ADP

选手机的一点建议

李印

手机 生活随想

领导力学习课-总结

李印

个人成长 管理

瞰见 | 刚刚,暴涨的 GitLab 给我们带来了怎样的开源思考?

OpenTEKr

狄安瞰源

中国的区块链技术该高压打击虚拟货币之下,中国的区块链技术该如何发展?

CECBC

Python Qt GUI设计:QDrag拖拽数据传输类(基础篇—18)

不脱发的程序猿

Python PyQt GUI设计 QDrag

linux比较两个目录的差异

入门小站

Linux

如何利用 “集群流控” 保障微服务的稳定性?

阿里巴巴云原生

阿里云 高可用 云原生 集群 AHAS

微信 ClickHouse 实时数仓的最佳实践

腾讯云大数据

Clickhouse 云数据仓库

DevOps反模式

俞凡

DevOps

技术管理知识写作系列

Melody

写作计划

记录

Melody

28 K8S之控制器基础

穿过生命散发芬芳

k8s 11月日更

[Pulsar] Batch Messge的基本原理

Zike Yang

Apache Pulsar 11月日更

元宇宙对网络技术的挑战,什么样的网络才能承载元宇宙的野心?

CECBC

微博评论架构设计

天天向上

架构实战营

为什么SOLID原则仍然是现代软件架构的基石

topsion

CleanCode SOLID

在线文本差集计算工具

入门小站

工具

如何设计业务高性能高可用计算架构

天天向上

架构实战营

复盘最近遇到的几个问题

李印

编码习惯 经验总结

Flink 实践教程-入门(8): 简单 ETL 作业

腾讯云大数据

flink 流计算 Oceanus

哈佛商业评论:面向未来的组织

石云升

读书笔记 11月日更

【架构实战营】模块五作业

liu🍊

入驻快讯|欢迎AfterShip正式入驻 InfoQ 写作平台!

InfoQ写作社区官方

入驻快讯

phpstudy开启Apache服务显示80端口被占用

咿呀呀

PHPStudy

数字人民币试点呈现“全面开花”

CECBC

阿里云徐立:面向容器和 Serverless Computing 的存储创新

阿里巴巴云原生

阿里云 Serverless 容器 云原生

《重学Java高并发》Sempahore的使用场景与常见误区

中间件兴趣圈

Java高并发 Sempahore

InfoQ 2022年趋势报告:人工智能、机器学习和数据工程篇_AI&大模型_InfoQ精选文章