NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

InfoQ 2022 年趋势报告:人工智能、机器学习和数据工程篇

作者:Srini Penchikala, Dr Einat Orr, Rags Srinivas等

  • 2022-08-08
  • 本文字数:3130 字

    阅读完需:约 10 分钟

InfoQ 2022年趋势报告:人工智能、机器学习和数据工程篇

本文是对2022年AI、ML和数据工程InfoQ趋势报告播客的总结,涉及 AI、ML 和数据工程领域的关键趋势和技术。

 


在这份年度报告中,InfoQ 的编辑们讨论了 AI、ML 和数据工程的现状,以及软件工程师、架构师或数据科学家应该关注的新趋势。我们将讨论整理成技术采用曲线,并附带了评论,帮助读者了解这些领域技术的发展状况。

 

在今年的播客中,InfoQ 的编辑团队加入了一位外部小组成员 Einat Orr 博士,他是开源项目LakeFS的联合创始人,也是 Treeverse 的联合创始人兼 CEO,他在最近举行的伦敦QCon大会上发表了演讲。

 

下面的内容总结了其中的一些趋势,以及不同的技术在技术采用曲线中的位置。

自然语言理解和自然语言生成的崛起

 

我们认为自然语言理解(NLU)和自然语言生成(NLG)技术应该处于早期采用者阶段。InfoQ 团队已经报道了该领域的最新进展,包括百度基于信息实体的增强语言表示(ERNIE)、Meta AI 的SIDE,以及特拉维夫大学的长语言序列标准化比较(SCROLLS)。

 

我们还报道了几个与 NLP 相关的开发成果,如谷歌研究团队的Pathways Language Model(PaLM)、EleutherAI 的GPT-NeoX-20B、Meta 的Anticipative Video Transformer(AVT),以及 BigScience Research Workshop 的T0系列 NLP 模型。

 

深度学习进入早期大众阶段

 

去年,随着越来越多的公司使用深度学习算法,我们将深度学习从创新者阶段移到了早期采用者阶段。自去年以来,深度学习解决方案和技术已经被广泛应用在企业中,因此我们正在将其从早期采用者阶段移到早期大众阶段。

 

已经有一些关于这个主题的播客(无代码深度学习和可视化编程)、文章(基于机构增量学习的深度学习系统松散耦合的深度学习服务使用Apache Spark和NVIDIA GPU加速深度学习)和新闻(BigScience的大型开放科学开放访问多语言模型、谷歌 AI 的深度学习语言模型Minerva、OpenAI 的开源框架Video PreTraining)。

视觉语言模型

 

与图像处理相关的 AI 模型发展还包括 DeepMind 的Flamingo,这是一种 80B 参数的视觉语言模型(VLM),结合了单独预训练的视觉和语言模型,可以回答用户用通过图像和视频提出的问题。

 

谷歌的 Brain 团队发布了Imagen,一个文本到图像的 AI 模型,可以根据文本描述生成逼真的场景图像。

 

另一个有趣的技术,数字助理,现在也进入到早期大众阶段。

流式数据分析:物联网和实时数据摄取

 

流式架构和流式数据分析已经被越来越多的公司采用,特别是在物联网和其他的实时数据摄取和处理场景中。

 

Sid Anand 关于构建高保真数据流的演讲和 Ricardo Ferreira 关于通过从批处理过渡到流式处理从动态数据中获取价值的演讲都是流式处理已成为战略数据架构必备要素的绝佳例子。此外,Chris Riccomini 在他的文章“数据工程的未来”中讨论了流式处理在整个数据工程中所扮演的重要角色。

 

Chip Huyen 在去年的 QCon Plus 在线大会上发表了关于实时机器学习流式基础设施的演讲,强调了实时机器学习流式基础设施的优势、实时机器学习的好处以及实现实时机器学习所面临的挑战。

 

作为对这一趋势的反映,流式数据分析和技术,如 Spark Streaming 已经进入了晚期大众阶段。数据湖即服务(Data Lake as a Service)也是如此,在去年获得了进一步的采用(如 Snowflake)。

AI/ML 基础设施:规模化构建

 

高度可伸缩、弹性、分布式、安全、高性能的基础设施可以成就或破坏企业的 AI/ML 战略。没有良好的基础设施作为基础,任何 AI/ML 计划都不可能长期取得成功。

 

在今年的 GTC 大会上,NVIDIA 发布了用于 AI 计算的下一代处理器H100 GPUGrace CPU Superchip

 

资源协调器(如 YARN)和容器编排技术(如 Kubernetes)现在都处于晚期大众阶段。Kubernetes 已经成为云平台事实上的标准,在将应用程序部署到云端方面,多云计算受到了越来越多的关注。Kubernetes 等技术可以实现 AI/ML 数据管道整个生命周期的自动化,包括模型的生产部署和后期支持。

 

在创新者阶段也有一些新进入者,包括云不可知 AI 计算、知识图、AI 结对编程(如 Github Copilot)和合成数据生成。

 

知识图继续在企业数据管理领域占有一席之地,它为不同的场景(包括数据治理)提供了实际的应用。

基于 ML 的编码助手:GitHub Copilot

 

去年发布的 GitHub Copilot 现在已经准备就绪。Copilot 是一个基于 AI 的服务,通过分析现有代码和注释帮助开发人员编写新代码。它会为开发人员生成基本函数,开发人员不需要从头编写这些函数,从而提升了开发人员的工作效率。除了 Copilot,未来也会出现更多的解决方案,它们提供了基于 AI 的结对编程,并自动化软件开发生命周期中的大部分步骤。

 

Nikita Povarov 在“面向开发者的 AI:是未来还是现实”一文中谈到了 AI 开发工具的作用。AI 开发者试图使用算法来增强程序员的工作,让他们变得更有效率。在软件开发当中,我们可以清楚地看到 AI 既执行人工任务,又提升了程序员的工作效率。

合成数据生成:保护用户隐私

 

在数据工程方面,自去年以来,合成数据生成是另一个获得大量关注和兴趣的领域。合成数据生成工具可用于生成安全的合成业务数据,有助于保护用户隐私。

 

亚马逊云科技推出了SageMaker Ground Truth等技术,用户现在可以使用这些技术创建有标签的合成数据。Ground Truth 是一种数据标记服务,可以生成数百万张自动标记的合成图像。

 

在 AI/ML 应用的整个生命周期中,数据质量至关重要。Einat Orr 博士在伦敦 QCon 大会上发表了关于大规模数据版本控制的演讲,并讨论了数据质量和大型数据集版本控制的重要性。数据的版本控制有助于重现一个流程或模型的输入和输出数据集之间的沿袭,并为审计提供相关信息。

 

在这次大会上,Ismaël Mejía讨论了如何在最新的数据管理方法(包括操作、共享和有助于我们创建和维护具有弹性和可靠性的数据架构的数据产品)中应用开源 API 和开放标准。

 

在另一篇文章“为现代数据系统构建端到端字段级沿袭”中,作者将数据沿袭作为数据管道根源和影响分析工作流的关键组件进行了讨论。为了更好地理解数据仓库源对象和目标对象之间的关系,数据团队可以使用字段级沿袭。对沿袭创建进行自动化,并将元数据抽象到字段级别可以减少进行根源分析所需的时间和资源。

 

新进入早期采用者阶段的包括与机器人和虚拟现实相关的技术(VR/AR/MR/XR)以及 MLOps。

MLOps:ML 和 DevOps 实践的结合体

 

MLOps 已经得到了很多公司的关注,因为它将 DevOps 的原则和最佳实践引入到了软件开发领域。

 

Francesca Lazzeri 在 QCon Plus 大会上提到,MLOps 是企业 AI 应用最重要的一个组成部分。她讨论了 MLOps 如何帮助数据科学家和应用程序开发人员将机器学习模型应用到生产环境中。MLOps 可以帮助我们跟踪、版本化、审计、认证、重用机器学习生命周期中的每一项资产,并提供编排服务以简化机器学习生命周期的管理。

 

MLOps 通过将人、流程和平台聚集在一起对融入了机器学习的软件交付进行自动化,为我们的用户提供持续的价值。

 

她还讨论了在生产环境中部署 ML 应用程序之前应该了解哪些东西,关键要点包括使用开源技术进行模型训练和部署,并通过机器学习管道自动化端到端 ML 生命周期。

 

Monte Zweben 谈到了将功能商店和模型部署等核心组件聚集在一起的 Unified MLOps。

 

在播客中讨论的其他主要趋势如下。

 

  • 在 AI/ML 应用中,转换器仍然是首选的架构。

  • ML 模型继续发展壮大,可以支持数十亿个参数(GPT-3、EleutherAI 的GPT-JGPT-Neo、Meta 的OPT模型)。

  • 用于机器学习训练的开源图像到文本数据集,如CLIPDALL-E,促进了数据民主化,人们都可以利用这些模型和数据集。

  • 机器人和虚拟现实的未来将主要出现在元宇宙中。

  • AI/ML 计算任务将受益于基础设施和云计算创新,如多云和云不可知计算。

 

要了解更多信息,请参考2022年AI、ML和数据工程播客录音和文本,以及InfoQ的AI、ML和数据工程专题内容。

 

原文链接

AI, ML, and Data Engineering InfoQ Trends Report—August 2022

 

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2022-08-08 10:234516

评论

发布
暂无评论
发现更多内容

数据中台建设(五):打破企业数据孤岛和提取数据价值

Lansonli

数据中台 7月月更

蓦然回首,“工厂、构造、原型”设计模式,正在灯火阑珊处

掘金安东尼

JavaScript 前端 7月月更

想用K8s,还得先会Docker吗?其实完全没必要

程序员啊叶

Java 编程 程序员 架构 java面试

4位资深专家多年大厂经验分享出Flink技术内幕架构设计与实现原理

程序员啊叶

Java 编程 程序员 架构 java面试

只分享这一次!阿里软件架构师深入底层手写JDK源码

程序猿阿宇

架构 Java 面试 大厂技能 后端技术 秋招

难道Redis真的变慢了吗?

程序员啊叶

Java 编程 程序员 架构 java面试

真香!180页100+题15W+字解析的《Java高级面试指南》,果断收下

程序员啊叶

Java 编程 程序员 架构 java面试

HarmonyOS分布式协同演奏技术实现路线(Java)

程序员啊叶

Java 编程 程序员 架构 java面试

阿里内网最新发布“M8”级Java面试笔记,助力金九银十

程序员啊叶

Java 编程 程序员 架构 java面试

时序数据库在船舶风险管理领域的应用

CnosDB

IoT 时序数据库 开源社区 CnosDB infra

备战金九银十,两份JAVA面试题2022最新整合版,祝你脱颖而出

王小凡

Java MySQL spring 面试 springboot

DTSE Tech Talk丨第2期:1小时深度解读SaaS应用系统设计

华为云开发者联盟

云计算 后端 SaaS

CMake库搜索函数居然不搜索LD_LIBRARY_PATH

华为云开发者联盟

后端 开发

SocialFi 何以成就 Web3 去中心化社交未来

One Block Community

区块链

一文读懂Elephant Swap,为何为ePLATO带来如此高的溢价?

鳄鱼视界

如何写一份高可读性的软件工程设计文档

C++后台开发

数据库 软件工程 后端开发 C/C++后台开发 C/C++开发

上天入地Hadoop——使用高性能分布式技术完成大数据处理任务

程序猿阿宇

大数据 架构 Java 面试 java程序员 编程、

太牛了,百度这份开发手册几乎涵盖了Spring Cloud所有操作

程序猿阿宇

架构 java程序员 java面试 秋招 程序员‘

浅谈非 EVM 公链的可能性: 兼容多类型虚拟机是否是区块链未来?

One Block Community

区块链

五面阿里,终拿offer,不明白为什么面试官总喜欢问Java这种问题

程序知音

Java 阿里 后端技术 八股文 Java面试八股文

大厂面试突击必备:“网络编程”高频八连击,扛得住吗?

程序员啊叶

Java 编程 程序员 架构 java面试

SMI 与 Gateway API 的 GAMMA 倡议意味着什么?

张晓辉

Kubernetes 服务网格 SMI

[ Kitex 源码解读 ] 熔断机制是如何实现的

baiyutang

Go 微服务 微服务架构 kitex CloudWeGo

京东发布这份SpringBoot实战手册带你从0手动搭建企业级商城项目

程序猿阿宇

程序员 面试 java程序员 Spring Boot CLI 秋招

六面蚂蚁金服,唬住了面试官要了30K;其实Java面试也没那么难

程序知音

Java 程序员 后端技术 秋招 Java面试八股文

我给大家免费公开五份阿里Java架构师学习手册!助力金九银十

程序猿阿宇

架构 Java 面试 大厂面试 大厂技能 秋招

Moonbeam创始人解读多链新概念Connected Contract

One Block Community

区块链

手慢无!阿里亿级流量高并发系统设计核心原理全彩笔记现实开源

Java全栈架构师

Java 面试 程序人生 分布式锁 架构师

Kubernetes应用管理深度剖析

Bob

云原生 容器化 后端技术 Kubernetes 集群

腾讯被裁,转头去字节!Java后端核心面试题在手,怎能进不去大厂

程序员啊叶

Java 编程 程序员 架构 java面试

加密生活,Web3 项目合伙人的一天

TinTinLand

区块链

InfoQ 2022年趋势报告:人工智能、机器学习和数据工程篇_AI&大模型_InfoQ精选文章