写点什么

InfoQ 2022 年趋势报告:人工智能、机器学习和数据工程篇

作者:Srini Penchikala, Dr Einat Orr, Rags Srinivas等

  • 2022-08-08
  • 本文字数:3130 字

    阅读完需:约 10 分钟

InfoQ 2022年趋势报告:人工智能、机器学习和数据工程篇

本文是对2022年AI、ML和数据工程InfoQ趋势报告播客的总结,涉及 AI、ML 和数据工程领域的关键趋势和技术。

 


在这份年度报告中,InfoQ 的编辑们讨论了 AI、ML 和数据工程的现状,以及软件工程师、架构师或数据科学家应该关注的新趋势。我们将讨论整理成技术采用曲线,并附带了评论,帮助读者了解这些领域技术的发展状况。

 

在今年的播客中,InfoQ 的编辑团队加入了一位外部小组成员 Einat Orr 博士,他是开源项目LakeFS的联合创始人,也是 Treeverse 的联合创始人兼 CEO,他在最近举行的伦敦QCon大会上发表了演讲。

 

下面的内容总结了其中的一些趋势,以及不同的技术在技术采用曲线中的位置。

自然语言理解和自然语言生成的崛起

 

我们认为自然语言理解(NLU)和自然语言生成(NLG)技术应该处于早期采用者阶段。InfoQ 团队已经报道了该领域的最新进展,包括百度基于信息实体的增强语言表示(ERNIE)、Meta AI 的SIDE,以及特拉维夫大学的长语言序列标准化比较(SCROLLS)。

 

我们还报道了几个与 NLP 相关的开发成果,如谷歌研究团队的Pathways Language Model(PaLM)、EleutherAI 的GPT-NeoX-20B、Meta 的Anticipative Video Transformer(AVT),以及 BigScience Research Workshop 的T0系列 NLP 模型。

 

深度学习进入早期大众阶段

 

去年,随着越来越多的公司使用深度学习算法,我们将深度学习从创新者阶段移到了早期采用者阶段。自去年以来,深度学习解决方案和技术已经被广泛应用在企业中,因此我们正在将其从早期采用者阶段移到早期大众阶段。

 

已经有一些关于这个主题的播客(无代码深度学习和可视化编程)、文章(基于机构增量学习的深度学习系统松散耦合的深度学习服务使用Apache Spark和NVIDIA GPU加速深度学习)和新闻(BigScience的大型开放科学开放访问多语言模型、谷歌 AI 的深度学习语言模型Minerva、OpenAI 的开源框架Video PreTraining)。

视觉语言模型

 

与图像处理相关的 AI 模型发展还包括 DeepMind 的Flamingo,这是一种 80B 参数的视觉语言模型(VLM),结合了单独预训练的视觉和语言模型,可以回答用户用通过图像和视频提出的问题。

 

谷歌的 Brain 团队发布了Imagen,一个文本到图像的 AI 模型,可以根据文本描述生成逼真的场景图像。

 

另一个有趣的技术,数字助理,现在也进入到早期大众阶段。

流式数据分析:物联网和实时数据摄取

 

流式架构和流式数据分析已经被越来越多的公司采用,特别是在物联网和其他的实时数据摄取和处理场景中。

 

Sid Anand 关于构建高保真数据流的演讲和 Ricardo Ferreira 关于通过从批处理过渡到流式处理从动态数据中获取价值的演讲都是流式处理已成为战略数据架构必备要素的绝佳例子。此外,Chris Riccomini 在他的文章“数据工程的未来”中讨论了流式处理在整个数据工程中所扮演的重要角色。

 

Chip Huyen 在去年的 QCon Plus 在线大会上发表了关于实时机器学习流式基础设施的演讲,强调了实时机器学习流式基础设施的优势、实时机器学习的好处以及实现实时机器学习所面临的挑战。

 

作为对这一趋势的反映,流式数据分析和技术,如 Spark Streaming 已经进入了晚期大众阶段。数据湖即服务(Data Lake as a Service)也是如此,在去年获得了进一步的采用(如 Snowflake)。

AI/ML 基础设施:规模化构建

 

高度可伸缩、弹性、分布式、安全、高性能的基础设施可以成就或破坏企业的 AI/ML 战略。没有良好的基础设施作为基础,任何 AI/ML 计划都不可能长期取得成功。

 

在今年的 GTC 大会上,NVIDIA 发布了用于 AI 计算的下一代处理器H100 GPUGrace CPU Superchip

 

资源协调器(如 YARN)和容器编排技术(如 Kubernetes)现在都处于晚期大众阶段。Kubernetes 已经成为云平台事实上的标准,在将应用程序部署到云端方面,多云计算受到了越来越多的关注。Kubernetes 等技术可以实现 AI/ML 数据管道整个生命周期的自动化,包括模型的生产部署和后期支持。

 

在创新者阶段也有一些新进入者,包括云不可知 AI 计算、知识图、AI 结对编程(如 Github Copilot)和合成数据生成。

 

知识图继续在企业数据管理领域占有一席之地,它为不同的场景(包括数据治理)提供了实际的应用。

基于 ML 的编码助手:GitHub Copilot

 

去年发布的 GitHub Copilot 现在已经准备就绪。Copilot 是一个基于 AI 的服务,通过分析现有代码和注释帮助开发人员编写新代码。它会为开发人员生成基本函数,开发人员不需要从头编写这些函数,从而提升了开发人员的工作效率。除了 Copilot,未来也会出现更多的解决方案,它们提供了基于 AI 的结对编程,并自动化软件开发生命周期中的大部分步骤。

 

Nikita Povarov 在“面向开发者的 AI:是未来还是现实”一文中谈到了 AI 开发工具的作用。AI 开发者试图使用算法来增强程序员的工作,让他们变得更有效率。在软件开发当中,我们可以清楚地看到 AI 既执行人工任务,又提升了程序员的工作效率。

合成数据生成:保护用户隐私

 

在数据工程方面,自去年以来,合成数据生成是另一个获得大量关注和兴趣的领域。合成数据生成工具可用于生成安全的合成业务数据,有助于保护用户隐私。

 

亚马逊云科技推出了SageMaker Ground Truth等技术,用户现在可以使用这些技术创建有标签的合成数据。Ground Truth 是一种数据标记服务,可以生成数百万张自动标记的合成图像。

 

在 AI/ML 应用的整个生命周期中,数据质量至关重要。Einat Orr 博士在伦敦 QCon 大会上发表了关于大规模数据版本控制的演讲,并讨论了数据质量和大型数据集版本控制的重要性。数据的版本控制有助于重现一个流程或模型的输入和输出数据集之间的沿袭,并为审计提供相关信息。

 

在这次大会上,Ismaël Mejía讨论了如何在最新的数据管理方法(包括操作、共享和有助于我们创建和维护具有弹性和可靠性的数据架构的数据产品)中应用开源 API 和开放标准。

 

在另一篇文章“为现代数据系统构建端到端字段级沿袭”中,作者将数据沿袭作为数据管道根源和影响分析工作流的关键组件进行了讨论。为了更好地理解数据仓库源对象和目标对象之间的关系,数据团队可以使用字段级沿袭。对沿袭创建进行自动化,并将元数据抽象到字段级别可以减少进行根源分析所需的时间和资源。

 

新进入早期采用者阶段的包括与机器人和虚拟现实相关的技术(VR/AR/MR/XR)以及 MLOps。

MLOps:ML 和 DevOps 实践的结合体

 

MLOps 已经得到了很多公司的关注,因为它将 DevOps 的原则和最佳实践引入到了软件开发领域。

 

Francesca Lazzeri 在 QCon Plus 大会上提到,MLOps 是企业 AI 应用最重要的一个组成部分。她讨论了 MLOps 如何帮助数据科学家和应用程序开发人员将机器学习模型应用到生产环境中。MLOps 可以帮助我们跟踪、版本化、审计、认证、重用机器学习生命周期中的每一项资产,并提供编排服务以简化机器学习生命周期的管理。

 

MLOps 通过将人、流程和平台聚集在一起对融入了机器学习的软件交付进行自动化,为我们的用户提供持续的价值。

 

她还讨论了在生产环境中部署 ML 应用程序之前应该了解哪些东西,关键要点包括使用开源技术进行模型训练和部署,并通过机器学习管道自动化端到端 ML 生命周期。

 

Monte Zweben 谈到了将功能商店和模型部署等核心组件聚集在一起的 Unified MLOps。

 

在播客中讨论的其他主要趋势如下。

 

  • 在 AI/ML 应用中,转换器仍然是首选的架构。

  • ML 模型继续发展壮大,可以支持数十亿个参数(GPT-3、EleutherAI 的GPT-JGPT-Neo、Meta 的OPT模型)。

  • 用于机器学习训练的开源图像到文本数据集,如CLIPDALL-E,促进了数据民主化,人们都可以利用这些模型和数据集。

  • 机器人和虚拟现实的未来将主要出现在元宇宙中。

  • AI/ML 计算任务将受益于基础设施和云计算创新,如多云和云不可知计算。

 

要了解更多信息,请参考2022年AI、ML和数据工程播客录音和文本,以及InfoQ的AI、ML和数据工程专题内容。

 

原文链接

AI, ML, and Data Engineering InfoQ Trends Report—August 2022

 

2022-08-08 10:235873

评论

发布
暂无评论
发现更多内容

小型LED海报屏租赁价格指南

Dylan

活动 LED LED display LED显示屏 LED屏幕

如何利用YashanDB提升用户反馈数据的分析能力?

数据库砖家

免费版安全性缩水?ToDesk、TeamViewer、向日葵、网易UU远程访问&隐私防护测评

小喵子

远程 云电脑 ToDesk

AI 英语口语 App 的需求分析

北京木奇移动技术有限公司

软件外包公司 AI英语学习 AI英语听力

利用YashanDB数据库实现快速数据检索

数据库砖家

跨平台动漫应用 Ani - 多平台支持的开源项目

qife122

kotlin 动漫

Golang基础笔记九之方法与接口

Hunter熊

golang 方法 接口 类型断言

放弃Cursor,我依然选择了Claude断供后的Windsurf

王翊仰

如何使用YashanDB构建高可用的分布式数据库

数据库砖家

Cookie Monster 的秘密配方:Pico CTF 登录机制中的隐藏旗帜

qife122

CTF Cookie分析

AI 英语口语 App 的场景设计

北京木奇移动技术有限公司

软件外包公司 AI英语学习 AI技术应用

如何利用YashanDB数据库实现企业内部数据共享

数据库砖家

01-自然壁纸实战教程-免费开放啦

万少

鸿蒙 HarmonyOS HarmonyOS NEXT

哈尔滨等保测评:流程、要点

等保测评

如何利用YashanDB数据库实现数据实时分析与监控

数据库砖家

AI 英语口语 App 的场景测试

北京木奇移动技术有限公司

软件外包公司 AI英语学习 AI技术应用

基于华为开发者空间Astro低代码应用平台,构建Deepseek智能助手界面

华为云开发者联盟

华为云ModelArts 华为云Astro DeepSeek v3

如何利用YashanDB数据库实现数据智能分析和挖掘

数据库砖家

从超级个体到超智能企业的一些思考

Abel(不忘初心) 钱小军

一文读懂 Sigmoid 与 Hard Sigmoid 激活函数:从原理到量化部署

地平线开发者

自动驾驶 算法工具链 地平线征程6

01-自然壁纸实战教程-免费开放啦

万少

HarmonyOS

大数据-34 HBase 单节点配置 hbase-env hbase-site xml

武子康

Java 大数据 hadoop 分布式 HBase

如何利用YashanDB数据库实现数据的高效压缩存储

数据库砖家

聚焦全球数字经济大会 | 焱融存储推理加速方案成现场焦点

焱融科技

人工智能 数字经济 模型推理 KVCache

中烟创新自研【烟草行政许可文书制作系统】纳入“北京市人工智能赋能行业发展典型案例集”

中烟创新

如何利用YashanDB数据库提升企业数据处理能力

数据库砖家

如何利用YashanDB数据库提升企业分析能力

数据库砖家

如何利用YashanDB数据库提升数据共享

数据库砖家

Coco AI 实战(一):Coco Server Linux 平台部署

极限实验室

CocoAI

剪映和Camtasia Studio哪个更好用 录制微课用什么剪辑简单方便 剪映和Camtasia Studio有什么区别

阿拉灯神丁

屏幕录制 录屏工具 视频编辑 Camtasia Studio2024 视频剪辑软件

SysDevCode CTF挑战赛全解析:从Base64解码到十六进制迷宫

qife122

CTF 编码解码

InfoQ 2022年趋势报告:人工智能、机器学习和数据工程篇_AI&大模型_InfoQ精选文章