NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

加速大模型应用落地最后一公里,AI 基础设施如何再升级?

  • 2023-07-12
    北京
  • 本文字数:3006 字

    阅读完需:约 10 分钟

加速大模型应用落地最后一公里,AI基础设施如何再升级?

AI 大模型热潮来袭,当下,越来越多的大模型在千行百业中落地应用。作为 AI 大模型的“底座”,AI 基础设施承载着顶层大模型的建设,也是大模型应用落地的关键。在算力、数据和基础软件三大 AI 基础设施中,算力是驱动大模型发展的底层动力,数据是训练大模型的信息基础,基础软件则是大模型应用落地的主要效率支撑。

 

6 月 30 日,九章云极 DataCanvas 举办“New AI · New Data · New Software”主题发布会,发布了“AIFS(AI Foundation Software)”、“DataPilot”两款新系列产品。

 

在发布会上,九章云极 DataCanvas 董事长方磊提到,“大模型时代需要完整基础设施升级,而不是依靠单个大模型解决所有的问题;大模型的落地将解决更困难的问题,引起更深远的影响,而它并不比小模型更容易。”

 

大模型时代的 AI 技术依然需要“最后一公里”的结合。方磊指出,软件、模型和硬件的统一优化空间巨大,是创新最活跃的地方。强大灵活的基础软件,开放弹性的白盒模型,精通业务的专业人才,将加速实现最后一公里的跨越。

大模型时代,AI 基础软件扮演什么角色?

 

ChatGPT 的爆火加速 AI 大模型应用落地。今年以来,越来越多的企业涌入 AI 大模型赛道,行业进入“白热化”竞争状态。有不少专家表示,大模型背后的技术理念早已存在多年,因此 AI 大模型并不存在技术壁垒。

 

“现在训练 AI 大模型最大的挑战主要集中在算力和数据层面”,九章云极 DataCanvas 副总裁于建岗在接受 InfoQ 采访时表示,大模型的构建本身并没有不可逾越的基础鸿沟,主要是基于 Transformer 进行构建,对企业而言,如何更好且更有效率地运用算力和数据才是核心痛点。“大模型对算力的需求巨大,对于中小企业而言,本身没有足够的 GPU 支撑其去搭建大模型。此外,大模型对数据的需求量也有一定的要求,中小企业很难获得足够的数据训练大模型。”

 

在这一背景下,AI 基础软件的重要性凸显。未来随着算力性能逐渐同质化和标准化,数据的差异性和企业需求的个性化逐渐加大,“AI 基础软件”将成为模型训练效率和算力使用效率的决定性因素。作为模型生态系统的中坚力量,AI 基础软件将会成为大模型应用落地的最主要的效率支撑,并通过大模型+小模型的方式,形成模型训练新范式。

 

与构建传统应用相比,构建大模型应用的基础软件主要解决系统和架构层优化,通过一系列工具和服务,帮助企业快速、高效构建上层 AI 应用。于建岗表示,“训练大模型需要庞大的计算集群,如何更好的处理集群之间的通信?如何更好的进行模型切分?如何更好的利用内存和显存?这些都需要 AI 基础软件来解决。AI 大模型时代对基础软件最大的诉求就是如何实现模型训练优化,包括运行时推理效率的优化等等。”

模型训练新范式:大模型+小模型

 

AI 基础软件使得 AI 技术的应用更加广泛和高效,并为各个行业和领域的发展提供了强有力的支持。当前,企业对 AI 技术的关注度高涨,也为 AI 基础软件市场带来新的增长机遇。Gartner 预测,中国的 AI 软件市场将保持快速增长。预计未来五年,该市场的营收将从 47.67 亿美元增长至 138.58 亿美元,年复合增长率(CAGR)达到 28%。

 

“现在,越来越多的企业意识到 AI 基础软件的重要性。九章云极 DataCanvas 在基础软件领域耕耘多年,我们认为只要针对企业在训练和应用大模型的过程中的痛点提供切实有效的解决方案,企业完全可以做出自己的 AI 大模型并且落地本企业的应用。”于建岗说道。

 

基于这种认知,九章云极 DataCanvas 正式发布了人工智能应用构建基础设施平台 AIFS(AI Foundation Software),其覆盖了大模型的训练、精调、压缩、部署、推理和监控以及小模型的全生命周期过程,为数据科学家、应用程序开发人员和业务专家提供了一套工具,使不同角色的人员可以相互协作,轻松地处理数据并使用这些数据来开发、训练和部署任何规模的模型。

 

作为人工智能基础软件体系,AIFS 主要包括 DataCanvas Alaya 九章元识大模型、DataCanvas APS 机器学习平台、DataCanvas BAP 面向业务自动建模平台、开源 DAT 自动机器学习软件、开源 YLearn 因果学习软件等一系列全开放、高自动、高协同的软件工具,为用户自主构建全生命周期的“大+小”模型提供一站式支持。

 

“我们认为一个足够智能的、能够覆盖所有小模型的大模型时代还没有到来,比如在精准科学计算和符号推理方面大模型并不比小模型可靠,所以当前还是大小模型并存的时代。”在于建岗看来,大模型可以基于对通用知识的理解变得更广泛,也可以通过压缩或者知识蒸馏,部署到小模型环境中去替代一部分能力。但整体而言大小模型并存的时代还会延续一段时间。

 

九章云极 DataCanvas 董事长方磊也曾在一场演讲中表示,尽管大模型当前表现优异,但对于各行业使用者来说,实际应用于业务场景仍然存在较高的技术和成本门槛。方磊指出,当前迎来“大+小”的新纪元,不仅仅是大模型和小模型的融合使用,大模型的小型化,或者说以大模型为底座的小型化微调,也是一种趋势,这种方式能够以低廉的成本解决大量的问题。

 

“大和小是一个相对的变化。”当前大模型的参数标准并不统一,相对于参数级,模型的效果且是否能够支持快速迭代对于用户实际应用来说更为重要。用户能够在一个白盒大模型基础上快速地、低成本地微调和迭代出客制化的小模型,才能高效地实现丰富场景的大模型应用。这就再次点明了 AI 基础软件工具链的重要性。

 

值得一提的是,本次发布的 DataCanvas Alaya 九章元识大模型,具有“通识+产业”系列模型矩阵、多模态大模型、优化的训练机制和友好的开源协议管理等特点。在开源支持方面,九章元识不仅支持 Apache2.0 协议,还为用户提供白盒模型。于建岗强调,这是公司对产品“开放性”的坚守,旨在为用户赋予更大自由度的 AI 创新能力,以求加速实现大模型在多元业务场景中的应用。

数据处理新范式:DataPilot

 

在过去的十几年,数据通常被认为是 AI 的原料、基础要素。而大模型的出现,让数据得到了 AI 的反向赋能。

 

利用 DataCanvas Alaya 九章元识大模型的通用文本的理解和生成能力以及在数据领域的微调优化,九章云极 DataCanvas 发布了数据处理新范式——DataPilot 数据领航员,可以帮助用户实现数据在建模全生命周期的智能化与自动化。

 

九章云极 DataCanvas 公司副总裁周晓凌介绍,DataPilot 的特性包括多模“向量海”数据架构,按需自动化数据集成、代码生成、流程编排和分析计算,以及基于自然语言的数据获取、分析和机器学习建模能力。DataPilot 能够大幅降低数据集成、治理、建模、计算、查询、分析、机器学习建模全链路的技术门槛,降低数据驱动业务发展的成本,加快数字化创新的进程。

 

基于“向量海”理念,DataPilot 所包含的 DataCanvas RT 实时决策中心平台、开源 DingoDB 多模向量数据库等各类数据软件,让用户具备 AI 技术突破情况下亟需的实时、多模态的数据能力。

 

其中,DingoDB 作为一款开源的多模态向量数据库,将是向量海时代的强大引擎。它结合了数据湖和向量数据库的特性,支持存储任何类型(键值、PDF、音频、视频等)和任何大小的数据。通过 DingoDB,用户可以构建专属的数据“向量海”,不论是结构化还是非结构化数据,仅通过 1 套 SQL 即可完成多模态数据的分析与科学计算。

 

“未来,AI 基础软件的发展会更加多样化,模型之间的数据交换也会更加频繁,也许会产生新的连接方式与生态。此外,在国家战略与政策推动下,未来可能会出现一些相对统一化的模型,这些都会驱动 AI 基础设施进一步升级。”周晓凌说道。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2023-07-12 09:412545

评论

发布
暂无评论
发现更多内容

GPU推理加速与大规模上下文处理

百度开发者中心

人工智能 大模型

Magic Disk Cleaner for Mac(磁盘垃圾清理工具)v2.7.2激活版

影影绰绰一往直前

Permute 3 for mac(全能媒体格式转换器)v3.11.8中文版

影影绰绰一往直前

AutoMQ 社区双周精选第九期(2024.03.11~2024.03.22)

AutoMQ

大数据 kafka 云原生 AutoMQ

使用云手机提升WhatsApp使用体验

Ogcloud

云手机 海外云手机 云手机海外版 国外云手机 电商云手机

Set A Light 3D Studio for Mac(3D摄影棚布光工具)v2.58d永久试用版

影影绰绰一往直前

Go代码优化实用指南

俞凡

golang

NFTScan 正式上线 Polygon zkEVM NFTScan 浏览器和 NFT API 数据服务

NFT Research

NFT\ NFTScan

网心科技入选“2023年广东省名优高新技术产品”名单

网心科技

云计算 边缘计算 网心科技

PopClip for Mac(增强型复制粘贴工具)v2024.3.1中文版

影影绰绰一往直前

MindNode for mac(思维导图软件)v2023.3.1中文激活版

影影绰绰一往直前

DVD Cloner 2024 for Mac(DvD刻录软件)v11.10.741激活版

影影绰绰一往直前

MouseBoost PRO for Mac(右键鼠标助手专业版)v3.3.7中文激活版

影影绰绰一往直前

macOS Sonoma 14.4.1 (23E224) 正式版发布,ISO、IPSW、PKG 下载

sysin

macos Sonoma macOS Sonoma

合辑下载 | MatrixOne 与 MySQL 全面对比

MatrixOrigin

数据库 分布式 云原生

野心、梦想与科幻——浅谈外星殖民与软件工程

博文视点Broadview

How Big Data Works

Jackchang234987

Mp3tag for Mac(音频标签编辑器)v1.8.19激活版

影影绰绰一往直前

Rectangle Pro for Mac(光标快速移动和管理窗口的工具)v3.0.21激活版

影影绰绰一往直前

软件测试学习笔记丨Allure2报告中添加用例支持tags标签

测试人

软件测试

网心科技入选“2023年中国云生态创新应用技术产品”

网心科技

云计算 边缘计算 网心科技

与鲸同行,智领未来!和鲸科技高校市场渠道招募启动会顺利召开

ModelWhale

人工智能 软件 数据科学 渠道招募 高校市场

如何培养高质量应用型医学人才, “课-训-赛”育人才系列第二场直播活动圆满结束

ModelWhale

人才培养 数据科学 复合型人才 医学 应用型人才

一文带你完整了解Go语言IO基础库

百度Geek说

go语言

QCA9882, QCA9880, and MT7915 WiFi cards for OpenWrt:What are the difference?

wallyslilly

QCA9880

全面解析 MessagePack:简介及使用技巧

Apifox

json 程序员 前端 后端 MessagePack

我们所面临的云原生安全问题

德迅云安全杨德俊

无人不识又无人不迷糊的this

华为云开发者联盟

Java JavaScript 开发 华为云 华为云开发者联盟

数字人交互机:提升社区参与度的智能助手!

青否数字人

有了这 4 款脚本工具, 再也不怕写烂SQL了!!!

Java技术精选

基于 NVIDIA Megatron-Core 的 MoE LLM 实现和训练优化

阿里云大数据AI技术

人工智能 模型训练 大模型 LLM

加速大模型应用落地最后一公里,AI基础设施如何再升级?_生成式 AI_凌敏_InfoQ精选文章