亮网络解锁器,解锁网络数据的无限可能 了解详情
写点什么

继 Stability AI、AI21 Labs 和 LG AI 之后,TII 也用亚马逊云科技训练大模型

  • 2023-06-08
    北京
  • 本文字数:2297 字

    阅读完需:约 8 分钟

继Stability AI、AI21 Labs和LG AI之后,TII也用亚马逊云科技训练大模型

2023 年 6 月 7 日,亚马逊云科技宣布,位于阿联酋首都阿布扎比的全球领先科研中心 TII(Technology Innovation Institute)在亚马逊云科技上训练了其性能卓越的开源模型 Falcon 40B。

 

据悉,TII 是一家全球领先的科研中心,一直致力于探索前沿的知识领域。TII 的科学家、研究员和工程师团队竭力提供探索性科学成果和变革性技术。据 TII 介绍,基于一万亿个字符(token)训练的 TII Falcon 大语言模型不仅在性能上表现突出,同时具有超高的成本效益。

 

Falcon 大语言模型项目地址:

 

https://www.tii.ae/news/abu-dhabi-based-technology-innovation-institute-introduces-falcon-llm-foundational-large

 

Falcon 40B 是什么?

 

Falcon 40B 是拥有 400 亿参数的大语言模型(LLM),在 Apache 2.0 许可下提供,并在 Hugging Face 的开源大语言模型排行榜上位列榜首(该排行榜在多个基准测试中跟踪、排名和评估大语言模型,最终评选出最佳模型)。

 

Falcon 大语言模型提供两种不同规模的开源版本——Falcon 40B 和 Falcon 7B, 两者均是使用 Amazon SageMaker 的数据预处理和模型训练任务从零开始构建。开源的 Falcon 40B 让用户能够构建和定制满足独特用户需求的 AI 工具,便于无缝集成,并确保长期保存数据资产。模型权重可供下载,检查和部署在任何地方。

 

为了提高科学质量和训练速度方面的水准,该项目在各个层面都进行了前所未有的定制创新。其中,TII 在所有深度学习训练系统层级上都进行了优化。

 

从 6 月 7 日起,两个开源 Falcon 大语言模型也将在 Amazon SageMaker JumpStart 中可用。这是 SageMaker 的机器学习中心,它提供了预训练模型、内置算法和预构建的解决方案模板,可以帮助用户快速上手机器学习。用户只需在 SageMaker Studio 中轻点鼠标就可以部署和使用 Falcon 模型,或者通过 SageMaker Python SDK 以编程方式使用。

 

SageMaker 是一个托管 API 集合,用于开发、训练、调优和托管机器学习(ML)模型,包括大语言模型。许多用户使用 SageMaker 处理其大语言模型工作负载,例如Stability AI, AI21 LabsLG AISageMaker Training提供了具有用户自定义硬件配置和代码的计算集群。计算作业按运行次数计费,按秒分配任务,这意味着用户在未使用服务时无需为 GPU 资源付费。TII 使用 SageMaker Training API 提供的瞬态集群来训练 Falcon 大语言模型,最多支持 48 个 ml.p4d.24xlarge 实例(384 个英伟达 A100 GPU)。现在,TII 正在训练下一代 Falcon 大语言模型,将训练扩展到 3136 个 A100 GPU(392 个 ml.p4d 实例)。

 

TII 跨 AI 研究中心执行总监、代理首席 AI 研究员兼大语言模型项目负责人 Ebtesam Almazrouei 博士表示:“我们自豪地宣布 Falcon 40B 开源版正式发布,这是 TII 开发的世界一流的开源语言模型。Falcon 40B 超过了 Hugging Face 开源大语言模型排行榜上的 LLaMA-65B、StableLM、RedPajama 和 MPT 等知名模型,展示了无需专门微调的卓越性能。”

 

参数越大,性能越好?

 

大语言模型是经过训练以完成自然文本序列的软件算法。得益于庞大的规模和与之交互的训练数据量,大语言模型拥有出色的文本处理能力,包括总结摘要、问题回答和上下文学习等能力。

 

2020 年年初,全球各地的研究机构都将研究重点放在模型大小上,并观察到准确性与参数数量之间存在关联。例如,GPT-3(2020)和 BLOOM(2022)拥有约 1750 亿个参数,Gopher(2021)拥有 2300 亿个参数, MT-NLG(2021)拥有 5300 亿个参数。

 

但是最近两年,情况似乎有所不同。2022 年,Hoffman 等人观察到当前模型参数和数据集大小之间的计算平衡不是最优的,并发表了经验性的缩放定律,建议将计算预算转向使用更多数据训练的较小模型,可以获得性能更好的模型。他们在拥有 700 亿参数的 Chinchilla(2022)模型中实践了这一想法,结果显示该模型的表现超过了更大的模型。

 

由此可见,模型性能的好坏并不能和参数的多少完全正相关。

 

大模型之战正酣,亚马逊云科技从未缺席

 

在关注大模型参数和性能之余,大模型应用和生成式 AI 开发才是当前 AI 领域的主旋律。

 

日前,全球市场分析机构 Gartner®发布《2023 云 AI 开发者服务魔力象限》报告,亚马逊云科技被评为“领导者”,且在执行能力轴上排名最高。

 

榜单之外,Amazon SageMaker 功不可没。

 

今年 4 月,亚马逊云科技还重磅推出了 Amazon Bedrock 托管服务和 Amazon Titan 模型。借此,亚马逊云科技提供了非常简单的途径,让开发者借助基础模型构建和扩展生成式 AI 应用程序。

 

Amazon Bedrock 让开发者可以通过 API 访问 AI21Labs、Anthropic 和 Stability AI 等热门 AI 公司的预训练基础模型,还提供对亚马逊云科技开发的基础模型系列 Amazon Titan 的独家访问。

 

Amazon Bedrock 提供的无服务器体验可以让客户轻松找到适合自身业务的模型,快速上手,在确保数据安全和隐私保护的前提下,使用自有数据基于基础模型进行定制,并使用已经熟悉的亚马逊云科技工具和能力,将定制化模型集成并部署到应用程序,无需自己管理基础设施。

 

此外,亚马逊云科技的 AI 编程助手 Amazon CodeWhisperer 面向个人开发者免费开放。

 

Amazon CodeWhisperer 从数十亿行公开代码中学习之外,还基于亚马逊的代码进行了训练,可以为 Amazon EC2、Amazon Lambda 和 Amazon S3 等云服务生成最准确、最快和最安全的代码。开发者使用 Amazon CodeWhisperer,完成任务的速度平均快 57%,成功率高 27%。

 

埃森哲已经开始用 Amazon CodeWhisperer 加快编码任务,作为其 Velocity 平台软件工程最佳实践计划的一部分。CodeWhisperer 可以帮助不太熟悉亚马逊云科技的开发人员更快地熟悉使用亚马逊云科技服务开发的项目。借助 CodeWhisperer,埃森哲新的开发人员就能够为 Amazon S3 和 Amazon DynamoDB 等亚马逊云科技服务编码。在短时间内,他们就能够高效工作并为项目做出贡献。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2023-06-08 18:485863

评论

发布
暂无评论
发现更多内容

解决APP抓包问题【网络安全】

网络安全学海

网络安全 安全 信息安全 渗透测试 漏洞挖掘

算法题学习---合并k个已排序的链表

桑榆

算法题 11月月更

Docker容器的使用

我是一个茶壶

容器 11月月更 docker、

中国数据中台未来会怎样?三个趋势预测为您指明方向

雨果

数据中台

远程办公软件RayLink公有云版正式上线,专业连接限时免费至12月底!

RayLink远程工具

远程控制软件 远程办公软件 远控软件 远程桌面连接 RayLink

Windows下载安装Vue开发者工具(VueDevtools)

不觉心动

Vue 11月日更 11月月更

OceanBase获奖!蚂蚁集团第三次入选世界互联网领先科技成果

OceanBase 数据库

MUI框架之移动端前端开发对dialog与button轮播的深入运用与实战

恒山其若陋兮

Vue 前端 11月月更

详解typora配置华为云图床

乌龟哥哥

11月月更

【愚公系列】2022年11月 微信小程序-app.json配置属性之window

愚公搬代码

11月月更

2022 VDC应用与服务专场:帮助开发者实现增长共赢

Geek_2d6073

2022 VDC安全隐私专场:提升用户产品安全体验,携手伙伴共建安全新生态

Geek_2d6073

远程控制软件如何像素级还原设计稿色彩?

RayLink远程工具

远程控制软件 远程办公软件 远控软件 远程桌面连接 RayLink

时延测评|免费又好用的低延时远程控制软件竟是它!

RayLink远程工具

远程控制软件 远程办公软件 远控软件 远程桌面连接 RayLink

常用硬件接口知识

智趣匠

RS232、RS485 11月月更 硬件接口 VGA

官宣!Taier1.3 新版本正式发布,新鲜功能抢先体验

袋鼠云数栈

非行稳无以致远:华为如何写好数字金融的大文章?

脑极体

对于MUI的实现原理以及遮罩蒙版和numbox以及侧滑导航的事件监听的运用和实战

恒山其若陋兮

Vue 前端 11月月更

WiFi、蓝牙、NFC 哪家强?短距离无线通信技术对比分析

元器件秋姐

无线通信 元器件选型 元器件电商平台 元器件采购

袋鼠云产品功能更新报告 02 期丨有亿点点走心!

袋鼠云数栈

Docker 镜像使用

我是一个茶壶

Docker 镜像 11月月更

商家和企业如何选择KOC合作:要明确推广目标、选对平台和博主

石头IT视角

银行APP用户体验外滩峰会即将开启!四大亮点抢先看

易观分析

金融 银行 易观

漫游Hadoop(一):NameNode公平队列

冰心的小屋

hadoop hdfs

极客时间运维进阶训练营第三周作业

好吃不贵

【kafka运维】 kafka-consumer-groups.sh消费者组管理

石臻臻的杂货铺

kafka kafka运维 11月月更

2022 vivo开发者大会人工智能专场:打造「1001个便利」

Geek_2d6073

数据中台选型必读(四):要想中台建的好,数据模型得做好

雨果

数据中台

MUI实战之switch和事件以及transparentBar与slide的实战与深入运用

恒山其若陋兮

前端 11月月更 黎燃

Websocket集群解决方案

Jeremy Lai

websocket 集群 发布订阅模式

2022-11-09:给定怪兽的血量为hp 第i回合如果用刀砍,怪兽在这回合会直接掉血,没有后续效果 第i回合如果用毒,怪兽在这回合不会掉血, 但是之后每回合都会掉血,并且所有中毒的后续效果会叠加 给

福大大架构师每日一题

算法 rust 福大大

继Stability AI、AI21 Labs和LG AI之后,TII也用亚马逊云科技训练大模型_AI&大模型_李冬梅_InfoQ精选文章