NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

继 Stability AI、AI21 Labs 和 LG AI 之后,TII 也用亚马逊云科技训练大模型

  • 2023-06-08
    北京
  • 本文字数:2297 字

    阅读完需:约 8 分钟

继Stability AI、AI21 Labs和LG AI之后,TII也用亚马逊云科技训练大模型

2023 年 6 月 7 日,亚马逊云科技宣布,位于阿联酋首都阿布扎比的全球领先科研中心 TII(Technology Innovation Institute)在亚马逊云科技上训练了其性能卓越的开源模型 Falcon 40B。

 

据悉,TII 是一家全球领先的科研中心,一直致力于探索前沿的知识领域。TII 的科学家、研究员和工程师团队竭力提供探索性科学成果和变革性技术。据 TII 介绍,基于一万亿个字符(token)训练的 TII Falcon 大语言模型不仅在性能上表现突出,同时具有超高的成本效益。

 

Falcon 大语言模型项目地址:

 

https://www.tii.ae/news/abu-dhabi-based-technology-innovation-institute-introduces-falcon-llm-foundational-large

 

Falcon 40B 是什么?

 

Falcon 40B 是拥有 400 亿参数的大语言模型(LLM),在 Apache 2.0 许可下提供,并在 Hugging Face 的开源大语言模型排行榜上位列榜首(该排行榜在多个基准测试中跟踪、排名和评估大语言模型,最终评选出最佳模型)。

 

Falcon 大语言模型提供两种不同规模的开源版本——Falcon 40B 和 Falcon 7B, 两者均是使用 Amazon SageMaker 的数据预处理和模型训练任务从零开始构建。开源的 Falcon 40B 让用户能够构建和定制满足独特用户需求的 AI 工具,便于无缝集成,并确保长期保存数据资产。模型权重可供下载,检查和部署在任何地方。

 

为了提高科学质量和训练速度方面的水准,该项目在各个层面都进行了前所未有的定制创新。其中,TII 在所有深度学习训练系统层级上都进行了优化。

 

从 6 月 7 日起,两个开源 Falcon 大语言模型也将在 Amazon SageMaker JumpStart 中可用。这是 SageMaker 的机器学习中心,它提供了预训练模型、内置算法和预构建的解决方案模板,可以帮助用户快速上手机器学习。用户只需在 SageMaker Studio 中轻点鼠标就可以部署和使用 Falcon 模型,或者通过 SageMaker Python SDK 以编程方式使用。

 

SageMaker 是一个托管 API 集合,用于开发、训练、调优和托管机器学习(ML)模型,包括大语言模型。许多用户使用 SageMaker 处理其大语言模型工作负载,例如Stability AI, AI21 LabsLG AISageMaker Training提供了具有用户自定义硬件配置和代码的计算集群。计算作业按运行次数计费,按秒分配任务,这意味着用户在未使用服务时无需为 GPU 资源付费。TII 使用 SageMaker Training API 提供的瞬态集群来训练 Falcon 大语言模型,最多支持 48 个 ml.p4d.24xlarge 实例(384 个英伟达 A100 GPU)。现在,TII 正在训练下一代 Falcon 大语言模型,将训练扩展到 3136 个 A100 GPU(392 个 ml.p4d 实例)。

 

TII 跨 AI 研究中心执行总监、代理首席 AI 研究员兼大语言模型项目负责人 Ebtesam Almazrouei 博士表示:“我们自豪地宣布 Falcon 40B 开源版正式发布,这是 TII 开发的世界一流的开源语言模型。Falcon 40B 超过了 Hugging Face 开源大语言模型排行榜上的 LLaMA-65B、StableLM、RedPajama 和 MPT 等知名模型,展示了无需专门微调的卓越性能。”

 

参数越大,性能越好?

 

大语言模型是经过训练以完成自然文本序列的软件算法。得益于庞大的规模和与之交互的训练数据量,大语言模型拥有出色的文本处理能力,包括总结摘要、问题回答和上下文学习等能力。

 

2020 年年初,全球各地的研究机构都将研究重点放在模型大小上,并观察到准确性与参数数量之间存在关联。例如,GPT-3(2020)和 BLOOM(2022)拥有约 1750 亿个参数,Gopher(2021)拥有 2300 亿个参数, MT-NLG(2021)拥有 5300 亿个参数。

 

但是最近两年,情况似乎有所不同。2022 年,Hoffman 等人观察到当前模型参数和数据集大小之间的计算平衡不是最优的,并发表了经验性的缩放定律,建议将计算预算转向使用更多数据训练的较小模型,可以获得性能更好的模型。他们在拥有 700 亿参数的 Chinchilla(2022)模型中实践了这一想法,结果显示该模型的表现超过了更大的模型。

 

由此可见,模型性能的好坏并不能和参数的多少完全正相关。

 

大模型之战正酣,亚马逊云科技从未缺席

 

在关注大模型参数和性能之余,大模型应用和生成式 AI 开发才是当前 AI 领域的主旋律。

 

日前,全球市场分析机构 Gartner®发布《2023 云 AI 开发者服务魔力象限》报告,亚马逊云科技被评为“领导者”,且在执行能力轴上排名最高。

 

榜单之外,Amazon SageMaker 功不可没。

 

今年 4 月,亚马逊云科技还重磅推出了 Amazon Bedrock 托管服务和 Amazon Titan 模型。借此,亚马逊云科技提供了非常简单的途径,让开发者借助基础模型构建和扩展生成式 AI 应用程序。

 

Amazon Bedrock 让开发者可以通过 API 访问 AI21Labs、Anthropic 和 Stability AI 等热门 AI 公司的预训练基础模型,还提供对亚马逊云科技开发的基础模型系列 Amazon Titan 的独家访问。

 

Amazon Bedrock 提供的无服务器体验可以让客户轻松找到适合自身业务的模型,快速上手,在确保数据安全和隐私保护的前提下,使用自有数据基于基础模型进行定制,并使用已经熟悉的亚马逊云科技工具和能力,将定制化模型集成并部署到应用程序,无需自己管理基础设施。

 

此外,亚马逊云科技的 AI 编程助手 Amazon CodeWhisperer 面向个人开发者免费开放。

 

Amazon CodeWhisperer 从数十亿行公开代码中学习之外,还基于亚马逊的代码进行了训练,可以为 Amazon EC2、Amazon Lambda 和 Amazon S3 等云服务生成最准确、最快和最安全的代码。开发者使用 Amazon CodeWhisperer,完成任务的速度平均快 57%,成功率高 27%。

 

埃森哲已经开始用 Amazon CodeWhisperer 加快编码任务,作为其 Velocity 平台软件工程最佳实践计划的一部分。CodeWhisperer 可以帮助不太熟悉亚马逊云科技的开发人员更快地熟悉使用亚马逊云科技服务开发的项目。借助 CodeWhisperer,埃森哲新的开发人员就能够为 Amazon S3 和 Amazon DynamoDB 等亚马逊云科技服务编码。在短时间内,他们就能够高效工作并为项目做出贡献。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2023-06-08 18:485839

评论

发布
暂无评论
发现更多内容

图像边缘检测的新方向——量子算法

启科量子开发者官方号

tensorflow 边缘计算 图像处理 量子计算 量子算法

有了HTTP,为什么还要RPC?

C++后台开发

网络编程 RPC HTTP C++后台开发 C++开发

架构实战营模块五作业

Geek_Q

架构

wallys/m.2/Adapter card(one pcie1x to 4 x Mini PCIE)

wallys-wifi6

DataKit 作为本地获取数据的 API 服务器

观测云

2022年第一季度保险服务数字化跟踪分析

易观分析

保险 消费金融

wallys/ IPQ4018/IPQ4028/Access Point Wireless Module Dual band 11AC Wave2 Module

wallys-wifi6

wallys/ IPQ4019/IPQ4029 /Access Point Wireless Module Dual band 11AC Wave2 Module

wallys-wifi6

云创平台+播放器SDK,腾讯云音视频新工具助力视频生产、终端能力全面升级

科技热闻

从第三次技术革命看企业应用三大开发趋势

葡萄城技术团队

Numpy 的研究仿制 1

祖维

c Numpy

京东联盟API - 万能转链接口 - 京品库接口 - 接口定制

江苏京酷电子商务有限公司

京东 API JSON格式化 开放api

手把手教你安装jdk8配置环境变量

不凡~

攻防演练之战前扫雷:漏洞管理的5大措施

青藤云安全

主机安全 资产安全 漏洞防护 攻防演练

《网络是怎么样连接的》读书笔记 - WEB服务端请求和响应(五)

懒时小窝

网络

3个最佳实践助力企业改善供应链安全

SEAL安全

安全 软件供应链 第三方风险

iMile 利用 Zadig 多云环境周部署千次,跨云跨地域持续交付全球业务

Zadig

DevOps 持续交付 跨境电商 自动化运维 Zadig

火山引擎入选国内首个《边缘计算产业全景图》

火山引擎边缘云

云计算 云原生 边缘计算 火山引擎 火山引擎边缘计算

2022 OpenVINO™ DevCon 大揭秘!英特尔携众多合作伙伴深化开发者生态建设,释放AI产业创新潜能

科技之家

新朝旧将 vite和webpack煮酒论英雄

转转技术团队

vite webpack

基于信通院 Serverless 工具链模型的实践:Serverless Devs

阿里巴巴云原生

阿里云 开源 云原生 Serverless Devs

等保测评结论为差,是不是表示等保工作白做了?

行云管家

等保 等保测评

《网络是怎么样连接的》读书笔记 - 服务器端的局域网中(四)

懒时小窝

网络

墨天轮“高可用架构”干货文档分享(含Oracle、MySQL、PG资料124篇)

墨天轮

MySQL 数据库 oracle postgresql 高可用

使用 Gerrit + Zadig 实现主干开发主干发布(含字节跳动飞书实践)

Zadig

DevOps 分支管理 敏捷实践 研发协作 开发模式

微博评论高可用高性能计算架构

地下地上

架构实战营

瓜分1000+万奖金池,昇腾AI创新大赛2022实力赋能开发者

Geek_2d6073

纯CSS 波点背景 🏀

德育处主任

css3 前端 纯CSS css特效 6月月更

防范企业数据泄露,就用网络安全产品堡垒机!

行云管家

数据库 网络安全 堡垒机 数据审计

自主可控再下一城!首套国产ARTIQ架构量子计算测控系统发布

启科量子开发者官方号

算力 量子计算机 量子计算 离子阱 启科量子

技术分享| 融合调度中的广播功能设计

anyRTC开发者

音视频 调度 实时消息 快对讲 广播

继Stability AI、AI21 Labs和LG AI之后,TII也用亚马逊云科技训练大模型_AI&大模型_李冬梅_InfoQ精选文章