【ArchSummit 】国内外100+顶尖专家齐聚 ,AI、云原生、数智化全面囊括! 了解详情
写点什么

“我们坚持开源!”阿里云发布“地表最强”中文大模型:半年一迭代、性能翻倍?

  • 2024-05-09
    北京
  • 本文字数:2582 字

    阅读完需:约 8 分钟

大小:1.33M时长:07:45
“我们坚持开源!”阿里云发布“地表最强”中文大模型:半年一迭代、性能翻倍?

6 月 14 - 15 日 ArchSummit 全球架构师峰会·深圳,深度探索大模型时代软件架构最佳设计。

5 月 9 日,在通义大模型发布一周年之际,阿里云大模型生态迎来一次重大升级,主要有“四个最”:

 

  • 通义千问 2.5 正式发布,“模型性能全面赶超 GPT-4 Turbo,成为地表最强中文大模型”;

  • Qwen1.5-110B 参数开源模型在多个基准测评收获最佳成绩,超越 Llama-3-70B,成为开源领域最强中文大模型;

  • ModelScope 魔搭成为中国最大的开源社区;

  • 通义大模型通过阿里云服务企业超 9 万,成最受中国企业欢迎大模型。

 

同时,阿里云对通义大模型的品牌也进行了升级,正式将“通义千问 APP”更名为“通义 APP”,集成通义大模型全栈能力,免费为所有用户提供服务。阿里表示,通义 APP 将把通义实验室前沿的文生图、智能编码、文档解析、音视频理解、视觉生成等能力“All in one”,成为每个人的全能 AI 助手。


大模型系列更新

 

从初代模型升级至 2.5 版本的路,阿里云仅仅走了一年。

 

去年 10 月底,阿里云 CTO 周靖人在 2023 年云栖大会上,发布了参数量提升到千亿级别的通义千问 2.0。当时,阿里表示,目前通义千问的综合性能已经超过 GPT-3.5,相比 4 月发布的 1.0 版本,通义千问 2.0 在复杂指令理解、文学创作、通用数学、知识记忆、幻觉抵御等能力上均有显著提升。

 

如今,相比通义千问 2.1 版本,通义千问 2.5 的理解能力、逻辑推理、指令遵循、代码能力分别提升了 9%、16%、19%、10%。在权威基准 OpenCompass 上,通义千问 2.5 得分追平 GPT-4 Turbo,这也是该基准首次录得国产大模型取得如此出色的成绩。

 


在多模态模型和专有能力模型方面,通义千问视觉理解模型 Qwen-VL-Max 在多个多模态标准测试中超越 Gemini Ultra 和 GPT-4V,目前已在多家企业落地应用。

 

通义还发布了最新款开源模型:1100 亿参数的 Qwen1.5-110B,该模型在 MMLU、TheoremQA、GPQA 等基准测评中超越了 Meta 的 Llama-3-70B 模型。在 HuggingFace 推出的开源大模型排行榜 Open LLM Leaderboard 上,Qwen1.5-110B 冲上榜首。

 


“生态非常重要,我们会坚持开源体系、坚持我们的开源模式。”周靖人透露。

 

“现在已经是 2024 年了,我相信开源对整个全球技术领域的贡献是毋庸置疑的。”周靖人说道,“阿里云不是简简单单的开源,我们是要开源最强的模型。”

 

去年 8 月,通义宣布加入开源行列,随之启动马不停蹄的开源狂飙,沿着“全模态、全尺寸”开源路线陆续推出十多款模型。小尺寸模型如 0.5B、1.8B、4B、7B、14B,可便捷地在手机、PC 等端侧设备部署;大尺寸模型如 72B、110B 能支持企业级和科研级的应用,都曾登顶 Open LLM Leaderboard 榜首。

 

“阿里云是全球唯一一家既持续做模型开发,又做大量模型开局模式的企业。”周靖人表示,Llama 3 等在一定程度上把竞争拉得很高。坦诚地讲,不是所有闭源的公司都能做过开源模型。做闭源的,至少要能够超过开源模型水准,才能今天有机会参与。另一方面,实践中,大模型能力并不是越强越好,还要考虑成本等方面因素,所以阿里云希望把选择权给到企业和开发者。

 

通义千问代码大模型 CodeQwen1.5-7B 则是 HuggingFace 代码模型榜单 Big Code 的头名选手,具备优秀的代码生成能力、长序列建模能力、代码修改能力和 SQL 能力,还是国内用户规模第一的智能编码助手通义灵码的底层模型。

 

现场,阿里还宣布推出通义灵码的企业版,满足企业用户的定制化需求,帮助企业提升研发效率。

 

据介绍,通义灵码熟练掌握 Java、Python、Go、JavaScript、TypeScript、C/C++、C#等 200 多种编程语言,可以辅助写代码、读代码、查 Bug、优化代码等。根据官方数据,2023 年 10 月发布至今,通义灵码的插件下载量已超 350 万,每日推荐代码超 3000 万次,被开发者采纳的代码超亿行。

“最受中国企业欢迎的大模型”



根据阿里云公布的最新数据,通义大模型通过阿里云服务企业超 9 万,通义开源模型累计下载量突破 700 万。通义落地应用进程加速,现已进入 PC、手机、汽车、航空、天文、矿业、教育、医疗、餐饮、游戏、文旅等领域,成为最受中国企业欢迎的大模型。

 

周靖人表示,各行各业、各个企业都是特殊的,非常明确的就是让基础模型直接对接业务需求是很难的,因此现在的大模型落地一定要结合业务的场景。

 

小米旗下的人工智能助手“小爱同学”已与阿里云通义大模型达成合作,强化其在图片生成、图片理解等方面的多模态 AI 生成能力,并在小米汽车、手机等多类设备落地。此外,微博、众安保险、完美世界游戏等企业也宣布接入通义大模型,将大模型应用于社交媒体、保险、游戏等领域。

 

更早之前,新东方、同程旅行、长安汽车、西部机场集团、亲宝宝等企业也都与通义大模型达成合作。中国科学院国家天文台人工智能组基于通义千问开源模型开发了新一代天文大模型“星语 3.0”,这是大模型首次应用于天文观测领域;陕煤建新煤矿等十余座矿山推出由通义大模型支持的新型矿山重大风险识别处置系统,成为大模型在矿山场景的首次规模化落地。

 

截至目前,通义大模型通过阿里云服务企业超过 9 万、通过钉钉服务企业超过 220 万。与此同时,海内外大量中小企业和开发者以下载开源模型的方式使用通义,在 HuggingFace、魔搭 ModelScope 等开源社区,通义开源大模型的累计下载量超过了 700 万。

 

在阿里云体系里,把模型能力和业务场景结合起来的纽带就是百炼平台。本次大会上,百炼升级成为阿里云承载云+AI 能力的重要平台,提供一站式、全托管的大模型定制与应用服务。开发者可通过“拖拉拽”5 分钟开发一款大模型应用,几小时“炼”出一个专属模型,把精力专注于应用创新。

 


周靖人介绍,当下企业应用大模型存在三种范式:一是对大模型开箱即用,二是对大模型进行微调和持续训练,三是基于模型开发应用,其中最典型的需求是 RAG,以企业数据对大模型进行知识增强。围绕这些需求,百炼打造了模型中心和应用中心,提供最丰富的模型和最易用的工具箱。

 

百炼提供了提示词模版、拥抱开源框架,包括提供开放灵活可配置的检索增强应用服务、提供实时 API 等,此外还提供可视化流程,提供微调和评测。

 

此外,百炼集成了上百款大模型,除了通义、Llama、ChatGLM 等系列,还托管百川等系列三方模型,覆盖国内外主流厂商,联动魔搭开源社区,同时支持企业上架通用或行业模型,给开发者提供足够多的模型选择。

结束语

 

问世一年多来,通义大模型发展出了文生图、智能编码、文档解析、音视频理解等能力,企业客户和开发者可以通过 API 调用、模型下载等方式接入通义,个人用户可从通义 APP、官网和小程序免费使用通义家族全栈服务。

 

未来,阿里云的 AI 之路会走得如何,我们也拭目以待。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2024-05-09 14:487100

评论

发布
暂无评论
发现更多内容

瑞技案例 | 优雅焕新,Neat 重塑法国再保险混合办公体验

Bytebridge

混合办公 Neat 会议室升级 瑞技科技 Bytebridge

苹果万能视频播放器 Elmedia Video Player Pro中文最新版

胖墩儿不胖y

Mac软件 视频播放器 视频播放

淘宝API接口申请指南

联讯数据

C++空类的那点事儿

树上有只程序猿

C++ 空类

inBuilder低代码平台新特性推荐-第十三期

inBuilder低代码平台

开源 低代码

大型语言模型在实体关系提取中的应用探索

数由科技

Embedding LLM rag 实体关系识别

开源大模型与微调策略概览

百度开发者中心

大模型 #人工智能 LLM

金融大模型的微调实战

百度开发者中心

金融 大模型 #人工智能

五个杀手级IntelliJ IDEA插件

这我可不懂

ide 插件 IntelliJ IDEA

数据的力量:Web3 游戏运营指南

Footprint Analytics

区块链游戏 游戏运营 Web3 游戏

多平台小程序编译适配,会让更多App互联互通?

Geek_2305a8

解密Prompt系列20. LLM Agent之再谈RAG的召回多样性优化

EquatorCoco

人工智能 算法 模型 LLM

数据“库”的增删改查

小齐写代码

2023年度项目深入探索:AI与大模型在实际应用中的全景

Y-starrydreamer

盘点那些国际知名的黑客(下篇)

禅道项目管理

互联网 黑客 计算机网络

it统一运维平台怎么样?有可以推荐的品牌吗?

行云管家

IT运维 安全运维 统一运维

NFTScan | 11.27~12.03 NFT 市场热点汇总

NFT Research

NFT NFT\ NFTScan

大模型训练:预训练模型与数据标准化

百度开发者中心

深度学习 #人工智能 LLM

一种全新的日志异常检测评估框架:LightAD

华为云开发者联盟

人工智能 机器学习 深度学习 华为云 华为云开发者联盟

软件测试/人工智能|Python 变量解析:从基础概念到内存地址探究

霍格沃兹测试开发学社

智能LED屏幕未来升级方向

Dylan

个性化 定制化 LED显示屏 全彩LED显示屏 led显示屏厂家

.NET8 依赖注入

EquatorCoco

.net 开发 依赖注入

商城开发

Geek_8da502

亚马逊云科技宣布推出四项Zero-ETL集成特性

财见

浪潮信息存储助力企业智能化变革

财见

10 | 递归:如何用三行代码找到“最终推荐人”.md

鲁米

行云创新:与德国汽车业交流Catena-X数据空间技术有感

行云创新

平台工程 行云创新 Catena-X 云原生平台工程 数据共享空间

09 | 队列:队列在线程池等有限资源池中的应用

鲁米

ios工具合集 4Easysoft iOS Toolkit 激活中文版最新

mac大玩家j

ios Mac软件

LCM:大大加快生成高质量图像的新方法

互联网工科生

图像生成 LCM

软件测试/人工智能|Python 数据类型解析:探索编程世界的多样性

霍格沃兹测试开发学社

“我们坚持开源!”阿里云发布“地表最强”中文大模型:半年一迭代、性能翻倍?_云计算_褚杏娟_InfoQ精选文章