【AICon】硅谷视野+中国实践,汇聚全球顶尖技术的 AI 科技盛会 >>> 了解详情
写点什么

大模型的“瘦身”革命:巨头逐鹿轻量化大模型 | 大模型一周大事

  • 2024-04-29
    北京
  • 本文字数:2664 字

    阅读完需:约 9 分钟

大小:1.35M时长:07:53
大模型的“瘦身”革命:巨头逐鹿轻量化大模型 | 大模型一周大事

大模型的快节奏发展,让了解最新技术动态、积极主动学习成为每一位从业者的必修课。InfoQ 研究中心期望通过每周更新大模型行业最新动态,为广大读者提供全面的行业回顾和要点分析。现在,让我们回顾过去一周的大模型重大事件吧。

一、重点发现

本周,轻量化和设备端集成成为行业的热点。微软的 Phi-3 系列小模型和苹果的 OpenELM 系列端侧小模型的发布,展现了 AI 应用向移动设备端迁移的趋势。这也预示着未来智能手机和笔记本电脑等设备将能够处理以往只能在云端或高性能服务器上执行的复杂任务,极大地扩展了端侧 AI 的潜力和应用范围。此外,长文本处理能力的竞争再次增大。Kimi 发布之后,商汤和浪潮分别升级自身模型的长文本能力并展开第二波围剿。

二、具体内容

大模型持续更新

  1. 4 月 23 日,微软推出了 Phi-3 系列小模型,并发布了其技术报告。值得注意的是,Phi-3-mini 型号,仅拥有 3.8 亿参数,已在众多性能评估标准上超越了 Llama 3 模型。为了促进开源社区的发展,微软特别设计了与 Llama 系列相兼容的模型架构。

  2. 4 月 23 日,商汤科技最近宣布推出了其最新的大模型——日日新 SenseNova 5.0 大模型,该模型采用了混合专家(MoE)架构。SenseNova 5.0 在超过 10TB tokens 的数据集上进行了训练,上下文推理长度达到了 200k。

  3. 4 月 25 日,浪潮海岳大模型 2.0 正式发布。在长文本、长图文、长语音处理方面能力进行升级。

开源领域

  1. 4 月 22 日,苹果公司开源了 OpenELM 系列小模型,涵盖 2.7 亿、4.5 亿、11 亿和 30 亿四种参数规模。这些模型能在个人设备上运行,包含从 2.7 亿到 30 亿参数的不同版本,旨在推动设备端 AI 应用。

  2. 4 月 25 日,Snowflake 推出了名为 Arctic 的开源大型语言模型(LLM)。Arctic 模型采用独特的 Dense-MoE 混合 transformer 架构,以低成本实现较高企业智能水平。此外,Arctic 的上下文窗口初始设置为 4K,团队正在研发支持无限序列生成的技术,未来将扩展到 32K。

多模态领域

  1. 4 月 22 日,腾讯 Robotics X 和腾讯 AI Lab 提出了多模态 AI 大模型 SEED-X。该模型是对之前 SEED-LLaMA 的升级版,能够理解任意尺寸和比例的图像,并包含多模态预训练和指令调整两个阶段,使用大规模多模态数据集增强模型的适应性和灵活性。在定量和定性实验评估中展现了卓越的性能,尤其在公共基准测试和现实世界应用场景中表现突出。

  2. 4 月 22 日,西湖大学、浙江大学的研究团队发布多模态大型语言模型(MLLM)——Cobra。它利用 Mamba 语言模型并融合视觉编码器,以线性计算复杂度提供高效的推理性能。在多个基准测试中,Cobra 展现了与参数更大型模型相媲美的性能,尤其是理解和处理视觉信息方面。

  3. 4 月 25 日,北京大学 Yuangroup 开源的 open-sora 更新升级。新增功能包括支持长达 16 秒的视频生成,最高 720p 的分辨率,并且能够处理不同宽高比的文本到图像、文本到视频、图像到视频、视频到视频以及无限长视频的生成需求。

科研领域

  1. 4 月 22 日,美国 AI 蛋白质设计公司 Profluence 推出了世界上首个开源的 AI 生成的基因编辑器 OpenCRISPR-1。成功实现了对人类基因组的精确编辑。该技术基于与 ChatGPT 相同的方法,通过分析大量生物数据,生成了数百万种自然界中不存在的 CRISPR 类蛋白质,扩展了 CRISPR 家族的多样性。

应用探索

新产品新应用/功能

  1. 4 月 20 日,文生图服务平台 Leonardo.ai 引入了新的图片样式引导功能。该功能允许用户上传个性化图片以生成更为精确和多样化的图像成果。该功能类似于用户友好的视觉微调工具,使得用户能够根据自己的需求定制连贯的连环画作或保持视觉一致性的宣传海报。

  2. 4 月 22 日,腾讯公司宣布其协作 SaaS 产品线全面整合了腾讯混元大模型。这包括了企业微信、腾讯会议、腾讯文档等核心产品,以及腾讯乐享、腾讯电子签、腾讯问卷和腾讯云 AI 代码助手等其他工具。

  3. 4 月 25 日,阿里巴巴通义实验室在通义 APP 上线 EMO 模型。该 AI 技术能通过人物照片和音频生成同步口型和表情的视频。为防止技术被滥用,通义实验室在应用内预置了经过审核的音频模板,暂不开放用户自定义音频,并采取了算法和人工两道审核机制,确保内容安全。

智能体

  1. 4 月 25 日,Sanctuary AI 推出了第七代 Phoenix 人形机器人。新一代机器人具有更长的运行时间、更快的构建速度、更低的制造成本、增加的运动范围和耐用性,以及更高的视觉和触觉感知能力,同时与麦格纳国际合作,推动通用人工智能机器人在汽车制造等领域的应用。

基础设施

  1. 4 月 21 日,中山大学、哈佛大学的研究人员针对多模态大模型的创造力进行研究并提出 Creative Leap-of-Thought(CLoT)的训练方法,旨在打破常规思维,激发模型的创新能力。CLoT 能够有效提升多模态大模型在创造性任务中的表现,超越了包括 GPT-4 在内的其他先进模型。此外,该研究还构建了 Oogiri-GO 数据集,为进一步研究提供了资源。

  2. 4 月 22 日,阿里云的百炼平台为 Llama 3 模型提供了一站式的解决方案,覆盖了模型的训练、部署和推理等关键环节。目前,阿里云在一定时间内对 Llama 3 模型的开发和调用实行免费政策,用户可以在百炼模型广场上申请试用 Llama 3,并与其他模型进行性能对比。

  3. 4 月 23 日,华为云在香港峰会上宣布,将在香港提供即开即用的 AI 云服务,为大模型训练和推理提供高效、长稳、可靠的 AI 算力。华为云通过全链路云化工具链支持大模型的高效迁移、开发和运行,并特别优化了昇腾云的大模型专区,以支持“百模千态”应用的快速落地。

  4. 4 月 24 日,高通发布骁龙 X Plus 芯片。该芯片采用 4nm 工艺,具备 10 核心和最高 3.4GHz 主频,GPU 算力达 3.8TFLOPS,并支持先进的连接技术。该芯片在 AI 性能上达到 45 TOPS,与骁龙 X Elite 相当,且在多线程 CPU 性能上超越了苹果 M3 芯片。


报告推荐

Sora 来袭,国内发展文生视频模型的土壤如何?各公司用脚投票开闭源路线的当下,开源在大模型市场进程中的价值正在被重新定义吗?人型机器人重回视野,大模型是否助力其刷新能力上限?Devin 和智能编码助手是同一条赛道上的不同节点?多家企业宣布 All in AI,对市场意味着什么?答案尽在 InfoQ 研究中心近期发布的《2024 年第 1 季度大模型监测报告》,关注「AI 前线」公众号,回复「季度报告」免费下载,一睹为快吧~



报告预告

AGI 究竟是什么?AI Agent 如何助力人工智能走向 AGI 时代?在营销、金融、教育、零售、企服又有哪些典型应用和案例?欢迎大家持续关注 InfoQ 研究中心即将发布的《中国 AGI 市场发展研究报告 2024》。



公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2024-04-29 16:0610043

评论

发布
暂无评论

给计算机专业学生的几条建议

MySQL从删库到跑路

GitHub Linux vmware 大学生日常 计算机

让人一夜暴富的区块链,新时代革命的开始

CECBC

区块链 时代革命

架构师训练营第一期 - 第三周课后作业

卖猪肉的大叔

架构师训练营第一期-第三周学习总结

卖猪肉的大叔

极客大学架构师训练营

一个草根的日常杂碎(10月4日)

刘新吾

随笔杂谈 生活记录 社会百态

LeetCode题解:49. 字母异位词分组,数组计数+哈希表,JavaScript,详细注释

Lee Chen

大前端 LeetCode

Serverless Frist 的渐进式应用开发框架 Malagu

木香丘

开源 Serverless 云原生 Malagu Framework

架构师训练营第 1 期 - 第 3 周 - 学习总结

wgl

极客大学架构师训练营

架构师训练营 Week4 - 课后作业

缓存 自动化 异步 集群 冗余

Web Storage API的介绍和使用

程序那些事

web tech web storage web storage api storage api

一个草根的日常杂碎(10月2日)

刘新吾

随笔杂谈 生活记录 社会百态

区块链与分布式存储构建数据要素市场基础设施

CECBC

区块链 分布式

架构师训练营 - 命题作业 - 第三周

徐时良

极客大学架构师训练营

架构师训练营第三周学习笔记

一马行千里

学习 极客大学架构师训练营

【架构师训练营 1 期】第三周作业

诺乐

一个草根的日常杂碎(10月3日)

刘新吾

随笔杂谈 生活记录 社会百态

小伙伴问我:如何搭建Maven私服?我连夜肝了这篇实战文章!!

冰河

maven 私服 仓库

CECBC区块链专委会副主任吴桐主讲光大证券法定数字货币讲座

CECBC

区块链 数字货币

第二节课后作业

happy

团队出游筹备清单

boshi

团队建设 团队文化

Serverless与传统Web框架的迁移

刘宇

Serverless

理想的程序员

极客思享

Architecture Phase1 Week4:HomeWork

phylony-lu

极客大学架构师训练营

BigDecimal是如何搞定精度缺失的

hasWhere

VUE第一个项目怎么读懂

MySQL从删库到跑路

Java html5 Vue 大前端 vux

架构师训练营第四周学习总结

邓昀垚

极客大学架构师训练营

【架构师训练营 1 期】第三周学习总结

诺乐

spring-boot-route(五)整合Swagger生成接口文档

Java旅途

Java springboot swagger

Appium之「元素定位和UiAutomator表达式」

清菡软件测试

架构师训练营 - 学习笔记 - 第三周

徐时良

极客大学架构师训练营

架构师训练营第 1 期 - 第 3 周 - 作业

wgl

极客大学架构师训练营

大模型的“瘦身”革命:巨头逐鹿轻量化大模型 | 大模型一周大事_AI&大模型_InfoQ研究中心_InfoQ精选文章