写点什么

大模型的“瘦身”革命:巨头逐鹿轻量化大模型 | 大模型一周大事

  • 2024-04-29
    北京
  • 本文字数:2664 字

    阅读完需:约 9 分钟

大小:1.35M时长:07:53
大模型的“瘦身”革命:巨头逐鹿轻量化大模型 | 大模型一周大事

大模型的快节奏发展,让了解最新技术动态、积极主动学习成为每一位从业者的必修课。InfoQ 研究中心期望通过每周更新大模型行业最新动态,为广大读者提供全面的行业回顾和要点分析。现在,让我们回顾过去一周的大模型重大事件吧。

一、重点发现

本周,轻量化和设备端集成成为行业的热点。微软的 Phi-3 系列小模型和苹果的 OpenELM 系列端侧小模型的发布,展现了 AI 应用向移动设备端迁移的趋势。这也预示着未来智能手机和笔记本电脑等设备将能够处理以往只能在云端或高性能服务器上执行的复杂任务,极大地扩展了端侧 AI 的潜力和应用范围。此外,长文本处理能力的竞争再次增大。Kimi 发布之后,商汤和浪潮分别升级自身模型的长文本能力并展开第二波围剿。

二、具体内容

大模型持续更新

  1. 4 月 23 日,微软推出了 Phi-3 系列小模型,并发布了其技术报告。值得注意的是,Phi-3-mini 型号,仅拥有 3.8 亿参数,已在众多性能评估标准上超越了 Llama 3 模型。为了促进开源社区的发展,微软特别设计了与 Llama 系列相兼容的模型架构。

  2. 4 月 23 日,商汤科技最近宣布推出了其最新的大模型——日日新 SenseNova 5.0 大模型,该模型采用了混合专家(MoE)架构。SenseNova 5.0 在超过 10TB tokens 的数据集上进行了训练,上下文推理长度达到了 200k。

  3. 4 月 25 日,浪潮海岳大模型 2.0 正式发布。在长文本、长图文、长语音处理方面能力进行升级。

开源领域

  1. 4 月 22 日,苹果公司开源了 OpenELM 系列小模型,涵盖 2.7 亿、4.5 亿、11 亿和 30 亿四种参数规模。这些模型能在个人设备上运行,包含从 2.7 亿到 30 亿参数的不同版本,旨在推动设备端 AI 应用。

  2. 4 月 25 日,Snowflake 推出了名为 Arctic 的开源大型语言模型(LLM)。Arctic 模型采用独特的 Dense-MoE 混合 transformer 架构,以低成本实现较高企业智能水平。此外,Arctic 的上下文窗口初始设置为 4K,团队正在研发支持无限序列生成的技术,未来将扩展到 32K。

多模态领域

  1. 4 月 22 日,腾讯 Robotics X 和腾讯 AI Lab 提出了多模态 AI 大模型 SEED-X。该模型是对之前 SEED-LLaMA 的升级版,能够理解任意尺寸和比例的图像,并包含多模态预训练和指令调整两个阶段,使用大规模多模态数据集增强模型的适应性和灵活性。在定量和定性实验评估中展现了卓越的性能,尤其在公共基准测试和现实世界应用场景中表现突出。

  2. 4 月 22 日,西湖大学、浙江大学的研究团队发布多模态大型语言模型(MLLM)——Cobra。它利用 Mamba 语言模型并融合视觉编码器,以线性计算复杂度提供高效的推理性能。在多个基准测试中,Cobra 展现了与参数更大型模型相媲美的性能,尤其是理解和处理视觉信息方面。

  3. 4 月 25 日,北京大学 Yuangroup 开源的 open-sora 更新升级。新增功能包括支持长达 16 秒的视频生成,最高 720p 的分辨率,并且能够处理不同宽高比的文本到图像、文本到视频、图像到视频、视频到视频以及无限长视频的生成需求。

科研领域

  1. 4 月 22 日,美国 AI 蛋白质设计公司 Profluence 推出了世界上首个开源的 AI 生成的基因编辑器 OpenCRISPR-1。成功实现了对人类基因组的精确编辑。该技术基于与 ChatGPT 相同的方法,通过分析大量生物数据,生成了数百万种自然界中不存在的 CRISPR 类蛋白质,扩展了 CRISPR 家族的多样性。

应用探索

新产品新应用/功能

  1. 4 月 20 日,文生图服务平台 Leonardo.ai 引入了新的图片样式引导功能。该功能允许用户上传个性化图片以生成更为精确和多样化的图像成果。该功能类似于用户友好的视觉微调工具,使得用户能够根据自己的需求定制连贯的连环画作或保持视觉一致性的宣传海报。

  2. 4 月 22 日,腾讯公司宣布其协作 SaaS 产品线全面整合了腾讯混元大模型。这包括了企业微信、腾讯会议、腾讯文档等核心产品,以及腾讯乐享、腾讯电子签、腾讯问卷和腾讯云 AI 代码助手等其他工具。

  3. 4 月 25 日,阿里巴巴通义实验室在通义 APP 上线 EMO 模型。该 AI 技术能通过人物照片和音频生成同步口型和表情的视频。为防止技术被滥用,通义实验室在应用内预置了经过审核的音频模板,暂不开放用户自定义音频,并采取了算法和人工两道审核机制,确保内容安全。

智能体

  1. 4 月 25 日,Sanctuary AI 推出了第七代 Phoenix 人形机器人。新一代机器人具有更长的运行时间、更快的构建速度、更低的制造成本、增加的运动范围和耐用性,以及更高的视觉和触觉感知能力,同时与麦格纳国际合作,推动通用人工智能机器人在汽车制造等领域的应用。

基础设施

  1. 4 月 21 日,中山大学、哈佛大学的研究人员针对多模态大模型的创造力进行研究并提出 Creative Leap-of-Thought(CLoT)的训练方法,旨在打破常规思维,激发模型的创新能力。CLoT 能够有效提升多模态大模型在创造性任务中的表现,超越了包括 GPT-4 在内的其他先进模型。此外,该研究还构建了 Oogiri-GO 数据集,为进一步研究提供了资源。

  2. 4 月 22 日,阿里云的百炼平台为 Llama 3 模型提供了一站式的解决方案,覆盖了模型的训练、部署和推理等关键环节。目前,阿里云在一定时间内对 Llama 3 模型的开发和调用实行免费政策,用户可以在百炼模型广场上申请试用 Llama 3,并与其他模型进行性能对比。

  3. 4 月 23 日,华为云在香港峰会上宣布,将在香港提供即开即用的 AI 云服务,为大模型训练和推理提供高效、长稳、可靠的 AI 算力。华为云通过全链路云化工具链支持大模型的高效迁移、开发和运行,并特别优化了昇腾云的大模型专区,以支持“百模千态”应用的快速落地。

  4. 4 月 24 日,高通发布骁龙 X Plus 芯片。该芯片采用 4nm 工艺,具备 10 核心和最高 3.4GHz 主频,GPU 算力达 3.8TFLOPS,并支持先进的连接技术。该芯片在 AI 性能上达到 45 TOPS,与骁龙 X Elite 相当,且在多线程 CPU 性能上超越了苹果 M3 芯片。


报告推荐

Sora 来袭,国内发展文生视频模型的土壤如何?各公司用脚投票开闭源路线的当下,开源在大模型市场进程中的价值正在被重新定义吗?人型机器人重回视野,大模型是否助力其刷新能力上限?Devin 和智能编码助手是同一条赛道上的不同节点?多家企业宣布 All in AI,对市场意味着什么?答案尽在 InfoQ 研究中心近期发布的《2024 年第 1 季度大模型监测报告》,关注「AI 前线」公众号,回复「季度报告」免费下载,一睹为快吧~



报告预告

AGI 究竟是什么?AI Agent 如何助力人工智能走向 AGI 时代?在营销、金融、教育、零售、企服又有哪些典型应用和案例?欢迎大家持续关注 InfoQ 研究中心即将发布的《中国 AGI 市场发展研究报告 2024》。



2024-04-29 16:0611657

评论

发布
暂无评论
发现更多内容

带你体验给黑白照片上色

华为云开发者联盟

人工智能 华为云 图像 企业号九月金秋榜

大佬就是强!意外收获史诗级分布式资源,从基础到进阶,干货满满!

收到请回复

Java 云计算 开源 架构 编程语言

两万字带你了解Java多线程(详细大总结)

Java快了!

新书上市|一位家长的忠告:长大后不成才的孩子,父母都忽视了这个点!

图灵社区

育儿 教育 脑科学 基因

SQL为什么历经半个世纪却经久不衰?

雨果

sql

流日志轻松应对“10亿级别IP对”复杂场景,实现超大规模混合云网络流量可视化

百度Geek说

运维 数据 流量 企业号九月金秋榜

马蹄链Dapp系统开发(智能合约)

薇電13242772558

快速体验 MicroK8s 开箱即用的服务网格

Flomesh

Service Mesh 服务网格

3个轻量级物联网新品实验,带您深度体验IoT开发

华为云开发者联盟

物联网 沙箱实验 企业号九月金秋榜

聊聊数据库主键那点事儿

Steven

如何进行 Apache Doris 集群 Docker 快速部署

SelectDB

数据库 Doris Docker 镜像 安装 & 部署 企业号九月金秋榜

提高数据可视化效果的五个原则

博文视点Broadview

浓缩即精华!腾讯云大神亲码“redis深度笔记”,堪称面试宝典!

收到请回复

Java 云计算 开源 架构 编程语言

如何利用OpenHarmony ArkUI的Canvas组件实现涂鸦功能?

OpenHarmony开发者

OpenHarmony

Java之static关键字的应用【工具类、代码块和单例】

Fire_Shield

static 9月月更 实际应用

堪称神作!啃透这份JVM笔记,轻松搞定阿里30K面试!!

收到请回复

Java 云计算 开源 架构 编程语言

一文了解循环神经网络

华为云开发者联盟

人工智能 语音识别 企业号九月金秋榜

云原生底座之上,顺丰智慧供应链领跑的秘密

华为云开发者联盟

云计算 云原生 后端 企业号九月金秋榜

面了个阿里拿38k出来的,让我见识到了基础顶端

程序知音

Java java面试 后端技术 秋招 八股文

MobTech短信验证ApiCloud端SDK

MobTech袤博科技

API 短信验证

阿里内部高产的 SpringBoot 保姆级笔记,面面俱到,太全了!

收到请回复

Java 云计算 开源 架构 编程语言

2022年最新【Java经典面试800题】面试必备,查漏补缺:多线程+spring+JVM调优+分布式+redis+算法

收到请回复

Java 云计算 开源 架构 编程语言

Redis数据倾斜与JD开源hotkey源码分析揭秘

京东科技开发者

数据库 数据倾斜 key Redis 数据结构 redis\

中国的时区为什么是Asia/Shanghai,而不是Asia/Beijing?

Sher10ck

TiFlash 源码阅读(九)TiFlash 中常用算子的设计与实现

PingCAP

#TiDB TiDB 源码解读

SAP Cloud Application Programming 编程模型(CAP)的设计准则

汪子熙

CAP Cloud SAP Cloud Studio 9月月更

漏洞管理流程

SEAL安全

漏洞修复 漏洞管理 企业号九月金秋榜

新书上市|一位家长的忠告:长大后不成才的孩子,父母都忽视了这个点!

图灵教育

育儿 教育 脑科学 基因

每日算法刷题Day14-反转链表、两个链表的第一个公共结点、删除链表中重复的节点

timerring

算法题 9月月更

为啥是SQL?互联网投资回报比最高的技能是什么?

雨果

sql

区块链追溯:让冷链物流“热”起来!

旺链科技

区块链 产业区块链 企业号九月金秋榜 冷链物流

大模型的“瘦身”革命:巨头逐鹿轻量化大模型 | 大模型一周大事_AI&大模型_崔白洁 | InfoQ研究中心_InfoQ精选文章