阿里云「飞天发布时刻」2024来啦!新产品、新特性、新能力、新方案,等你来探~ 了解详情
写点什么

Stability、Mistral、Databricks、通义、A21 Labs 开源领域五连招,其中三个是 MoE!|大模型一周大事

  • 2024-04-01
    北京
  • 本文字数:3772 字

    阅读完需:约 12 分钟

Stability、Mistral、Databricks、通义、A21 Labs开源领域五连招,其中三个是MoE!|大模型一周大事

大模型的快节奏发展,让了解最新技术动态、积极主动学习成为每一位从业者的必修课。InfoQ 研究中心期望通过每周更新大模型行业最新动态,为广大读者提供全面的行业回顾和要点分析。现在,让我们回顾过去一周的大模型重大事件吧。

一、重点发现

本周,开源领域五模型先后问世,Stability AI 开源了 Stable Code Instruct-3B,Mistral AI 宣布 Mistral 7B v0.2 Base Model, Databricks 开源了其 MoE 模型 DBRX,通义千问团队发布 MoE 模型:Qwen1.5-MoE-A2.7B,A21 Labs 宣布开源 MoE 大模型 Jamba。其中,DBRX、Qwen1.5-MoE-A2.7B 和 Jamba 都是 MoE 模型(混合专家模型)。

自从去年关于 GPT-4 的爆料和下半年 Mistral AI 开源了其 Mixtal-8×7B-MoE 模型,在广泛的关注下,MoE 成为了大语言模型的一个重要研究方向。MoE 本质是将计算负载分配给专门处理特定任务的专家,术业有专攻,这种方式不仅有利于模型进行更高效的预训练和推理速度,还有助于提升模型处理复杂任务的能力。我们也期待更加高效的模型架构,为 AI 带来更多的可能性。

二、具体内容

大模型持续更新

  1. 距离 Grok-1 的发布仅过去一周,3 月 29 日,马斯克旗下的人工智能公司 xAI 正式推出了 Gork 大模型的最新版本 Grok-1.5。新一代模型实现了长上下文理解和高级推理能力,并优化了数学和代码相关任务中的性能。

多模态领域

  1. 华中科技大学和金山的研究人员在最新的研究《TextMonkey: An OCR-Free Large Multimodal Model for Understanding Document》中提出了一个专注于文本相关任务(包括文档问答和场景文本问答)的多模态大模型 TextMonkey。在多个场景文本和文档的测试中,TextMonkey 处于国际领先地位,在办公自动化、智慧教育、智慧金融等行业有着强大的应用潜力。

  2. Suno 团队近日推出的 V3 模型首次实现了生成广播质量的音乐。它可以根据简单的提示创建从歌词到人声和配器的所有内容,甚至可以引导它准确选择想要的流派,从三角洲蓝调(Delta Blues)到电子寒潮,还可以变换方言。

  3. 来自理海大学、微软研究院的研究者在最新的研究《Mora: Enabling Generalist Video Generation via A Multi-Agent Framework》提出了一种多智能体框架 Mora,该框架整合了几种先进的视觉 AI 智能体,以复制 Sora 所展示的通用视频生成能力。广泛的实验结果表明,Mora 在各种任务中达到了接近 Sora 的性能。然而,当从整体上评估时,Mora 与 Sora 之间存在明显的性能差距。

  4. Picsart AI Resarch 等多个机构联合提出了一种新的文生视频方法:StreamingT2V。这也是一种自回归方法,并配备了长短期记忆模块,进而可以生成具有时间一致性的长视频。据了解,生成的视频帧数可达 1200 帧,时间可达 2 分钟。相关研究成果发布在论文《StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text》中。

  5. 3 月 27 日,创新奇智在北京举办的发布会上发布了更为强大的奇智孔明工业大模型 2.0 版本( AInno-75B )。这款大型模型拥有处理多种信息形态的能力,涵盖了文本、图像和视频等。它甚至能够整合工业场景中特有的数据类型,例如计算机辅助设计(CAD)图纸和脑电图(EEG)信号。其输出同样具有多样性,可以生成包括文本、图像、视频、计算机辅助设计图以及具体操作行为等多种形式的信息。

开源领域

  1. 3 月 25 日,Stability AI 开源了小体量预训练模型 Stable Code Instruct 3B。这是一个基于 Stable Code 3B 的指令调整编码语言模型。给出自然语言 prompt,该模型可以处理各种任务,例如代码生成、数学和其他软件工程相关的任务。这款模型不仅增强了代码补全能力,还支持自然语言交互,旨在提高编程和软件开发相关任务的效率和直观性。

  2. 3 月 25 日,Mistral AI 宣布 Mistral 7B v0.2 Base Model 开源,其是 Mistral-7B-Instruct-v0.2 背后的原始预训练模型。此次更新主要包括三个方面:① 将 8K 上下文提到了 32K;② Rope Theta = 1e6;③ 取消滑动窗口。据了解,此次开放基础模型之后,开发者们就可以根据自己的需求进行微调了。

  3. 3 月 28 日, Databricks 开源了通用大模型 DBRX,这是一款拥有 1320 亿参数的混合专家模型(MoE),并支持 32k Tokens 的最长上下文长度,Base  和 Instruct 版本已经在 Github 和 Hugging Face 上发布。

  4. 3 月 28 日,通义千问团队发布了他们的第一个 MoE 模型,Qwen1.5-MoE-A2.7B。模型大小缩小三分之一,性能却并未折损。同时,相比 Qwen1.5-7B,Qwen1.5-MoE-A2.7B 的训练成本降低了 75%,推理速度则提升了 1.74 倍。

  5. 3 月 29 日,A21 Labs 宣布开源 520 亿参数的全新 MOE 大模型 Jamba,支持 256K 的上下文长度。

科研领域

  1. 同济大学和中国科学院的研究团队开发了一种机器学习预测器 PSPIre,它结合了残基级和结构级特征,用于精确预测相分离蛋白质(PSP)。同时,各种数据集的评估表明,该模型在将 noID-PSP 与非 PSP 进行分类方面显著优于当前的预测器。相关研究成果撰写在论文《Machine learning predictor PSPire screens for phase-separating proteins lacking intrinsically disordered regions》中。

  2. 跨维智能、香港中文大学(深圳)及华南理工大学的研究人员在《SAM-6D: Segment Anything Model Meets Zero-Shot 6D Object Pose Estimation》中创新性地提出了 SAM-6D 框架,该框架在零样本条件下实现 6D 物体姿态估计。它利用零样本分割技术生成候选对象,并借助独特的物体匹配分数来识别目标物体。此外,SAM-6D 将姿态估计转化为局部到局部的点集匹配问题,通过引入 Background Token 设计和两阶段点集匹配模型,为任意物体的姿态估计提供了有效的解决方案。

应用探索

新产品新应用/功能

  1. 阿里通义千问重磅升级,向所有人免费开放 1000 万字的长文档处理功能,成为全球文档处理容量第一的 AI 应用。所有金融、法律、科研、医疗、教育等领域的专业人士,都可通过通义千问网站和 APP 快速读研报、分析财报、读科研论文、研判案情、读医疗报告、解读法律条文、分析考试成绩、总结深度文章。

  2. 淘宝天猫集团自研大模型“淘宝星辰”官网已经上线,预计布局之后向公众开放。淘宝星辰的训练数据库中有大量电商消费数据,据推测将会为用户提供面向电商和生活服务场景增强的文案生成、多轮会话、知识问答、智能决策等能力。

  3. 百度智能云最近一口气升级了 7 个大模型企业级应用,并且全部推出 SaaS 版本,企业在网页端即可使用,无需进行复杂的部署和配置,真正实现了开箱即用。这一举措将大大降低企业使用大模型的门槛,推动大模型技术在企业中的普及和应用。这 7 个应用分别是百度智能云曦灵数字人平台、百度智能云客悦智能客服平台、内容创作平台“一念”、知识管理平台“甄知”、超级办公入口“超级助理”、生成式 BI 产品“百度 GBI”、代码助手“Baidu Comate”。

智能体

  1. 吉林大学、上海交通大学和伦敦大学学院合作提出了 DS-Agent,这一智能体的角色定位是一名数据科学家,其目标是在自动化数据科学中处理复杂的机器学习建模任务。技术层面上,团队采用基于案例的推理策略,赋予了智能体 “参考” 他山之石的能力,使其能够利用以往解决类似问题的经验来解决新问题。相关成果发表在《DS-Agent: Automated Data Science by Empowering Large Language Models with Case-Based Reasoning》中。

  2. 立志成为 Cognition AI 的 Devin 的竞争性开源替代方案 Devika 已发布。 Devika 拥有高级 AI 规划和推理能力,可以进行针对性的上下文关键词提取、多种编程语言的代码编写和动态代理状态跟踪和可视化,同时也可以无缝进行网络浏览和信息收集。当然,deviika 也可以通过聊天界面进行自然语言交互,并支持 Claude 3、GPT-4、GPT-3.5 和通过 Ollama 支持的本地语言模型。

终端 AI

  1. 3 月 26 日,2024 全新英特尔商用客户端 AI PC 产品发布会在北京举办,基于 ChatGLM 端侧模型打造的「智谱 AI PC 智能助手」也正式发布。该款智能助手是针对英特尔全新的酷睿 Ultra 处理器,在 ChatGLM 端侧模型的基础上训练、适配并部署的最新端侧 AI 模型,拥有高性能、低延迟的特点。在远程管理、安全防护、跨设备 IT 管理和运维等方面可为 PC 用户提供更加轻松、高效的 AI 体验。

  2. 3 月 28 日,阿里云与知名半导体公司 MediaTek 联发科联合宣布,通义千问 18 亿、40 亿参数大模型已成功部署进天玑 9300 移动平台,可离线流畅运行即时且精准的多轮 AI 对话应用,连续推理功耗增量不到 3W,实现了手机 AI 体验的大幅提升。

基础设施

  1. 3 月 28 日,云天励飞举办 AI 大模型产品发布会,正式发布“深目” AI 模盒,实现了算法在线学习、自我迭代。据介绍,该产品能够做到“3 个 90%”——覆盖场景超过 90%、算法精度超过 90%,使用成本降低 90 %。可以说真正地解决大模型在场景落地最后一公里的问题,帮助更多中小企业客户轻松使用大模型。


报告预告

Sora 来袭,国内如何迅速跟上?开源在大模型市场进程中的价值正在被重新定义吗?人型机器人重回视野,其能力是否有所提升和刷新?Devin 和智能编码助手是同一条赛道上的不同节点?多家企业宣布 All in AI,对市场意味着什么?InfoQ 研究中心即将发布的《2024 年第 1 季度大模型监测报告》,即将给出答案。



公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2024-04-01 17:597033

评论

发布
暂无评论

MobPush Android SDK合规指南

MobTech袤博科技

使用 CnosDB 与 TensorFlow 进行时间序列预测

CnosDB

tensorflow 时序数据库 时间序列预测 CnosDB

对话 BitSail Contributor | 吴畅:从好奇,到深入

字节跳动数据平台

大数据 开源 开发者 数据集成 企业号 3 月 PK 榜

火山引擎DataTester:抖音的设计团队是如何用A/B测试实现高效优化的?

字节跳动数据平台

大数据 AB testing实战 抖音 A/B 测试 企业号 3 月 PK 榜

手把手教小伙伴们使用 Nginx 部署 TienChin 项目!

江南一点雨

Java nginx Vue 前后端分离 springboot

【数仓运维实践】关于GaussDB(DWS)单SQL磁盘空间管控

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 3 月 PK 榜

你掌握了吗?在PCB设计中,又快又准地放置元件

华秋PCB

模块 元器件 PCB 原理图 PCB设计

Open-GeoIP:超简单的开源IP地址位置查询服务

冯骐

golang 开源 网络 ip地理定位 geoip

直播|SeaTunnel 与 StarRocks 生态融合--让大数据处理回归「简单」

StarRocks

数据库 数据库·

腾讯首席架构师亲自码出的“Redis深度笔记”PDF版限时分享

开心学Java

Java 数据库 redis 腾讯

天天预约|新功能工具「美团优惠券」上线啦!

天天预约

最新Github霸榜标星96K!号称Java八股“PLUS”版,限时开源!

Java编程日记

Java 程序员 架构 Java 面试 java程序员

数字孪生智慧停车场三维可视化管理云平台

2D3D前端可视化开发

智慧停车场 停车场三维可视化 数字孪生智慧停车 无人值守停车场 停车场物联网系统

远程控制电脑软件哪个好?

RayLink远程工具

远程控制软件 远控软件 远程桌面连接

国内首家!云科通明湖应用交付控制器通过金融信创生态实验室适配验证

云科通明湖

中国券商数字化转型趋势报告2023

易观分析

金融 券商 经济

宝刀未老?低代码何德何能受大厂们的推崇

这我可不懂

低代码 数字化 大厂 JNPF

2023年市场快速恢复,社交资讯营销如何把握新机遇

易观分析

社交 资讯

2023腾讯最新发布JVM调优笔记,轻松拿捏JVM面试,调优

开心学Java

Java JVM GC

数仓发展史:大数据的“底气”来自于哪?

鼎道智联

大数据 数据仓库

基于ByteHouse构建实时数仓实践

字节跳动数据平台

数据库 云原生 Clickhouse 企业号 3 月 PK 榜

镜舟数据库与用友 YonBIP 完成兼容性认证,携手赋能企业数智化发展

镜舟科技

数据库

MobPush,专业和免费的消息推送SDK

MobTech袤博科技

计算界年度大赛“先导杯”再度来袭!

科技热闻

虚拟机专用Win10/win11系统镜像下载(m1/intel合集)

真大的脸盆

Mac win10 Mac 软件 win11 win镜像文件

软件测试/测试开发丨app自动化测试之Capability 使用进阶

测试人

软件测试 自动化测试 测试开发 appium capability

2023 年开源现状报告确认安全是首要问题

开源雨林

统计学 开源软件 开源现状

对话抖音电商:量级庞大、参差不齐,“数据质量治理”有妙招!

字节跳动数据平台

大数据 数据治理 电商 抖音 企业号 3 月 PK 榜

《流浪地球2》里的机器人企业,如何高质量地交付产品?

万事ONES

Github霸榜!由阿里出品的最新java面试极速突击核心讲

Java编程日记

Java 架构 面试 java程序员 java面试

云原生月报丨值得开发者关注的最新动态

阿里巴巴中间件

阿里云 云原生 月报

Stability、Mistral、Databricks、通义、A21 Labs开源领域五连招,其中三个是MoE!|大模型一周大事_AI&大模型_InfoQ研究中心_InfoQ精选文章