9 月 13 日,2025 Inclusion・外滩大会「开源嘉年华」正在限量报名中! 了解详情
写点什么

Meta 开源 Llama 4!经过重新设计,首次采用 MoE

  • 2025-04-06
    北京
  • 本文字数:1030 字

    阅读完需:约 3 分钟

大小:475.60K时长:02:42
Meta开源Llama 4!经过重新设计,首次采用MoE

Meta 今日发布了首批 Llama 4 系列模型:Llama 4 ScoutLlama 4 Maverick。这两款模型是目前该公司最先进的版本,在多模态能力方面表现出色,处于同类产品中的领先地位。


 

据 Meta 表示,这些模型均基于“大量未标注的文本、图像和视频数据”进行训练,具备广泛的视觉理解能力。

 

据报道,此前 DeepSeek 发布的开源模型(如 R1 和 V3)在性能上与 Meta 之前的旗舰 Llama 模型相当甚至更优,促使 Meta 加快了 Llama 4 的研发节奏。为应对竞争,Meta 内部曾设立“作战室”以深入研究 DeepSeek 如何实现更低成本的模型部署与运行。如今,Llama 4 的性能与 V3 相比,性能孰优孰劣依然是大家关注的话题。

 

Meta GenAI 负责人在 X 上表示,本次发布标志着 Llama 系列的全面重构完成。他表示,此次推出的是 Llama 4 系列中首批开源模型,代表了该系列发展的又一重要里程碑。本次发布的主要亮点有:

 

📌 Llama 4 系列在架构层面进行了全面升级,采用先进的专家混合(MoE,Mixture-of-Experts)架构,并在原生多模态任务上进行了联合训练。此次发布包括 Llama 4 Scout 和 Llama 4 Maverick,同时也首次预览了更强大的 Llama 4 Behemoth。


 

📌 Llama 4 Scout 是目前性能最强的小型模型,拥有 170 亿活跃参数和 16 个专家模块。该模型具备出色的推理速度,原生支持多模态,具备强大的智能能力,支持业界领先的 1000 万以上 token 上下文窗口,并且可在单张 GPU 上运行。

 

📌 Llama 4 Maverick 是当前同类中最强的多模态模型,在多个公开评测中超越 GPT-4o 和 Gemini 2.0 Flash,在推理和编程任务上与 DeepSeek v3 表现相当,同时活跃参数不到其一半。该模型在性能与成本比方面表现出色,其实验性对话版本在 LMArena 榜单中获得 1417 的 ELO 分数,并且也可在单机环境中运行。


 

📌 Meta 还预览了 Llama 4 系列中性能最强的模型 —— Llama 4 Behemoth,该模型在多个 STEM 基准测试中超过 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro。Llama 4 Behemoth 目前仍在训练中,Meta 表示将持续披露其更多细节。

 

值得注意的是 Llama 4 的授权条款,延续此前版本的做法,月活跃用户超过 7 亿的企业需向 Meta 申请特别许可,Meta 有权自主决定是否授予许可。

 

Meta 在博客中表示:“Llama 4 模型的发布标志着 Llama 生态系统进入新纪元。这只是 Llama 4 系列的起点。”

 

Llama 4 Scout 和 Llama 4 Maverick 现已开放下载,地址:

 

2025-04-06 10:566758

评论

发布
暂无评论

有了这个告警系统,DBA提前预警不是难题

华为云开发者联盟

数据库 监控 GaussDB(DWS) 智能监控 告警系统

OpenMLDB Weekly Update(2021.10.4-2021.10.11)

第四范式开发者社区

第四范式 开源技术 OpenMLDB 机器学习数据库

SimpleDateFormat线程不安全了?这里有5种解决方案

华为云开发者联盟

安全 线程 变量 SimpleDateFormat

OpenMLDB: 一文了解窗口倾斜优化技术细节

第四范式开发者社区

机器学习 数据库 开源技术 OpenMLDB

OpenMLDB Weekly Update(2021.8.30-2021.9.6)

第四范式开发者社区

机器学习 数据库 第四范式 开源技术 OpenMLDB

官方线索|金山集团“程风破浪,码动未来”

xcbeyond

1024我在现场

分布式事务开山之作,带你深入理解分布式事务

华章IT

人脸识别主板能应用哪些产品设备?

双赞工控

安卓主板 工控主板 主板定制

ARouter 在多 module 项目中实战

逆锋起笔

android arouter 路由框架 阿里arouter

现成DeFi交易所系统源码开发

SpringBoot 自动装配

黄敏

从零到熟悉,带你掌握Python len() 函数的使用

华为云开发者联盟

Python 数据结构 函数 内置函数 len()

现成秒合约交易APP系统开发模板

OpenMLDB:一文了解带参数查询语句(paramterized query statement) 的细节

第四范式开发者社区

机器学习 数据库 GitHub 开源 OpenMLDB

Defi系统开发搭建(案例)

开发者测试你必须知道的7件事

华为云开发者联盟

软件 开发者 测试 代码 测试工程师

OpenMLDB Weekly Update(2021.9.12-2021.9.19)

第四范式开发者社区

人工智能 机器学习 开源技术 OpenMLDB

阿里巴巴10个顶级开源项目,确定不来看看?

Java 阿里巴巴 开源 面试 项目

OpenMLDB Weekly Update(2021.10.11-2021.10.18)

第四范式开发者社区

第四范式 开源技术 OpenMLDB 机器学习数据库

百度商业托管页系统高可用建设方法和实践

百度Geek说

架构 高可用

OpenMLDB Weekly Update(2021.9.5-2021.9.12)

第四范式开发者社区

机器学习 数据库 第四范式 开源技术 OpenMLDB

DTCC 干货分享:Real Time DaaS - 面向TP+AP业务的数据平台架构

tapdata

永续合约APP系统开发简介(搭建)

钉钉宜搭3.0发布:易连接、酷数据、更安全

科技热闻

模块一

迪马

一周信创舆情观察(10.11~10.17)

统小信uos

CMP是什么意思?谁能解释下?

行云管家

cmp 多云管理平台 多云管理 云管平台

【云管平台】多云混合云管理平台用哪个好?

行云管家

公有云 私有云 混合云 多云 云管理

OpenMLDB Weekly Update(2021.9.19-2021.9.26)

第四范式开发者社区

机器学习 数据库 开源技术 OpenMLDB

OpenMLDB Weekly Update(2021.9.27-2021.10.4)

第四范式开发者社区

机器学习 数据库 开源 第四范式 OpenMLDB

架构3期模块一作业

渐行渐远

架构实战营

Meta开源Llama 4!经过重新设计,首次采用MoE_生成式 AI_Tina_InfoQ精选文章