写点什么

Meta 开源 Llama 4!经过重新设计,首次采用 MoE

  • 2025-04-06
    北京
  • 本文字数:1030 字

    阅读完需:约 3 分钟

大小:475.60K时长:02:42
Meta开源Llama 4!经过重新设计,首次采用MoE

Meta 今日发布了首批 Llama 4 系列模型:Llama 4 ScoutLlama 4 Maverick。这两款模型是目前该公司最先进的版本,在多模态能力方面表现出色,处于同类产品中的领先地位。


 

据 Meta 表示,这些模型均基于“大量未标注的文本、图像和视频数据”进行训练,具备广泛的视觉理解能力。

 

据报道,此前 DeepSeek 发布的开源模型(如 R1 和 V3)在性能上与 Meta 之前的旗舰 Llama 模型相当甚至更优,促使 Meta 加快了 Llama 4 的研发节奏。为应对竞争,Meta 内部曾设立“作战室”以深入研究 DeepSeek 如何实现更低成本的模型部署与运行。如今,Llama 4 的性能与 V3 相比,性能孰优孰劣依然是大家关注的话题。

 

Meta GenAI 负责人在 X 上表示,本次发布标志着 Llama 系列的全面重构完成。他表示,此次推出的是 Llama 4 系列中首批开源模型,代表了该系列发展的又一重要里程碑。本次发布的主要亮点有:

 

📌 Llama 4 系列在架构层面进行了全面升级,采用先进的专家混合(MoE,Mixture-of-Experts)架构,并在原生多模态任务上进行了联合训练。此次发布包括 Llama 4 Scout 和 Llama 4 Maverick,同时也首次预览了更强大的 Llama 4 Behemoth。


 

📌 Llama 4 Scout 是目前性能最强的小型模型,拥有 170 亿活跃参数和 16 个专家模块。该模型具备出色的推理速度,原生支持多模态,具备强大的智能能力,支持业界领先的 1000 万以上 token 上下文窗口,并且可在单张 GPU 上运行。

 

📌 Llama 4 Maverick 是当前同类中最强的多模态模型,在多个公开评测中超越 GPT-4o 和 Gemini 2.0 Flash,在推理和编程任务上与 DeepSeek v3 表现相当,同时活跃参数不到其一半。该模型在性能与成本比方面表现出色,其实验性对话版本在 LMArena 榜单中获得 1417 的 ELO 分数,并且也可在单机环境中运行。


 

📌 Meta 还预览了 Llama 4 系列中性能最强的模型 —— Llama 4 Behemoth,该模型在多个 STEM 基准测试中超过 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro。Llama 4 Behemoth 目前仍在训练中,Meta 表示将持续披露其更多细节。

 

值得注意的是 Llama 4 的授权条款,延续此前版本的做法,月活跃用户超过 7 亿的企业需向 Meta 申请特别许可,Meta 有权自主决定是否授予许可。

 

Meta 在博客中表示:“Llama 4 模型的发布标志着 Llama 生态系统进入新纪元。这只是 Llama 4 系列的起点。”

 

Llama 4 Scout 和 Llama 4 Maverick 现已开放下载,地址:

 

2025-04-06 10:566658

评论

发布
暂无评论

推荐几本 Go 相关书籍

roseduan

书籍推荐 Go Concurrency Patterns Go web 书籍 Go 语言

产品 0 期 - 第九周作业

vipyinzhiwei

[老孟Flutter] Stateful 组件的生命周期

老孟Flutter

flutter

『C++』我想学C++,C++太难了,那我想入门,给我10分钟我带你入门

风骨散人

互联网HR黑话指南

这就是编程

再推荐一款小众且好用的 Python 爬虫库 - MechanicalSoup

星安果

Python 自动化 爬虫 MechanicalSoup 小众

图论--网络流最大流问题

风骨散人

第八章作业 - 用户路径

Au revoir

文档是给未来自己的珍贵礼物

steve_lee

文档

作业 - 第九周

eva

能进BAT、TMD的C++学习过程大分享

阿霜

c++ 字节跳动 计算机 BATJMD

『Python爬虫』Python实现刷B站、爱奇艺等视频网站播放量(Python教学文章)

风骨散人

Python 爬虫

Python救救我!如何连接串口实现一个报警灯报警器

ucsheep

Python websocket 串口 报警器 报警灯

JavaEE知识体系梳理

空城机

Java Java介绍 Java EE 大学作业

ARTS-Week-0

绝影

ARTS 打卡计划 ARTS活动

如何提高Flutter应用程序的性能

老孟Flutter

flutter

计算机组成原理--主存储器

风骨散人

【Axure9百例NO.46】中继器多条件判断的优雅处理

zhuchuanming

原型设计 Axure 交互原型

第八章作业

流浪猫

Flutter 中与平台相关的生命周期

老孟Flutter

flutter

操作系统--死锁避免(银行家算法)

风骨散人

银行家算法

数据分析(第八章作业)

Deborah

墨迹天气成长中心页用户路径分析(模拟)

🙈🙈🙈

极客大学产品经理训练营

一份百投百中的计算机校招简历是如何迭代足足26版的?

阿霜

c++ 字节跳动 计算机 简历 校招

如何判断自己是否适合当前公司?

石云升

离职 28天写作 职场经验 3月日更

产品经理训练营 - 第八章作业

joelhy

产品经理训练营

Service Mesh是什么,为我们解决了什么问题?

xcbeyond

Service Mesh 服务网格 3月日更

『计算机组成原理』 计算机系统概述(考研、面试必备)

风骨散人

华为与开发者的“情谊”,在HDC.Cloud 2021上书写智能时代新篇

脑极体

双非渣硕的我是如何拿到字节跳动研发岗SP

阿霜

c++ 字节跳动 互联网 计算机 校园招聘

软件工程是否可以指导小团队的建设

风翱

软件工程 3月日更

Meta开源Llama 4!经过重新设计,首次采用MoE_生成式 AI_Tina_InfoQ精选文章