写点什么

Meta 开源 Llama 4!经过重新设计,首次采用 MoE

  • 2025-04-06
    北京
  • 本文字数:1030 字

    阅读完需:约 3 分钟

大小:475.60K时长:02:42
Meta开源Llama 4!经过重新设计,首次采用MoE

Meta 今日发布了首批 Llama 4 系列模型:Llama 4 ScoutLlama 4 Maverick。这两款模型是目前该公司最先进的版本,在多模态能力方面表现出色,处于同类产品中的领先地位。


 

据 Meta 表示,这些模型均基于“大量未标注的文本、图像和视频数据”进行训练,具备广泛的视觉理解能力。

 

据报道,此前 DeepSeek 发布的开源模型(如 R1 和 V3)在性能上与 Meta 之前的旗舰 Llama 模型相当甚至更优,促使 Meta 加快了 Llama 4 的研发节奏。为应对竞争,Meta 内部曾设立“作战室”以深入研究 DeepSeek 如何实现更低成本的模型部署与运行。如今,Llama 4 的性能与 V3 相比,性能孰优孰劣依然是大家关注的话题。

 

Meta GenAI 负责人在 X 上表示,本次发布标志着 Llama 系列的全面重构完成。他表示,此次推出的是 Llama 4 系列中首批开源模型,代表了该系列发展的又一重要里程碑。本次发布的主要亮点有:

 

📌 Llama 4 系列在架构层面进行了全面升级,采用先进的专家混合(MoE,Mixture-of-Experts)架构,并在原生多模态任务上进行了联合训练。此次发布包括 Llama 4 Scout 和 Llama 4 Maverick,同时也首次预览了更强大的 Llama 4 Behemoth。


 

📌 Llama 4 Scout 是目前性能最强的小型模型,拥有 170 亿活跃参数和 16 个专家模块。该模型具备出色的推理速度,原生支持多模态,具备强大的智能能力,支持业界领先的 1000 万以上 token 上下文窗口,并且可在单张 GPU 上运行。

 

📌 Llama 4 Maverick 是当前同类中最强的多模态模型,在多个公开评测中超越 GPT-4o 和 Gemini 2.0 Flash,在推理和编程任务上与 DeepSeek v3 表现相当,同时活跃参数不到其一半。该模型在性能与成本比方面表现出色,其实验性对话版本在 LMArena 榜单中获得 1417 的 ELO 分数,并且也可在单机环境中运行。


 

📌 Meta 还预览了 Llama 4 系列中性能最强的模型 —— Llama 4 Behemoth,该模型在多个 STEM 基准测试中超过 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro。Llama 4 Behemoth 目前仍在训练中,Meta 表示将持续披露其更多细节。

 

值得注意的是 Llama 4 的授权条款,延续此前版本的做法,月活跃用户超过 7 亿的企业需向 Meta 申请特别许可,Meta 有权自主决定是否授予许可。

 

Meta 在博客中表示:“Llama 4 模型的发布标志着 Llama 生态系统进入新纪元。这只是 Llama 4 系列的起点。”

 

Llama 4 Scout 和 Llama 4 Maverick 现已开放下载,地址:

 

2025-04-06 10:566686

评论

发布
暂无评论

开发板如何适配OpenHarmony 3.2

OpenHarmony开发者

Open Harmony

IT采购,不再默默扛下“背刺”

脑极体

AI ChatGPT

互联网出海风大雨大,融云助力 App 守护用户「被遗忘权」

融云 RongCloud

互联网 安全 融云 泛娱乐

如何针对重复问题创建测试矩阵

测吧(北京)科技有限公司

测试

等保三级对日志审计的要求是什么?有堡垒机还需要日志审计系统吗?

行云管家

堡垒机 日志审计 等保三级

知名度比较高的堡垒机有哪些?大家喜欢哪款?

行云管家

堡垒机 行云管家

AI推理服务平台升级,阿里云机器学习PAI推出新规格

阿里云大数据AI技术

人工智能 机器学习 模型 在线服务

对谈阿里云祝顺民:经济复苏,云网络如何加速企业效率提升?

云布道师

云网络

World Clock Deluxe for Mac(世界时钟豪华版)

Rose

KaiwuDB 亮相中国石油石化企业信息技术交流大会

KaiwuDB

数字能源 KaiwuDB 数据解决方案

毕业设计 - 电商秒杀系统

架构实战营 「架构实战营」

软件测试/测试开发丨ChatGPT在软件测试领域的应用

测试人

软件测试 自动化测试 测试开发 ChatGPT

精彩回顾 | 2023工赋Meetup—上海站

工赋开发者社区

AutoCAD(CAD2024)中文特别版Mac/win

Rose

CAD绘图 cad2024激活版

以技术赋能智慧酒店,思岚科技亮相上海酒店展

科技热闻

人工智能实践: 基于T-S 模型的模糊推理

TiAmo

模糊推理 TS模型

对于处理高并发用户请求的一些思考

Java 架构 分布式 高并发

基于 LowCodeEngine 的低代码组件体系建设和实践

阿里技术

前端 低代码

面试必问:说一下 Java 虚拟机的内存布局?

Java JVM 虚拟机

OPPO大数据诊断平台“罗盘”正式开源

安第斯智能云

大数据 开源

如何实现对 Oracle 的实时数据捕获和性能调优|Flink CDC 专题

Apache Flink

大数据 flink 实时计算

经验分享|如何用ChatGPT开发一个安卓应用

Onegun

人工智能 移动开发 ChatGPT

提高API采用率的关键:快速创建有效的API监控任务

云智慧AIOps社区

API api 网关 监控宝 API Gateway 监控产品

百度研发效能从度量到数字化蜕变之路

百度Geek说

百度 研发效能 企业号 4 月 PK 榜 效能数字化

吃透阿里2023版Java性能优化小册后,我让公司系统性能提升了200%

三十而立

Java 程序员 IT 面试资料

英特尔宋继强:面向半导体“万亿时代”,以全栈创新推动算力发展

科技热闻

昇思MindSpore:人工智能的创新之源

极客天地

Bigasoft Video Downloader Pro :视频网站下载和转换视频器

Rose

免费广告效果监测服务,实现全链路营销效果跟踪

HarmonyOS SDK

HMS Core

Meta开源Llama 4!经过重新设计,首次采用MoE_生成式 AI_Tina_InfoQ精选文章