写点什么

腾讯混元推出首款开源混合推理模型:擅长 Agent 工具调用和长文理解

  • 2025-06-30
    北京
  • 本文字数:1215 字

    阅读完需:约 4 分钟

大小:617.04K时长:03:30
腾讯混元推出首款开源混合推理模型:擅长Agent工具调用和长文理解

 6 月 27 日,腾讯混元宣布开源首个混合推理 MoE 模型 Hunyuan-A13B,总参数 80B,激活参数仅 13B,效果比肩同等架构领先开源模型,但是推理速度更快,性价比更高。模型已经在 Github 和 Huggingface 等开源社区上线,同时模型 API 也在腾讯云官网正式上线,支持快速接入部署。

 

开源地址:

Github :https://github.com/Tencent-Hunyuan

HuggingFace:https://huggingface.co/tencent

 

据介绍,这是业界首个 13B 级别的 MoE 开源混合推理模型,基于先进的模型架构,Hunyuan-A13B 表现出强大的通用能力,在多个业内权威数据测试集上获得好成绩,并且在 Agent 工具调用和长文能力上有突出表现。



*加粗为最高分,下划线表示第二名,数据来源于模型各个公开的测试数据集得分

 

对于时下热门的大模型 Agent 能力,腾讯混元建设了一套多 Agent 数据合成框架,接入了 MCP、沙箱、大语言模型模拟等多样的环境,并且通过强化学习让 Agent 在多种环境里进行自主探索与学习,进一步提升了 Hunyuan-A13B 的效果。

 

在长文方面,Hunyuan-A13B 支持 256K 原生上下文窗口,在多个长文数据集中取得了优异的成绩。

 



在实际使用场景中,Hunyuan-A13B 模型可以根据需要选择思考模式,快思考模式提供简洁、高效的输出,适合追求速度和最小计算开销的简单任务;慢思考涉及更深、更全面的推理步骤,如反思和回溯。这种融合推理模式优化了计算资源分配,使用户能够通过加 think/no_think 切换思考模式,在效率和特定任务准确性之间取得平衡。



Hunyuan-A13B 模型对个人开发者较为友好,在严格条件下,只需要 1 张中低端 GPU 卡即可部署。目前,Hunyuan-A13B 已经融入开源主流推理框架生态,无损支持多种量化格式,在相同输入输出规模上,整体吞吐是前沿开源模型的 2 倍以上。

 

Hunyuan-A13B 集合了腾讯混元在模型预训练、后训练等多个环节的创新技术,这些技术共同增强了其推理性能、灵活性和推理效率。

 

预训练环节,Hunyuan-A13B 训练了 20T tokens 的语料,覆盖了多个领域。高质量的语料显著提升了模型通用能力。此外,在模型架构上,腾讯混元团队通过系统性分析,建模与验证,构建了适用于 MoE 架构的 Scaling Law 联合公式。这一发现完善了 MoE 架构的 Scaling Law 理论体系,并为 MoE 架构设计提供了可量化的工程化指导,也极大的提升了模型预训练的效果。

 

后训练环节,Hunyuan-A13B 采用了多阶段的训练方式,提升了模型的推理能力,同时兼顾了模型创作、理解、Agent 等通用能力。

 

图:Hunyuan-A13B 后训练四个步骤

 

为更好的提升大语言模型能力,腾讯混元也开源了两个新的数据集,以填补行业内相关评估标准的空白。其中,ArtifactsBench 用于弥合大语言模型代码生成评估中的视觉与交互鸿沟,构建了一个包含 1825 个任务的新基准,涵盖了从网页开发、数据可视化到交互式游戏等九大领域,并按难度分级以全面评估模型的能力;C3-Bench 针对 Agent 场景模型面临的三个关键挑战:规划复杂的工具关系、处理关键的隐藏信息以及动态路径决策,设计了 1024 条测试数据,以发现模型能力的不足。

2025-06-30 09:264164

评论

发布
暂无评论

C语言sqlite3,实现判断一个数据库存不存在,不存在就创建

linux大本营

数据库 C语言 sqlite3

Android C++系列:函数返回值注意事项

轻口味

c++ android 三周年连更

AITO问界M5:最安全、智能的座驾

极客天地

canvas-绘制一个柱状图

格斗家不爱在外太空沉思

CSS canvas 三周年连更

如何写出CPU友好的代码,百倍提升性能?

阿里技术

cpu 代码优化

0Ω电阻在PCB板中的5大常见作用

华秋PCB

电路 元器件 PCB PCB设计 电阻

深入探索数据库MySQL,性能优化与复杂查询相关操作

Java MySQL 数据库 性能优化

融云 CTO 岑裕:出海技术前沿探索和排「坑」实践

融云 RongCloud

运维 网络 融云 泛娱乐 出海

超越YOLOv8,飞桨推出精度最高的实时检测器RT-DETR!

飞桨PaddlePaddle

人工智能 计算机视觉 目标检测 百度飞桨

linux下怎么拉取远程的代码并且合并到本地,保证不冲突

linux大本营

git Linux

websocket底层原理

linux大本营

nginx HTTP websocket 通信协议 web服务器

HummerRisk V1.0.1:k8s检测扩充、批量删除及修复bug

HummerCloud

开源 云原生 云安全 云原生安全

如何在makefile中链接Json解析库Reader

linux大本营

json makefile reader

2023年第十二届数据技术嘉年华(DTC)资料分享

墨天轮

数据库 oracle 云原生 智能运维 国产数据库

Java 应用程序在 Kubernetes 上棘手的内存管理

Java Kubernetes JVM 内存管理

Ts中string、number和any等类型 不能当做索引用,怎么处理?

肥晨

三周年连更

用C语言实现,终端输入1.2.3.4/32,解析输出unsignedint类型的1.2.3.4和32

linux大本营

C语言

免费云堡垒机用哪个牌子软件好?包含哪些功能?

行云管家

云计算 网络安全 IT运维 云堡垒机

递归算法

linux大本营

递归 数据结构与算法

Mac无损音乐播放器:Audirvana for Mac中文

真大的脸盆

Mac Mac 软件 音乐播放 音乐播放器

软件测试/测试开发丨自动化测试之读取配置文件

测试人

软件测试 自动化测试 测试开发

目前江西省等级测评公司有几家?都在南昌吗?

行云管家

江西 等保 等级保护 等保2.0

写一个回调函数

linux大本营

回调函数 C++

ubuntu如何安装Json解析库Reader

linux大本营

ubuntu JSON库 reader

刘浩:当谈到RTO < 8s时,OceanBase究竟在说什么?

OceanBase 数据库

数据库 oceanbase

基于STM32设计避障寻迹小车

DS小龙哥

三周年连更

SaaS 软件的 SLA 和 Escalation

汪子熙

SaaS Cloud 三周年连更

open3d将pcd存数据库

linux大本营

sqlite 数据库 存储 :MySQL 数据库

怎样判断户外LED显示屏质量是否达标

Dylan

媒体 广告 户外LED显示屏

火山引擎DataLeap:在数据研发中,如何提升效率?

字节跳动数据平台

运维 数据研发 企业号 4 月 PK 榜 任务模板

腾讯混元推出首款开源混合推理模型:擅长Agent工具调用和长文理解_AI&大模型_褚杏娟_InfoQ精选文章