写点什么

腾讯文生图大模型全面开源!首个中文原生 DiT 架构,支持中英双语理解生成

  • 2024-05-14
    北京
  • 本文字数:2023 字

    阅读完需:约 7 分钟

大小:1.00M时长:05:50
腾讯文生图大模型全面开源!首个中文原生DiT架构,支持中英双语理解生成

作者 | 华卫


5 月 14 日,腾讯宣布旗下的混元文生图大模型全面升级并对外开源,目前已在 Hugging Face 平台及 Github 上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费商用。

开源代码库链接: https://github.com/Tencent/HunyuanDiT

 

“混元 DiT 开源的价值主要有两方面,一是作为中文原生 DiT 架构,弥补了开源社区的空白;二是混元 DiT 为全面开源,与现网版本完全一致。”腾讯混元文生图负责人卢清林表示。

 


据介绍,这是业内首个中文原生的 DiT 架构文生图开源模型,支持中英文双语输入及理解,参数量 15 亿。升级后的混元文生图大模型采用了与 Sora 一致的 DiT 架构,不仅可支持文生图,也可作为视频等多模态视觉生成的基础。其评测数据显示,新一代的腾讯混元文生图模型效果远超开源的 Stable Diffusion 模型。

 

三大能力升级

效果比前代提升超 20%

 

最新的腾讯混元文生图大模型主要进行了算子、语言编码器、多轮绘图能力三方面的升级。

 

首先是架构,该模型从 U-Net 架构升级至 DiT 架构(DiT,即 Diffusion With Transformer),后者也是 Sora 和 Stable Diffusion 3 的同款架构和关键技术。“为构建混元 DiT,腾讯设计了 Transformer 结构、文本编码器和位置编码,构建了完整的数据管道,用于更新和评估数据。”卢清林表示。

 

腾讯混元团队认为,基于 Transformer 架构的扩散模型 (如 DiT)具有更大的可扩展性,很可能成为下一代主流视觉生成架构:未来,DiT 架构很可能会成为文生图、生视频、生 3D 等多模态视觉生成的统一架构。

 

据介绍,从 2023 年 7 月起,腾讯混元文生图团队就明确了基于 DiT 架构的模型方向,并启动了新一代模型研发。今年初,混元文生图大模型已全面升级为 DiT 架构。

 

其次是语音编码器方面,混元文生图大模型是中文原生的 DiT 模型,具备中英文双语理解及生成能力,在古诗词、俚语、传统建筑、中华美食等中国元素的生成上有良好表现,中文输入后直接中文理解,避免了因翻译产生的语义分歧。

 


目前 Stable Diffusion 等主流开源模型核心数据集以英文为主,对中国的语言、美食、文化、习俗都理解不够,在中文应用场景受限,很多团队还是基于翻译+英文开源 Stable diffusion 模型,导致在中文特有的场景、人物、事物上表现比较差。还有一些团队基于少量的中文数据在一些特殊的场景做了 finetune,让模型去适配某个特殊的领域或者风格,但直接用英文预训练的模型+中文小数据 finetune 也存在对中文理解不足和不通用的问题。

 

腾讯官方的评测结果显示,新一代腾讯混元文生图大模型视觉生成整体效果的相比前代提升超过 20%,在语义理解、画面质感与真实性方面全面提升,在多轮对话、多主体、中国元素、真实人像生成等场景下效果提升显著。

 

在 DiT 架构之上,腾讯混元团队还在算法层面优化了模型的长文本理解能力,能够支持最多 256 字符的内容输入,同时实现了多轮生图和对话能力,可实现在一张初始生成图片的基础上,通过自然语言描述进行调整,来达到更满意的效果。

 

填补开源 DiT 架构空白

版本同步现网

 

“我们认为,建设中文原生的文生图开源模型、中文的文生图开源生态十分必要。”据悉,腾讯开源的混元文生图模型 Tencent-Hunyuan-Visual 1.9,与实际生产环境中的最新版本完全一致,包括 C 端用户能体验到的微信小程序和 Web 版本、个人和企业开发者能体验到的云 API 版本,均可免费商用。

 

此次混元文生图模型开源后,开发者及企业无需重头训练,即可直接将其用于推理,并可基于此打造专属的 AI 绘画应用及服务,能够节约大量人力及算力。透明公开的算法,也可以让该模型的安全性和可靠性得到保障。

 

“目前开源社区中技术快速迭代,但缺乏先进、成熟的 DiT 架构可以开源利用。”卢清林表示,在目前 DiT 架构已经呈现出巨大潜力的情况下,开源社区是存在一定空白的。文生图大模型领域的开源开发者生态已经形成,但依然主要基于 U-Net 架构模型进行开发,仍未有比较先进的 DiT 架构充分开源。

 

基于开放、前沿的混元文生图基础模型,有利于在以 Stable Diffusion 等为主的英文开源社区之外,丰富以中文为主的文生图开源生态,形成更多样的原生插件,推动中文文生图技术研发和应用。

 

现在腾讯混元文生图能力,已经广泛被用于素材创作、商品合成、游戏出图等多项业务及场景中。今年初,腾讯广告基于腾讯混元大模型,发布了一站式 AI 广告创意平台腾讯广告妙思,可为广告主提供文生图、图生图、商品背景合成等多场景创意工具。

 

腾讯文生图负责人芦清林表示:“腾讯混元文生图的研发思路就是实用,坚持从实践中来,到实践中去。此次把最新一代模型完整开源出来,是希望与行业共享腾讯在文生图领域的实践经验和研究成果,丰富中文文生图开源生态,共建下一代视觉生成开源生态”

 

据了解,腾讯在开源上一直持开放态度,已开源了超 170 个优质项目,均来源于腾讯真实业务场景,覆盖微信、腾讯云、腾讯游戏、腾讯 AI、腾讯安全等核心业务板块,目前在 Github 上已累计获得超 47 万开发者关注及点赞。

 

2024-05-14 19:196945

评论

发布
暂无评论
发现更多内容

破解数据库内核人才困局:PingCAP 的思考与尝试丨Talent Plan 专访

PingCAP

研发数字化管理,如何打破“上班摸鱼下班加班”的怪圈

方云AI研发绩效

团队管理 研发管理 研发效能 数字化转型 研发管理工具

Linux云计算之VSFTP服务器概述-安装vsftp服务器端、客户端

学神来啦

Linux 运维

全方位讲解 Nebula Graph 索引原理和使用

NebulaGraph

索引 知识图谱 #数据库

最新太原市五家正规等保测评机构名单看这里!

行云管家

网络安全 等保 等保测评 太原 等保测评机构

脚本库详细说明 - 大屏云极简使用手册

shulinwu

架构训练营 - 模块一

junl

架构实战营

【OH干货】给OpenHarmony 开发板配置网络

拓维信息

开源 OpenHarmony

【多云管理】多云管理如何化繁为简提高效率?

行云管家

云计算 企业上云 多云管理 多云

云效一站式DevOps平台

阿里云云效

云计算 阿里云 DevOps 云原生 云效

6元自助洗车店加盟需要多少费用

共享电单车厂家

自助洗车加盟 6元自助洗车店加盟 6元自助洗车 自助洗车加盟费

隐私计算势头迅猛,但金融行业用户需要“冷静”

易观分析

金融 隐私计算 AMC

架构训练营-模块一

哈喽

「架构实战营」

打通源码!高效定位代码问题|云效工程师指北

阿里云云效

阿里云 源码 云原生 代码 代码管理

6元共享24小时自助洗车加盟如何

共享电单车厂家

24小时共享自助洗车 6元自助洗车加盟

6元自助洗车设备一套多少钱一台

共享电单车厂家

自助洗车机多少钱 自助洗车机价格 自助洗车加盟 6元自助洗车设备 6元自助洗车机

体验了一把最近很火的开源项目-MASA Blazor

MASA技术团队

C# .net 微软 组件库

英特尔陈伟:以智能边缘解锁数智时代新未来

科技新消息

Redis(一)原理与基本使用

神农写代码

Linux环境,C/C++语言手写代码实现线程池

Linux服务器开发

c++ 线程池 Linux后台开发 服务端开发 线程池源码

自助洗车加盟需要投资多少?分析下

共享电单车厂家

自助洗车机 自助洗车加盟

自助扫码洗车机加盟怎么加

共享电单车厂家

自助洗车机价格 自助扫码洗车机 自助洗车怎么加盟 共享洗车加盟

源声|听听赛博堡垒的锻造之路,以及云安全那些事儿

OpenTEKr

网络安全 软件开发 开源技术

Dcm4chee--MySql版Docker镜像制作

birdbro

Docker DCM4CHE

数字资产管理系统解决方案

低代码小观

数字化 资产管理 企业管理系统 数字化经济 企业管理软件

数据产品经理实战-如何做方案

第519区

数据产品经理 解决方案

Kubernetes官方java客户端之二:序列化和反序列化问题

程序员欣宸

Kubernetes java client

怎样搭建企业内部wiki

小炮

企业 wiki

万亿级超高清产业变奏,分布式存储支撑关键应用落地

焱融科技

云计算 分布式 高性能 文件存储 影视渲染

汇聚创新力量 企业智能化转型开源社区“星策”正式成立

第四范式开发者社区

程序员 金融 开源社区 企业转型 企业数据化转型

T3 出行 Apache Kyuubi Flink SQL Engine 设计和相关实践

网易数帆

sql 大数据

腾讯文生图大模型全面开源!首个中文原生DiT架构,支持中英双语理解生成_生成式 AI_华卫_InfoQ精选文章