2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

腾讯文生图大模型全面开源!首个中文原生 DiT 架构,支持中英双语理解生成

  • 2024-05-14
    北京
  • 本文字数:2023 字

    阅读完需:约 7 分钟

大小:1.00M时长:05:50
腾讯文生图大模型全面开源!首个中文原生DiT架构,支持中英双语理解生成

作者 | 华卫


5 月 14 日,腾讯宣布旗下的混元文生图大模型全面升级并对外开源,目前已在 Hugging Face 平台及 Github 上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费商用。

开源代码库链接: https://github.com/Tencent/HunyuanDiT

 

“混元 DiT 开源的价值主要有两方面,一是作为中文原生 DiT 架构,弥补了开源社区的空白;二是混元 DiT 为全面开源,与现网版本完全一致。”腾讯混元文生图负责人卢清林表示。

 


据介绍,这是业内首个中文原生的 DiT 架构文生图开源模型,支持中英文双语输入及理解,参数量 15 亿。升级后的混元文生图大模型采用了与 Sora 一致的 DiT 架构,不仅可支持文生图,也可作为视频等多模态视觉生成的基础。其评测数据显示,新一代的腾讯混元文生图模型效果远超开源的 Stable Diffusion 模型。

 

三大能力升级

效果比前代提升超 20%

 

最新的腾讯混元文生图大模型主要进行了算子、语言编码器、多轮绘图能力三方面的升级。

 

首先是架构,该模型从 U-Net 架构升级至 DiT 架构(DiT,即 Diffusion With Transformer),后者也是 Sora 和 Stable Diffusion 3 的同款架构和关键技术。“为构建混元 DiT,腾讯设计了 Transformer 结构、文本编码器和位置编码,构建了完整的数据管道,用于更新和评估数据。”卢清林表示。

 

腾讯混元团队认为,基于 Transformer 架构的扩散模型 (如 DiT)具有更大的可扩展性,很可能成为下一代主流视觉生成架构:未来,DiT 架构很可能会成为文生图、生视频、生 3D 等多模态视觉生成的统一架构。

 

据介绍,从 2023 年 7 月起,腾讯混元文生图团队就明确了基于 DiT 架构的模型方向,并启动了新一代模型研发。今年初,混元文生图大模型已全面升级为 DiT 架构。

 

其次是语音编码器方面,混元文生图大模型是中文原生的 DiT 模型,具备中英文双语理解及生成能力,在古诗词、俚语、传统建筑、中华美食等中国元素的生成上有良好表现,中文输入后直接中文理解,避免了因翻译产生的语义分歧。

 


目前 Stable Diffusion 等主流开源模型核心数据集以英文为主,对中国的语言、美食、文化、习俗都理解不够,在中文应用场景受限,很多团队还是基于翻译+英文开源 Stable diffusion 模型,导致在中文特有的场景、人物、事物上表现比较差。还有一些团队基于少量的中文数据在一些特殊的场景做了 finetune,让模型去适配某个特殊的领域或者风格,但直接用英文预训练的模型+中文小数据 finetune 也存在对中文理解不足和不通用的问题。

 

腾讯官方的评测结果显示,新一代腾讯混元文生图大模型视觉生成整体效果的相比前代提升超过 20%,在语义理解、画面质感与真实性方面全面提升,在多轮对话、多主体、中国元素、真实人像生成等场景下效果提升显著。

 

在 DiT 架构之上,腾讯混元团队还在算法层面优化了模型的长文本理解能力,能够支持最多 256 字符的内容输入,同时实现了多轮生图和对话能力,可实现在一张初始生成图片的基础上,通过自然语言描述进行调整,来达到更满意的效果。

 

填补开源 DiT 架构空白

版本同步现网

 

“我们认为,建设中文原生的文生图开源模型、中文的文生图开源生态十分必要。”据悉,腾讯开源的混元文生图模型 Tencent-Hunyuan-Visual 1.9,与实际生产环境中的最新版本完全一致,包括 C 端用户能体验到的微信小程序和 Web 版本、个人和企业开发者能体验到的云 API 版本,均可免费商用。

 

此次混元文生图模型开源后,开发者及企业无需重头训练,即可直接将其用于推理,并可基于此打造专属的 AI 绘画应用及服务,能够节约大量人力及算力。透明公开的算法,也可以让该模型的安全性和可靠性得到保障。

 

“目前开源社区中技术快速迭代,但缺乏先进、成熟的 DiT 架构可以开源利用。”卢清林表示,在目前 DiT 架构已经呈现出巨大潜力的情况下,开源社区是存在一定空白的。文生图大模型领域的开源开发者生态已经形成,但依然主要基于 U-Net 架构模型进行开发,仍未有比较先进的 DiT 架构充分开源。

 

基于开放、前沿的混元文生图基础模型,有利于在以 Stable Diffusion 等为主的英文开源社区之外,丰富以中文为主的文生图开源生态,形成更多样的原生插件,推动中文文生图技术研发和应用。

 

现在腾讯混元文生图能力,已经广泛被用于素材创作、商品合成、游戏出图等多项业务及场景中。今年初,腾讯广告基于腾讯混元大模型,发布了一站式 AI 广告创意平台腾讯广告妙思,可为广告主提供文生图、图生图、商品背景合成等多场景创意工具。

 

腾讯文生图负责人芦清林表示:“腾讯混元文生图的研发思路就是实用,坚持从实践中来,到实践中去。此次把最新一代模型完整开源出来,是希望与行业共享腾讯在文生图领域的实践经验和研究成果,丰富中文文生图开源生态,共建下一代视觉生成开源生态”

 

据了解,腾讯在开源上一直持开放态度,已开源了超 170 个优质项目,均来源于腾讯真实业务场景,覆盖微信、腾讯云、腾讯游戏、腾讯 AI、腾讯安全等核心业务板块,目前在 Github 上已累计获得超 47 万开发者关注及点赞。

 

2024-05-14 19:197007

评论

发布
暂无评论
发现更多内容

融入数据浪潮,KaiwuDB 期待与您共赴 DTCC 2023

KaiwuDB

KaiwuDB DTCC2023

mac电脑版Visio绘图文件阅读器 VSD Viewer for Mac

胖墩儿不胖y

Mac 软件推荐 Mac 软件

ARM64是什么意思?与x86有什么区别?

行云管家

arm64

数仓备份经验分享丨详解roach备份原理及问题处理套路

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 8 月 PK 榜

晋级名单公布!“域见杯”复赛今日火热开启

华为云开发者联盟

人工智能 华为云 华为云开发者联盟 企业号 8 月 PK 榜

关于跨国文件传输需要了解的5点

镭速

跨国文件传输

阿里云蝉联 Forrester FaaS 领导者象限丨云原生 7 月产品技术动态

阿里巴巴云原生

阿里云 云原生

生成式AI助力技术文章撰写

百度开发者中心

人工智能 大模型

AI 自动开发软件并部署到云服务器,DevOpsGPT实现从自然语言需求到可运行的软件!

booboosui

AI Codec AI开发软件 ChatGPT

函数性能探测:更简单高效的 Serverless 规格选型方案

阿里巴巴云原生

阿里云 Serverless 云原生

生成式AI技术发展趋势报告

百度开发者中心

人工智能 百度文心一言

生成式AI:2023产业机遇与落地场景探索

百度开发者中心

人工智能 百度文心一言

生成式AI:重新定义生产力

百度开发者中心

人工智能 文心一言

LeetCode题解:2625. 扁平化嵌套数组,递归

Lee Chen

JavaScript LeetCode

你可以信任由编译器优化的代码吗?

互联网工科生

编译器 simd 数据流

食品包装MES系统解决方案

万界星空科技

MES系统

快手光合大会公开全模态大模型AIGC解决方案 人机协同助力创作全流程提效

Geek老T

AI 短视频

08.25北京站|阿里云Serverless 技术实践营( AI 专场)开放报名

Serverless Devs

阿里云 Serverless 云原生

生成式AI:模拟人类智能的未来科技

百度开发者中心

人工智能 文心一言

生成式AI:开启全新的智能时代

百度开发者中心

人工智能 文心一言

生成式AI助力企业高效创新

百度开发者中心

人工智能 文心一言

OTP令牌是什么?有什么作用?是怎么实现的?

行云管家

运维 堡垒机 双因子认证 OTP令牌

大容量文件传输的高速传输协议解决方案评估与比较

镭速

大文件传输 大容量文件传输

2023中国高校计算机大赛热度再刷新:2100+参赛队伍,获超480所国内知名高校关注!

云智慧AIOps社区

编程 算法 模型 中国大学生计算机设计大赛 计算机大赛

Spring BeanDefinition 也分父子关系?

江南一点雨

Java spring

腾讯文生图大模型全面开源!首个中文原生DiT架构,支持中英双语理解生成_生成式 AI_华卫_InfoQ精选文章