写点什么

腾讯文生图大模型全面开源!首个中文原生 DiT 架构,支持中英双语理解生成

  • 2024-05-14
    北京
  • 本文字数:2023 字

    阅读完需:约 7 分钟

大小:1.00M时长:05:50
腾讯文生图大模型全面开源!首个中文原生DiT架构,支持中英双语理解生成

作者 | 华卫


5 月 14 日,腾讯宣布旗下的混元文生图大模型全面升级并对外开源,目前已在 Hugging Face 平台及 Github 上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费商用。

开源代码库链接: https://github.com/Tencent/HunyuanDiT

 

“混元 DiT 开源的价值主要有两方面,一是作为中文原生 DiT 架构,弥补了开源社区的空白;二是混元 DiT 为全面开源,与现网版本完全一致。”腾讯混元文生图负责人卢清林表示。

 


据介绍,这是业内首个中文原生的 DiT 架构文生图开源模型,支持中英文双语输入及理解,参数量 15 亿。升级后的混元文生图大模型采用了与 Sora 一致的 DiT 架构,不仅可支持文生图,也可作为视频等多模态视觉生成的基础。其评测数据显示,新一代的腾讯混元文生图模型效果远超开源的 Stable Diffusion 模型。

 

三大能力升级

效果比前代提升超 20%

 

最新的腾讯混元文生图大模型主要进行了算子、语言编码器、多轮绘图能力三方面的升级。

 

首先是架构,该模型从 U-Net 架构升级至 DiT 架构(DiT,即 Diffusion With Transformer),后者也是 Sora 和 Stable Diffusion 3 的同款架构和关键技术。“为构建混元 DiT,腾讯设计了 Transformer 结构、文本编码器和位置编码,构建了完整的数据管道,用于更新和评估数据。”卢清林表示。

 

腾讯混元团队认为,基于 Transformer 架构的扩散模型 (如 DiT)具有更大的可扩展性,很可能成为下一代主流视觉生成架构:未来,DiT 架构很可能会成为文生图、生视频、生 3D 等多模态视觉生成的统一架构。

 

据介绍,从 2023 年 7 月起,腾讯混元文生图团队就明确了基于 DiT 架构的模型方向,并启动了新一代模型研发。今年初,混元文生图大模型已全面升级为 DiT 架构。

 

其次是语音编码器方面,混元文生图大模型是中文原生的 DiT 模型,具备中英文双语理解及生成能力,在古诗词、俚语、传统建筑、中华美食等中国元素的生成上有良好表现,中文输入后直接中文理解,避免了因翻译产生的语义分歧。

 


目前 Stable Diffusion 等主流开源模型核心数据集以英文为主,对中国的语言、美食、文化、习俗都理解不够,在中文应用场景受限,很多团队还是基于翻译+英文开源 Stable diffusion 模型,导致在中文特有的场景、人物、事物上表现比较差。还有一些团队基于少量的中文数据在一些特殊的场景做了 finetune,让模型去适配某个特殊的领域或者风格,但直接用英文预训练的模型+中文小数据 finetune 也存在对中文理解不足和不通用的问题。

 

腾讯官方的评测结果显示,新一代腾讯混元文生图大模型视觉生成整体效果的相比前代提升超过 20%,在语义理解、画面质感与真实性方面全面提升,在多轮对话、多主体、中国元素、真实人像生成等场景下效果提升显著。

 

在 DiT 架构之上,腾讯混元团队还在算法层面优化了模型的长文本理解能力,能够支持最多 256 字符的内容输入,同时实现了多轮生图和对话能力,可实现在一张初始生成图片的基础上,通过自然语言描述进行调整,来达到更满意的效果。

 

填补开源 DiT 架构空白

版本同步现网

 

“我们认为,建设中文原生的文生图开源模型、中文的文生图开源生态十分必要。”据悉,腾讯开源的混元文生图模型 Tencent-Hunyuan-Visual 1.9,与实际生产环境中的最新版本完全一致,包括 C 端用户能体验到的微信小程序和 Web 版本、个人和企业开发者能体验到的云 API 版本,均可免费商用。

 

此次混元文生图模型开源后,开发者及企业无需重头训练,即可直接将其用于推理,并可基于此打造专属的 AI 绘画应用及服务,能够节约大量人力及算力。透明公开的算法,也可以让该模型的安全性和可靠性得到保障。

 

“目前开源社区中技术快速迭代,但缺乏先进、成熟的 DiT 架构可以开源利用。”卢清林表示,在目前 DiT 架构已经呈现出巨大潜力的情况下,开源社区是存在一定空白的。文生图大模型领域的开源开发者生态已经形成,但依然主要基于 U-Net 架构模型进行开发,仍未有比较先进的 DiT 架构充分开源。

 

基于开放、前沿的混元文生图基础模型,有利于在以 Stable Diffusion 等为主的英文开源社区之外,丰富以中文为主的文生图开源生态,形成更多样的原生插件,推动中文文生图技术研发和应用。

 

现在腾讯混元文生图能力,已经广泛被用于素材创作、商品合成、游戏出图等多项业务及场景中。今年初,腾讯广告基于腾讯混元大模型,发布了一站式 AI 广告创意平台腾讯广告妙思,可为广告主提供文生图、图生图、商品背景合成等多场景创意工具。

 

腾讯文生图负责人芦清林表示:“腾讯混元文生图的研发思路就是实用,坚持从实践中来,到实践中去。此次把最新一代模型完整开源出来,是希望与行业共享腾讯在文生图领域的实践经验和研究成果,丰富中文文生图开源生态,共建下一代视觉生成开源生态”

 

据了解,腾讯在开源上一直持开放态度,已开源了超 170 个优质项目,均来源于腾讯真实业务场景,覆盖微信、腾讯云、腾讯游戏、腾讯 AI、腾讯安全等核心业务板块,目前在 Github 上已累计获得超 47 万开发者关注及点赞。

 

2024-05-14 19:196409

评论

发布
暂无评论
发现更多内容

共享开源技术,共建开放生态丨平凯星辰余梦杰出席 2022 世界互联网大会开源论坛圆桌对话

PingCAP

开源

企业开发首选安全框架!阿里顶配版Spring Security OAuth2.0认证授权核心技术全解真香

Java永远的神

Java 源码 springboot springsecurity 安全框架

4.0体验站|我对OceanBase 4.0社区版的体验与看法

OceanBase 数据库

Linux内存泄露案例分析和内存管理分享

京东科技开发者

负载均衡 集群 内存泄漏 Linux Cron 运维、

TiKV 源码阅读三部曲(三)写流程

PingCAP

源码阅读

软件测试面试真题 | TCP为什么要进行三次握手和四次挥手呢?

测试人

三次握手 软件测试 自动化测试 测试开发 TCP四次挥手

从零到一构建完整知识体系!阿里巴巴Java并发编程技术内幕全网首次公开

Java全栈架构师

源码 程序员 程序人生 Java并发 java面试

【#HDC2022】HarmonyOS体验官活动正式开启,赶快投稿赢限量奖品吧!

HarmonyOS开发者

HarmonyOS

java文件流

hello java

文件 程序 Java core 11月月更

视频服务HDR Vivid 还原色彩,让所见成“真”

HarmonyOS SDK

视频 HMS Core

双11狂欢背后,火山引擎数智平台为品牌做了这件事

字节跳动数据平台

大数据 营销数字化 火山引擎

基金交易场景下,如何利用 Apache APISIX 来稳固 API 安全

API7.ai 技术团队

安全 金融行业 api 网关 APISIX

面向对象基础

断墨寻径

面向对象 java;

Jmix 1.4 功能概览

世开 Coding

企业级低代码 Jmix 企业级应用程序开发

天翼云打造自研云操作系统TeleCloudOS4.0 推动算力蓬勃发展

天翼云开发者社区

天翼云实时云渲染,助力打造世界VR产业大会云上之城

天翼云开发者社区

网络地址转换(NAT)(二)

我叫于豆豆吖.

网络 11月月更

【从零开始学爬虫】采集同花顺基金评论数据

前嗅大数据

数据采集 爬虫软件 爬虫教程 数据采集教程 爬虫案例

快速满足个性化业务需求的低代码平台

力软低代码开发平台

智慧公路筑基者!天翼云打造全栈能力新底座

天翼云开发者社区

钢网有多个种类,各自的用法都了解吗?

华秋PCB

PCB PCB设计 PCB生产

奖金+生态双丰收 首届昇腾AI创新大赛圆满收官

极客天地

欢迎来嫖!阿里P8高级技术专家携这份818页Java核心技术重磅来袭

钟奕礼

Java 编程 计算机 java程序员 java架构

LED透明屏焊接和插接安装以及三招提升稳定性

Dylan

LED LED显示屏 led显示屏厂家

数字先锋| 教育资源乘云而来!46万城乡学子共享名师课堂

天翼云开发者社区

让迁移不再开盲盒,让云也能省钱丨Hackathon 项目背后的故事第一期回顾

PingCAP

hackathon

探究并发和并行、同步和异步、进程和线程、阻塞和非阻塞、响应和吞吐等

C++后台开发

多线程 后端开发 并行 linux开发 C++开发

架构实战训练营模块 5 作业

atcgnu

旺链科技出席Hyperledger区块链技术峰会,分享数字乡村新业态

旺链科技

区块链 hyperledger 产业区块链 企业号十月PK榜

阿里云研发工程师刘睿:阿里云消息生态及最佳实践

云布道师

阿里云 云原生

三面阿里java后台开发岗总结:进阿里必看这份究极面试文档

钟奕礼

Java 编程 java程序员 java面试 java架构

腾讯文生图大模型全面开源!首个中文原生DiT架构,支持中英双语理解生成_生成式 AI_华卫_InfoQ精选文章