多模态模型如何架构选型？从 UNet 到 DiT+AR，智象未来潘滢炜：今年要触达物理世界的构建

当前，多模态技术正处于快速发展阶段，成为 AI 演进的关键方向之一。多模态大模型能够同时生成和理解文本、音频、视频等多种信息类型，使机器具备更接近人类的感知与推理能力。当前，业内一边对多模态模型做前沿研究，一边探索落地部署。

智象未来是一家专注于视觉多模态生成式人工智能的初创企业，成立于 2023 年，由加拿大工程院外籍院士、IEEE/IAPR/CAAI Fellow 梅涛博士创立，其多模态大模型已经从最初的版本发展到如今的 3.0 版本，架构也几经更迭，实现了图像和视频生成能力升级。

本次采访中，智象未来算法科学家潘滢炜围绕智象未来的人才问题、架构选型以及多模态竞争等问题，分享了其对多模态行业的观察和思考。

6 月 27～28 日，在即将于北京举办的 AICon 全球人工智能开发与应用大会上，潘滢炜将发表演讲《多模态内容生成：从技术突破到创新应用落地》，深入探讨国际上最近几年多模态内容生成的核心技术突破，包含扩散模型 UNet 结构到 Diffusion Transformer（DiT）架构的演进，智象未来自主研发的智象多模态大模型在图像和视频生成能力上的技术升级，以及如何突破用户最后一公里。

敬请期待：
https://aicon.infoq.cn/2025/beijing/presentation/6458

高尖人才管理

InfoQ：资料显示，公司现有博士及硕士技术骨干占比超过 90%，是典型的高级人才聚集企业。这个是如何做到的？对于这样一批高尖人才，你们选择了什么样的管理方式？

潘滢炜：我们创始人团队丰富的工业界经验和浓厚的学术底蕴。团队实行较为扁平的架构，每一位本就都有着用“技术改变世界”的使命感，我们会以产品和商业化的目标来牵引技术的创新和突破，做“难而正确的事”。

InfoQ：包括你本人在内，大家都发表过很多高水平论文，如何把论文成果转化具体的模型？

潘滢炜：准确来说不是论文成果转化具体模型，而是在研发真实场景下的模型能力的时候，遇到真正的技术痛点之后，我们才会围绕这个去提升模型能力，最后大家会统一判断它在工业界和学术界的技术影响力，合适的话才会去产出对应的论文。

InfoQ：现在大家的精力有多少放在了论文研究上？

潘滢炜：技术研发和落地应用本质上是一件事，我们员工从来不是 paper-driven 的去做研发，始终都是以产品落地和商业化的目标来牵引技术的创新和突破，作为研发人员，我们最大的梦想永远都是技术的广度（让更多的用户去享受技术带来的生产力变革）+技术的深度（攻克世界级技术难题，做具备世界级技术影响力的事）。

InfoQ：你之前也提到智象的模型迭代节奏快、训练强度大，创业以来就是这样吗？大家如何适应这种节奏？

潘滢炜：在公司技术路线上，我们有着绝对的坚定信心，减少外部噪音。过去的一年是多模态应用井喷的一年，有非常多的场景和想象空间，但是我们坚持做好自己自研的基础模型，然后在我们擅长的赛道做验证，也非常考验技术定力。

另外我们的模型迭代节奏的确很快，因为我们的技术路线也是从用户出发的，坚定不移地保持着保持用户驱动，技术一定是服务大众用户的，我们不会纠结在某项技术的领先，但是我们会非常在意用户有没有在我们的产品上获得足够好的反馈，根据用户的反馈我们会持续不断地在用户真实场景下去迭代模型。

多模态模型的技术选型

InfoQ：创业初期，团队如何完成了从 0 到 1 的研发启动？这个阶段最难的事情是什么？

潘滢炜：我们在 2017 年的时候就开始研究如何用上一代的生成式模型（GAN）去做文生视频，也算是这个方向最早期探索的团队之一，当然除了文生视频生成之外，团队在视觉与语言和视频内容理解的研究也非常深入，例如 2017 年设计了视频分析领域标准 3D 卷积神经网络，199 层 Pseudo-3D (P3D) Network，极大地提升了多种不同视频理解任务的性能，这一工作单篇引用已超过两千次。团队还构建了业界首个大规模视频-语言跨模态数据集 MSR-VTT，打破了在此之前小规模的视频-语言跨模态对预定义词表和模型学习的局限性，这一工作单篇引用率也已超过两千次，已被全球四百余研究机构的学者下载使用，也是现在多模态理解大模型在视频内容理解任务上必测的标准数据集之一。

而创业初期，当时正处于大语言模型创业公司不断涌现的时期，而我们正是看到了多模态 AIGC 刚刚萌发的机遇和挑战，并很欣慰看到当时例如 Midjourney 的图像生成功能在用户侧正不断被接受且用户愿意付费，这些都告诉我们多模态生成式大模型的元年即将到来。因此，研发的启动靠的还是我们足够的底气——团队在多模态领域拥有着超过 15 年的技术和产品积累，并在微软和京东两家 500 强企业均得到了充分验证。

InfoQ：对比市面上其他的模型，智象在研发过程中更关注模型的哪些方面指标并且如何进行重点攻关？

潘滢炜：在预训练阶段关注的还是大家常见的技术指标，类似于语义相关性、艺术美感指标等等，而在后训练阶段将更多地关注 human perference，即真正用户视角下的可用性，利用类似于强化学习的方式将模型在真实场景下真正从 90 分提升至 100 分，解决用户最后一公里的问题。

InfoQ：可以看到，智象内部经历了多模态模型的架构演变，从 1.0、2.0 的 DiT 架构到 3.0 的扩散自回归模型（DiT+AR）。每个阶段背后的技术选型考量是什么？

潘滢炜：23 年创业初期，我们发布的 1.0 版本主要是基于 UNet 架构的扩散模型，技术上主要考虑是如何在像素空间提升生成质量同时又在语义隐式空间去保证语义一致性，整体上还属于很短时间内的国际跟跑。

到了 24 年我们就很快发布了 2.0 版本，是和 Sora 同架构的 Diffusion Transformer（DiT），而我们从技术上主要考虑如何实现生成效率和生成质量的极致性价比，即和国际第一梯队实现并跑的同时、大幅降低训练成本（约十分之一）。这一套架构我们也在今年开源了，也就是我们的 HiDream-I1，它在国际权威榜单 Artificial Analysis 中 24 小时内实现登顶，成为首个跻身全球第一梯队的中国自研生成式 AI 模型，并在图像质量、语义理解、艺术表现三大维度刷新行业纪录。在开源社区 Hugging Face 上全球排名前列，发布一个月内模型下载近 30 万次。

24 年下半年，我们会进一步去思考“成本-效率”的平衡，以及从用户的视角更多地关注基础模型在上层应用的表现，这也就诞生了我们 3.0 版本，即扩散自回归架构（Diffusion Transformer + Autoregressive model），背后的技术考量就是希望在增强生成画面质量的同时推理耗时进一步降低，同时采用全局镜头运动和局部画面运动联合学习，实现影视级运镜和更为生动的画面运动，并利用 Mixture-of-Expert 多场景学习放大多模态生成大模型的产品能力特色，实现不同特色场景下的生成效果提升，完成用户最后一公里。

InfoQ：进行大的架构调整，你们从决策层和研发层分别遇到了哪些挑战？

潘滢炜：因为我们扁平高效的组织架构，所以每次大的架构调整都非常顺利，不存在沟通上的挑战。

InfoQ：你对智象当前扩散自回归模型的效果满意吗？未来还要做哪些优化？

潘滢炜：扩散自回归模型本质还是对物理世界的复刻，所以它无法去真正实现物理世界的建模、去掌握精准的物理规律。

多模态模型的架构之争

InfoQ：你认为，现在多模态模型的架构之争是否已经有了结果？为什么？

潘滢炜：其实我们在技术上一直是走的比较靠前的，当大家还在谈论是选择自回归还是扩散模型的时候，即“架构之争”的时候，我们在去年已经做完验证并发布了全新的扩散自回归架构，其本质是怎么很好的融合扩散和自回归，即之前提到的 3.0 版本，但它还是在对物理世界的复刻，依然无法实现对物理世界的建模。

今年，在技术上我们会更多地去思考如何实现真正物理世界构建，我们称之为”三维重建和视频生成的统一“，这套架构会跳出物理世界模拟的套路（一味的模拟永远无法实现世界的生成），在视频生成的过程中用三维重建去构建真实物理世界，在构建物理世界的同时又去渲染视频生成，真正去触达物理世界的构建。

InfoQ：当前，多模态模型的视觉理解与推理能力也颇受重视，当前业界在这方面的研究如何？智象内部做了哪些事情？

潘滢炜：关于多模态理解，从我们智象的视角来看，理解模型和生成模型虽然用于不同的应用场景，采取不同的技术路线，但是两者之间又有千丝万缕的关系。从宏观角度来看，两者皆属于多模态大模型，核心问题是多模态数据之间的对齐，而主要的不同在于，生成大模型目的是生成用户需要的多模态内容，注重生成内容的质量以及用户需求的理解，而理解大模型主要的目的是根据多模态数据内容的解读对用户的提问作出回答，注重的是回答的准确性。换句话说，一个是从描述到数据，一个是从数据到描述，处于对偶关系。

在我们研发智象多模态生成式大模型的过程中，已经积累了充足的多模态数据，以及多模理解模型的相关技术，我们也研发了内部使用的多模态理解模型，主要用来对多模态数据进行标注从而辅助生成式模型的训练。此外，这一理解模型也进一步服务于我们理解增强的多模态生成技术，搭配多模态生成大模型实现多模态检索+多模态内容编辑与生成的二创平台系统，进一步降低用户的使用门槛并且大幅提升基于 IP 的多模态内容生成效果。

InfoQ：infra 层方面，多模态模型有哪些必须或特殊的要求？根据使用经验，当前的 AI 基础设施存在哪些好处和不足

潘滢炜：相比于单纯使用文本内容训练的语言大模型，多模态大模型的训练不仅需要处理大量的文本数据，还需融合图片、视频及 3D 等多种模态的数据。这些多样化的数据类型意味着对训练集群在数据存储和处理能力上有着更为严格的要求。因此，在基础设施层面，除了考虑 GPU 算力外，还需配置充足且可灵活分配的 CPU、高性能硬件解码器、大容量高吞吐低延迟的存储解决方案，以及高速的数据网络以支持多模态数据的实时传输。

InfoQ：在适配国产算力上，研发团队需要做哪些事情？训练过程中，如何平衡模型性能与算力成本？

潘滢炜：在适配国产算力的过程中，需首先全面评估国产计算卡在真实场景下的性能指标，并核对其对各类算子的支持范围；其次，依据适配需求，从推理侧入手，逐一实现所需的计算模块，并进行浮点数精度校正，以确保推理结果的一致性；随后，可以尝试将推理计算模块扩展为支持训练的模式，实现大规模的分布式训练方案，并进行训练精度的校正；最后，要通过性能调优充分挖掘国产算力卡的硬件潜力。

什么样的公司能留在牌桌上

InfoQ：前段时间，智象创始人梅涛在一次采访中提到，“今年对我们来说很重要，我们要留在牌桌上。”为什么今年是重要的一年？当前的竞争格局是怎样的？

潘滢炜：2024 年初，Sora 的惊艳亮相，将文生视频技术推向 AI 领域竞争的新高地。彼时，成立仅一年多的智象未来，凭借在生成式 AI 和多模态领域的技术积累迅速响应，仅用短短 2 个月时间便推出全球首个上线开放使用的图像和视频生成（DiT）架构模型，并迅速在 vivago.ai 上线向全球用户提供视频生成服务，把握了行业发展先机。对于智象未来而言，2025 年之所以重要，原因是多方面的。

从技术发展角度，AI 领域技术迭代日新月异，新的模型架构、算法不断涌现。以文生视频为例，在 Sora 发布引发行业关注后，智象未来迅速推出相应的 DiT 模型，但技术竞争不会停歇，需要持续投入研发以保持技术的先进性和领先地位。如果在这一年不能跟上技术迭代的步伐，可能就会被竞争对手超越，失去在市场中的技术优势。

从市场竞争层面来看，越来越多的企业和资本涌入 AI 赛道，尤其是在视觉多模态领域，竞争愈发激烈。新的创业公司不断诞生，传统科技巨头也在加大投入。智象未来虽然已经取得了一定成绩，服务了 100 多个国家和地区的 1000 多万用户和 4 万多家企业，但市场份额的争夺始终处于动态变化中。2025 年若不能进一步拓展市场、提升品牌知名度和用户粘性，已有的市场份额可能被竞争对手蚕食。从商业化角度，智象未来成立两年在商业化上有了一定进展，但仍有较大提升空间。创业公司需要实现可持续的盈利，2025 年对于其探索合适的商业模式、提高收入、实现盈利平衡至关重要。若不能在商业化上取得实质性突破，长期依靠融资维持运营并非长久之计，会面临较大的生存压力。

当前视觉多模态 AI 领域的竞争格局呈现出复杂且激烈的态势。一方面，科技巨头凭借雄厚的资金实力、海量的数据资源、强大的研发团队和广泛的市场渠道，在竞争中占据优势地位。例如，一些大厂拥有自己的云计算基础设施，能为模型训练提供强大的算力支持，并且可以利用自身多元的业务场景快速推广和应用 AI 技术。另一方面，新兴的创业公司则以创新的技术和灵活的市场策略为突破口。像智象未来这样专注于特定细分领域，通过技术创新打造差异化竞争优势，快速响应市场需求推出创新性产品。还有部分开源社区和研究机构也在推动技术发展，开源的模型和技术成果为行业提供了更多的创新思路和基础，但同时也加剧了竞争，因为企业可以基于开源成果更快地开发产品和服务。在这样的竞争格局下，企业需要在技术创新、产品应用、市场拓展、商业模式等多个维度发力，才能在竞争中脱颖而出，留在牌桌上继续参与这场激烈的角逐。

InfoQ：你认为，什么样的公司才能留在牌桌上？智象未来的竞争力在哪里？

潘滢炜：在 AI 行业，能 “留在牌桌上” 的公司通常具有以下特征：

强大的技术研发能力：AI 领域技术更新换代快，需要公司持续投入研发，不断进行技术创新和模型迭代，以保持技术的先进性。例如，能快速推出新的模型架构、算法，提升模型的性能、精度和效率等。
充足的资金支持：研发 AI 技术需要大量的资金投入，用于购买算力设备、聘请专业人才、进行市场推广等。有稳定的资金来源，如融资、政府扶持或自身盈利，才能保证公司的持续运营和发展。
优秀的人才团队：拥有顶尖的 AI 科学家、工程师、算法研究员等专业人才，他们能够推动技术的研发和应用。同时，具备良好的团队协作能力和创新氛围，吸引和留住人才。
清晰的商业模式：明确如何将技术转化为产品或服务，并实现商业化盈利。例如，通过提供软件服务、解决方案、授权技术使用等方式获得收入，满足市场需求。
良好的市场拓展能力：能够准确把握市场趋势和客户需求，将产品或服务推向市场，获得用户和客户的认可。具备较强的品牌建设和市场营销能力，提高市场份额。

智象未来的竞争力主要体现在以下方面：

领先的技术实力：自主研发的 “智象视觉大模型” 是国内首批通过模型和算法双备案的多模态生成式大模型，也是全球支持图像和视频生成的最大模型之一。能实现文本、图片、视频等多模态内容的生成，在 4K 高清画面、全局 / 局部可控、剧本多镜头视频生成等功能上表现出色。
快速的技术响应：在 2024 年初 Sora 发布后，智象未来凭借技术积累，仅用 2 个月时间就推出全球首个上线开放使用的图像和视频生成（DiT）架构模型，并不断迭代升级，展现出快速响应行业变化的能力。
完善的应用平台：推出智象 AI 应用平台。其中智小象 AI 于近日升级全球上线，作为 AIGC 通用图像视频创作工具及内容社区，提供多种功能，提升设计效率。
广泛的商业合作：与多家上市公司深度合作，如彩讯股份、慈文传媒、寒武纪、浙版传媒等，拓展了 AI 技术的应用场景，从企业服务到消费市场，从影视内容创作到泛文化领域，推动了智象未来的商业化进程。

创作场景

多模态模型如何架构选型？从 UNet 到 DiT+AR，智象未来潘滢炜：今年要触达物理世界的构建

高尖人才管理

多模态模型的技术选型

多模态模型的架构之争

什么样的公司能留在牌桌上