Stable Difussion核心成员创办的AI独角兽甩出王炸模型：超低延迟，实现像素级图像编辑能力

Stable Diffusion 模型缔造者们建立的初创公司 Black Forest Labs（黑暗森林实验室，简称 BFL）刚刚发布了发布一款名为 FLUX.1 Kontext 的全新图像生成模型。此模型不仅能够生成和编辑照片，还允许用户添加文本及其他图像以实现内容修改。

该公司在 X 上发文称：“今天我们正式发布 FLUX.1 Kontext——一款生成流匹配模型，可用于图像生成和编辑。与传统的文生图模型不同，Kontext 能够同时将文本和图像作为输入，从而实现真正基于上下文的生成和编辑能力。”

BFL 公司联合创始人兼 CEO Robin Rombach 表示：“FLUX.1 Kontext 通过将图像生成和编辑统一在一个流匹配架构中，代表了对传统编辑方法的根本性转变。通过简单的流匹配训练，我们实现了跨多轮编辑的顶尖字符一致性，同时在 1MP 分辨率下保持了 3~5 秒的交互式推理速度。这实现了真正的迭代式创意工作流程，而这在以前由于视觉漂移和延迟限制而无法实现。”

该公司还公布了全新的 BFL Playground，供用户在正式引入企业级应用流程之前对 BFL 模型进行测试。

BFL 为该模型发布了两个版本：FLUX.1 Kontext [pro]和 FLUX.1 Kontext [max]。第三个版本 FLUX.1 Kontext [dev]也即将开放内测。Pro 版和 Max 版目前已经在 KreaAI、Freepik、Lightricks、OpenArt 以及 LeonardoAI 等平台上线。这些模型将帮助企业创意团队及其他开发者获得更精准、更快速的图像编辑能力。

FLUX.1 Kontext 能够执行基于上下文的生成，也就是说该模型可以根据收到的参考图像或场景输出新内容，不必让一切从零开始。

该公司在 X 上发帖表示，Kontext 的四大“特殊之处”包括：

角色一致性与跨场景元素保留能力；
可“针对特定部分且不影响其他部分”进行局部编辑；
使用获得的样式作为参考，生成相同风格的场景；
极低的输出延迟。

开发者可以在访问完整的 BFL API 之前，先在 BFL Playground 上测试用例并试用该模型。

BFL 公司什么来头？

这家德国初创公司于去年 8 月正式亮相，联合创始人兼 CEO Robin Rombach 在人工智能领域拥有多年经验，他是参与构建 Stable Diffusion 的几位关键工程师之一，这家创业公司现已迅速成为欧洲最受关注的公司之一。

BFL 目前已获得 General Catalyst 和 Andreessen Horowitz 等硅谷知名风投公司的投资，其专利 AI 模型也位居下载排行榜榜首。

Rombach 在攻读计算机科学博士学位之前曾在海德堡大学学习物理学，他被认为是文本转图像模型的早期设计者之一。

他与一小群专注于生成式深度学习模型（尤其是文本转图像系统）的研究人员合作。该团队的成员包括帕特里克·埃瑟 (Patrick Esser)，他后来成为黑森林实验室 (Black Forest Labs) 的联合创始人。

“我们在一个很小的实验室里一起工作，”Rombach 在去年年底的创业会议 Slush 上对观众说，并将他们的设置描述为“资源超级受限”，只有几个小型 GPU 来训练人工智能。

这并没有阻止他们的雄心：“我们希望与谷歌和英伟达等大型机构制造的最先进的模型竞争，”他在会议上说。

雄心勃勃的愿望和有限的资源促使 Rombach 和 Esser 开发出“潜在生成模型”，这种模型可以压缩图像中难以察觉的细节，这意味着它们可以以更高的效率工作。

Rombach 在 2023 年的 Big Techday 会议上展示了潜在空间模型。

图片：Big Techday/ Youtube。

2021 年，Rombach 和他的研究团队搬到了慕尼黑路德维希·马克西米利安大学。一年后，他担任了伦敦初创公司 Stability AI 的领导职务，该公司将 Rombach 团队开发的技术商业化，并将其作为文本转图像模型 Stable Diffusion 发布。

然而，尽管 Stability 的技术备受瞩目，但该公司很快就陷入了困境。外媒 Sifted 看到的一份泄露的融资方案引发了人们对 Stability 夸大其 AI 能力的质疑，并被指控未能按时支付员工工资和税款，但创始人 Emad Mostaque 否认了这些指控。

2024 年 3 月，在经历了特别动荡的 12 个月之后，Stability 更换了首席技术官，失去了一名产品副总裁、一名工程副总裁、一名研发副总裁和一名研究主管，Rombach 也在那时离开了这家陷入困境的公司。

随后去年 8 月，黑暗森林实验室（Black Forest Labs）正式成立。

Rombach 成功说服了十几位 Stability AI 的前同事加入这家公司。公司十位联合创始人中有五位来自 Stability AI：Andreas Blattmann、Jonas Julius Müller、Sumith Kulal、Tim Dockhorn 和 Axel Sauer。他还招募了 Northzone 前投资者 Sarah Nöckel 担任幕僚长，以及一大批技术人才。

根据领英数据，Black Forest Labs 目前拥有 30 名员工，其中 12 名来自 Stability AI。该公司目前正在德国和美国招聘 6 个技术职位，包括一名图像/视频研究员和一名图像/视频数据工程师，所有职位均完全远程办公。

成功参与 Black Forest 3100 万美元种子轮融资的风险投资家们对 Rombach 赞不绝口。

General Catalyst 的 Viet Le 表示：“如果你询问图像生成领域的任何人，无论是美国的 Midjourney 还是其他任何人，每个人都会认出来自德国南部的 Robin Rombach。”

两款新模型发布：Pro 和 Max

此次，Robin Rombach 带领的团队又带来了两款新模型：FLUX.1 Kontext [pro]和 FLUX.1 Kontext [max]。

这两款模型都能做什么？

企业可以使用 Pro 版进行快速迭代编辑。用户期间可输入文本及参考图像，并进行局部编辑。该公司表示，Kontext [pro]的运行速度“较以往最先进的模型快了一个数量级”，而且是首批允许多轮编辑的模型之一。

另一个模型，FLUX.1 Kontext [max]则是速度同样较快且性能最强的版本。该公司表示，它能更严格地遵循提示词、输出内容更易于阅读，而且在不影响速度的前提下在编辑过程中保持一致性。

当然，不少其他图像生成模型也可以根据上传的文件生成照片。MidJourney 的 AI 图像编辑器就能使用参考图片，再对其中的特定区域进行编辑。Adobe 的 Firefly 同样如此，目前不少使用 Adobe 热门图像和视频平台的用户都能随时访问。

至于作为 Kontext 模型家族的第三个版本，FLUX.1 Kontext [dev]则是一款拥有 12B 参数的开放权重模型。

BFL 还专门强调，FLUX.1 Kontext 是一款流模型，因此能够更灵活地完成上述任务。

所谓流模型（flow model）会从连续的数据流中学习，并在噪声数据和有用信息之间定义出一条路径。也就是说，其基本思路就与 Stability AI、MidJourney 乃至 OpenAI Sora 等众多图像与视频生成模型所依赖的 Diffussion 模型（能够对数据进行「去噪」）完全不同。

BFL 在一篇博文中指出，Kontext 模型代表着流模型的又一次进步。

该公司解释称，“FLUX.1 Kontext 模型超越了文生图的范畴。与之前仅支持利用纯文本生成图像的流模型不同，FLUX.1 Kontext 模型还能理解获得的图像并据此创作。使用 FLUX.1 Kontext，您可以通过简单的文本指令修改输入图像，从而实现灵活且即时的图像编辑能力——无需进行微调或者面临复杂的编辑流程。”

在文生图基准测试中，BFL 宣称 FLUX.1 Kontext 模型在美观度、提示词遵循性、真实感和内容排版方面足以与其他顶尖模型相媲美。