
Stable Diffusion 模型缔造者们建立的初创公司 Black Forest Labs(黑暗森林实验室,简称 BFL)刚刚发布了发布一款名为 FLUX.1 Kontext 的全新图像生成模型。此模型不仅能够生成和编辑照片,还允许用户添加文本及其他图像以实现内容修改。
该公司在 X 上发文称:“今天我们正式发布 FLUX.1 Kontext——一款生成流匹配模型,可用于图像生成和编辑。与传统的文生图模型不同,Kontext 能够同时将文本和图像作为输入,从而实现真正基于上下文的生成和编辑能力。”

BFL 公司联合创始人兼 CEO Robin Rombach 表示:“FLUX.1 Kontext 通过将图像生成和编辑统一在一个流匹配架构中,代表了对传统编辑方法的根本性转变。通过简单的流匹配训练,我们实现了跨多轮编辑的顶尖字符一致性,同时在 1MP 分辨率下保持了 3~5 秒的交互式推理速度。这实现了真正的迭代式创意工作流程,而这在以前由于视觉漂移和延迟限制而无法实现。”
该公司还公布了全新的 BFL Playground,供用户在正式引入企业级应用流程之前对 BFL 模型进行测试。
BFL 为该模型发布了两个版本:FLUX.1 Kontext [pro]和 FLUX.1 Kontext [max]。第三个版本 FLUX.1 Kontext [dev]也即将开放内测。Pro 版和 Max 版目前已经在 KreaAI、Freepik、Lightricks、OpenArt 以及 LeonardoAI 等平台上线。这些模型将帮助企业创意团队及其他开发者获得更精准、更快速的图像编辑能力。
FLUX.1 Kontext 能够执行基于上下文的生成,也就是说该模型可以根据收到的参考图像或场景输出新内容,不必让一切从零开始。
该公司在 X 上发帖表示,Kontext 的四大“特殊之处”包括:
角色一致性与跨场景元素保留能力;
可“针对特定部分且不影响其他部分”进行局部编辑;
使用获得的样式作为参考,生成相同风格的场景;
极低的输出延迟。
开发者可以在访问完整的 BFL API 之前,先在 BFL Playground 上测试用例并试用该模型。
BFL 公司什么来头?
这家德国初创公司于去年 8 月正式亮相,联合创始人兼 CEO Robin Rombach 在人工智能领域拥有多年经验,他是参与构建 Stable Diffusion 的几位关键工程师之一,这家创业公司现已迅速成为欧洲最受关注的公司之一。
BFL 目前已获得 General Catalyst 和 Andreessen Horowitz 等硅谷知名风投公司的投资,其专利 AI 模型也位居下载排行榜榜首。
Rombach 在攻读计算机科学博士学位之前曾在海德堡大学学习物理学,他被认为是文本转图像模型的早期设计者之一。
他与一小群专注于生成式深度学习模型(尤其是文本转图像系统)的研究人员合作。该团队的成员包括帕特里克·埃瑟 (Patrick Esser),他后来成为黑森林实验室 (Black Forest Labs) 的联合创始人。
“我们在一个很小的实验室里一起工作,”Rombach 在去年年底的创业会议 Slush 上对观众说,并将他们的设置描述为“资源超级受限”,只有几个小型 GPU 来训练人工智能。
这并没有阻止他们的雄心:“我们希望与谷歌和英伟达等大型机构制造的最先进的模型竞争,”他在会议上说。
雄心勃勃的愿望和有限的资源促使 Rombach 和 Esser 开发出“潜在生成模型”,这种模型可以压缩图像中难以察觉的细节,这意味着它们可以以更高的效率工作。

Rombach 在 2023 年的 Big Techday 会议上展示了潜在空间模型。
图片:Big Techday/ Youtube。
2021 年,Rombach 和他的研究团队搬到了慕尼黑路德维希·马克西米利安大学。一年后,他担任了伦敦初创公司 Stability AI 的领导职务,该公司将 Rombach 团队开发的技术商业化,并将其作为文本转图像模型 Stable Diffusion 发布。
然而,尽管 Stability 的技术备受瞩目,但该公司很快就陷入了困境。外媒 Sifted 看到的一份泄露的融资方案引发了人们对 Stability 夸大其 AI 能力的质疑,并被指控未能按时支付员工工资和税款,但创始人 Emad Mostaque 否认了这些指控。
2024 年 3 月,在经历了特别动荡的 12 个月之后,Stability 更换了首席技术官,失去了一名产品副总裁、一名工程副总裁、一名研发副总裁和一名研究主管,Rombach 也在那时离开了这家陷入困境的公司。
随后去年 8 月,黑暗森林实验室(Black Forest Labs)正式成立。
Rombach 成功说服了十几位 Stability AI 的前同事加入这家公司。公司十位联合创始人中有五位来自 Stability AI:Andreas Blattmann、Jonas Julius Müller、Sumith Kulal、Tim Dockhorn 和 Axel Sauer。他还招募了 Northzone 前投资者 Sarah Nöckel 担任幕僚长,以及一大批技术人才。
根据领英数据,Black Forest Labs 目前拥有 30 名员工,其中 12 名来自 Stability AI。该公司目前正在德国和美国招聘 6 个技术职位,包括一名图像/视频研究员和一名图像/视频数据工程师,所有职位均完全远程办公。
成功参与 Black Forest 3100 万美元种子轮融资的风险投资家们对 Rombach 赞不绝口。
General Catalyst 的 Viet Le 表示:“如果你询问图像生成领域的任何人,无论是美国的 Midjourney 还是其他任何人,每个人都会认出来自德国南部的 Robin Rombach。”
两款新模型发布:Pro 和 Max
此次,Robin Rombach 带领的团队又带来了两款新模型:FLUX.1 Kontext [pro]和 FLUX.1 Kontext [max]。
这两款模型都能做什么?
企业可以使用 Pro 版进行快速迭代编辑。用户期间可输入文本及参考图像,并进行局部编辑。该公司表示,Kontext [pro]的运行速度“较以往最先进的模型快了一个数量级”,而且是首批允许多轮编辑的模型之一。
另一个模型,FLUX.1 Kontext [max]则是速度同样较快且性能最强的版本。该公司表示,它能更严格地遵循提示词、输出内容更易于阅读,而且在不影响速度的前提下在编辑过程中保持一致性。
当然,不少其他图像生成模型也可以根据上传的文件生成照片。MidJourney 的 AI 图像编辑器就能使用参考图片,再对其中的特定区域进行编辑。Adobe 的 Firefly 同样如此,目前不少使用 Adobe 热门图像和视频平台的用户都能随时访问。
至于作为 Kontext 模型家族的第三个版本,FLUX.1 Kontext [dev]则是一款拥有 12B 参数的开放权重模型。
BFL 还专门强调,FLUX.1 Kontext 是一款流模型,因此能够更灵活地完成上述任务。
所谓流模型(flow model)会从连续的数据流中学习,并在噪声数据和有用信息之间定义出一条路径。也就是说,其基本思路就与 Stability AI、MidJourney 乃至 OpenAI Sora 等众多图像与视频生成模型所依赖的 Diffussion 模型(能够对数据进行「去噪」)完全不同。
BFL 在一篇博文中指出,Kontext 模型代表着流模型的又一次进步。
该公司解释称,“FLUX.1 Kontext 模型超越了文生图的范畴。与之前仅支持利用纯文本生成图像的流模型不同,FLUX.1 Kontext 模型还能理解获得的图像并据此创作。使用 FLUX.1 Kontext,您可以通过简单的文本指令修改输入图像,从而实现灵活且即时的图像编辑能力——无需进行微调或者面临复杂的编辑流程。”
在文生图基准测试中,BFL 宣称 FLUX.1 Kontext 模型在美观度、提示词遵循性、真实感和内容排版方面足以与其他顶尖模型相媲美。

外界评价如何?
BFL 于去年 10 月发布了文生图模型 Flux 1.1 Pro。其中还包含一个 API,可供第三方开发者将其集成到自己的应用当中。
在 BFL Playground 的支持下,已经有部分用户开始试用 Kontext 模型并给出了相当不俗的评价。
在 X 平台,好用户表示:“有一说一,使用 @bfl ml FLUX.1 Kontext 在 10 秒不到的时间里就能根据旧图生成头像或者编辑特定内容,这着实令人惊叹。这些是我在 @replicate 上使用的职业头像——虽然还不完美,但已经几可乱真(左侧为实拍图)。”

还有手快的用户,已经开始尝试了,并被新模型的表现惊艳到。
“哇哦。我刚在 @FALand 上试用了 FLUX.1 Kontext max,效果真的很棒。我用到了这样两张图像。”

还有网友表示,“Kontext 在图像编辑方面非常出色。它可以实现像素级的完美图像编辑,这是其他图像模型无法做到的。”
提示词是:“把一条小绿龙放在他的肩膀上。”

当然,FLUX.1 Kontext 还须面对与其他现有先进图像模型的竞争,特别是那些已经诞生数年且仍在不断改进的“老前辈”。至于最终谁更胜一筹,我们将拭目以待!
参考链接:
评论