免费注册!6月19-20日,「亚马逊云科技中国峰会」重磅来袭! 了解详情
写点什么

Stable Difussion 核心成员创办的 AI 独角兽甩出王炸模型:超低延迟,实现像素级图像编辑能力

  • 2025-05-30
    北京
  • 本文字数:3287 字

    阅读完需:约 11 分钟

大小:1.61M时长:09:21
Stable Difussion核心成员创办的AI独角兽甩出王炸模型:超低延迟,实现像素级图像编辑能力

Stable Diffusion 模型缔造者们建立的初创公司 Black Forest Labs(黑暗森林实验室,简称 BFL)刚刚发布了发布一款名为 FLUX.1 Kontext 的全新图像生成模型。此模型不仅能够生成和编辑照片,还允许用户添加文本及其他图像以实现内容修改。

 

该公司在 X 上发文称:“今天我们正式发布 FLUX.1 Kontext——一款生成流匹配模型,可用于图像生成和编辑。与传统的文生图模型不同,Kontext 能够同时将文本和图像作为输入,从而实现真正基于上下文的生成和编辑能力。”



BFL 公司联合创始人兼 CEO Robin Rombach 表示:“FLUX.1 Kontext 通过将图像生成和编辑统一在一个流匹配架构中,代表了对传统编辑方法的根本性转变。通过简单的流匹配训练,我们实现了跨多轮编辑的顶尖字符一致性,同时在 1MP 分辨率下保持了 3~5 秒的交互式推理速度。这实现了真正的迭代式创意工作流程,而这在以前由于视觉漂移和延迟限制而无法实现。”

 

该公司还公布了全新的 BFL Playground,供用户在正式引入企业级应用流程之前对 BFL 模型进行测试。

 

BFL 为该模型发布了两个版本:FLUX.1 Kontext [pro]和 FLUX.1 Kontext [max]。第三个版本 FLUX.1 Kontext [dev]也即将开放内测。Pro 版和 Max 版目前已经在 KreaAI、Freepik、Lightricks、OpenArt 以及 LeonardoAI 等平台上线。这些模型将帮助企业创意团队及其他开发者获得更精准、更快速的图像编辑能力。

 

FLUX.1 Kontext 能够执行基于上下文的生成,也就是说该模型可以根据收到的参考图像或场景输出新内容,不必让一切从零开始。

 

该公司在 X 上发帖表示,Kontext 的四大“特殊之处”包括:

 

  • 角色一致性与跨场景元素保留能力;

  • 可“针对特定部分且不影响其他部分”进行局部编辑;

  • 使用获得的样式作为参考,生成相同风格的场景;

  • 极低的输出延迟。

 

开发者可以在访问完整的 BFL API 之前,先在 BFL Playground 上测试用例并试用该模型。

 

BFL 公司什么来头?

 

这家德国初创公司于去年 8 月正式亮相,联合创始人兼 CEO Robin Rombach 在人工智能领域拥有多年经验,他是参与构建 Stable Diffusion 的几位关键工程师之一,这家创业公司现已迅速成为欧洲最受关注的公司之一。

 

BFL 目前已获得 General Catalyst 和 Andreessen Horowitz 等硅谷知名风投公司的投资,其专利 AI 模型也位居下载排行榜榜首。

 

Rombach 在攻读计算机科学博士学位之前曾在海德堡大学学习物理学,他被认为是文本转图像模型的早期设计者之一。

 

他与一小群专注于生成式深度学习模型(尤其是文本转图像系统)的研究人员合作。该团队的成员包括帕特里克·埃瑟 (Patrick Esser),他后来成为黑森林实验室 (Black Forest Labs) 的联合创始人。

 

“我们在一个很小的实验室里一起工作,”Rombach 在去年年底的创业会议 Slush 上对观众说,并将他们的设置描述为“资源超级受限”,只有几个小型 GPU 来训练人工智能。 

 

这并没有阻止他们的雄心:“我们希望与谷歌和英伟达等大型机构制造的最先进的模型竞争,”他在会议上说。

 

雄心勃勃的愿望和有限的资源促使 Rombach 和 Esser 开发出“潜在生成模型”,这种模型可以压缩图像中难以察觉的细节,这意味着它们可以以更高的效率工作。



Rombach 在 2023 年的 Big Techday 会议上展示了潜在空间模型。

图片:Big Techday/ Youtube。

 

2021 年,Rombach 和他的研究团队搬到了慕尼黑路德维希·马克西米利安大学。一年后,他担任了伦敦初创公司 Stability AI 的领导职务,该公司将 Rombach 团队开发的技术商业化,并将其作为文本转图像模型 Stable Diffusion 发布。 

 

然而,尽管 Stability 的技术备受瞩目,但该公司很快就陷入了困境。外媒 Sifted 看到的一份泄露的融资方案引发了人们对 Stability 夸大其 AI 能力的质疑,并被指控未能按时支付员工工资和税款,但创始人 Emad Mostaque 否认了这些指控。 

 

2024 年 3 月,在经历了特别动荡的 12 个月之后,Stability 更换了首席技术官,失去了一名产品副总裁、一名工程副总裁、一名研发副总裁和一名研究主管,Rombach 也在那时离开了这家陷入困境的公司。 

 

随后去年 8 月,黑暗森林实验室(Black Forest Labs)正式成立。

 

Rombach 成功说服了十几位 Stability AI 的前同事加入这家公司。公司十位联合创始人中有五位来自 Stability AI:Andreas Blattmann、Jonas Julius Müller、Sumith Kulal、Tim Dockhorn 和 Axel Sauer。他还招募了 Northzone 前投资者 Sarah Nöckel 担任幕僚长,以及一大批技术人才。 

 

根据领英数据,Black Forest Labs 目前拥有 30 名员工,其中 12 名来自 Stability AI。该公司目前正在德国和美国招聘 6 个技术职位,包括一名图像/视频研究员和一名图像/视频数据工程师,所有职位均完全远程办公。 

 

成功参与 Black Forest 3100 万美元种子轮融资的风险投资家们对 Rombach 赞不绝口。 

 

General Catalyst 的 Viet Le 表示:“如果你询问图像生成领域的任何人,无论是美国的 Midjourney 还是其他任何人,每个人都会认出来自德国南部的 Robin Rombach。” 

 

两款新模型发布:Pro 和 Max

 

此次,Robin Rombach 带领的团队又带来了两款新模型:FLUX.1 Kontext [pro]和 FLUX.1 Kontext [max]。

 

这两款模型都能做什么?

 

企业可以使用 Pro 版进行快速迭代编辑。用户期间可输入文本及参考图像,并进行局部编辑。该公司表示,Kontext [pro]的运行速度“较以往最先进的模型快了一个数量级”,而且是首批允许多轮编辑的模型之一。

 

另一个模型,FLUX.1 Kontext [max]则是速度同样较快且性能最强的版本。该公司表示,它能更严格地遵循提示词、输出内容更易于阅读,而且在不影响速度的前提下在编辑过程中保持一致性。

 

当然,不少其他图像生成模型也可以根据上传的文件生成照片。MidJourney 的 AI 图像编辑器就能使用参考图片,再对其中的特定区域进行编辑。Adobe 的 Firefly 同样如此,目前不少使用 Adobe 热门图像和视频平台的用户都能随时访问。

 

至于作为 Kontext 模型家族的第三个版本,FLUX.1 Kontext [dev]则是一款拥有 12B 参数的开放权重模型。

 

BFL 还专门强调,FLUX.1 Kontext 是一款流模型,因此能够更灵活地完成上述任务。

 

所谓流模型(flow model)会从连续的数据流中学习,并在噪声数据和有用信息之间定义出一条路径。也就是说,其基本思路就与 Stability AI、MidJourney 乃至 OpenAI Sora 等众多图像与视频生成模型所依赖的 Diffussion 模型(能够对数据进行「去噪」)完全不同

 

BFL 在一篇博文中指出,Kontext 模型代表着流模型的又一次进步。

 

该公司解释称,“FLUX.1 Kontext 模型超越了文生图的范畴。与之前仅支持利用纯文本生成图像的流模型不同,FLUX.1 Kontext 模型还能理解获得的图像并据此创作。使用 FLUX.1 Kontext,您可以通过简单的文本指令修改输入图像,从而实现灵活且即时的图像编辑能力——无需进行微调或者面临复杂的编辑流程。”

 

在文生图基准测试中,BFL 宣称 FLUX.1 Kontext 模型在美观度、提示词遵循性、真实感和内容排版方面足以与其他顶尖模型相媲美。

 

外界评价如何?


BFL 于去年 10 月发布了文生图模型 Flux 1.1 Pro。其中还包含一个 API,可供第三方开发者将其集成到自己的应用当中。

 

在 BFL Playground 的支持下,已经有部分用户开始试用 Kontext 模型并给出了相当不俗的评价。

 

在 X 平台,好用户表示:“有一说一,使用 @bfl ml FLUX.1 Kontext 在 10 秒不到的时间里就能根据旧图生成头像或者编辑特定内容,这着实令人惊叹。这些是我在 @replicate 上使用的职业头像——虽然还不完美,但已经几可乱真(左侧为实拍图)。”

 


还有手快的用户,已经开始尝试了,并被新模型的表现惊艳到。

 

“哇哦。我刚在 @FALand 上试用了 FLUX.1 Kontext max,效果真的很棒。我用到了这样两张图像。”

 


还有网友表示,“Kontext 在图像编辑方面非常出色。它可以实现像素级的完美图像编辑,这是其他图像模型无法做到的。”

 

提示词是:“把一条小绿龙放在他的肩膀上。”

 


当然,FLUX.1 Kontext 还须面对与其他现有先进图像模型的竞争,特别是那些已经诞生数年且仍在不断改进的“老前辈”。至于最终谁更胜一筹,我们将拭目以待!

 

参考链接:

https://venturebeat.com/ai/flux-1-kontext-enables-in-context-image-generation-for-enterprise-ai-pipelines/

 

2025-05-30 16:492
用户头像
李冬梅 加V:busulishang4668

发布了 1080 篇内容, 共 699.5 次阅读, 收获喜欢 1241 次。

关注

评论

发布
暂无评论

全新市场周期推动 LaunchPad 迎新起点, Penpad 成新兴生力军

西柚子

文心一言 VS 讯飞星火 VS chatgpt (199)-- 算法导论15.2 1题

福大大架构师每日一题

福大大架构师每日一题

OpenLDAP 接入 NineData SSO

NineData

SSO openldap 单点登录 NineData phpLDAPadmin

万字干货-京东零售数据资产能力升级与实践

京东零售技术

大数据 数据资产

喜报!博睿数据荣获中信银行2023年度优秀服务伙伴奖

博睿数据

龙年大吉,新的一年开启你的职业飞跃之旅

亚马逊云科技 (Amazon Web Services)

架构师 亚马逊云科技 培训与认证

2024年中国(北京)国际智能锁产品展会

秋硕展览

新型储能|储能电站|2024山西国际储能产业展会

秋硕展览

2024太阳能产品展|2024山西国际供热采暖展会

秋硕展览

Java 构造函数与修饰符详解:初始化对象与控制权限

小万哥

Java 程序人生 编程语言 软件工程 后端开发

提高代码质量的十条编码原则

互联网工科生

代码规范

低代码开发应对AI时代到来的挑战与机遇

不在线第一只蜗牛

人工智能 低代码 AI技术

博睿数据率先发布HarmonyOS NEXT系统的应用异常观测SDK

博睿数据

4家券商综合评级上升,1月券商App终端业务体验评测报告发布

博睿数据

京东app商品详情数据接口

tbapi

京东 京东商品详情接口 京东API 京东APP商品详情接口

分布式存储技术:总结2023,展望2024

黄岩

分布式存储 zstorage 全闪分布式

2024年工业展|2024越南国际工业技术装备展会

秋硕展览

一款高输出电流 PWM 转换器

芯动大师

员工活动 | 并肩携手,温暖前行

MatrixOrigin

数据库 云原生 分布式,

SDWAN组网基于软件,部署灵活且周期短

Geek一起出海

《数字化运维路线图》第四部分-数字化运维转型场景 震撼发布!

博睿数据

跃迁:从普通到卓越的成长路径

老张

个人成长

喜报,喜报!MO 荣获六个年度大奖!

MatrixOrigin

数据库 云原生 分布式,

数据价值在线化,TiDB 在企查查数据中台的应用

编程猫

Stable Difussion核心成员创办的AI独角兽甩出王炸模型:超低延迟,实现像素级图像编辑能力_生成式 AI_李冬梅_InfoQ精选文章