还记得今年3月底从Stability AI离职的Robin Rombach吗?作为开发文生图模型Stable Diffusion的两位主要作者之一,他于2022年加入Stability AI。
如今,离职近五个月后,Robin Rombach宣布了自己创业的好消息!
他创立了「Black Forest Labs」,旨在推进高质量生成式深度学习模型,并开放给更多人使用,FLUX发布后,SeaArt AI也是第一时间集成FLUX.1模型,制作“Flux文生图”功能免费开放使用。
团队成员包括杰出的AI研究者和工程师,他们之前的代表性工作包括VQGAN、Latent Diffusion、Stable Diffusion(包括Stable Diffusion XL、Stable Video Diffusion、Rectified Flow Transformers)以及用于超快实时图像合成的Adversarial Diffusion Distillation。
除了Robin Rombach之外,Stable Diffusion的其他三位作者也成为了创始团队成员,包括Andreas Blattmann、Dominik Lorenz和Patrick Esser。他们在今年早些时候离开Stability AI,有人猜测他们当初离开就是为了创业。
目前,Black Forest Labs已完成3100万美元的种子轮融资,由Andreessen Horowitz领投,其他投资者包括Brendan Iribe、Michael Ovitz、Garry Tan、Timo Aila、Vladlen Koltun,以及General Catalyst和MätchVC的后续投资。
该Labs还成立了顾问委员会,成员包括在内容创作行业具有广泛经验的科技大佬Michael Ovitz和神经风格迁移先驱、欧洲开放AI研究的顶级专家Matthias Bethge教授。
Black Forest Labs推出了首个模型系列「FLUX.1」,包含以下三个变体模型:
1. FLUX.1 [pro]:全新的SOTA文生图模型,具备丰富的图像细节、强大的prompt遵循能力和多样化风格,可通过API使用。
2. FLUX.1 [dev]:FLUX.1 [pro]的开放权重、非商用变体,表现优于Midjourney和Stable Diffusion 3等其他图像模型,推理代码和权重已在GitHub上发布。
3. FLUX.1 [schnell]:超高效的4-step模型,遵循Apache 2.0协议,在性能上与[dev]和[pro]非常接近,可在Hugging Face上使用。
Black Forest Labs的下一步目标是推出SOTA文生视频模型。
FLUX.1系列模型采用多模态和并行扩散Transformer的混合架构,不同于其他家按参数量分类,FLUX.1家族统一扩展为120亿参数的庞大规模。
研究团队使用流匹配(Flow Matching)框架升级了SOTA扩散模型,采用了旋转位置嵌入和并行注意力层,有效提高了模型性能,加快了生成速度。
虽然模型的详细技术未公开,但更详细的技术报告将很快公布。
FLUX.1系列模型在各自领域确立了新标准,无论是图像美观度、文本提示词的符合度、尺寸/宽高比可变性,还是输出格式的多样性,FLUX.1 [pro]和[dev]都超越了Midjourney v6.0、DALL・E 3 (HD)以及SD3-Ultra。
FLUX.1 [schnell]是目前最先进的少步骤模型,性能超越了同类竞争对手,如Midjourney v6.0和DALL・E 3 (HD)。
FLUX.1系列模型支持多种纵横比和分辨率,从0.1到200万像素。
FLUX.1,效果令人惊叹,简单提示词生成的图像,效果几乎难以分辨是真实摄影还是AI生成。
含有文字的图像处理也很逼真,景深处理符合真实镜头感。
除了三款文生图模型,Black Forest Labs还在开发强大的文生视频模型,目标是提供最先进的文生视频技术。