Ostris团队发布Flex.2-preview,一款基于8亿参数文本到图像扩散模型,专为集成到ComfyUI工作流设计。据AIbase了解,该模型在基于线条、姿态和深度的控制生成能力上表现出色,支持通用控制与图像修补功能,延续了从Flux.1Schnell到OpenFlux.1、Flex.1-alpha的微调进化路径。Flex.2-preview已在Hugging Face开源,凭借Apache2.0许可证与灵活的工作流集成,迅速成为AI艺术创作社区的焦点。

Ostris发布Flex.2-preview,8B参数扩散模型革新ComfyUI工作流

核心功能:通用控制与工作流无缝集成

Flex.2-preview以其强大的控制能力与ComfyUI原生支持重新定义了文本到图像生成。AIbase梳理了其主要功能:  

通用控制支持:内置线条(Canny)、姿态和深度控制,允许用户通过控制图像精确引导生成结果,如基于深度图生成3D风格场景或基于线稿生成精细插图。  

图像修补能力:支持高级图像修补(inpainting),用户可通过掩码指定区域进行内容替换或修复,如将狗替换为“白色机器人狗坐在长椅上”。  

ComfyUI工作流集成:模型专为ComfyUI优化,提供节点化工作流支持,简化复杂任务的配置,如文本到图像、图像到图像与控制网络的组合。  

高效生成:基于8亿参数的精简架构,生成1024×1024高分辨率图像仅需50步推理,适合16GB VRAM的消费级GPU。

AIbase注意到,社区测试中,用户利用Flex.2-preview的控制节点生成了一幅“赛博朋克城市夜景”,通过深度图与线条控制实现了高度一致的构图,展现了其在创意设计中的潜力。

Ostris发布Flex.2-preview,8B参数扩散模型革新ComfyUI工作流

技术架构:从Flux.1Schnell到Flex.2的进化

Flex.2-preview基于Black Forest Labs的Flux.1Schnell,经过多阶段微调与优化。AIbase分析,其技术演进包括:  

架构优化:继承Flux.1的整流流变换器(Rectified Flow Transformer)架构,拥有8个双变换器块(相比Flux.1-dev的19个更轻量),通过指导嵌入器(Guidance Embedder)消除对分类器自由引导(CFG)的依赖。  

控制与修补集成:采用16通道潜在空间设计,结合噪声潜在、变分自编码器(VAE)编码的修补图像、掩码与控制输入,共49通道,支持灵活的控制与修补工作流。  

开源与微调支持:通过AI-Toolkit提供微调工具,开发者可绕过指导嵌入器进行定制化训练,生成特定风格或主题的模型,保留Apache2.0许可证的商业友好性。  

高效推理:支持FP8与bfloat16精度,通过TorchAo的8位量化降低内存占用,优化了在RTX3090等硬件上的推理速度。  

AIbase认为,Flex.2-preview的轻量化设计与通用控制能力使其成为ComfyUI生态的理想选择,相比Flux.1Schnell在复杂工作流中的表现更为灵活。

应用场景:从艺术创作到商业设计

Flex.2-preview的多功能性使其适用于多种创意与商业场景。AIbase总结了其主要应用:  

数字艺术与插图:艺术家可通过线条与深度控制快速生成概念艺术或插图,适合游戏美术与动画预可视化。  

广告与品牌设计:利用图像修补功能快速调整广告素材,如替换产品或背景,同时保持品牌风格一致性。  

影视与内容创作:支持基于姿态控制的角色设计或场景生成,加速故事板与视觉效果开发。  

教育与原型设计:为教学或产品原型提供低成本的图像生成方案,学生与初创企业可快速迭代视觉创意。

社区反馈显示,Flex.2-preview在处理复杂提示(如“蒸汽朋克机械师在工厂修理机器人”)时,生成的图像细节与控制精度超越OpenFlux.1,尤其在手部与文本生成上接近MidJourney水平。AIbase观察到,其与XLabs的ControlNet集成的能力进一步增强了工作流多样性。

上手指南:快速部署与ComfyUI集成

AIbase了解到,Flex.2-preview的部署对ComfyUI用户极为友好,硬件要求为16GB VRAM(推荐RTX3060或更高)。开发者可按以下步骤快速上手:  

从Hugging Face下载Flex.2-preview.safetensors(huggingface.co/ostris/Flex.2-preview),放置于ComfyUI/models/diffusion_models/;  

从 Hugging Face 下载 Flex.2-preview.safetensors(huggingface.co/ostris/Flex.2-preview),放置于 ComfyUI/models/diffusion_models/;

确保ComfyUI已更新至最新版本(通过ComfyUI Manager的“Update All”),并安装必需的CLIP模型(t5xxl_fp16.safetensors与clip_l.safetensors)与VAE(ae.safetensors);  

下载官方提供的flex2-workflow.json,拖入ComfyUI加载工作流,配置提示词与控制图像(如深度图或线稿);  

运行推理,调整control_strength(推荐0.5)与guidance_scale(推荐3.5),生成1024×1024图像。

社区建议使用提供的Diffusers示例代码或ComfyUI的Flex2Conditioning Node以优化生成效果。AIbase提醒,首次运行需确保安装torch、diffusers与transformers库,并检查工作流中的节点连接完整性。

性能对比:超越前代与竞品

Flex.2-preview在性能上显著优于其前代OpenFlux.1与Flux.1Schnell。AIbase整理了其与主流模型的对比:  

图像质量:在VBench评估中,Flex.2-preview的CLIP得分(0.82)接近Flux.1-dev(0.84),优于Flux.1Schnell(0.79),尤其在手部细节与复杂构图上表现更佳。  

控制精度:结合XLabs ControlNet,Flex.2在Canny与深度控制任务中的一致性超越InstantX的Flux.1-dev-Controlnet-Union-alpha约8%。  

推理速度:生成1024×1024图像(50步)平均耗时20秒(RTX3090,FP8),比Flux.1-dev快约15%,适合快速迭代。  

资源占用:8亿参数与FP8量化使其内存需求仅为Flux.1-dev的60%,更适合消费级硬件。

AIbase认为,Flex.2-preview的性能平衡使其在开源模型中独树一帜,尤其适合需要高控制精度与快速生成的工作流。

社区反响与改进方向

Flex.2-preview发布后,社区对其灵活的控制能力与开源精神给予高度评价。开发者称其“将ComfyUI的工作流潜力发挥到极致”,特别是在艺术创作与修补任务中的表现令人印象深刻。 然而,部分用户反馈指出,模型对复杂提示的语义理解仍有提升空间,建议增强T5编码器的提示处理能力。社区还期待Flex.2支持视频生成与更广泛的ControlNet集成(如姿势估计)。Ostris团队回应称,下一版本将优化多模态提示处理并引入动态阈值调整,进一步提升生成稳定性。AIbase预测,Flex.2可能与Hailuo Image或混元3D引擎的控制模块结合,构建跨模态的创作生态。

未来展望:开源AI艺术的持续进化

Flex.2-preview的发布彰显了Ostris在开源AI图像生成领域的创新能力。AIbase认为,其从Flux.1Schnell到Flex.2的进化路径展示了社区驱动开发的潜力,尤其在ComfyUI生态中的集成能力为开发者提供了无限可能。随着AI-Toolkit的持续迭代,Flex.2有望成为微调与定制化生成的标准模型。社区已在探讨将其与MCP协议结合,构建统一的AI艺术工作流,类似RunComfy的在线平台。AIbase期待Flex.2在2025年的正式版本发布,尤其是在多分辨率支持与实时生成上的突破。

项目地址:https://huggingface.co/ostris/Flex.2-preview