2025年4月27日,AIbase报道:由Stepfun AI团队推出的Step1X-Edit图像编辑模型于近日正式开源,引发业界广泛关注。这一通用图像编辑框架以其卓越性能和实用的开源特性,展现了媲美GPT-4o和Gemini 2 Flash等闭源模型的潜力。

以下是对Step1X-Edit的全面解析,涵盖其技术亮点、应用场景及未来影响。

Step1X-Edit:开源图像编辑新标杆 媲美GPT-4o等闭源模型

创新技术架构

Step1X-Edit采用多模态大语言模型(MLLM)与扩散变换器(DiT)的结合,通过处理用户提供的参考图像和编辑指令,生成高质量的目标图像。其核心创新在于将多模态语言模型的语义理解能力与扩散模型的图像生成能力相融合。模型通过提取潜在嵌入并与扩散图像解码器集成,能够精准响应多样化的编辑需求。

训练过程中,团队构建了包含超过100万高质量三元组(参考图像、指令、目标图像)的数据管道,覆盖11种编辑类型,确保模型在复杂场景下的鲁棒性。

GEdit-Bench:真实场景的评测标杆

为更真实地评估图像编辑模型的性能,Stepfun AI团队发布了全新基准GEdit-Bench。该基准基于现实世界的用户指令设计,涵盖广泛的编辑场景,从简单的色彩调整到复杂的对象添加或场景重构。

实验结果显示,Step1X-Edit在GEdit-Bench上的表现大幅超越现有开源基线模型,接近领先的闭源模型水平。这一基准的开源发布为图像编辑领域的研究提供了更贴近实际需求的评测工具,标志着行业评估标准的进步。

开源资源与高性能表现

Step1X-Edit的代码、模型权重及GEdit-Bench评测数据已于2025年4月25日通过Hugging Face和ModelScope平台开放。模型支持在单块H800 GPU上运行,推荐使用80GB显存以获得最佳生成质量。

对于512×512分辨率的图像,模型可在42GB显存下于5秒内完成编辑;1024×1024分辨率则需50GB显存,耗时约22秒。官方提供的推理代码和安装脚本进一步降低了使用门槛,支持Python 3.10及以上版本,兼容主流深度学习框架如PyTorch 2.3.1及2.5.1。

广泛的应用前景

Step1X-Edit的灵活性和高精度使其适用于多种场景。无论是专业设计师优化创意作品,还是普通用户进行照片美化,该模型都能通过简单指令实现复杂编辑。

例如,用户可以通过文本描述实现背景替换、对象移除或风格迁移,生成专业品质的图像。此外,模型已在fal.ai等平台上线,用户可通过在线演示体验其功能。这一开源模型的发布为内容创作者、开发者和研究人员提供了强大的工具,助力图像编辑的普及和创新。

对行业的深远影响

Step1X-Edit的开源不仅推动了图像编辑技术的发展,也为开源社区注入了新的活力。相较于依赖专有数据的闭源模型,Step1X-Edit通过透明的训练流程和高可复现性,为学术界和开发者提供了研究和优化的基础。

业界人士认为,该模型的发布可能促使更多企业探索开源AI的商业化路径,同时激励闭源模型提供商进一步提升性能。

未来优化与期待

尽管Step1X-Edit已展现出强大实力,但其高显存需求可能限制部分用户的访问。未来,团队计划优化模型效率,降低硬件门槛,并扩展支持更多编辑类型和分辨率。此外,GEdit-Bench的持续更新将进一步丰富评测场景,助力行业形成统一的性能标准。AIbase将持续关注Step1X-Edit的进展,为您带来开源AI领域的最新动态。

体验地址:https://huggingface.co/spaces/stepfun-ai/Step1X-Edit