DEV Community

Garyvov
Garyvov

Posted on

小红书 FireRed-Image-Edit-1.1 刚开源就登顶!7.94 分干翻阿里 Qwen-Image-Edit-2511

小红书 FireRed-Image-Edit-1.1 刚开源就登顶!7.94 分干翻阿里 Qwen-Image-Edit-2511

开源图像编辑领域,SOTA 易主了。

TL;DR:小红书 3 月 3 日刚发布 FireRed-Image-Edit-1.1,在 5 个权威 Benchmark 上全面超越阿里 12 月发布的 Qwen-Image-Edit-2511,以 7.943 分刷新开源图像编辑模型纪录。身份一致性、多元素融合、人像美妆三大能力达到 SOTA 级别。


FireRed-Image-Edit 展示图


01 开源图像编辑 SOTA 争夺战

2026 年开年以来,图像编辑领域可以说是"神仙打架"。

12 月 23 日,阿里通义千问团队发布 Qwen-Image-Edit-2511,以 7.877 分(GEdit-EN)拿下开源榜第一。

结果才过了 2 个月,小红书反手就给了个惊喜

3 月 3 日,小红书基础模型团队发布 FireRed-Image-Edit-1.1,7.943 分直接把纪录刷新高。

更狠的是,FireRed-Image-Edit-1.1 在5 个权威 Benchmark 上全部领先,没有一项落后:

指标 FireRed-1.1 Qwen-2511 领先幅度
GEdit (EN) 7.943 7.877 +0.066
GEdit (CN) 7.887 7.819 +0.068
ImgEdit 4.56 4.51 +0.05
REDEdit (EN) 4.26 4.23 +0.03
REDEdit (CN) 4.33 4.18 +0.15

说实话,这个领先幅度在 SOTA 级别竞争中已经相当可观了。尤其是中文 REDEdit 领先 0.15 分,说明 FireRed 在中文场景理解上确实有优势。


02 身份一致性:开源最强人像编辑

人像编辑效果

图像编辑最头疼的问题是什么?人一编辑就变脸

你给照片换个衣服,结果脸型变了;换个背景,五官也变了。这种"编辑即变形"的问题,一直是图像编辑模型的痛点。

FireRed-Image-Edit-1.1 的解决方案很直接:身份一致性做到 SOTA

FireRed-1.1 在 REDEdit-Bench benchmark 上以 4.33 分(中文)和 4.26 分(英文)拿下开源第一,这个综合评分包含了身份一致性、指令遵循、视觉质量等多个维度。

这个成绩意味着什么?

  • 换衣服:身份保持效果优秀
  • 换背景:五官细节保留完整
  • 加配饰:原有特征不被覆盖

对比 Qwen-Image-Edit-2511 的 4.18 分(中文),FireRed-1.1 在身份保持上确实更胜一筹。


03 Agent 智能化:10+ 元素自动融合

多图融合编辑

再看这个复杂编辑指令:

"将图 2 的男人,穿着图 2 的黑色'New York Bears'棒球夹克和迷彩裤子和蓝黑配色的 AJ1 高帮球鞋,在图 1 的空旷的橄榄球场上。球场阳光明媚,他带着图 2 黑色的帽子,帽檐是红色...他的左肩随意地挎着图 3 那只复古棕色皮质旅行包...右手则轻松地拖着图 3 的白色滑板..."

这种 10+ 元素的复杂编辑,传统模型怎么处理?

答案很残酷:分段处理、多次迭代、人工拼接——效率低,效果还不好。

FireRed-Image-Edit-1.1 的做法更聪明:Agent 自动处理

内置的 Agent 模块会自动完成三步操作:

  1. ROI 检测 - 调用 Gemini 函数调用模型,识别每张图的关键区域
  2. 裁剪拼接 - 自动裁剪并拼接成 2-3 张复合图(约 1024×1024)
  3. 指令重写 - 自动改写用户指令,确保图片引用正确

整个过程无需人工干预,一键完成复杂编辑。

对比 Qwen-Image-Edit-2511(支持多张输入),FireRed-1.1 的 Agent 方案明显更智能。


04 专业美妆:数十种妆容风格

美妆效果展示

美妆编辑一直是图像编辑的"深水区"。

为什么难?

  • 妆容细节多(眉毛、眼影、口红、腮红、高光)
  • 风格差异大(欧美妆 vs 日韩妆 vs 中式妆)
  • 肤色适配难(黄皮、白皮、橄榄皮效果不同)

FireRed-Image-Edit-1.1 的解决方案:专业美妆 LoRA 模型

官方发布了专门的美妆 LoRA,支持数十种妆容风格:

  • 欧美 Y2K 妆:冷白皮哑光粉底、深棕色挑眉、银灰眼影、镜面玻璃唇釉
  • 缎光底妆:自然色缎光粉底、浅棕眉粉、深棕眼影、水润感豆沙色口红
  • 万圣节女巫妆创意妆容

这种"专业级"美妆编辑,在开源模型里还是第一次见到。


05 技术路线对比:FireRed vs Qwen

模型架构图

两家技术路线有什么差异?

FireRed-Image-Edit-1.1

训练数据:1.6B 样本(900M T2I + 700M 编辑对)

训练流程

  1. Pretrain - 预训练阶段,建立基础生成能力
  2. SFT - 有监督微调,注入编辑能力
  3. RL - 强化学习,优化身份一致性和指令遵循

关键技术

  • Multi-Condition Aware Bucket Sampler(多条件感知采样器)
  • Asymmetric Gradient Optimization for DPO(非对称梯度优化)
  • DiffusionNFT with layout-aware OCR rewards(布局感知 OCR 奖励)
  • Consistency Loss for identity preservation(身份一致性损失函数)

Qwen-Image-Edit-2511

训练数据:未公开

训练流程:基于 Qwen-Image-2512 的 MMDiT 架构

关键技术

  • MMDiT(多模态扩散 Transformer)
  • 原生中文文字渲染
  • 与 Qwen-Image-2512 统一架构

对比结论

FireRed 在训练数据规模技术细节上更透明,Qwen 在架构统一性中文文字渲染上有优势。


06 工程优化:4.5 秒/张,30GB 显存

Benchmark 对比图

光有精度不够,工程落地才是关键。

FireRed-Image-Edit-1.1 的工程优化做得相当到位:

  • 推理速度:4.5 秒/张(优化后)基于 1.0 版本数据
  • 显存要求:30GB(优化后)基于 1.0 版本数据
  • 加速方案:蒸馏、量化、静态编译全套支持

对比 Qwen-Image-Edit-2511:

  • 需要查证具体显存和速度数据
  • 但有 LightX2V 为 Qwen 提供 42.55 倍加速支持

结论:FireRed-1.1 在工程优化上更成熟,Qwen 有加速方案但需要额外配置。


07 开源生态:Apache 2.0 完全开放

两家都采用 Apache 2.0 许可证,这意味着:

✅ 可商业使用

✅ 可修改代码

✅ 可分发

✅ 无需开源衍生作品

FireRed-Image-Edit-1.1 生态

  • GitHub Stars:600+(截至 2026.03.03)
  • HuggingFace:已发布
  • ModelScope:已发布
  • ComfyUI:官方节点支持
  • 技术报告:arXiv:2602.13344

Qwen-Image-Edit-2511 生态

  • GitHub Stars:需查证
  • HuggingFace:已发布
  • ModelScope:已发布
  • ComfyUI:社区支持
  • 技术报告:需查证

结论:FireRed 生态更新,Qwen 生态更成熟。


08 总结:SOTA 易主,但竞争才刚开始

FireRed-Image-Edit-1.1 的发布,确实刷新了开源图像编辑的 SOTA。

5 项 Benchmark 全面领先,身份一致性、多元素融合、人像美妆三大能力达到新高度。

但这只是开始。

阿里 Qwen 团队已经在 12 月发布了 2511 版本,小红书 3 月发布 1.1 版本,开源图像编辑领域的"军备竞赛"才刚刚打响

接下来可以期待:

  • Qwen 会不会发布 2603 版本反击?
  • FireRed 会不会继续迭代 1.2、1.3?
  • 其他团队(Stability、Midjourney 开源版)会不会加入战局?

开源图像编辑的 SOTA 之争,好戏还在后头。


你怎么看 FireRed vs Qwen 的这场 SOTA 争夺战?

欢迎在评论区留言,一起讨论开源图像编辑的未来。

Top comments (0)