小红书 FireRed-Image-Edit-1.1 刚开源就登顶!7.94 分干翻阿里 Qwen-Image-Edit-2511
开源图像编辑领域,SOTA 易主了。
TL;DR:小红书 3 月 3 日刚发布 FireRed-Image-Edit-1.1,在 5 个权威 Benchmark 上全面超越阿里 12 月发布的 Qwen-Image-Edit-2511,以 7.943 分刷新开源图像编辑模型纪录。身份一致性、多元素融合、人像美妆三大能力达到 SOTA 级别。
01 开源图像编辑 SOTA 争夺战
2026 年开年以来,图像编辑领域可以说是"神仙打架"。
12 月 23 日,阿里通义千问团队发布 Qwen-Image-Edit-2511,以 7.877 分(GEdit-EN)拿下开源榜第一。
结果才过了 2 个月,小红书反手就给了个惊喜。
3 月 3 日,小红书基础模型团队发布 FireRed-Image-Edit-1.1,7.943 分直接把纪录刷新高。
更狠的是,FireRed-Image-Edit-1.1 在5 个权威 Benchmark 上全部领先,没有一项落后:
| 指标 | FireRed-1.1 | Qwen-2511 | 领先幅度 |
|---|---|---|---|
| GEdit (EN) | 7.943 | 7.877 | +0.066 |
| GEdit (CN) | 7.887 | 7.819 | +0.068 |
| ImgEdit | 4.56 | 4.51 | +0.05 |
| REDEdit (EN) | 4.26 | 4.23 | +0.03 |
| REDEdit (CN) | 4.33 | 4.18 | +0.15 |
说实话,这个领先幅度在 SOTA 级别竞争中已经相当可观了。尤其是中文 REDEdit 领先 0.15 分,说明 FireRed 在中文场景理解上确实有优势。
02 身份一致性:开源最强人像编辑
图像编辑最头疼的问题是什么?人一编辑就变脸。
你给照片换个衣服,结果脸型变了;换个背景,五官也变了。这种"编辑即变形"的问题,一直是图像编辑模型的痛点。
FireRed-Image-Edit-1.1 的解决方案很直接:身份一致性做到 SOTA。
FireRed-1.1 在 REDEdit-Bench benchmark 上以 4.33 分(中文)和 4.26 分(英文)拿下开源第一,这个综合评分包含了身份一致性、指令遵循、视觉质量等多个维度。
这个成绩意味着什么?
- 换衣服:身份保持效果优秀
- 换背景:五官细节保留完整
- 加配饰:原有特征不被覆盖
对比 Qwen-Image-Edit-2511 的 4.18 分(中文),FireRed-1.1 在身份保持上确实更胜一筹。
03 Agent 智能化:10+ 元素自动融合
再看这个复杂编辑指令:
"将图 2 的男人,穿着图 2 的黑色'New York Bears'棒球夹克和迷彩裤子和蓝黑配色的 AJ1 高帮球鞋,在图 1 的空旷的橄榄球场上。球场阳光明媚,他带着图 2 黑色的帽子,帽檐是红色...他的左肩随意地挎着图 3 那只复古棕色皮质旅行包...右手则轻松地拖着图 3 的白色滑板..."
这种 10+ 元素的复杂编辑,传统模型怎么处理?
答案很残酷:分段处理、多次迭代、人工拼接——效率低,效果还不好。
FireRed-Image-Edit-1.1 的做法更聪明:Agent 自动处理。
内置的 Agent 模块会自动完成三步操作:
- ROI 检测 - 调用 Gemini 函数调用模型,识别每张图的关键区域
- 裁剪拼接 - 自动裁剪并拼接成 2-3 张复合图(约 1024×1024)
- 指令重写 - 自动改写用户指令,确保图片引用正确
整个过程无需人工干预,一键完成复杂编辑。
对比 Qwen-Image-Edit-2511(支持多张输入),FireRed-1.1 的 Agent 方案明显更智能。
04 专业美妆:数十种妆容风格
美妆编辑一直是图像编辑的"深水区"。
为什么难?
- 妆容细节多(眉毛、眼影、口红、腮红、高光)
- 风格差异大(欧美妆 vs 日韩妆 vs 中式妆)
- 肤色适配难(黄皮、白皮、橄榄皮效果不同)
FireRed-Image-Edit-1.1 的解决方案:专业美妆 LoRA 模型。
官方发布了专门的美妆 LoRA,支持数十种妆容风格:
- 欧美 Y2K 妆:冷白皮哑光粉底、深棕色挑眉、银灰眼影、镜面玻璃唇釉
- 缎光底妆:自然色缎光粉底、浅棕眉粉、深棕眼影、水润感豆沙色口红
- 万圣节女巫妆、创意妆容等
这种"专业级"美妆编辑,在开源模型里还是第一次见到。
05 技术路线对比:FireRed vs Qwen
两家技术路线有什么差异?
FireRed-Image-Edit-1.1
训练数据:1.6B 样本(900M T2I + 700M 编辑对)
训练流程:
- Pretrain - 预训练阶段,建立基础生成能力
- SFT - 有监督微调,注入编辑能力
- RL - 强化学习,优化身份一致性和指令遵循
关键技术:
- Multi-Condition Aware Bucket Sampler(多条件感知采样器)
- Asymmetric Gradient Optimization for DPO(非对称梯度优化)
- DiffusionNFT with layout-aware OCR rewards(布局感知 OCR 奖励)
- Consistency Loss for identity preservation(身份一致性损失函数)
Qwen-Image-Edit-2511
训练数据:未公开
训练流程:基于 Qwen-Image-2512 的 MMDiT 架构
关键技术:
- MMDiT(多模态扩散 Transformer)
- 原生中文文字渲染
- 与 Qwen-Image-2512 统一架构
对比结论:
FireRed 在训练数据规模和技术细节上更透明,Qwen 在架构统一性和中文文字渲染上有优势。
06 工程优化:4.5 秒/张,30GB 显存
光有精度不够,工程落地才是关键。
FireRed-Image-Edit-1.1 的工程优化做得相当到位:
- 推理速度:4.5 秒/张(优化后)基于 1.0 版本数据
- 显存要求:30GB(优化后)基于 1.0 版本数据
- 加速方案:蒸馏、量化、静态编译全套支持
对比 Qwen-Image-Edit-2511:
- 需要查证具体显存和速度数据
- 但有 LightX2V 为 Qwen 提供 42.55 倍加速支持
结论:FireRed-1.1 在工程优化上更成熟,Qwen 有加速方案但需要额外配置。
07 开源生态:Apache 2.0 完全开放
两家都采用 Apache 2.0 许可证,这意味着:
✅ 可商业使用
✅ 可修改代码
✅ 可分发
✅ 无需开源衍生作品
FireRed-Image-Edit-1.1 生态:
- GitHub Stars:600+(截至 2026.03.03)
- HuggingFace:已发布
- ModelScope:已发布
- ComfyUI:官方节点支持
- 技术报告:arXiv:2602.13344
Qwen-Image-Edit-2511 生态:
- GitHub Stars:需查证
- HuggingFace:已发布
- ModelScope:已发布
- ComfyUI:社区支持
- 技术报告:需查证
结论:FireRed 生态更新,Qwen 生态更成熟。
08 总结:SOTA 易主,但竞争才刚开始
FireRed-Image-Edit-1.1 的发布,确实刷新了开源图像编辑的 SOTA。
5 项 Benchmark 全面领先,身份一致性、多元素融合、人像美妆三大能力达到新高度。
但这只是开始。
阿里 Qwen 团队已经在 12 月发布了 2511 版本,小红书 3 月发布 1.1 版本,开源图像编辑领域的"军备竞赛"才刚刚打响。
接下来可以期待:
- Qwen 会不会发布 2603 版本反击?
- FireRed 会不会继续迭代 1.2、1.3?
- 其他团队(Stability、Midjourney 开源版)会不会加入战局?
开源图像编辑的 SOTA 之争,好戏还在后头。
你怎么看 FireRed vs Qwen 的这场 SOTA 争夺战?
欢迎在评论区留言,一起讨论开源图像编辑的未来。






Top comments (0)