Garyvov

Posted on Mar 10

小红书 FireRed-Image-Edit-1.1 刚开源就登顶！7.94 分干翻阿里 Qwen-Image-Edit-2511

#career

小红书 FireRed-Image-Edit-1.1 刚开源就登顶！7.94 分干翻阿里 Qwen-Image-Edit-2511

开源图像编辑领域，SOTA 易主了。

TL;DR：小红书 3 月 3 日刚发布 FireRed-Image-Edit-1.1，在 5 个权威 Benchmark 上全面超越阿里 12 月发布的 Qwen-Image-Edit-2511，以 7.943 分刷新开源图像编辑模型纪录。身份一致性、多元素融合、人像美妆三大能力达到 SOTA 级别。

01 开源图像编辑 SOTA 争夺战

2026 年开年以来，图像编辑领域可以说是"神仙打架"。

12 月 23 日，阿里通义千问团队发布 Qwen-Image-Edit-2511，以 7.877 分（GEdit-EN）拿下开源榜第一。

结果才过了 2 个月，小红书反手就给了个惊喜。

3 月 3 日，小红书基础模型团队发布 FireRed-Image-Edit-1.1，7.943 分直接把纪录刷新高。

更狠的是，FireRed-Image-Edit-1.1 在5 个权威 Benchmark 上全部领先，没有一项落后：

指标	FireRed-1.1	Qwen-2511	领先幅度
GEdit (EN)	7.943	7.877	+0.066
GEdit (CN)	7.887	7.819	+0.068
ImgEdit	4.56	4.51	+0.05
REDEdit (EN)	4.26	4.23	+0.03
REDEdit (CN)	4.33	4.18	+0.15

说实话，这个领先幅度在 SOTA 级别竞争中已经相当可观了。尤其是中文 REDEdit 领先 0.15 分，说明 FireRed 在中文场景理解上确实有优势。

02 身份一致性：开源最强人像编辑

图像编辑最头疼的问题是什么？人一编辑就变脸。

你给照片换个衣服，结果脸型变了；换个背景，五官也变了。这种"编辑即变形"的问题，一直是图像编辑模型的痛点。

FireRed-Image-Edit-1.1 的解决方案很直接：身份一致性做到 SOTA。

FireRed-1.1 在 REDEdit-Bench benchmark 上以 4.33 分（中文）和 4.26 分（英文）拿下开源第一，这个综合评分包含了身份一致性、指令遵循、视觉质量等多个维度。

这个成绩意味着什么？

换衣服：身份保持效果优秀
换背景：五官细节保留完整
加配饰：原有特征不被覆盖

对比 Qwen-Image-Edit-2511 的 4.18 分（中文），FireRed-1.1 在身份保持上确实更胜一筹。

03 Agent 智能化：10+ 元素自动融合

再看这个复杂编辑指令：

"将图 2 的男人，穿着图 2 的黑色'New York Bears'棒球夹克和迷彩裤子和蓝黑配色的 AJ1 高帮球鞋，在图 1 的空旷的橄榄球场上。球场阳光明媚，他带着图 2 黑色的帽子，帽檐是红色...他的左肩随意地挎着图 3 那只复古棕色皮质旅行包...右手则轻松地拖着图 3 的白色滑板..."

这种 10+ 元素的复杂编辑，传统模型怎么处理？

答案很残酷：分段处理、多次迭代、人工拼接——效率低，效果还不好。

FireRed-Image-Edit-1.1 的做法更聪明：Agent 自动处理。

内置的 Agent 模块会自动完成三步操作：

ROI 检测 - 调用 Gemini 函数调用模型，识别每张图的关键区域
裁剪拼接 - 自动裁剪并拼接成 2-3 张复合图（约 1024×1024）
指令重写 - 自动改写用户指令，确保图片引用正确

整个过程无需人工干预，一键完成复杂编辑。

对比 Qwen-Image-Edit-2511（支持多张输入），FireRed-1.1 的 Agent 方案明显更智能。

04 专业美妆：数十种妆容风格

美妆编辑一直是图像编辑的"深水区"。

为什么难？

妆容细节多（眉毛、眼影、口红、腮红、高光）
风格差异大（欧美妆 vs 日韩妆 vs 中式妆）
肤色适配难（黄皮、白皮、橄榄皮效果不同）

FireRed-Image-Edit-1.1 的解决方案：专业美妆 LoRA 模型。

官方发布了专门的美妆 LoRA，支持数十种妆容风格：

欧美 Y2K 妆：冷白皮哑光粉底、深棕色挑眉、银灰眼影、镜面玻璃唇釉
缎光底妆：自然色缎光粉底、浅棕眉粉、深棕眼影、水润感豆沙色口红
万圣节女巫妆、创意妆容等

这种"专业级"美妆编辑，在开源模型里还是第一次见到。

05 技术路线对比：FireRed vs Qwen

两家技术路线有什么差异？

FireRed-Image-Edit-1.1

训练数据：1.6B 样本（900M T2I + 700M 编辑对）

训练流程：

Pretrain - 预训练阶段，建立基础生成能力
SFT - 有监督微调，注入编辑能力
RL - 强化学习，优化身份一致性和指令遵循

关键技术：

Multi-Condition Aware Bucket Sampler（多条件感知采样器）
Asymmetric Gradient Optimization for DPO（非对称梯度优化）
DiffusionNFT with layout-aware OCR rewards（布局感知 OCR 奖励）
Consistency Loss for identity preservation（身份一致性损失函数）

Qwen-Image-Edit-2511

训练数据：未公开

训练流程：基于 Qwen-Image-2512 的 MMDiT 架构

关键技术：

MMDiT（多模态扩散 Transformer）
原生中文文字渲染
与 Qwen-Image-2512 统一架构

对比结论：

FireRed 在训练数据规模和技术细节上更透明，Qwen 在架构统一性和中文文字渲染上有优势。

06 工程优化：4.5 秒/张，30GB 显存

光有精度不够，工程落地才是关键。

FireRed-Image-Edit-1.1 的工程优化做得相当到位：

推理速度：4.5 秒/张（优化后）基于 1.0 版本数据
显存要求：30GB（优化后）基于 1.0 版本数据
加速方案：蒸馏、量化、静态编译全套支持

对比 Qwen-Image-Edit-2511：

需要查证具体显存和速度数据
但有 LightX2V 为 Qwen 提供 42.55 倍加速支持

结论：FireRed-1.1 在工程优化上更成熟，Qwen 有加速方案但需要额外配置。

07 开源生态：Apache 2.0 完全开放

两家都采用 Apache 2.0 许可证，这意味着：

✅ 可商业使用

✅ 可修改代码

✅ 可分发

✅ 无需开源衍生作品

FireRed-Image-Edit-1.1 生态：

GitHub Stars：600+（截至 2026.03.03）
HuggingFace：已发布
ModelScope：已发布
ComfyUI：官方节点支持
技术报告：arXiv:2602.13344

Qwen-Image-Edit-2511 生态：

GitHub Stars：需查证
HuggingFace：已发布
ModelScope：已发布
ComfyUI：社区支持
技术报告：需查证

结论：FireRed 生态更新，Qwen 生态更成熟。

08 总结：SOTA 易主，但竞争才刚开始

FireRed-Image-Edit-1.1 的发布，确实刷新了开源图像编辑的 SOTA。

5 项 Benchmark 全面领先，身份一致性、多元素融合、人像美妆三大能力达到新高度。

但这只是开始。

阿里 Qwen 团队已经在 12 月发布了 2511 版本，小红书 3 月发布 1.1 版本，开源图像编辑领域的"军备竞赛"才刚刚打响。

接下来可以期待：

Qwen 会不会发布 2603 版本反击？
FireRed 会不会继续迭代 1.2、1.3？
其他团队（Stability、Midjourney 开源版）会不会加入战局？

开源图像编辑的 SOTA 之争，好戏还在后头。

你怎么看 FireRed vs Qwen 的这场 SOTA 争夺战？

欢迎在评论区留言，一起讨论开源图像编辑的未来。

DEV Community

小红书 FireRed-Image-Edit-1.1 刚开源就登顶！7.94 分干翻阿里 Qwen-Image-Edit-2511

小红书 FireRed-Image-Edit-1.1 刚开源就登顶！7.94 分干翻阿里 Qwen-Image-Edit-2511

01 开源图像编辑 SOTA 争夺战

02 身份一致性：开源最强人像编辑

03 Agent 智能化：10+ 元素自动融合

04 专业美妆：数十种妆容风格

05 技术路线对比：FireRed vs Qwen

FireRed-Image-Edit-1.1

Qwen-Image-Edit-2511

06 工程优化：4.5 秒/张，30GB 显存

07 开源生态：Apache 2.0 完全开放

08 总结：SOTA 易主，但竞争才刚开始

Top comments (0)