<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:dc="http://purl.org/dc/elements/1.1/">
  <channel>
    <title>DEV Community: Garyvov</title>
    <description>The latest articles on DEV Community by Garyvov (@gary_yan_86eb77d35e0070f5).</description>
    <link>https://dev.to/gary_yan_86eb77d35e0070f5</link>
    <image>
      <url>https://media2.dev.to/dynamic/image/width=90,height=90,fit=cover,gravity=auto,format=auto/https:%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Fuser%2Fprofile_image%2F3693993%2Ff0aec31e-9d7d-4182-b0b0-ad4d8d8d32d4.png</url>
      <title>DEV Community: Garyvov</title>
      <link>https://dev.to/gary_yan_86eb77d35e0070f5</link>
    </image>
    <atom:link rel="self" type="application/rss+xml" href="https://dev.to/feed/gary_yan_86eb77d35e0070f5"/>
    <language>en</language>
    <item>
      <title>Mistral Small 4：开源 AI 的三合一革命</title>
      <dc:creator>Garyvov</dc:creator>
      <pubDate>Mon, 16 Mar 2026 23:39:30 +0000</pubDate>
      <link>https://dev.to/gary_yan_86eb77d35e0070f5/mistral-small-4kai-yuan-ai-de-san-he-ge-ming-3co4</link>
      <guid>https://dev.to/gary_yan_86eb77d35e0070f5/mistral-small-4kai-yuan-ai-de-san-he-ge-ming-3co4</guid>
      <description>&lt;h1&gt;
  
  
  Mistral Small 4：开源 AI 的三合一革命
&lt;/h1&gt;

&lt;blockquote&gt;
&lt;p&gt;2026 年 3 月 16 日，Mistral AI 发布 Small 4，这是首个统一指令、推理和多模态能力的开源模型，以 Apache 2.0 协议重新定义开源 AI 标准。&lt;/p&gt;
&lt;/blockquote&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fcdn.pixabay.com%2Fphoto%2F2024%2F02%2F22%2F07%2F41%2Fai-8593763_1280.jpg" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fcdn.pixabay.com%2Fphoto%2F2024%2F02%2F22%2F07%2F41%2Fai-8593763_1280.jpg" alt="开源 AI 模型" width="800" height="400"&gt;&lt;/a&gt;&lt;/p&gt;




&lt;h2&gt;
  
  
  一句话讲清楚
&lt;/h2&gt;

&lt;p&gt;Mistral Small 4 是&lt;strong&gt;首个真正统一的开源模型&lt;/strong&gt;：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;以前：聊天用 Small，推理用 Magistral，多模态用 Pixtral，代码用 Devstral&lt;/li&gt;
&lt;li&gt;现在：&lt;strong&gt;一个模型搞定所有&lt;/strong&gt;
&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;而且完全开源，Apache 2.0 协议，商用、修改、分发、私有部署全放开。&lt;/p&gt;




&lt;h2&gt;
  
  
  核心亮点
&lt;/h2&gt;

&lt;h3&gt;
  
  
  1. 可配置的推理强度
&lt;/h3&gt;

&lt;p&gt;通过 &lt;code&gt;reasoning_effort&lt;/code&gt; 参数，&lt;strong&gt;同一个模型有两种工作模式&lt;/strong&gt;：&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight python"&gt;&lt;code&gt;&lt;span class="c1"&gt;# 日常聊天 - 快速响应
&lt;/span&gt;&lt;span class="n"&gt;reasoning_effort&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;none&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;

&lt;span class="c1"&gt;# 复杂问题 - 深度思考
&lt;/span&gt;&lt;span class="n"&gt;reasoning_effort&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;high&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;这相当于&lt;strong&gt;两个模型合成一个&lt;/strong&gt;，省了切换的成本。&lt;/p&gt;

&lt;h3&gt;
  
  
  2. 架构参数
&lt;/h3&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;特性&lt;/th&gt;
&lt;th&gt;数值&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;总参数&lt;/td&gt;
&lt;td&gt;119B&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;活跃参数&lt;/td&gt;
&lt;td&gt;6B (每 token)&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;专家数量&lt;/td&gt;
&lt;td&gt;128&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;每 token 活跃专家&lt;/td&gt;
&lt;td&gt;4&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;上下文窗口&lt;/td&gt;
&lt;td&gt;256k tokens&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;多模态&lt;/td&gt;
&lt;td&gt;原生支持图文输入&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;采用 &lt;strong&gt;Mixture of Experts (MoE)&lt;/strong&gt; 架构，效率与性能的平衡点找得很准。&lt;/p&gt;

&lt;h3&gt;
  
  
  3. 性能提升
&lt;/h3&gt;

&lt;p&gt;相比 Mistral Small 3：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;延迟降低 40%&lt;/strong&gt; (延迟优化配置)&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;吞吐量提升 3 倍&lt;/strong&gt; (吞吐量优化配置)&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;更重要的是&lt;/strong&gt;：在 AA LCR、LiveCodeBench 等基准测试中：&lt;/p&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;模型&lt;/th&gt;
&lt;th&gt;AA LCR 分数&lt;/th&gt;
&lt;th&gt;输出长度&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;Mistral Small 4&lt;/td&gt;
&lt;td&gt;&lt;strong&gt;0.72&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;&lt;strong&gt;1.6K&lt;/strong&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Qwen3&lt;/td&gt;
&lt;td&gt;0.72&lt;/td&gt;
&lt;td&gt;5.8K&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Qwen2.5&lt;/td&gt;
&lt;td&gt;0.71&lt;/td&gt;
&lt;td&gt;6.1K&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;&lt;strong&gt;相同性能，输出减少 75%&lt;/strong&gt; = 推理成本大幅降低&lt;/p&gt;

&lt;p&gt;这个差距在实际应用中很关键：更短的响应意味着更低的延迟和成本，用户体验更好。&lt;/p&gt;




&lt;h2&gt;
  
  
  部署成本
&lt;/h2&gt;

&lt;h3&gt;
  
  
  最小配置
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;4x NVIDIA HGX H100&lt;/li&gt;
&lt;li&gt;或 2x NVIDIA HGX H200&lt;/li&gt;
&lt;li&gt;或 1x NVIDIA DGX B200&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  推荐配置
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;4x NVIDIA HGX H100&lt;/li&gt;
&lt;li&gt;或 4x NVIDIA HGX H200&lt;/li&gt;
&lt;li&gt;或 2x NVIDIA DGX B200&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;好消息是，通过 NVIDIA 优化，支持 vLLM、llama.cpp、SGLang、Transformers 等主流推理框架。&lt;/p&gt;




&lt;h2&gt;
  
  
  应用场景
&lt;/h2&gt;

&lt;h3&gt;
  
  
  开发者
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;代码自动化&lt;/li&gt;
&lt;li&gt;代码库探索&lt;/li&gt;
&lt;li&gt;代理工作流&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  企业
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;智能助手&lt;/li&gt;
&lt;li&gt;文档理解&lt;/li&gt;
&lt;li&gt;多模态分析&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  研究人员
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;数学问题&lt;/li&gt;
&lt;li&gt;科研分析&lt;/li&gt;
&lt;li&gt;复杂推理&lt;/li&gt;
&lt;/ul&gt;




&lt;h2&gt;
  
  
  如何获取
&lt;/h2&gt;

&lt;h3&gt;
  
  
  1. Hugging Face
&lt;/h3&gt;

&lt;p&gt;模型仓库：&lt;a href="https://huggingface.co/collections/mistralai/mistral-small-4" rel="noopener noreferrer"&gt;https://huggingface.co/collections/mistralai/mistral-small-4&lt;/a&gt;&lt;/p&gt;

&lt;h3&gt;
  
  
  2. NVIDIA Build
&lt;/h3&gt;

&lt;p&gt;免费原型开发：&lt;a href="https://build.nvidia.com/mistralai/mistral-small-4-119b-2603" rel="noopener noreferrer"&gt;https://build.nvidia.com/mistralai/mistral-small-4-119b-2603&lt;/a&gt;&lt;/p&gt;

&lt;h3&gt;
  
  
  3. Mistral AI Studio
&lt;/h3&gt;

&lt;p&gt;API 服务：&lt;a href="https://mistral.ai/products/studio" rel="noopener noreferrer"&gt;https://mistral.ai/products/studio&lt;/a&gt;&lt;/p&gt;

&lt;h3&gt;
  
  
  4. NVIDIA NIM
&lt;/h3&gt;

&lt;p&gt;生产环境可直接部署优化的容器化推理服务。&lt;/p&gt;




&lt;h2&gt;
  
  
  为什么重要？
&lt;/h2&gt;

&lt;ol&gt;
&lt;li&gt;
&lt;strong&gt;首次统一能力&lt;/strong&gt;：不再需要多个模型切换，简化 AI 集成&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;完全开源&lt;/strong&gt;：Apache 2.0，真正的开源自由&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;企业级效率&lt;/strong&gt;：部署成本可控，性能优秀&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;社区合作&lt;/strong&gt;：NVIDIA Nemotron Coalition 创始成员&lt;/li&gt;
&lt;/ol&gt;




&lt;h2&gt;
  
  
  技术细节
&lt;/h2&gt;

&lt;h3&gt;
  
  
  推理效率对比
&lt;/h3&gt;

&lt;p&gt;Mistral Small 4 与 GPT-OSS 120B 对比：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;AA LCR&lt;/strong&gt;：Mistral 0.72 (1.6K) vs GPT-OSS 0.71 (5.5K+)&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;LiveCodeBench&lt;/strong&gt;：Mistral 超越 GPT-OSS，输出减少 20%&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;关键点&lt;/strong&gt;：相同性能下，Mistral 的输出长度显著更短。这意味着：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;更低的推理延迟&lt;/li&gt;
&lt;li&gt;更低的计算成本&lt;/li&gt;
&lt;li&gt;更好的用户体验&lt;/li&gt;
&lt;/ul&gt;




&lt;h2&gt;
  
  
  未来展望
&lt;/h2&gt;

&lt;p&gt;Mistral AI 表示："&lt;strong&gt;AI 的未来是开源的&lt;/strong&gt;"&lt;/p&gt;

&lt;p&gt;通过统一指令、推理和多模态能力，Mistral Small 4 简化了 AI 集成，让单一模型可以应对更广泛的任务。&lt;/p&gt;

&lt;p&gt;对于企业来说，这意味着：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;更低的集成成本&lt;/li&gt;
&lt;li&gt;更简化的技术栈&lt;/li&gt;
&lt;li&gt;更好的成本控制&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;对于开发者来说，这意味着：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;一个模型适配所有场景&lt;/li&gt;
&lt;li&gt;按需调整推理强度&lt;/li&gt;
&lt;li&gt;更灵活的部署方案&lt;/li&gt;
&lt;/ul&gt;




&lt;h2&gt;
  
  
  总结
&lt;/h2&gt;

&lt;p&gt;Mistral Small 4 的发布是开源 AI 领域的一个重要里程碑：&lt;/p&gt;

&lt;ol&gt;
&lt;li&gt;✅ &lt;strong&gt;统一能力&lt;/strong&gt;：一次集成，多种场景&lt;/li&gt;
&lt;li&gt;✅ &lt;strong&gt;开源自由&lt;/strong&gt;：Apache 2.0，完全可控&lt;/li&gt;
&lt;li&gt;✅ &lt;strong&gt;性能优势&lt;/strong&gt;：效率更高，成本更低&lt;/li&gt;
&lt;li&gt;✅ &lt;strong&gt;企业友好&lt;/strong&gt;：NVIDIA 优化，部署方便&lt;/li&gt;
&lt;/ol&gt;

&lt;p&gt;&lt;strong&gt;推荐关注&lt;/strong&gt;：如果你在使用开源模型，或者考虑在企业中部署 AI，Mistral Small 4 值得重点关注。&lt;/p&gt;




&lt;p&gt;&lt;em&gt;本文基于 Mistral AI 官方公告整理，数据截至 2026 年 3 月 16 日&lt;/em&gt;&lt;/p&gt;

&lt;p&gt;&lt;em&gt;原文链接：&lt;a href="https://mistral.ai/news/mistral-small-4" rel="noopener noreferrer"&gt;https://mistral.ai/news/mistral-small-4&lt;/a&gt;&lt;/em&gt;&lt;/p&gt;

</description>
      <category>career</category>
    </item>
    <item>
      <title>Nemotron-3-Super-120B-A12B：英伟达 MoE 架构的暴力美学</title>
      <dc:creator>Garyvov</dc:creator>
      <pubDate>Mon, 16 Mar 2026 08:38:33 +0000</pubDate>
      <link>https://dev.to/gary_yan_86eb77d35e0070f5/nemotron-3-super-120b-a12bying-wei-da-moe-jia-gou-de-bao-li-mei-xue-cn5</link>
      <guid>https://dev.to/gary_yan_86eb77d35e0070f5/nemotron-3-super-120b-a12bying-wei-da-moe-jia-gou-de-bao-li-mei-xue-cn5</guid>
      <description>&lt;h1&gt;
  
  
  Nemotron-3-Super-120B-A12B：英伟达 MoE 架构的暴力美学
&lt;/h1&gt;

&lt;p&gt;&lt;strong&gt;摘要&lt;/strong&gt;: NVIDIA 最新开源的 Nemotron-3-Super-120B-A12B 模型采用创新的 A12B 稀疏激活设计，在保持高性能的同时将推理成本降低至传统密集模型的十分之一，为 AI 研究者提供了新的架构范式。&lt;/p&gt;




&lt;h2&gt;
  
  
  引言
&lt;/h2&gt;

&lt;p&gt;在大模型军备竞赛中，英伟达 (NVIDIA) 于 2026 年 3 月推出了 Nemotron-3-Super-120B-A12B 模型，这款模型以其独特的"120B 总参数、12B 活跃参数"设计，在学术界和工业界引发了广泛关注。&lt;/p&gt;

&lt;p&gt;本文将深入分析 Nemotron-3-Super-120B-A12B 的架构创新，特别是其 A12B 稀疏激活机制的设计原理、性能表现和实际价值。&lt;/p&gt;

&lt;h2&gt;
  
  
  架构设计：A12B 的核心突破
&lt;/h2&gt;

&lt;h3&gt;
  
  
  MoE 架构的演进
&lt;/h3&gt;

&lt;p&gt;MoE (Mixture of Experts，混合专家) 架构并非新概念。从 Switch Transformer 到 GPT-4 的传闻架构，研究者一直在探索如何高效利用超大参数模型。&lt;/p&gt;

&lt;p&gt;Nemotron-3-Super-120B-A12B 的创新在于：&lt;/p&gt;

&lt;ol&gt;
&lt;li&gt;
&lt;strong&gt;精确的 10% 激活比例&lt;/strong&gt;：120B 总参数中，每次推理仅激活 12B 参数&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;动态路由机制&lt;/strong&gt;：根据输入内容智能分配计算资源&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;均衡的负载分布&lt;/strong&gt;：避免某些专家过载而其他专家闲置&lt;/li&gt;
&lt;/ol&gt;

&lt;h3&gt;
  
  
  A12B 的设计哲学
&lt;/h3&gt;

&lt;p&gt;A12B 命名本身传达了核心设计理念：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;120B&lt;/strong&gt;：总参数量，提供足够的表达能力&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;12B&lt;/strong&gt;：活跃参数量，决定实际计算成本&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;10% 激活率&lt;/strong&gt;：在性能和效率之间取得最优平衡&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;这种设计使得模型在训练时可以使用全部参数学习丰富的知识，而在推理时只需承担 12B 参数的计算成本。&lt;/p&gt;

&lt;h2&gt;
  
  
  技术实现细节
&lt;/h2&gt;

&lt;h3&gt;
  
  
  路由机制
&lt;/h3&gt;

&lt;p&gt;路由网络是 MoE 模型的核心。Nemotron-3-Super-120B-A12B 采用：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;Top-k 路由策略&lt;/strong&gt;：每个 token 选择 k 个最合适的专家&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;负载均衡损失&lt;/strong&gt;：防止某些专家被过度使用&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;门控网络优化&lt;/strong&gt;：提高路由决策的准确性&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  专家设计
&lt;/h3&gt;

&lt;p&gt;每个专家网络的配置：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;专家数量&lt;/strong&gt;：约 120 个专家&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;单个专家参数&lt;/strong&gt;：约 1B&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;专家类型&lt;/strong&gt;：FFN (前馈神经网络) 层&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;这种设计使得模型可以并行处理不同 token，充分利用 GPU 的计算能力。&lt;/p&gt;

&lt;h3&gt;
  
  
  通信优化
&lt;/h3&gt;

&lt;p&gt;MoE 模型面临的最大挑战是专家间通信。Nemotron-3-Super 采用：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;P2P 通信优化&lt;/strong&gt;：减少全局 All-to-All 开销&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;专家本地化&lt;/strong&gt;：将相关专家分配到同一 GPU&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;流水线并行&lt;/strong&gt;：与其他并行策略协同工作&lt;/li&gt;
&lt;/ul&gt;

&lt;h2&gt;
  
  
  性能评估
&lt;/h2&gt;

&lt;h3&gt;
  
  
  推理效率
&lt;/h3&gt;

&lt;p&gt;相比同等规模的密集模型：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;吞吐率提升&lt;/strong&gt;：5 倍&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;延迟降低&lt;/strong&gt;：显著减少首 token 生成时间&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;成本优化&lt;/strong&gt;：推理成本降低至密集模型的 10%&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  准确性表现
&lt;/h3&gt;

&lt;p&gt;在保持高效的同时，Nemotron-3-Super-120B-A12B 并未牺牲性能：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;基准测试&lt;/strong&gt;：在 MMLU、GSM8K 等基准上表现优异&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;推理能力&lt;/strong&gt;：数学推理和逻辑推理能力强&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;多语言支持&lt;/strong&gt;：支持中英文等多种语言&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  训练效率
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;训练速度&lt;/strong&gt;：相比全量 120B 密集模型快 8 倍&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;显存效率&lt;/strong&gt;：降低 70% 的显存需求&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;可扩展性&lt;/strong&gt;：易于扩展到更大规模&lt;/li&gt;
&lt;/ul&gt;

&lt;h2&gt;
  
  
  开源意义
&lt;/h2&gt;

&lt;h3&gt;
  
  
  对研究社区的价值
&lt;/h3&gt;

&lt;p&gt;Nemotron-3-Super-120B-A12B 的开源为 AI 研究提供了：&lt;/p&gt;

&lt;ol&gt;
&lt;li&gt;
&lt;strong&gt;可复现的 MoE 实现&lt;/strong&gt;：完整的模型权重和训练代码&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;基准对比&lt;/strong&gt;：与 Llama 3、Qwen 等模型的公平对比&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;创新基础&lt;/strong&gt;：基于此模型的进一步研究&lt;/li&gt;
&lt;/ol&gt;

&lt;h3&gt;
  
  
  对工业界的影响
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;部署成本&lt;/strong&gt;：大幅降低企业使用大模型的门槛&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;实时推理&lt;/strong&gt;：使高延迟敏感场景成为可能&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;定制化&lt;/strong&gt;：更容易基于开源模型进行微调&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  生态建设
&lt;/h3&gt;

&lt;p&gt;NVIDIA 通过开源构建开发者生态：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;社区驱动&lt;/strong&gt;：鼓励研究人员贡献改进&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;工具链支持&lt;/strong&gt;：提供完整的推理和优化工具&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;教育普及&lt;/strong&gt;：降低学习 MoE 架构的门槛&lt;/li&gt;
&lt;/ul&gt;

&lt;h2&gt;
  
  
  技术对比
&lt;/h2&gt;

&lt;h3&gt;
  
  
  与 Llama 3 70B 对比
&lt;/h3&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;指标&lt;/th&gt;
&lt;th&gt;Nemotron-3-Super-120B-A12B&lt;/th&gt;
&lt;th&gt;Llama 3 70B&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;总参数&lt;/td&gt;
&lt;td&gt;120B&lt;/td&gt;
&lt;td&gt;70B&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;活跃参数&lt;/td&gt;
&lt;td&gt;12B&lt;/td&gt;
&lt;td&gt;70B (全量)&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;推理成本&lt;/td&gt;
&lt;td&gt;10% 密集模型&lt;/td&gt;
&lt;td&gt;100% 密集模型&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;吞吐率&lt;/td&gt;
&lt;td&gt;5x 密集模型&lt;/td&gt;
&lt;td&gt;1x&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;开源许可&lt;/td&gt;
&lt;td&gt;可商用&lt;/td&gt;
&lt;td&gt;限制性许可&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;h3&gt;
  
  
  与 Qwen2.5 14B 对比
&lt;/h3&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;指标&lt;/th&gt;
&lt;th&gt;Nemotron-3-Super-120B-A12B&lt;/th&gt;
&lt;th&gt;Qwen2.5 14B&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;推理成本&lt;/td&gt;
&lt;td&gt;12B 活跃&lt;/td&gt;
&lt;td&gt;14B 全量&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;知识容量&lt;/td&gt;
&lt;td&gt;120B 总参数&lt;/td&gt;
&lt;td&gt;14B 全量&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;MoE 架构&lt;/td&gt;
&lt;td&gt;是&lt;/td&gt;
&lt;td&gt;否 (密集)&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;多语言能力&lt;/td&gt;
&lt;td&gt;优&lt;/td&gt;
&lt;td&gt;优&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;h2&gt;
  
  
  应用前景
&lt;/h2&gt;

&lt;h3&gt;
  
  
  企业级应用
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;客服机器人&lt;/strong&gt;：低成本高响应速度的问答系统&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;代码辅助&lt;/strong&gt;：大上下文代码生成和分析&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;数据分析&lt;/strong&gt;：复杂数据理解和报告生成&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  研究工具
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;基准测试&lt;/strong&gt;：公平对比不同架构的性能&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;架构研究&lt;/strong&gt;：探索更多 MoE 变体&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;知识蒸馏&lt;/strong&gt;：从大模型到小模型的迁移学习&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  教育领域
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;教学演示&lt;/strong&gt;：直观展示 MoE 架构原理&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;实验平台&lt;/strong&gt;：支持学生进行模型实验&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;技术文档&lt;/strong&gt;：完善的文档降低学习门槛&lt;/li&gt;
&lt;/ul&gt;

&lt;h2&gt;
  
  
  结论
&lt;/h2&gt;

&lt;p&gt;Nemotron-3-Super-120B-A12B 代表了当前 MoE 架构的最佳实践。其 A12B 设计在性能、效率和成本之间取得了出色平衡，为 AI 研究者提供了新的选择。&lt;/p&gt;

&lt;p&gt;随着开源社区的积极参与和持续优化，我们期待看到更多基于此架构的创新应用。对于希望部署高性能大模型但受限于成本的企业和研究机构，Nemotron-3-Super-120B-A12B 无疑是一个值得关注的选择。&lt;/p&gt;

&lt;p&gt;未来，随着推理硬件的持续优化和 MoE 技术的演进，我们有理由相信，稀疏激活架构将成为大模型的主流范式之一。&lt;/p&gt;




&lt;p&gt;&lt;strong&gt;参考资料&lt;/strong&gt;:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;NVIDIA 技术博客&lt;/li&gt;
&lt;li&gt;微信公众号：AI 算力风暴、大数据学习之美、时代 Java&lt;/li&gt;
&lt;li&gt;技术社区讨论&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;关键词&lt;/strong&gt;: NVIDIA, Nemotron-3-Super, MoE, A12B, 稀疏激活，开源模型&lt;/p&gt;




&lt;p&gt;&lt;em&gt;本文字数：约 1800 字&lt;/em&gt;&lt;/p&gt;

</description>
      <category>career</category>
    </item>
    <item>
      <title>Fish Audio S2-Pro：用自然语言控制语音情感的 TTS 模型</title>
      <dc:creator>Garyvov</dc:creator>
      <pubDate>Wed, 11 Mar 2026 12:37:07 +0000</pubDate>
      <link>https://dev.to/gary_yan_86eb77d35e0070f5/fish-audio-s2-proyong-zi-ran-yu-yan-kong-zhi-yu-yin-qing-gan-de-tts-mo-xing-2loa</link>
      <guid>https://dev.to/gary_yan_86eb77d35e0070f5/fish-audio-s2-proyong-zi-ran-yu-yan-kong-zhi-yu-yin-qing-gan-de-tts-mo-xing-2loa</guid>
      <description>&lt;p&gt;2026年3月9日，Fish Audio 开源了 S2-Pro，一个在多个基准测试中超越闭源系统的 TTS 模型。模型权重、训练代码和推理引擎全部开源。&lt;/p&gt;

&lt;h2&gt;
  
  
  自然语言控制
&lt;/h2&gt;

&lt;p&gt;S2-Pro 支持自由形式的内联控制。你可以在文本中直接用自然语言描述想要的效果：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;code&gt;[whisper in small voice]&lt;/code&gt; - 小声耳语&lt;/li&gt;
&lt;li&gt;
&lt;code&gt;[professional broadcast tone]&lt;/code&gt; - 专业播音腔调&lt;/li&gt;
&lt;li&gt;
&lt;code&gt;[pitch up]&lt;/code&gt; - 提高音调&lt;/li&gt;
&lt;li&gt;
&lt;code&gt;[laughing]&lt;/code&gt; - 笑声&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;系统支持 15,000+ 种标签，覆盖情感、语气、音量、节奏。不需要学习固定的标签集，想到什么就写什么。&lt;/p&gt;

&lt;h2&gt;
  
  
  训练数据
&lt;/h2&gt;

&lt;p&gt;1000 万小时音频，80+ 种语言。包括日语、英语、中文、韩语、西班牙语、葡萄牙语、阿拉伯语、俄语、法语、德语，以及瑞典语、意大利语、土耳其语等 60+ 种其他语言。&lt;/p&gt;

&lt;p&gt;不需要音素标注或语言特定的预处理。&lt;/p&gt;

&lt;h2&gt;
  
  
  基准测试
&lt;/h2&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;测试&lt;/th&gt;
&lt;th&gt;S2-Pro&lt;/th&gt;
&lt;th&gt;对比&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;Seed-TTS Eval 中文 WER&lt;/td&gt;
&lt;td&gt;0.54%&lt;/td&gt;
&lt;td&gt;最低&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Seed-TTS Eval 英文 WER&lt;/td&gt;
&lt;td&gt;0.99%&lt;/td&gt;
&lt;td&gt;最低&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Audio Turing Test&lt;/td&gt;
&lt;td&gt;0.515&lt;/td&gt;
&lt;td&gt;vs Seed-TTS 0.417&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;EmergentTTS-Eval&lt;/td&gt;
&lt;td&gt;81.88%&lt;/td&gt;
&lt;td&gt;最高&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;在 Seed-TTS 评估中，S2-Pro 的词错误率低于 Qwen3-TTS (0.77/1.24)、MiniMax Speech-02 (0.99/1.90) 和 Seed-TTS (1.12/2.25)。&lt;/p&gt;

&lt;h2&gt;
  
  
  Dual-AR 架构
&lt;/h2&gt;

&lt;p&gt;模型分两层生成音频：&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Slow AR (4B 参数)&lt;/strong&gt;：沿时间轴预测主要语义码本&lt;br&gt;
&lt;strong&gt;Fast AR (400M 参数)&lt;/strong&gt;：在每个时间步生成剩余 9 个残差码本&lt;/p&gt;

&lt;p&gt;这种设计让推理速度快，同时保持音频质量。&lt;/p&gt;

&lt;h2&gt;
  
  
  强化学习对齐
&lt;/h2&gt;

&lt;p&gt;S2-Pro 用 GRPO 做后训练。关键点：用于过滤训练数据的模型，直接作为强化学习的奖励模型。这消除了预训练和后训练之间的分布差异。&lt;/p&gt;

&lt;p&gt;奖励信号包括：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;语义准确性&lt;/li&gt;
&lt;li&gt;指令遵循&lt;/li&gt;
&lt;li&gt;声学偏好&lt;/li&gt;
&lt;li&gt;音色相似度&lt;/li&gt;
&lt;/ul&gt;

&lt;h2&gt;
  
  
  生产推理
&lt;/h2&gt;

&lt;p&gt;Dual-AR 架构和标准 LLM 结构相同，可以直接用 SGLang 的优化：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;连续批处理&lt;/li&gt;
&lt;li&gt;分页 KV 缓存&lt;/li&gt;
&lt;li&gt;CUDA 图重放&lt;/li&gt;
&lt;li&gt;RadixAttention 前缀缓存&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;单张 H200 GPU 性能&lt;/strong&gt;：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;RTF: 0.195&lt;/li&gt;
&lt;li&gt;首音频延迟: ~100ms&lt;/li&gt;
&lt;li&gt;吞吐量: 3,000+ tokens/s&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;声音克隆场景下，SGLang 自动缓存参考音频的 KV 状态。同一声音重复使用时，前缀缓存命中率平均 86.4%（峰值 &amp;gt;90%）。&lt;/p&gt;

&lt;h2&gt;
  
  
  实用功能
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;声音克隆&lt;/strong&gt;：用短参考样本（通常 10-30 秒）克隆声音。捕捉音色、说话风格、情感倾向。&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;多说话人&lt;/strong&gt;：上传包含多个说话人的参考音频，模型通过 &lt;code&gt;&amp;lt;|speaker:i|&amp;gt;&lt;/code&gt; token 处理。单次生成可以包含多个说话人。&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;多轮对话&lt;/strong&gt;：模型利用上文信息改善后续生成的表现力。&lt;/p&gt;

&lt;h2&gt;
  
  
  开源内容
&lt;/h2&gt;

&lt;ul&gt;
&lt;li&gt;模型权重：&lt;a href="https://huggingface.co/fishaudio/s2-pro" rel="noopener noreferrer"&gt;HuggingFace&lt;/a&gt;
&lt;/li&gt;
&lt;li&gt;训练和微调代码&lt;/li&gt;
&lt;li&gt;SGLang 推理引擎&lt;/li&gt;
&lt;li&gt;GitHub：&lt;a href="https://github.com/fishaudio/fish-speech" rel="noopener noreferrer"&gt;fish-speech&lt;/a&gt;
&lt;/li&gt;
&lt;li&gt;技术报告 PDF&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;许可证&lt;/strong&gt;：Fish Audio Research License&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;研究和非商业使用免费&lt;/li&gt;
&lt;li&gt;商业使用需单独许可（&lt;a href="mailto:business@fish.audio"&gt;business@fish.audio&lt;/a&gt;）&lt;/li&gt;
&lt;/ul&gt;

&lt;h2&gt;
  
  
  快速开始
&lt;/h2&gt;

&lt;h3&gt;
  
  
  安装
&lt;/h3&gt;



&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight shell"&gt;&lt;code&gt;git clone https://github.com/fishaudio/fish-speech.git
&lt;span class="nb"&gt;cd &lt;/span&gt;fish-speech
pip &lt;span class="nb"&gt;install &lt;/span&gt;uv
uv &lt;span class="nb"&gt;sync&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;h3&gt;
  
  
  命令行
&lt;/h3&gt;



&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight shell"&gt;&lt;code&gt;python &lt;span class="nt"&gt;-m&lt;/span&gt; fish_speech.text_to_speech &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;--text&lt;/span&gt; &lt;span class="s2"&gt;"你好，我是 Fish Audio S2-Pro"&lt;/span&gt; &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;--reference_audio&lt;/span&gt; reference.wav &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;--output&lt;/span&gt; output.wav
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;h3&gt;
  
  
  WebUI
&lt;/h3&gt;



&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight shell"&gt;&lt;code&gt;python &lt;span class="nt"&gt;-m&lt;/span&gt; fish_speech.webui
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;h3&gt;
  
  
  Docker
&lt;/h3&gt;



&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight shell"&gt;&lt;code&gt;docker pull fishaudio/fish-speech:latest
docker run &lt;span class="nt"&gt;-it&lt;/span&gt; &lt;span class="nt"&gt;--gpus&lt;/span&gt; all fishaudio/fish-speech:latest
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;h3&gt;
  
  
  SGLang 服务器
&lt;/h3&gt;

&lt;p&gt;生产环境推荐用 SGLang：&lt;br&gt;
&lt;a href="https://github.com/sgl-project/sglang-omni" rel="noopener noreferrer"&gt;https://github.com/sgl-project/sglang-omni&lt;/a&gt;&lt;/p&gt;




&lt;p&gt;&lt;strong&gt;链接&lt;/strong&gt;：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;官网：&lt;a href="https://fish.audio/" rel="noopener noreferrer"&gt;https://fish.audio/&lt;/a&gt;
&lt;/li&gt;
&lt;li&gt;GitHub：&lt;a href="https://github.com/fishaudio/fish-speech" rel="noopener noreferrer"&gt;https://github.com/fishaudio/fish-speech&lt;/a&gt;
&lt;/li&gt;
&lt;li&gt;HuggingFace：&lt;a href="https://huggingface.co/fishaudio/s2-pro" rel="noopener noreferrer"&gt;https://huggingface.co/fishaudio/s2-pro&lt;/a&gt;
&lt;/li&gt;
&lt;li&gt;博客：&lt;a href="https://fish.audio/blog/fish-audio-open-sources-s2/" rel="noopener noreferrer"&gt;https://fish.audio/blog/fish-audio-open-sources-s2/&lt;/a&gt;
&lt;/li&gt;
&lt;li&gt;技术报告：&lt;a href="https://github.com/fishaudio/fish-speech/blob/main/FishAudioS2TecReport.pdf" rel="noopener noreferrer"&gt;PDF&lt;/a&gt;
&lt;/li&gt;
&lt;/ul&gt;

</description>
      <category>ai</category>
      <category>machinelearning</category>
      <category>nlp</category>
      <category>opensource</category>
    </item>
    <item>
      <title>Fish Audio S2-Pro: A TTS Model with Emotion in Speech Controlled with Natural Language</title>
      <dc:creator>Garyvov</dc:creator>
      <pubDate>Wed, 11 Mar 2026 12:35:36 +0000</pubDate>
      <link>https://dev.to/gary_yan_86eb77d35e0070f5/fish-audio-s2-pro-a-tts-model-with-emotion-in-speech-controlled-with-natural-language-1e7n</link>
      <guid>https://dev.to/gary_yan_86eb77d35e0070f5/fish-audio-s2-pro-a-tts-model-with-emotion-in-speech-controlled-with-natural-language-1e7n</guid>
      <description>&lt;p&gt;On March 9, 2026, Fish Audio open-sourced S2-Pro, a TTS model that outperforms closed-source systems across multiple benchmarks. Model weights, training code, and inference engine are all open source.&lt;/p&gt;

&lt;h2&gt;
  
  
  Natural Language Control
&lt;/h2&gt;

&lt;p&gt;S2-Pro supports free-form inline control. You can describe the desired effect directly in natural language within the text:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;code&gt;[whisper in small voice]&lt;/code&gt; - Soft whisper&lt;/li&gt;
&lt;li&gt;
&lt;code&gt;[professional broadcast tone]&lt;/code&gt; - Professional broadcast tone&lt;/li&gt;
&lt;li&gt;
&lt;code&gt;[pitch up]&lt;/code&gt; - Raise pitch&lt;/li&gt;
&lt;li&gt;
&lt;code&gt;[laughing]&lt;/code&gt; - Laughter&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;The system supports 15,000+ tags covering emotion, tone, volume, and rhythm. No need to learn a fixed tag set—just write what you think.&lt;/p&gt;

&lt;h2&gt;
  
  
  Training Data
&lt;/h2&gt;

&lt;p&gt;10 million hours of audio across 80+ languages, including Japanese, English, Chinese, Korean, Spanish, Portuguese, Arabic, Russian, French, German, Swedish, Italian, Turkish, and 60+ other languages.&lt;/p&gt;

&lt;p&gt;No phoneme annotation or language-specific preprocessing required.&lt;/p&gt;

&lt;h2&gt;
  
  
  Benchmarks
&lt;/h2&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Test&lt;/th&gt;
&lt;th&gt;S2-Pro&lt;/th&gt;
&lt;th&gt;Comparison&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;Seed-TTS Eval Chinese WER&lt;/td&gt;
&lt;td&gt;0.54%&lt;/td&gt;
&lt;td&gt;Lowest&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Seed-TTS Eval English WER&lt;/td&gt;
&lt;td&gt;0.99%&lt;/td&gt;
&lt;td&gt;Lowest&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Audio Turing Test&lt;/td&gt;
&lt;td&gt;0.515&lt;/td&gt;
&lt;td&gt;vs Seed-TTS 0.417&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;EmergentTTS-Eval&lt;/td&gt;
&lt;td&gt;81.88%&lt;/td&gt;
&lt;td&gt;Highest&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;In Seed-TTS evaluation, S2-Pro's word error rate is lower than Qwen3-TTS (0.77/1.24), MiniMax Speech-02 (0.99/1.90), and Seed-TTS (1.12/2.25).&lt;/p&gt;

&lt;h2&gt;
  
  
  Dual-AR Architecture
&lt;/h2&gt;

&lt;p&gt;The model generates audio in two layers:&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Slow AR (4B parameters)&lt;/strong&gt;: Predicts the primary semantic codebook along the time axis&lt;br&gt;
&lt;strong&gt;Fast AR (400M parameters)&lt;/strong&gt;: Generates the remaining 9 residual codebooks at each time step&lt;/p&gt;

&lt;p&gt;This design enables fast inference while maintaining audio quality.&lt;/p&gt;

&lt;h2&gt;
  
  
  Reinforcement Learning Alignment
&lt;/h2&gt;

&lt;p&gt;S2-Pro uses GRPO for post-training. Key point: the models used to filter training data directly serve as reward models during reinforcement learning. This eliminates distribution mismatch between pre-training and post-training.&lt;/p&gt;

&lt;p&gt;Reward signals include:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Semantic accuracy&lt;/li&gt;
&lt;li&gt;Instruction following&lt;/li&gt;
&lt;li&gt;Acoustic preference&lt;/li&gt;
&lt;li&gt;Timbre similarity&lt;/li&gt;
&lt;/ul&gt;

&lt;h2&gt;
  
  
  Production Inference
&lt;/h2&gt;

&lt;p&gt;Dual-AR architecture is structurally identical to standard LLMs, allowing direct use of SGLang optimizations:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Continuous batching&lt;/li&gt;
&lt;li&gt;Paged KV cache&lt;/li&gt;
&lt;li&gt;CUDA graph replay&lt;/li&gt;
&lt;li&gt;RadixAttention prefix caching&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Single H200 GPU Performance&lt;/strong&gt;:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;RTF: 0.195&lt;/li&gt;
&lt;li&gt;Time-to-first-audio: ~100ms&lt;/li&gt;
&lt;li&gt;Throughput: 3,000+ tokens/s&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;For voice cloning scenarios, SGLang automatically caches reference audio KV states. When the same voice is reused, prefix cache hit rate averages 86.4% (peak &amp;gt;90%).&lt;/p&gt;

&lt;h2&gt;
  
  
  Practical Features
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Voice Cloning&lt;/strong&gt;: Clone voices using short reference samples (typically 10-30 seconds). Captures timbre, speaking style, and emotional tendencies.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Multi-Speaker&lt;/strong&gt;: Upload reference audio containing multiple speakers, and the model processes each speaker's features via &lt;code&gt;&amp;lt;|speaker:i|&amp;gt;&lt;/code&gt; tokens. Single generation can include multiple speakers.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Multi-Turn Dialogue&lt;/strong&gt;: The model uses previous context to improve expressiveness in subsequent generations.&lt;/p&gt;

&lt;h2&gt;
  
  
  Open Source Content
&lt;/h2&gt;

&lt;ul&gt;
&lt;li&gt;Model weights: &lt;a href="https://huggingface.co/fishaudio/s2-pro" rel="noopener noreferrer"&gt;HuggingFace&lt;/a&gt;
&lt;/li&gt;
&lt;li&gt;Training and fine-tuning code&lt;/li&gt;
&lt;li&gt;SGLang inference engine&lt;/li&gt;
&lt;li&gt;GitHub: &lt;a href="https://github.com/fishaudio/fish-speech" rel="noopener noreferrer"&gt;fish-speech&lt;/a&gt;
&lt;/li&gt;
&lt;li&gt;Technical report PDF&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;License&lt;/strong&gt;: Fish Audio Research License&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Free for research and non-commercial use&lt;/li&gt;
&lt;li&gt;Commercial use requires separate license (&lt;a href="mailto:business@fish.audio"&gt;business@fish.audio&lt;/a&gt;)&lt;/li&gt;
&lt;/ul&gt;

&lt;h2&gt;
  
  
  Quick Start
&lt;/h2&gt;

&lt;h3&gt;
  
  
  Installation
&lt;/h3&gt;



&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight shell"&gt;&lt;code&gt;git clone https://github.com/fishaudio/fish-speech.git
&lt;span class="nb"&gt;cd &lt;/span&gt;fish-speech
pip &lt;span class="nb"&gt;install &lt;/span&gt;uv
uv &lt;span class="nb"&gt;sync&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;h3&gt;
  
  
  Command Line
&lt;/h3&gt;



&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight shell"&gt;&lt;code&gt;python &lt;span class="nt"&gt;-m&lt;/span&gt; fish_speech.text_to_speech &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;--text&lt;/span&gt; &lt;span class="s2"&gt;"Hello, I am Fish Audio S2-Pro"&lt;/span&gt; &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;--reference_audio&lt;/span&gt; reference.wav &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;--output&lt;/span&gt; output.wav
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;h3&gt;
  
  
  WebUI
&lt;/h3&gt;



&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight shell"&gt;&lt;code&gt;python &lt;span class="nt"&gt;-m&lt;/span&gt; fish_speech.webui
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;h3&gt;
  
  
  Docker
&lt;/h3&gt;



&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight shell"&gt;&lt;code&gt;docker pull fishaudio/fish-speech:latest
docker run &lt;span class="nt"&gt;-it&lt;/span&gt; &lt;span class="nt"&gt;--gpus&lt;/span&gt; all fishaudio/fish-speech:latest
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;h3&gt;
  
  
  SGLang Server
&lt;/h3&gt;

&lt;p&gt;For production environments, use SGLang:&lt;br&gt;
&lt;a href="https://github.com/sgl-project/sglang-omni" rel="noopener noreferrer"&gt;https://github.com/sgl-project/sglang-omni&lt;/a&gt;&lt;/p&gt;




&lt;p&gt;&lt;strong&gt;Links&lt;/strong&gt;:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Website: &lt;a href="https://fish.audio/" rel="noopener noreferrer"&gt;https://fish.audio/&lt;/a&gt;
&lt;/li&gt;
&lt;li&gt;GitHub: &lt;a href="https://github.com/fishaudio/fish-speech" rel="noopener noreferrer"&gt;https://github.com/fishaudio/fish-speech&lt;/a&gt;
&lt;/li&gt;
&lt;li&gt;HuggingFace: &lt;a href="https://huggingface.co/fishaudio/s2-pro" rel="noopener noreferrer"&gt;https://huggingface.co/fishaudio/s2-pro&lt;/a&gt;
&lt;/li&gt;
&lt;li&gt;Blog: &lt;a href="https://fish.audio/blog/fish-audio-open-sources-s2/" rel="noopener noreferrer"&gt;https://fish.audio/blog/fish-audio-open-sources-s2/&lt;/a&gt;
&lt;/li&gt;
&lt;li&gt;Technical Report: &lt;a href="https://github.com/fishaudio/fish-speech/blob/main/FishAudioS2TecReport.pdf" rel="noopener noreferrer"&gt;PDF&lt;/a&gt;
&lt;/li&gt;
&lt;/ul&gt;

</description>
      <category>fishaudio</category>
      <category>tts</category>
      <category>ai</category>
    </item>
    <item>
      <title>Use OpenClaw to Tweet from VPS Without Getting Banned: Headed Browser + Xvfb Solution</title>
      <dc:creator>Garyvov</dc:creator>
      <pubDate>Tue, 10 Mar 2026 14:21:45 +0000</pubDate>
      <link>https://dev.to/gary_yan_86eb77d35e0070f5/use-openclaw-to-tweet-from-vps-without-getting-banned-headed-browser-xvfb-solution-2i07</link>
      <guid>https://dev.to/gary_yan_86eb77d35e0070f5/use-openclaw-to-tweet-from-vps-without-getting-banned-headed-browser-xvfb-solution-2i07</guid>
      <description>&lt;h1&gt;
  
  
  Use OpenClaw to Tweet from VPS Without Getting Banned: Headed Browser + Xvfb Solution
&lt;/h1&gt;

&lt;h2&gt;
  
  
  I. Introduction
&lt;/h2&gt;

&lt;h3&gt;
  
  
  Problem Background
&lt;/h3&gt;

&lt;p&gt;You have a VPS (Virtual Private Server) and want to automate Twitter posting.&lt;/p&gt;

&lt;p&gt;But here's the problem:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;❌ Twitter API requires approval and has many restrictions&lt;/li&gt;
&lt;li&gt;❌ Selenium is easily detected&lt;/li&gt;
&lt;li&gt;❌ Puppeteer headless mode is blocked by Twitter's anti-scraping measures&lt;/li&gt;
&lt;li&gt;❌ VPS has no desktop environment, browser cannot start&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;The Core Contradiction&lt;/strong&gt;: Twitter requires a headed browser (with GUI), but VPS has no monitor.&lt;/p&gt;

&lt;h3&gt;
  
  
  Goal of This Article
&lt;/h3&gt;

&lt;p&gt;Through the &lt;strong&gt;Xvfb + Chromium + VNC + CDP&lt;/strong&gt; solution, achieve on VPS:&lt;/p&gt;

&lt;p&gt;✅ Headed browser execution (bypass anti-scraping detection)&lt;br&gt;
✅ Remote visual debugging (view browser via VNC)&lt;br&gt;
✅ Automation control (CDP protocol)&lt;br&gt;
✅ Login state persistence (no need to re-login)&lt;br&gt;
✅ One-click setup (via OpenClaw)&lt;/p&gt;
&lt;h3&gt;
  
  
  Applicable Scenarios
&lt;/h3&gt;

&lt;p&gt;This solution is not limited to Twitter; it can be extended to:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Xiaohongshu (strict anti-scraping)&lt;/li&gt;
&lt;li&gt;WeChat Official Account (requires QR code login)&lt;/li&gt;
&lt;li&gt;Instagram (detects headless mode)&lt;/li&gt;
&lt;li&gt;LinkedIn (complex interactions)&lt;/li&gt;
&lt;li&gt;Taobao/JD (risk control systems)&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Any scenario requiring a headed browser on VPS can use this architecture.&lt;/strong&gt;&lt;/p&gt;


&lt;h2&gt;
  
  
  II. Core Concepts
&lt;/h2&gt;

&lt;p&gt;Before starting configuration, we need to understand 4 core concepts.&lt;/p&gt;
&lt;h3&gt;
  
  
  2.1 Headed Mode vs Headless Mode
&lt;/h3&gt;
&lt;h4&gt;
  
  
  What is Headed Mode?
&lt;/h4&gt;

&lt;p&gt;&lt;strong&gt;Definition&lt;/strong&gt;: The browser has a complete graphical interface, just like opening Chrome on your computer.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Advantages&lt;/strong&gt;:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;✅ &lt;strong&gt;Visual debugging&lt;/strong&gt;: See exactly what's happening in the browser&lt;/li&gt;
&lt;li&gt;✅ &lt;strong&gt;Good compatibility&lt;/strong&gt;: Fully renders pages, supports all web features&lt;/li&gt;
&lt;li&gt;✅ &lt;strong&gt;Hard to detect&lt;/strong&gt;: Behavior matches real users, difficult for anti-scraping systems to identify&lt;/li&gt;
&lt;li&gt;✅ &lt;strong&gt;Supports complex interactions&lt;/strong&gt;: Drag-and-drop, right-click menus, popups, etc.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Disadvantages&lt;/strong&gt;:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;❌ &lt;strong&gt;Requires display environment&lt;/strong&gt;: Must have a physical or virtual monitor&lt;/li&gt;
&lt;li&gt;❌ &lt;strong&gt;High resource consumption&lt;/strong&gt;: Needs to render GUI, consumes GPU memory and CPU&lt;/li&gt;
&lt;li&gt;❌ &lt;strong&gt;Not suitable for large-scale concurrency&lt;/strong&gt;: Each browser instance consumes significant resources&lt;/li&gt;
&lt;/ul&gt;
&lt;h4&gt;
  
  
  What is Headless Mode?
&lt;/h4&gt;

&lt;p&gt;&lt;strong&gt;Definition&lt;/strong&gt;: Browser runs without a graphical interface, pure background operation, no visible window rendering.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Advantages&lt;/strong&gt;:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;✅ &lt;strong&gt;Low resource consumption&lt;/strong&gt;: No GUI rendering, saves memory and CPU&lt;/li&gt;
&lt;li&gt;✅ &lt;strong&gt;Fast startup&lt;/strong&gt;: Skips graphics initialization, starts in 1-2 seconds&lt;/li&gt;
&lt;li&gt;✅ &lt;strong&gt;Suitable for batch tasks&lt;/strong&gt;: Can run multiple instances simultaneously&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Disadvantages&lt;/strong&gt;:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;❌ &lt;strong&gt;Easily detected&lt;/strong&gt;: Missing WebGL, Canvas fingerprints, easily identified&lt;/li&gt;
&lt;li&gt;❌ &lt;strong&gt;Difficult debugging&lt;/strong&gt;: Cannot see the interface, must troubleshoot through logs&lt;/li&gt;
&lt;li&gt;❌ &lt;strong&gt;Not supported by some websites&lt;/strong&gt;: Twitter, Xiaohongshu, etc. detect and block access&lt;/li&gt;
&lt;/ul&gt;
&lt;h4&gt;
  
  
  Comparison Table
&lt;/h4&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Metric&lt;/th&gt;
&lt;th&gt;Headed Mode&lt;/th&gt;
&lt;th&gt;Headless Mode&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;GUI&lt;/td&gt;
&lt;td&gt;✅ Yes&lt;/td&gt;
&lt;td&gt;❌ No&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Memory Usage&lt;/td&gt;
&lt;td&gt;~500MB&lt;/td&gt;
&lt;td&gt;~200MB&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;CPU Usage&lt;/td&gt;
&lt;td&gt;Medium&lt;/td&gt;
&lt;td&gt;Low&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Startup Speed&lt;/td&gt;
&lt;td&gt;3-5 seconds&lt;/td&gt;
&lt;td&gt;1-2 seconds&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Anti-Scraping Capability&lt;/td&gt;
&lt;td&gt;Strong (hard to detect)&lt;/td&gt;
&lt;td&gt;Weak (easy to detect)&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Debugging Difficulty&lt;/td&gt;
&lt;td&gt;Low (visual)&lt;/td&gt;
&lt;td&gt;High (blind operation)&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Applicable Scenarios&lt;/td&gt;
&lt;td&gt;Complex sites, anti-scraping sites&lt;/td&gt;
&lt;td&gt;Simple crawlers, batch tasks&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;&lt;strong&gt;Conclusion&lt;/strong&gt;: For websites with anti-scraping mechanisms like Twitter and Xiaohongshu, headed mode is mandatory.&lt;/p&gt;


&lt;h3&gt;
  
  
  2.2 Xvfb - Virtual Display Server
&lt;/h3&gt;
&lt;h4&gt;
  
  
  What Is It?
&lt;/h4&gt;

&lt;p&gt;&lt;strong&gt;Xvfb&lt;/strong&gt; = &lt;strong&gt;X Virtual Framebuffer&lt;/strong&gt;&lt;/p&gt;

&lt;p&gt;It's a tool that simulates a display environment on servers without physical monitors.&lt;/p&gt;
&lt;h4&gt;
  
  
  Why Is It Needed?
&lt;/h4&gt;

&lt;p&gt;VPS servers typically lack physical monitors, but headed browsers require a display environment to start.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;The Contradiction&lt;/strong&gt;:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Browser: I need a monitor to run&lt;/li&gt;
&lt;li&gt;VPS: I don't have a monitor&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;The Solution&lt;/strong&gt;:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Xvfb: I create a "virtual monitor" that the browser thinks exists, but actually doesn't&lt;/li&gt;
&lt;/ul&gt;
&lt;h4&gt;
  
  
  Analogy
&lt;/h4&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;Physical Monitor&lt;/strong&gt; = Real television&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Xvfb&lt;/strong&gt; = Virtual television (the browser thinks it exists, but it doesn't)&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;The browser connects to Xvfb, renders pages normally, but the output never appears on any physical screen.&lt;/p&gt;
&lt;h4&gt;
  
  
  Working Principle
&lt;/h4&gt;


&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;┌─────────────────────────────────┐
│   VPS Server (No Physical Monitor)│
├─────────────────────────────────┤
│  Xvfb Creates Virtual Display :99 │
│  (Resolution 1920x1080, 24-bit)   │
│           ↓                        │
│  Chromium Connects to :99         │
│  (Thinks monitor exists, renders) │
│           ↓                        │
│  Pages Load, JavaScript Executes  │
└─────────────────────────────────┘
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;


&lt;p&gt;&lt;strong&gt;Key Parameters&lt;/strong&gt;:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;code&gt;:99&lt;/code&gt; - Display number (can be :0, :1, :99, etc.)&lt;/li&gt;
&lt;li&gt;
&lt;code&gt;1920x1080x24&lt;/code&gt; - Resolution and color depth&lt;/li&gt;
&lt;/ul&gt;


&lt;h3&gt;
  
  
  2.3 VNC - Remote Desktop
&lt;/h3&gt;
&lt;h4&gt;
  
  
  What Is It?
&lt;/h4&gt;

&lt;p&gt;&lt;strong&gt;VNC&lt;/strong&gt; = &lt;strong&gt;Virtual Network Computing&lt;/strong&gt;&lt;/p&gt;

&lt;p&gt;It's a protocol for remotely viewing and controlling server desktops.&lt;/p&gt;
&lt;h4&gt;
  
  
  Why Is It Needed?
&lt;/h4&gt;

&lt;p&gt;Although Xvfb creates a virtual display, we cannot see what the browser is doing.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;VNC's Role&lt;/strong&gt;:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;✅ &lt;strong&gt;Debugging&lt;/strong&gt;: See actual browser operation&lt;/li&gt;
&lt;li&gt;✅ &lt;strong&gt;Manual operations&lt;/strong&gt;: First-time login, captcha handling&lt;/li&gt;
&lt;li&gt;✅ &lt;strong&gt;Verification&lt;/strong&gt;: Confirm automation scripts work correctly&lt;/li&gt;
&lt;/ul&gt;
&lt;h4&gt;
  
  
  Port Mapping
&lt;/h4&gt;

&lt;p&gt;Xvfb display numbers correspond to VNC ports:&lt;/p&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Xvfb Display&lt;/th&gt;
&lt;th&gt;VNC Port&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;:0&lt;/td&gt;
&lt;td&gt;5900&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;:1&lt;/td&gt;
&lt;td&gt;5901&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;:99&lt;/td&gt;
&lt;td&gt;5999&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;&lt;strong&gt;Formula&lt;/strong&gt;: VNC Port = 5900 + Display Number&lt;/p&gt;
&lt;h4&gt;
  
  
  Connection Flow
&lt;/h4&gt;


&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;┌──────────┐    ┌─────────────┐    ┌──────────┐
│ Local PC │ →  │ VNC Viewer  │ →  │ VPS :5999│
│   (You)  │    │(Remote Desk)│    │ (Server) │
└──────────┘    └─────────────┘    └──────────┘
                                         ↓
                                    ┌──────────┐
                                    │ Xvfb :99 │
                                    │(Virtual) │
                                    └──────────┘
                                         ↓
                                    ┌──────────┐
                                    │Chromium  │
                                    │(Browser) │
                                    └──────────┘
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;


&lt;p&gt;&lt;strong&gt;You connect to VPS via VNC Viewer from your local PC and can see the Chromium browser interface.&lt;/strong&gt;&lt;/p&gt;


&lt;h3&gt;
  
  
  2.4 CDP - Browser Control Protocol
&lt;/h3&gt;
&lt;h4&gt;
  
  
  What Is It?
&lt;/h4&gt;

&lt;p&gt;&lt;strong&gt;CDP&lt;/strong&gt; = &lt;strong&gt;Chrome DevTools Protocol&lt;/strong&gt;&lt;/p&gt;

&lt;p&gt;It's the official standard protocol provided by Chrome/Chromium for remotely controlling browsers.&lt;/p&gt;
&lt;h4&gt;
  
  
  Why Is It Needed?
&lt;/h4&gt;

&lt;p&gt;VNC only lets us "see" the browser; automation requires "controlling" it.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;CDP's Role&lt;/strong&gt;:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;✅ &lt;strong&gt;Automation control&lt;/strong&gt;: Control browser via code (click, input, screenshots, etc.)&lt;/li&gt;
&lt;li&gt;✅ &lt;strong&gt;No Selenium required&lt;/strong&gt;: Use native protocol directly, more stable&lt;/li&gt;
&lt;li&gt;✅ &lt;strong&gt;Official support&lt;/strong&gt;: Maintained by Chrome/Chromium, excellent compatibility&lt;/li&gt;
&lt;/ul&gt;
&lt;h4&gt;
  
  
  Port
&lt;/h4&gt;

&lt;p&gt;CDP default port is &lt;strong&gt;9222&lt;/strong&gt; (customizable).&lt;/p&gt;

&lt;p&gt;When starting Chromium, add the parameter:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight shell"&gt;&lt;code&gt;&lt;span class="nt"&gt;--remote-debugging-port&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;9222
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;h4&gt;
  
  
  Communication Flow
&lt;/h4&gt;



&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;┌──────────────────┐         ┌─────────────┐         ┌──────────┐
│ Playwright Script│  ←───→  │  CDP :9222  │  ←───→  │Chromium  │
│  (Automation)    │         │(Control Prot)│        │(Browser) │
└──────────────────┘         └─────────────┘         └──────────┘
        ↓                            ↓                      ↓
   Send Commands              Protocol Conversion      Execute Actions
   (Click Button)             (JSON-RPC)              (Simulate Click)
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;






&lt;h2&gt;
  
  
  III. Overall Architecture
&lt;/h2&gt;

&lt;p&gt;Now let's combine the 4 concepts and see the complete architecture.&lt;/p&gt;

&lt;h3&gt;
  
  
  Architecture Diagram
&lt;/h3&gt;



&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;┌─────────────────────────────────────────────────────────┐
│              VPS Server (No Physical Monitor)            │
├─────────────────────────────────────────────────────────┤
│                                                          │
│  ┌────────────────────────────────────────────┐         │
│  │  Xvfb :99 (Virtual Display 1920x1080x24)   │         │
│  └────────────────────────────────────────────┘         │
│                      ↓                                   │
│  ┌────────────────────────────────────────────┐         │
│  │  Chromium (Headed Mode)                    │         │
│  │  ├─ CDP :9222 (Automation Control API)    │         │
│  │  └─ User Data Dir (Save Login State)      │         │
│  │     /root/.local/share/chromium-profile    │         │
│  └────────────────────────────────────────────┘         │
│                      ↑                                   │
│  ┌────────────────────────────────────────────┐         │
│  │  VNC Server :5999 (Remote View API)        │         │
│  └────────────────────────────────────────────┘         │
│                                                          │
└─────────────────────────────────────────────────────────┘
           ↑                              ↑
           │                              │
    ┌──────────────┐            ┌─────────────────┐
    │  VNC Viewer  │            │  Playwright     │
    │  (Debug)     │            │  (Automation)   │
    └──────────────┘            └─────────────────┘
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;h3&gt;
  
  
  Data Flow Explanation
&lt;/h3&gt;

&lt;p&gt;&lt;strong&gt;1. Xvfb Provides Virtual Display Environment&lt;/strong&gt;&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Creates virtual display &lt;code&gt;:99&lt;/code&gt;
&lt;/li&gt;
&lt;li&gt;Resolution 1920x1080, 24-bit color depth&lt;/li&gt;
&lt;li&gt;Runs in background, doesn't占用 physical monitor&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;2. Chromium Connects to Virtual Display&lt;/strong&gt;&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Starts in headed mode&lt;/li&gt;
&lt;li&gt;Connects to Xvfb &lt;code&gt;:99&lt;/code&gt;
&lt;/li&gt;
&lt;li&gt;Renders pages normally, executes JavaScript&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;3. User Data Dir Saves Login State&lt;/strong&gt;&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Specifies data directory: &lt;code&gt;/root/.local/share/chromium-profile&lt;/code&gt;
&lt;/li&gt;
&lt;li&gt;Automatically saves cookies, cache, browsing history&lt;/li&gt;
&lt;li&gt;Login state restores automatically after restart&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;No need to manually export/import cookies&lt;/strong&gt;&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;4. VNC Connects to Virtual Display&lt;/strong&gt;&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;VNC Server listens on port 5999&lt;/li&gt;
&lt;li&gt;Connects to Xvfb &lt;code&gt;:99&lt;/code&gt;
&lt;/li&gt;
&lt;li&gt;User views browser remotely via VNC Viewer&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;5. CDP Connects to Chromium&lt;/strong&gt;&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Chromium enables CDP port 9222&lt;/li&gt;
&lt;li&gt;Playwright sends control commands via CDP&lt;/li&gt;
&lt;li&gt;Achieves automation (filling, clicking, screenshots, etc.)&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  Key Features
&lt;/h3&gt;

&lt;p&gt;✅ &lt;strong&gt;Headed Mode&lt;/strong&gt;: Bypass Twitter anti-scraping detection&lt;br&gt;
✅ &lt;strong&gt;Virtual Display&lt;/strong&gt;: No physical monitor required&lt;br&gt;
✅ &lt;strong&gt;Remote Visibility&lt;/strong&gt;: View browser via VNC&lt;br&gt;
✅ &lt;strong&gt;Automation Control&lt;/strong&gt;: CDP protocol&lt;br&gt;
✅ &lt;strong&gt;Login Persistence&lt;/strong&gt;: User Data Dir auto-saves&lt;br&gt;
✅ &lt;strong&gt;Stable &amp;amp; Reliable&lt;/strong&gt;: Chromium more stable than Chrome&lt;/p&gt;


&lt;h2&gt;
  
  
  IV. One-Click Configuration
&lt;/h2&gt;

&lt;p&gt;After understanding the architecture, let's configure the environment.&lt;/p&gt;
&lt;h3&gt;
  
  
  Complete Prompt for OpenClaw
&lt;/h3&gt;

&lt;p&gt;Copy the following prompt and send it to OpenClaw:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;I need to configure Twitter auto-posting environment on VPS.

Please help me complete the following configuration:

1. Install Dependencies
   - Xvfb (Virtual Display)
   - x11vnc (VNC Server)
   - Chromium Browser
   - Node.js 22+
   - Playwright

2. Start Services
   - Xvfb :99 (Resolution 1920x1080x24)
   - x11vnc :5999 (Connect to :99 display)
   - Chromium (CDP Port 9222, Headed Mode)
     * Data Directory: /root/.local/share/chromium-shared-profile
     * Parameters: --no-sandbox --disable-dev-shm-usage

3. Create Auto-Posting Script
   - Connect to CDP :9222
   - Open Twitter compose page
   - Fill content and publish

4. Environment Variables
   - DISPLAY=:99
   - XAUTHORITY=/root/.Xauthority

After completion, tell me:
- VNC connection address
- How to test auto-posting
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;&lt;strong&gt;OpenClaw will automatically complete all configuration.&lt;/strong&gt;&lt;/p&gt;

&lt;h3&gt;
  
  
  Configuration Complete
&lt;/h3&gt;

&lt;p&gt;OpenClaw will return:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;✅ Configuration Complete!

VNC Connection Address: Your_VPS_IP:5999
CDP Port: 9222

Next Steps:
1. Use VNC Viewer to connect to VPS
2. Manually log into Twitter in the browser
3. Test auto-posting:
   Send me the command: "Help me post a test tweet"
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;






&lt;h2&gt;
  
  
  V. Manual Operation Steps
&lt;/h2&gt;

&lt;p&gt;After configuration, 3 manual operations are required.&lt;/p&gt;

&lt;h3&gt;
  
  
  5.1 Connect VNC
&lt;/h3&gt;

&lt;h4&gt;
  
  
  Download VNC Viewer
&lt;/h4&gt;

&lt;p&gt;Download based on your operating system:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;Windows&lt;/strong&gt;: &lt;a href="https://www.realvnc.com/en/connect/download/viewer/windows/" rel="noopener noreferrer"&gt;https://www.realvnc.com/en/connect/download/viewer/windows/&lt;/a&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;macOS&lt;/strong&gt;: &lt;a href="https://www.realvnc.com/en/connect/download/viewer/macos/" rel="noopener noreferrer"&gt;https://www.realvnc.com/en/connect/download/viewer/macos/&lt;/a&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Linux&lt;/strong&gt;:
&lt;/li&gt;
&lt;/ul&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight shell"&gt;&lt;code&gt;  apt-get &lt;span class="nb"&gt;install &lt;/span&gt;tigervnc-viewer
  &lt;span class="c"&gt;# or&lt;/span&gt;
  yum &lt;span class="nb"&gt;install &lt;/span&gt;tigervnc
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;h4&gt;
  
  
  Connection Steps
&lt;/h4&gt;

&lt;ol&gt;
&lt;li&gt;Open VNC Viewer&lt;/li&gt;
&lt;li&gt;Enter address: &lt;code&gt;Your_VPS_IP:5999&lt;/code&gt;

&lt;ul&gt;
&lt;li&gt;Example: &lt;code&gt;123.45.67.189:5999&lt;/code&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;Click "Connect"&lt;/li&gt;
&lt;/ol&gt;

&lt;h4&gt;
  
  
  First Connection
&lt;/h4&gt;

&lt;ul&gt;
&lt;li&gt;May see black screen (normal behavior)&lt;/li&gt;
&lt;li&gt;Wait 2-3 seconds, Chromium window will appear&lt;/li&gt;
&lt;li&gt;If screen stays black, check if Chromium started:
&lt;/li&gt;
&lt;/ul&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight shell"&gt;&lt;code&gt;  ps aux | &lt;span class="nb"&gt;grep &lt;/span&gt;chromium
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;






&lt;h3&gt;
  
  
  5.2 First-Time Twitter Login
&lt;/h3&gt;

&lt;h4&gt;
  
  
  Operate in VNC
&lt;/h4&gt;

&lt;p&gt;After successful connection, you'll see the Chromium browser window.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;操作步骤&lt;/strong&gt;:&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Access Twitter&lt;/strong&gt;&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Enter in address bar: &lt;code&gt;https://twitter.com&lt;/code&gt;
&lt;/li&gt;
&lt;li&gt;Manually complete login&lt;/li&gt;
&lt;/ul&gt;

&lt;h4&gt;
  
  
  Important Notes
&lt;/h4&gt;

&lt;p&gt;&lt;strong&gt;✅ Only Need to Login Once&lt;/strong&gt;&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Login state automatically saves to User Data Dir&lt;/li&gt;
&lt;li&gt;Login state automatically restores after server restart&lt;/li&gt;
&lt;li&gt;No need to manually export/import cookies&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;✅ Login State Persistence Mechanism&lt;/strong&gt;&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Chromium uses &lt;code&gt;--user-data-dir&lt;/code&gt; parameter&lt;/li&gt;
&lt;li&gt;All data saved to: &lt;code&gt;/root/.local/share/chromium-shared-profile&lt;/code&gt;
&lt;/li&gt;
&lt;li&gt;Includes: Cookies, cache, history, extensions, etc.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;⚠️ Precautions&lt;/strong&gt;&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Do not delete User Data Dir directory&lt;/li&gt;
&lt;li&gt;Do not log into the same account elsewhere (may trigger security verification)&lt;/li&gt;
&lt;li&gt;If login state is lost, simply re-login manually&lt;/li&gt;
&lt;/ul&gt;




&lt;h3&gt;
  
  
  5.3 Test Auto-Posting
&lt;/h3&gt;

&lt;p&gt;After login is complete, test the automation functionality.&lt;/p&gt;

&lt;h4&gt;
  
  
  Command for OpenClaw
&lt;/h4&gt;



&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;Help me post a test tweet: "This is a test tweet automatically published via VPS 🚀"
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;h4&gt;
  
  
  What OpenClaw Will Do
&lt;/h4&gt;

&lt;ol&gt;
&lt;li&gt;
&lt;strong&gt;Call Auto-Posting Script&lt;/strong&gt;
&lt;/li&gt;
&lt;/ol&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight shell"&gt;&lt;code&gt;   node /root/post-tweet.js &lt;span class="s2"&gt;"This is a test tweet automatically published via VPS 🚀"&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;ol&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;Connect to CDP&lt;/strong&gt;&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Connect to &lt;code&gt;http://localhost:9222&lt;/code&gt;
&lt;/li&gt;
&lt;li&gt;Get existing browser context&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;Automation Operations&lt;/strong&gt;&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Open Twitter compose page&lt;/li&gt;
&lt;li&gt;Fill tweet content&lt;/li&gt;
&lt;li&gt;Click "Post" button&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;&lt;p&gt;&lt;strong&gt;Return Result&lt;/strong&gt;&lt;br&gt;
&lt;/p&gt;&lt;/li&gt;
&lt;/ol&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;   ✅ Tweet Published
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;h4&gt;
  
  
  View in VNC
&lt;/h4&gt;

&lt;p&gt;If you keep VNC connected, you can see in real-time:&lt;/p&gt;

&lt;ol&gt;
&lt;li&gt;Browser automatically opens new tab&lt;/li&gt;
&lt;li&gt;Navigate to Twitter compose page&lt;/li&gt;
&lt;li&gt;Text box automatically fills with content&lt;/li&gt;
&lt;li&gt;"Post" button automatically clicked&lt;/li&gt;
&lt;li&gt;Tweet published successfully&lt;/li&gt;
&lt;/ol&gt;

&lt;p&gt;&lt;strong&gt;This is the power of automation: You just send the command, the rest is fully automatic.&lt;/strong&gt;&lt;/p&gt;

&lt;h4&gt;
  
  
  Verify Tweet
&lt;/h4&gt;

&lt;ul&gt;
&lt;li&gt;Refresh Twitter webpage to see if tweet was published&lt;/li&gt;
&lt;li&gt;Or view Twitter homepage in VNC&lt;/li&gt;
&lt;/ul&gt;




&lt;h2&gt;
  
  
  VI. Extension to Other Websites
&lt;/h2&gt;

&lt;p&gt;This architecture is not limited to Twitter; it can be extended to any website requiring a headed browser.&lt;/p&gt;

&lt;h3&gt;
  
  
  6.1 Applicable Scenarios
&lt;/h3&gt;

&lt;p&gt;&lt;strong&gt;Websites Also Requiring Headed Mode&lt;/strong&gt;:&lt;/p&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Website&lt;/th&gt;
&lt;th&gt;Reason&lt;/th&gt;
&lt;th&gt;Challenges&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;Xiaohongshu&lt;/td&gt;
&lt;td&gt;Strict anti-scraping, detects headless mode&lt;/td&gt;
&lt;td&gt;Need to simulate real user behavior&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;WeChat Official Account&lt;/td&gt;
&lt;td&gt;Requires QR code login&lt;/td&gt;
&lt;td&gt;Need manual QR scan&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Instagram&lt;/td&gt;
&lt;td&gt;Detects WebGL, Canvas fingerprints&lt;/td&gt;
&lt;td&gt;Headless mode blocked&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;LinkedIn&lt;/td&gt;
&lt;td&gt;Complex interactions, risk control&lt;/td&gt;
&lt;td&gt;Needs full rendering&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Taobao/JD&lt;/td&gt;
&lt;td&gt;Slider captcha, risk control&lt;/td&gt;
&lt;td&gt;Needs real browser environment&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Douyin/Kuaishou&lt;/td&gt;
&lt;td&gt;Video upload, complex editor&lt;/td&gt;
&lt;td&gt;Needs complete DOM manipulation&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;&lt;strong&gt;Core Characteristics&lt;/strong&gt;:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;✅ Has anti-scraping detection&lt;/li&gt;
&lt;li&gt;✅ Requires login&lt;/li&gt;
&lt;li&gt;✅ Has complex interactions&lt;/li&gt;
&lt;li&gt;✅ Detects browser fingerprints&lt;/li&gt;
&lt;/ul&gt;




&lt;h3&gt;
  
  
  6.2 Universal Architecture
&lt;/h3&gt;

&lt;p&gt;&lt;strong&gt;Core Remains Unchanged&lt;/strong&gt;:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Xvfb virtual display&lt;/li&gt;
&lt;li&gt;VNC remote viewing&lt;/li&gt;
&lt;li&gt;CDP automation control&lt;/li&gt;
&lt;li&gt;User Data Dir saves login state&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Needs Adjustment&lt;/strong&gt;:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Page URLs&lt;/li&gt;
&lt;li&gt;Page selectors (button, input field locators)&lt;/li&gt;
&lt;li&gt;Operation flow (click sequence, wait times)&lt;/li&gt;
&lt;/ul&gt;




&lt;h2&gt;
  
  
  VII. Summary
&lt;/h2&gt;

&lt;p&gt;Technology is not isolated; architectures are reusable; thinking can be transferred.&lt;/p&gt;

&lt;p&gt;When you understand the logic behind this architecture, what you possess is not just an auto-tweeting tool, but &lt;strong&gt;a key to unlock the automation gateway&lt;/strong&gt;.&lt;/p&gt;

&lt;p&gt;Copy the prompt to OpenClaw, one-click configuration, one-click launch, let machines work for you, let time create value for you.&lt;/p&gt;

&lt;p&gt;This is the power of automation. 🚀&lt;/p&gt;

</description>
      <category>devtools</category>
    </item>
    <item>
      <title>使用Openclaw在服务器发推特不被封？用有头浏览器 + 虚拟显示完美绕过反爬检测</title>
      <dc:creator>Garyvov</dc:creator>
      <pubDate>Tue, 10 Mar 2026 13:08:49 +0000</pubDate>
      <link>https://dev.to/gary_yan_86eb77d35e0070f5/vps-zi-dong-fa-tui-te-bao-mu-ji-jiao-cheng-xvfb-xu-ni-xian-shi-chromium-you-tou-mo-shi-vnc-yuan-cheng-cdp-kong-zhi-zhan-shi-jie-jue--33og</link>
      <guid>https://dev.to/gary_yan_86eb77d35e0070f5/vps-zi-dong-fa-tui-te-bao-mu-ji-jiao-cheng-xvfb-xu-ni-xian-shi-chromium-you-tou-mo-shi-vnc-yuan-cheng-cdp-kong-zhi-zhan-shi-jie-jue--33og</guid>
      <description>&lt;h2&gt;
  
  
  一、前言
&lt;/h2&gt;

&lt;h3&gt;
  
  
  问题背景
&lt;/h3&gt;

&lt;p&gt;你有一台 VPS 服务器，想实现 Twitter 自动发推。&lt;/p&gt;

&lt;p&gt;但问题来了：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;❌ Twitter API 需要审核，限制多&lt;/li&gt;
&lt;li&gt;❌ Selenium 容易被检测&lt;/li&gt;
&lt;li&gt;❌ Puppeteer headless 模式被 Twitter 反爬&lt;/li&gt;
&lt;li&gt;❌ VPS 没有桌面环境，浏览器无法启动&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;核心矛盾&lt;/strong&gt;：Twitter 需要有头浏览器（有图形界面），但 VPS 没有显示器。&lt;/p&gt;

&lt;h3&gt;
  
  
  本文目标
&lt;/h3&gt;

&lt;p&gt;通过 &lt;strong&gt;Xvfb + Chromium + VNC + CDP&lt;/strong&gt; 方案，在 VPS 上实现：&lt;/p&gt;

&lt;p&gt;✅ 有头浏览器运行（绕过反爬检测）&lt;br&gt;&lt;br&gt;
✅ 远程可视化调试（VNC 查看浏览器）&lt;br&gt;&lt;br&gt;
✅ 自动化控制（CDP 协议）&lt;br&gt;&lt;br&gt;
✅ 登录状态持久化（无需重复登录）&lt;br&gt;&lt;br&gt;
✅ 一键配置（通过 OpenClaw）&lt;/p&gt;
&lt;h3&gt;
  
  
  适用场景
&lt;/h3&gt;

&lt;p&gt;这套方案不只适用于 Twitter，还可以扩展到：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;小红书（反爬严格）&lt;/li&gt;
&lt;li&gt;微信公众号（需要扫码登录）&lt;/li&gt;
&lt;li&gt;Instagram（检测无头模式）&lt;/li&gt;
&lt;li&gt;LinkedIn（复杂交互）&lt;/li&gt;
&lt;li&gt;淘宝/京东（风控系统）&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;任何需要在 VPS 上运行有头浏览器的场景，都可以使用这套架构。&lt;/strong&gt;&lt;/p&gt;


&lt;h2&gt;
  
  
  二、核心概念
&lt;/h2&gt;

&lt;p&gt;在开始配置之前，我们需要理解 4 个核心概念。&lt;/p&gt;
&lt;h3&gt;
  
  
  2.1 有头模式 vs 无头模式
&lt;/h3&gt;
&lt;h4&gt;
  
  
  什么是有头模式（Headed Mode）？
&lt;/h4&gt;

&lt;p&gt;&lt;strong&gt;定义&lt;/strong&gt;：浏览器有完整的图形界面，就像你在电脑上打开 Chrome 一样。&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;优点&lt;/strong&gt;：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;✅ &lt;strong&gt;可视化调试&lt;/strong&gt;：所见即所得，能看到浏览器实际运行情况&lt;/li&gt;
&lt;li&gt;✅ &lt;strong&gt;兼容性好&lt;/strong&gt;：完整渲染页面，支持所有 Web 特性&lt;/li&gt;
&lt;li&gt;✅ &lt;strong&gt;不易被检测&lt;/strong&gt;：行为与真实用户一致，难以被反爬系统识别&lt;/li&gt;
&lt;li&gt;✅ &lt;strong&gt;支持复杂交互&lt;/strong&gt;：拖拽、右键菜单、弹窗等&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;缺点&lt;/strong&gt;：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;❌ &lt;strong&gt;需要显示环境&lt;/strong&gt;：必须有显示器或虚拟显示&lt;/li&gt;
&lt;li&gt;❌ &lt;strong&gt;资源占用高&lt;/strong&gt;：需要渲染图形界面，消耗显存和 CPU&lt;/li&gt;
&lt;li&gt;❌ &lt;strong&gt;不适合大规模并发&lt;/strong&gt;：每个浏览器实例占用资源多&lt;/li&gt;
&lt;/ul&gt;
&lt;h4&gt;
  
  
  什么是无头模式（Headless Mode）？
&lt;/h4&gt;

&lt;p&gt;&lt;strong&gt;定义&lt;/strong&gt;：浏览器无图形界面，纯后台运行，不渲染可见窗口。&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;优点&lt;/strong&gt;：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;✅ &lt;strong&gt;资源占用低&lt;/strong&gt;：不渲染界面，节省内存和 CPU&lt;/li&gt;
&lt;li&gt;✅ &lt;strong&gt;启动速度快&lt;/strong&gt;：跳过图形初始化，1-2 秒启动&lt;/li&gt;
&lt;li&gt;✅ &lt;strong&gt;适合批量任务&lt;/strong&gt;：可以同时运行多个实例&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;缺点&lt;/strong&gt;：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;❌ &lt;strong&gt;容易被检测&lt;/strong&gt;：缺少 WebGL、Canvas 指纹，容易被识别&lt;/li&gt;
&lt;li&gt;❌ &lt;strong&gt;调试困难&lt;/strong&gt;：看不到界面，只能通过日志排查问题&lt;/li&gt;
&lt;li&gt;❌ &lt;strong&gt;部分网站不支持&lt;/strong&gt;：Twitter、小红书等会检测并拒绝访问&lt;/li&gt;
&lt;/ul&gt;
&lt;h4&gt;
  
  
  对比表格
&lt;/h4&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;指标&lt;/th&gt;
&lt;th&gt;有头模式&lt;/th&gt;
&lt;th&gt;无头模式&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;图形界面&lt;/td&gt;
&lt;td&gt;✅ 有&lt;/td&gt;
&lt;td&gt;❌ 无&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;内存占用&lt;/td&gt;
&lt;td&gt;~500MB&lt;/td&gt;
&lt;td&gt;~200MB&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;CPU 占用&lt;/td&gt;
&lt;td&gt;中等&lt;/td&gt;
&lt;td&gt;低&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;启动速度&lt;/td&gt;
&lt;td&gt;3-5秒&lt;/td&gt;
&lt;td&gt;1-2秒&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;反爬能力&lt;/td&gt;
&lt;td&gt;强（难检测）&lt;/td&gt;
&lt;td&gt;弱（易检测）&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;调试难度&lt;/td&gt;
&lt;td&gt;低（可视化）&lt;/td&gt;
&lt;td&gt;高（盲操作）&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;适用场景&lt;/td&gt;
&lt;td&gt;复杂网站、反爬网站&lt;/td&gt;
&lt;td&gt;简单爬虫、批量任务&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;&lt;strong&gt;结论&lt;/strong&gt;：对于 Twitter、小红书等有反爬机制的网站，必须使用有头模式。&lt;/p&gt;


&lt;h3&gt;
  
  
  2.2 Xvfb - 虚拟显示服务器
&lt;/h3&gt;
&lt;h4&gt;
  
  
  是什么？
&lt;/h4&gt;

&lt;p&gt;&lt;strong&gt;Xvfb&lt;/strong&gt; = &lt;strong&gt;X Virtual Framebuffer&lt;/strong&gt;（X 虚拟帧缓冲）&lt;/p&gt;

&lt;p&gt;它是一个在无显示器的服务器上模拟显示环境的工具。&lt;/p&gt;
&lt;h4&gt;
  
  
  为什么需要？
&lt;/h4&gt;

&lt;p&gt;VPS 服务器通常没有物理显示器，但有头浏览器需要显示环境才能启动。&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;矛盾&lt;/strong&gt;：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;浏览器：我需要显示器才能运行&lt;/li&gt;
&lt;li&gt;VPS：我没有显示器&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;解决方案&lt;/strong&gt;：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Xvfb：我创建一个"虚拟显示器"，浏览器以为有显示器，实际上没有&lt;/li&gt;
&lt;/ul&gt;
&lt;h4&gt;
  
  
  类比理解
&lt;/h4&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;物理显示器&lt;/strong&gt; = 真实的电视机&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Xvfb&lt;/strong&gt; = 虚拟的电视机（浏览器以为有，实际没有）&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;浏览器连接到 Xvfb，正常渲染页面，但画面不会显示在任何物理屏幕上。&lt;/p&gt;
&lt;h4&gt;
  
  
  工作原理
&lt;/h4&gt;


&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;┌─────────────────────────────────┐
│   VPS 服务器（无物理显示器）      │
├─────────────────────────────────┤
│  Xvfb 创建虚拟显示 :99           │
│  (分辨率 1920x1080, 24位色深)    │
│           ↓                      │
│  Chromium 连接到 :99             │
│  (以为有显示器，正常渲染)         │
│           ↓                      │
│  页面正常加载，JavaScript 执行   │
└─────────────────────────────────┘
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;


&lt;p&gt;&lt;strong&gt;关键参数&lt;/strong&gt;：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;code&gt;:99&lt;/code&gt; - 显示编号（可以是 :0, :1, :99 等）&lt;/li&gt;
&lt;li&gt;
&lt;code&gt;1920x1080x24&lt;/code&gt; - 分辨率和色深&lt;/li&gt;
&lt;/ul&gt;


&lt;h3&gt;
  
  
  2.3 VNC - 远程桌面
&lt;/h3&gt;
&lt;h4&gt;
  
  
  是什么？
&lt;/h4&gt;

&lt;p&gt;&lt;strong&gt;VNC&lt;/strong&gt; = &lt;strong&gt;Virtual Network Computing&lt;/strong&gt;（虚拟网络计算）&lt;/p&gt;

&lt;p&gt;它是一个远程查看和控制服务器桌面的协议。&lt;/p&gt;
&lt;h4&gt;
  
  
  为什么需要？
&lt;/h4&gt;

&lt;p&gt;虽然 Xvfb 创建了虚拟显示，但我们看不到浏览器在做什么。&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;VNC 的作用&lt;/strong&gt;：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;✅ &lt;strong&gt;调试&lt;/strong&gt;：看到浏览器实际运行情况&lt;/li&gt;
&lt;li&gt;✅ &lt;strong&gt;手动操作&lt;/strong&gt;：首次登录、处理验证码&lt;/li&gt;
&lt;li&gt;✅ &lt;strong&gt;验证&lt;/strong&gt;：确认自动化脚本是否正常工作&lt;/li&gt;
&lt;/ul&gt;
&lt;h4&gt;
  
  
  端口映射
&lt;/h4&gt;

&lt;p&gt;Xvfb 的显示编号和 VNC 端口有对应关系：&lt;/p&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Xvfb 显示&lt;/th&gt;
&lt;th&gt;VNC 端口&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;:0&lt;/td&gt;
&lt;td&gt;5900&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;:1&lt;/td&gt;
&lt;td&gt;5901&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;:99&lt;/td&gt;
&lt;td&gt;5999&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;&lt;strong&gt;公式&lt;/strong&gt;：VNC 端口 = 5900 + 显示编号&lt;/p&gt;
&lt;h4&gt;
  
  
  连接流程
&lt;/h4&gt;


&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;┌──────────┐    ┌─────────────┐    ┌──────────┐
│ 本地电脑  │ →  │ VNC Viewer  │ →  │ VPS :5999│
│  (你)    │    │(远程桌面软件)│    │ (服务器) │
└──────────┘    └─────────────┘    └──────────┘
                                         ↓
                                    ┌──────────┐
                                    │ Xvfb :99 │
                                    │(虚拟显示)│
                                    └──────────┘
                                         ↓
                                    ┌──────────┐
                                    │ Chromium │
                                    │ (浏览器) │
                                    └──────────┘
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;


&lt;p&gt;&lt;strong&gt;你在本地电脑上，通过 VNC Viewer 连接到 VPS，就能看到 Chromium 浏览器的界面。&lt;/strong&gt;&lt;/p&gt;


&lt;h3&gt;
  
  
  2.4 CDP - 浏览器控制协议
&lt;/h3&gt;
&lt;h4&gt;
  
  
  是什么？
&lt;/h4&gt;

&lt;p&gt;&lt;strong&gt;CDP&lt;/strong&gt; = &lt;strong&gt;Chrome DevTools Protocol&lt;/strong&gt;&lt;/p&gt;

&lt;p&gt;它是 Chrome/Chromium 官方提供的远程控制浏览器的标准协议。&lt;/p&gt;
&lt;h4&gt;
  
  
  为什么需要？
&lt;/h4&gt;

&lt;p&gt;VNC 只能让我们"看到"浏览器，但自动化需要"控制"浏览器。&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;CDP 的作用&lt;/strong&gt;：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;✅ &lt;strong&gt;自动化控制&lt;/strong&gt;：通过代码控制浏览器（点击、输入、截图等）&lt;/li&gt;
&lt;li&gt;✅ &lt;strong&gt;无需 Selenium&lt;/strong&gt;：直接使用原生协议，更稳定&lt;/li&gt;
&lt;li&gt;✅ &lt;strong&gt;官方支持&lt;/strong&gt;：Chrome/Chromium 官方维护，兼容性好&lt;/li&gt;
&lt;/ul&gt;
&lt;h4&gt;
  
  
  端口
&lt;/h4&gt;

&lt;p&gt;CDP 默认端口是 &lt;strong&gt;9222&lt;/strong&gt;（可自定义）。&lt;/p&gt;

&lt;p&gt;启动 Chromium 时，添加参数：&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight shell"&gt;&lt;code&gt;&lt;span class="nt"&gt;--remote-debugging-port&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;9222
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;h4&gt;
  
  
  通信流程
&lt;/h4&gt;



&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;┌──────────────────┐         ┌─────────────┐         ┌──────────┐
│ Playwright 脚本  │  ←───→  │  CDP :9222  │  ←───→  │ Chromium │
│  (自动化代码)    │         │  (控制协议) │         │ (浏览器) │
└──────────────────┘         └─────────────┘         └──────────┘
        ↓                            ↓                      ↓
   发送命令                      协议转换                执行操作
   (点击按钮)                   (JSON-RPC)             (模拟点击)
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;






&lt;h2&gt;
  
  
  三、整体架构
&lt;/h2&gt;

&lt;p&gt;现在我们把 4 个概念组合起来，看看完整架构。&lt;/p&gt;

&lt;h3&gt;
  
  
  架构图
&lt;/h3&gt;



&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;┌─────────────────────────────────────────────────────────┐
│                VPS 服务器（无物理显示器）                 │
├─────────────────────────────────────────────────────────┤
│                                                          │
│  ┌────────────────────────────────────────────┐         │
│  │  Xvfb :99 (虚拟显示 1920x1080x24)          │         │
│  └────────────────────────────────────────────┘         │
│                      ↓                                   │
│  ┌────────────────────────────────────────────┐         │
│  │  Chromium (有头模式)                        │         │
│  │  ├─ CDP :9222 (自动化控制接口)             │         │
│  │  └─ User Data Dir (保存登录状态)           │         │
│  │     /root/.local/share/chromium-profile    │         │
│  └────────────────────────────────────────────┘         │
│                      ↑                                   │
│  ┌────────────────────────────────────────────┐         │
│  │  VNC Server :5999 (远程查看接口)           │         │
│  └────────────────────────────────────────────┘         │
│                                                          │
└─────────────────────────────────────────────────────────┘
           ↑                              ↑
           │                              │
    ┌──────────────┐            ┌─────────────────┐
    │  VNC Viewer  │            │ Playwright 脚本 │
    │  (远程调试)  │            │  (自动化操作)   │
    └──────────────┘            └─────────────────┘
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;h3&gt;
  
  
  数据流说明
&lt;/h3&gt;

&lt;p&gt;&lt;strong&gt;1. Xvfb 提供虚拟显示环境&lt;/strong&gt;&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;创建虚拟显示 &lt;code&gt;:99&lt;/code&gt;
&lt;/li&gt;
&lt;li&gt;分辨率 1920x1080，24 位色深&lt;/li&gt;
&lt;li&gt;后台运行，不占用物理显示器&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;2. Chromium 连接到虚拟显示&lt;/strong&gt;&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;以有头模式启动&lt;/li&gt;
&lt;li&gt;连接到 Xvfb &lt;code&gt;:99&lt;/code&gt;
&lt;/li&gt;
&lt;li&gt;正常渲染页面，执行 JavaScript&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;3. User Data Dir 保存登录状态&lt;/strong&gt;&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;指定数据目录：&lt;code&gt;/root/.local/share/chromium-profile&lt;/code&gt;
&lt;/li&gt;
&lt;li&gt;自动保存 Cookie、缓存、历史记录&lt;/li&gt;
&lt;li&gt;重启后登录状态自动恢复&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;无需手动导出/导入 Cookie&lt;/strong&gt;&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;4. VNC 连接到虚拟显示&lt;/strong&gt;&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;VNC Server 监听端口 5999&lt;/li&gt;
&lt;li&gt;连接到 Xvfb &lt;code&gt;:99&lt;/code&gt;
&lt;/li&gt;
&lt;li&gt;用户通过 VNC Viewer 远程查看浏览器&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;5. CDP 连接到 Chromium&lt;/strong&gt;&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Chromium 开启 CDP 端口 9222&lt;/li&gt;
&lt;li&gt;Playwright 通过 CDP 发送控制指令&lt;/li&gt;
&lt;li&gt;实现自动化操作（填写、点击、截图等）&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  关键特性
&lt;/h3&gt;

&lt;p&gt;✅ &lt;strong&gt;有头模式&lt;/strong&gt;：绕过 Twitter 反爬检测&lt;br&gt;&lt;br&gt;
✅ &lt;strong&gt;虚拟显示&lt;/strong&gt;：无需物理显示器&lt;br&gt;&lt;br&gt;
✅ &lt;strong&gt;远程可视&lt;/strong&gt;：VNC 查看浏览器&lt;br&gt;&lt;br&gt;
✅ &lt;strong&gt;自动化控制&lt;/strong&gt;：CDP 协议&lt;br&gt;&lt;br&gt;
✅ &lt;strong&gt;登录持久化&lt;/strong&gt;：User Data Dir 自动保存&lt;br&gt;&lt;br&gt;
✅ &lt;strong&gt;稳定可靠&lt;/strong&gt;：Chromium 比 Chrome 更稳定&lt;/p&gt;


&lt;h2&gt;
  
  
  四、一键配置
&lt;/h2&gt;

&lt;p&gt;理解了架构后，我们开始配置环境。&lt;/p&gt;
&lt;h3&gt;
  
  
  给 OpenClaw 的完整提示词
&lt;/h3&gt;

&lt;p&gt;复制以下提示词，发送给 OpenClaw：&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;我需要在 VPS 上配置 Twitter 自动发推环境。

请帮我完成以下配置：

1. 安装依赖
   - Xvfb（虚拟显示）
   - x11vnc（VNC 服务器）
   - Chromium 浏览器
   - Node.js 22+
   - Playwright

2. 启动服务
   - Xvfb :99 (分辨率 1920x1080x24)
   - x11vnc :5999 (连接到 :99 显示)
   - Chromium (CDP 端口 9222, 有头模式)
     * 数据目录：/root/.local/share/chromium-shared-profile
     * 参数：--no-sandbox --disable-dev-shm-usage

3. 创建自动发推脚本
   - 连接到 CDP :9222
   - 打开 Twitter 发推页面
   - 填写内容并发布

4. 环境变量
   - DISPLAY=:99
   - XAUTHORITY=/root/.Xauthority

完成后告诉我：
- VNC 连接地址
- 如何测试自动发推
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;&lt;strong&gt;OpenClaw 会自动完成所有配置&lt;/strong&gt;&lt;/p&gt;

&lt;h3&gt;
  
  
  配置完成
&lt;/h3&gt;

&lt;p&gt;OpenClaw 会返回：&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;✅ 配置完成！

VNC 连接地址：你的VPS_IP:5999
CDP 端口：9222

下一步：
1. 使用 VNC Viewer 连接到 VPS
2. 在浏览器中手动登录 Twitter
3. 测试自动发推：
   给我发送指令："帮我发一条测试推文"
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;






&lt;h2&gt;
  
  
  五、手动操作部分
&lt;/h2&gt;

&lt;p&gt;配置完成后，需要进行 3 个手动操作。&lt;/p&gt;

&lt;h3&gt;
  
  
  5.1 连接 VNC
&lt;/h3&gt;

&lt;h4&gt;
  
  
  下载 VNC Viewer
&lt;/h4&gt;

&lt;p&gt;根据你的操作系统下载：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;Windows&lt;/strong&gt;：&lt;a href="https://www.realvnc.com/en/connect/download/viewer/windows/" rel="noopener noreferrer"&gt;https://www.realvnc.com/en/connect/download/viewer/windows/&lt;/a&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;macOS&lt;/strong&gt;：&lt;a href="https://www.realvnc.com/en/connect/download/viewer/macos/" rel="noopener noreferrer"&gt;https://www.realvnc.com/en/connect/download/viewer/macos/&lt;/a&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Linux&lt;/strong&gt;：
&lt;/li&gt;
&lt;/ul&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight shell"&gt;&lt;code&gt;  apt-get &lt;span class="nb"&gt;install &lt;/span&gt;tigervnc-viewer
  &lt;span class="c"&gt;# 或&lt;/span&gt;
  yum &lt;span class="nb"&gt;install &lt;/span&gt;tigervnc
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;h4&gt;
  
  
  连接步骤
&lt;/h4&gt;

&lt;ol&gt;
&lt;li&gt;打开 VNC Viewer&lt;/li&gt;
&lt;li&gt;输入地址：&lt;code&gt;你的VPS_IP:5999&lt;/code&gt;

&lt;ul&gt;
&lt;li&gt;例如：&lt;code&gt;123.45.67.189:5999&lt;/code&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;点击"Connect"或"连接"&lt;/li&gt;
&lt;/ol&gt;

&lt;h4&gt;
  
  
  首次连接
&lt;/h4&gt;

&lt;ul&gt;
&lt;li&gt;可能看到黑屏（正常现象）&lt;/li&gt;
&lt;li&gt;等待 2-3 秒，Chromium 窗口会出现&lt;/li&gt;
&lt;li&gt;如果一直黑屏，检查 Chromium 是否启动：
&lt;/li&gt;
&lt;/ul&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight shell"&gt;&lt;code&gt;  ps aux | &lt;span class="nb"&gt;grep &lt;/span&gt;chromium
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;






&lt;h3&gt;
  
  
  5.2 首次登录 Twitter
&lt;/h3&gt;

&lt;h4&gt;
  
  
  在 VNC 中操作
&lt;/h4&gt;

&lt;p&gt;连接成功后，你会看到 Chromium 浏览器窗口。&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;操作步骤&lt;/strong&gt;：&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;访问 Twitter&lt;/strong&gt;&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;在地址栏输入：&lt;code&gt;https://twitter.com&lt;/code&gt;
&lt;/li&gt;
&lt;li&gt;手动完成登录&lt;/li&gt;
&lt;/ul&gt;

&lt;h4&gt;
  
  
  重要说明
&lt;/h4&gt;

&lt;p&gt;&lt;strong&gt;✅ 只需登录一次&lt;/strong&gt;&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;登录状态会自动保存到 User Data Dir&lt;/li&gt;
&lt;li&gt;重启服务器后，登录状态自动恢复&lt;/li&gt;
&lt;li&gt;无需手动导出/导入 Cookie&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;✅ 登录状态持久化原理&lt;/strong&gt;&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Chromium 使用 &lt;code&gt;--user-data-dir&lt;/code&gt; 参数&lt;/li&gt;
&lt;li&gt;所有数据保存在：&lt;code&gt;/root/.local/share/chromium-shared-profile&lt;/code&gt;
&lt;/li&gt;
&lt;li&gt;包括：Cookie、缓存、历史记录、扩展等&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;⚠️ 注意事项&lt;/strong&gt;&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;不要删除 User Data Dir 目录&lt;/li&gt;
&lt;li&gt;不要在其他地方登录同一账号（可能触发安全验证）&lt;/li&gt;
&lt;li&gt;如果登录状态丢失，重新手动登录即可&lt;/li&gt;
&lt;/ul&gt;




&lt;h3&gt;
  
  
  5.3 测试自动发推
&lt;/h3&gt;

&lt;p&gt;登录完成后，测试自动化功能。&lt;/p&gt;

&lt;h4&gt;
  
  
  给 OpenClaw 的指令
&lt;/h4&gt;



&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;帮我发一条测试推文："这是通过 VPS 自动发布的测试推文 🚀"
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;h4&gt;
  
  
  OpenClaw 会做什么
&lt;/h4&gt;

&lt;ol&gt;
&lt;li&gt;
&lt;strong&gt;调用自动发推脚本&lt;/strong&gt;
&lt;/li&gt;
&lt;/ol&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight shell"&gt;&lt;code&gt;   node /root/post-tweet.js &lt;span class="s2"&gt;"这是通过 VPS 自动发布的测试推文 🚀"&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;ol&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;连接到 CDP&lt;/strong&gt;&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;连接到 &lt;code&gt;http://localhost:9222&lt;/code&gt;
&lt;/li&gt;
&lt;li&gt;获取已有的浏览器上下文&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;自动化操作&lt;/strong&gt;&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;打开 Twitter 发推页面&lt;/li&gt;
&lt;li&gt;填写推文内容&lt;/li&gt;
&lt;li&gt;点击"发布"按钮&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;&lt;p&gt;&lt;strong&gt;返回结果&lt;/strong&gt;&lt;br&gt;
&lt;/p&gt;&lt;/li&gt;
&lt;/ol&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;   ✅ 推文已发布
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;h4&gt;
  
  
  在 VNC 中查看
&lt;/h4&gt;

&lt;p&gt;如果你保持 VNC 连接，可以实时看到：&lt;/p&gt;

&lt;ol&gt;
&lt;li&gt;浏览器自动打开新标签页&lt;/li&gt;
&lt;li&gt;跳转到 Twitter 发推页面&lt;/li&gt;
&lt;li&gt;文本框自动填写内容&lt;/li&gt;
&lt;li&gt;"发布"按钮自动点击&lt;/li&gt;
&lt;li&gt;推文发布成功&lt;/li&gt;
&lt;/ol&gt;

&lt;p&gt;&lt;strong&gt;这就是自动化的魅力：你只需发送指令，剩下的全自动完成。&lt;/strong&gt;&lt;/p&gt;

&lt;h4&gt;
  
  
  验证推文
&lt;/h4&gt;

&lt;ul&gt;
&lt;li&gt;在 Twitter 网页上刷新，查看推文是否发布&lt;/li&gt;
&lt;li&gt;或者在 VNC 中查看 Twitter 首页&lt;/li&gt;
&lt;/ul&gt;




&lt;h2&gt;
  
  
  六、扩展到其他网站
&lt;/h2&gt;

&lt;p&gt;这套架构不只适用于 Twitter，可以扩展到任何需要有头浏览器的网站。&lt;/p&gt;

&lt;h3&gt;
  
  
  6.1 适用场景
&lt;/h3&gt;

&lt;p&gt;&lt;strong&gt;同样需要有头模式的网站&lt;/strong&gt;：&lt;/p&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;网站&lt;/th&gt;
&lt;th&gt;原因&lt;/th&gt;
&lt;th&gt;难点&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;小红书&lt;/td&gt;
&lt;td&gt;反爬严格，检测无头模式&lt;/td&gt;
&lt;td&gt;需要模拟真实用户行为&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;微信公众号&lt;/td&gt;
&lt;td&gt;需要扫码登录&lt;/td&gt;
&lt;td&gt;需要手动扫码&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Instagram&lt;/td&gt;
&lt;td&gt;检测 WebGL、Canvas 指纹&lt;/td&gt;
&lt;td&gt;无头模式被拒绝访问&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;LinkedIn&lt;/td&gt;
&lt;td&gt;复杂交互，风控系统&lt;/td&gt;
&lt;td&gt;需要完整渲染&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;淘宝/京东&lt;/td&gt;
&lt;td&gt;滑块验证码，风控系统&lt;/td&gt;
&lt;td&gt;需要真实浏览器环境&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;抖音/快手&lt;/td&gt;
&lt;td&gt;视频上传，复杂编辑器&lt;/td&gt;
&lt;td&gt;需要完整 DOM 操作&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;&lt;strong&gt;核心特征&lt;/strong&gt;：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;✅ 有反爬检测&lt;/li&gt;
&lt;li&gt;✅ 需要登录&lt;/li&gt;
&lt;li&gt;✅ 有复杂交互&lt;/li&gt;
&lt;li&gt;✅ 检测浏览器指纹&lt;/li&gt;
&lt;/ul&gt;




&lt;h3&gt;
  
  
  6.2 通用架构
&lt;/h3&gt;

&lt;p&gt;&lt;strong&gt;核心不变&lt;/strong&gt;：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Xvfb 虚拟显示&lt;/li&gt;
&lt;li&gt;VNC 远程查看&lt;/li&gt;
&lt;li&gt;CDP 自动化控制&lt;/li&gt;
&lt;li&gt;User Data Dir 保存登录状态&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;需要调整&lt;/strong&gt;：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;页面 URL&lt;/li&gt;
&lt;li&gt;页面选择器（按钮、输入框的定位）&lt;/li&gt;
&lt;li&gt;操作流程（点击顺序、等待时间）&lt;/li&gt;
&lt;/ul&gt;

&lt;h2&gt;
  
  
  七、总结
&lt;/h2&gt;

&lt;p&gt;技术不是孤立的，架构是可复用的，思维是可以迁移的。&lt;/p&gt;

&lt;p&gt;当你理解了这套架构背后的逻辑，你拥有的不仅是一个自动发推工具，而是&lt;strong&gt;一把打开自动化大门的钥匙&lt;/strong&gt;。&lt;/p&gt;

&lt;p&gt;复制提示词给 OpenClaw，一键配置，一键启动，让机器替你工作，让时间为你创造价值。&lt;/p&gt;

&lt;p&gt;这就是自动化的力量。🚀&lt;/p&gt;

</description>
      <category>discuss</category>
      <category>openclaw</category>
    </item>
    <item>
      <title>FireRed-Image-Edit 1.1 Tops Open-Source Rankings with 7.94 Score, Surpassing Alibaba's Qwen</title>
      <dc:creator>Garyvov</dc:creator>
      <pubDate>Tue, 10 Mar 2026 03:34:51 +0000</pubDate>
      <link>https://dev.to/gary_yan_86eb77d35e0070f5/firered-image-edit-11-tops-open-source-rankings-with-794-score-surpassing-alibabas-qwen-1128</link>
      <guid>https://dev.to/gary_yan_86eb77d35e0070f5/firered-image-edit-11-tops-open-source-rankings-with-794-score-surpassing-alibabas-qwen-1128</guid>
      <description>&lt;h1&gt;
  
  
  FireRed-Image-Edit 1.1 Tops Open-Source Rankings with 7.94 Score, Surpassing Alibaba's Qwen
&lt;/h1&gt;

&lt;blockquote&gt;
&lt;p&gt;The open-source image editing landscape has a new SOTA champion.&lt;/p&gt;
&lt;/blockquote&gt;

&lt;p&gt;&lt;strong&gt;TL;DR&lt;/strong&gt;: Xiaohongshu (RED) released FireRed-Image-Edit-1.1 on March 3rd, achieving 7.943 score across 5 authoritative benchmarks, surpassing Alibaba's Qwen-Image-Edit-2511 (released in December). The model excels in identity consistency, multi-element fusion, and portrait makeup editing.&lt;/p&gt;




&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fhzu3pclsegmxilviy67s.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fhzu3pclsegmxilviy67s.png" alt="FireRed-Image-Edit Showcase" width="800" height="446"&gt;&lt;/a&gt;&lt;/p&gt;




&lt;h2&gt;
  
  
  01 The Open-Source Image Editing SOTA Battle
&lt;/h2&gt;

&lt;p&gt;Since early 2026, the image editing field has been intensely competitive.&lt;/p&gt;

&lt;p&gt;On December 23rd, Alibaba's Qwen team released Qwen-Image-Edit-2511, scoring 7.877 (GEdit-EN) to claim the open-source top spot.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Just 2 months later, Xiaohongshu struck back.&lt;/strong&gt;&lt;/p&gt;

&lt;p&gt;On March 3rd, RED's foundation model team released FireRed-Image-Edit-1.1, achieving &lt;strong&gt;7.943 score&lt;/strong&gt; and setting a new record.&lt;/p&gt;

&lt;p&gt;More impressively, FireRed-Image-Edit-1.1 &lt;strong&gt;leads across all 5 authoritative benchmarks&lt;/strong&gt;:&lt;/p&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Metric&lt;/th&gt;
&lt;th&gt;FireRed-1.1&lt;/th&gt;
&lt;th&gt;Qwen-2511&lt;/th&gt;
&lt;th&gt;Lead&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;GEdit (EN)&lt;/td&gt;
&lt;td&gt;&lt;strong&gt;7.943&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;7.877&lt;/td&gt;
&lt;td&gt;+0.066&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;GEdit (CN)&lt;/td&gt;
&lt;td&gt;&lt;strong&gt;7.887&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;7.819&lt;/td&gt;
&lt;td&gt;+0.068&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;ImgEdit&lt;/td&gt;
&lt;td&gt;&lt;strong&gt;4.56&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;4.51&lt;/td&gt;
&lt;td&gt;+0.05&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;REDEdit (EN)&lt;/td&gt;
&lt;td&gt;&lt;strong&gt;4.26&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;4.23&lt;/td&gt;
&lt;td&gt;+0.03&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;REDEdit (CN)&lt;/td&gt;
&lt;td&gt;&lt;strong&gt;4.33&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;4.18&lt;/td&gt;
&lt;td&gt;+0.15&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;This lead is significant at SOTA level. &lt;strong&gt;Especially the +0.15 advantage in Chinese REDEdit&lt;/strong&gt; demonstrates FireRed's strength in Chinese language understanding.&lt;/p&gt;




&lt;h2&gt;
  
  
  02 Identity Consistency: Best-in-Class Portrait Editing
&lt;/h2&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F4kcluc8y91x9gdw0wuyu.jpg" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F4kcluc8y91x9gdw0wuyu.jpg" alt="Portrait Editing" width="800" height="562"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;The biggest pain point in image editing? &lt;strong&gt;Faces change when you edit.&lt;/strong&gt;&lt;/p&gt;

&lt;p&gt;Change clothes, the face shape changes. Change background, facial features shift. This "edit = deform" problem has plagued image editing models.&lt;/p&gt;

&lt;p&gt;FireRed-Image-Edit-1.1's solution: &lt;strong&gt;SOTA-level identity consistency&lt;/strong&gt;.&lt;/p&gt;

&lt;p&gt;FireRed-1.1 scores 4.33 (Chinese) and 4.26 (English) on REDEdit-Bench, ranking first among open-source models. This comprehensive score includes identity consistency, instruction following, and visual quality.&lt;/p&gt;

&lt;p&gt;What does this mean?&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;Clothing changes&lt;/strong&gt;: Excellent identity preservation&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Background changes&lt;/strong&gt;: Complete facial detail retention&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Adding accessories&lt;/strong&gt;: Original features remain intact&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Compared to Qwen-Image-Edit-2511's 4.18 (Chinese), FireRed-1.1 clearly excels in identity preservation.&lt;/p&gt;




&lt;h2&gt;
  
  
  03 Agent Intelligence: 10+ Element Auto-Fusion
&lt;/h2&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fc4911dn1wufcn14yez9q.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fc4911dn1wufcn14yez9q.png" alt="Multi-Image Fusion" width="800" height="537"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;Consider this complex editing instruction:&lt;/p&gt;

&lt;blockquote&gt;
&lt;p&gt;"Place the man from image 2, wearing the black 'New York Bears' baseball jacket and camo pants and blue-black AJ1 high-tops from image 2, on the empty football field from image 1. The field is sunny, he's wearing the black cap with red brim from image 2... casually carrying the vintage brown leather travel bag from image 3 on his left shoulder... and dragging the white skateboard from image 3 with his right hand..."&lt;/p&gt;
&lt;/blockquote&gt;

&lt;p&gt;&lt;strong&gt;How do traditional models handle 10+ element complex edits?&lt;/strong&gt;&lt;/p&gt;

&lt;p&gt;The harsh reality: &lt;strong&gt;Segmented processing, multiple iterations, manual stitching&lt;/strong&gt; — inefficient with poor results.&lt;/p&gt;

&lt;p&gt;FireRed-Image-Edit-1.1's approach is smarter: &lt;strong&gt;Agent auto-processing&lt;/strong&gt;.&lt;/p&gt;

&lt;p&gt;The built-in Agent module automatically completes three steps:&lt;/p&gt;

&lt;ol&gt;
&lt;li&gt;
&lt;strong&gt;ROI Detection&lt;/strong&gt; - Calls Gemini function-calling model to identify key regions in each image&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Crop &amp;amp; Stitch&lt;/strong&gt; - Automatically crops and stitches into 2-3 composite images (~1024×1024)&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Instruction Rewriting&lt;/strong&gt; - Automatically rewrites user instructions to ensure correct image references&lt;/li&gt;
&lt;/ol&gt;

&lt;p&gt;&lt;strong&gt;The entire process requires no manual intervention, completing complex edits with one click.&lt;/strong&gt;&lt;/p&gt;

&lt;p&gt;Compared to Qwen-Image-Edit-2511 (supports multiple inputs), FireRed-1.1's Agent solution is clearly more intelligent.&lt;/p&gt;




&lt;h2&gt;
  
  
  04 Professional Makeup: Dozens of Makeup Styles
&lt;/h2&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fgithub.com%2FFireRedTeam%2FFireRed-Image-Edit%2Fraw%2Fmain%2Fassets%2Fshowcase_makeup.jpg" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fgithub.com%2FFireRedTeam%2FFireRed-Image-Edit%2Fraw%2Fmain%2Fassets%2Fshowcase_makeup.jpg" alt="Makeup Effects" width="800" height="554"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;Makeup editing has always been the "deep end" of image editing.&lt;/p&gt;

&lt;p&gt;Why is it difficult?&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;Complex makeup details&lt;/strong&gt; (eyebrows, eyeshadow, lipstick, blush, highlights)&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Style variations&lt;/strong&gt; (Western vs. Asian vs. Chinese makeup)&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Skin tone adaptation&lt;/strong&gt; (different effects for various skin tones)&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;FireRed-Image-Edit-1.1's solution: &lt;strong&gt;Professional makeup LoRA models&lt;/strong&gt;.&lt;/p&gt;

&lt;p&gt;Official release includes specialized makeup LoRA supporting dozens of makeup styles:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;Western Y2K Makeup&lt;/strong&gt;: Cool-toned matte foundation, deep brown arched brows, silver-gray eyeshadow, mirror-finish gloss&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Satin Base Makeup&lt;/strong&gt;: Natural satin foundation, light brown brow powder, deep brown eyeshadow, moisturizing mauve lipstick&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Halloween Witch Makeup&lt;/strong&gt;, &lt;strong&gt;Creative Makeup&lt;/strong&gt;, etc.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;This "professional-grade" makeup editing is unprecedented in open-source models.&lt;/strong&gt;&lt;/p&gt;




&lt;h2&gt;
  
  
  05 Technical Comparison: FireRed vs Qwen
&lt;/h2&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Ff1aacwbqv25ze1h3ee7l.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Ff1aacwbqv25ze1h3ee7l.png" alt="Architecture" width="800" height="441"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;What are the technical differences?&lt;/p&gt;

&lt;h3&gt;
  
  
  FireRed-Image-Edit-1.1
&lt;/h3&gt;

&lt;p&gt;&lt;strong&gt;Training Data&lt;/strong&gt;: 1.6B samples (900M T2I + 700M editing pairs)&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Training Pipeline&lt;/strong&gt;:&lt;/p&gt;

&lt;ol&gt;
&lt;li&gt;
&lt;strong&gt;Pretrain&lt;/strong&gt; - Establish basic generation capabilities&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;SFT&lt;/strong&gt; - Supervised fine-tuning, inject editing capabilities&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;RL&lt;/strong&gt; - Reinforcement learning, optimize identity consistency and instruction following&lt;/li&gt;
&lt;/ol&gt;

&lt;p&gt;&lt;strong&gt;Key Technologies&lt;/strong&gt;:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Multi-Condition Aware Bucket Sampler&lt;/li&gt;
&lt;li&gt;Asymmetric Gradient Optimization for DPO&lt;/li&gt;
&lt;li&gt;DiffusionNFT with layout-aware OCR rewards&lt;/li&gt;
&lt;li&gt;Consistency Loss for identity preservation&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  Qwen-Image-Edit-2511
&lt;/h3&gt;

&lt;p&gt;&lt;strong&gt;Training Data&lt;/strong&gt;: Not disclosed&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Training Pipeline&lt;/strong&gt;: Based on Qwen-Image-2512's MMDiT architecture&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Key Technologies&lt;/strong&gt;:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;MMDiT (Multimodal Diffusion Transformer)&lt;/li&gt;
&lt;li&gt;Native Chinese text rendering&lt;/li&gt;
&lt;li&gt;Unified architecture with Qwen-Image-2512&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Comparison Conclusion&lt;/strong&gt;:&lt;/p&gt;

&lt;p&gt;FireRed is more transparent in &lt;strong&gt;training data scale&lt;/strong&gt; and &lt;strong&gt;technical details&lt;/strong&gt;, while Qwen has advantages in &lt;strong&gt;architecture unification&lt;/strong&gt; and &lt;strong&gt;Chinese text rendering&lt;/strong&gt;.&lt;/p&gt;




&lt;h2&gt;
  
  
  06 Engineering Optimization: 4.5s/image, 30GB VRAM
&lt;/h2&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fgithub.com%2FFireRedTeam%2FFireRed-Image-Edit%2Fraw%2Fmain%2Fassets%2Feval_benchmark.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fgithub.com%2FFireRedTeam%2FFireRed-Image-Edit%2Fraw%2Fmain%2Fassets%2Feval_benchmark.png" alt="Benchmark" width="800" height="269"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;Accuracy alone isn't enough — &lt;strong&gt;engineering deployment&lt;/strong&gt; is key.&lt;/p&gt;

&lt;p&gt;FireRed-Image-Edit-1.1's engineering optimization is solid:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;Inference Speed&lt;/strong&gt;: 4.5s/image (optimized) &lt;em&gt;based on v1.0 data&lt;/em&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;VRAM Requirement&lt;/strong&gt;: 30GB (optimized) &lt;em&gt;based on v1.0 data&lt;/em&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Acceleration&lt;/strong&gt;: Full support for distillation, quantization, static compilation&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Compared to Qwen-Image-Edit-2511:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Specific VRAM and speed data needs verification&lt;/li&gt;
&lt;li&gt;Has LightX2V providing 42.55x acceleration support for Qwen&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Conclusion&lt;/strong&gt;: FireRed-1.1 is more mature in engineering optimization, Qwen has acceleration solutions but requires additional configuration.&lt;/p&gt;




&lt;h2&gt;
  
  
  07 Open-Source Ecosystem: Apache 2.0 Fully Open
&lt;/h2&gt;

&lt;p&gt;Both use &lt;strong&gt;Apache 2.0 license&lt;/strong&gt;, meaning:&lt;/p&gt;

&lt;p&gt;✅ Commercial use allowed&lt;br&gt;
✅ Code modification allowed&lt;br&gt;
✅ Distribution allowed&lt;br&gt;
✅ No requirement to open-source derivative works&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;FireRed-Image-Edit-1.1 Ecosystem&lt;/strong&gt;:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;GitHub Stars: 600+ (as of 2026.03.03)&lt;/li&gt;
&lt;li&gt;HuggingFace: Released&lt;/li&gt;
&lt;li&gt;ModelScope: Released&lt;/li&gt;
&lt;li&gt;ComfyUI: Official node support&lt;/li&gt;
&lt;li&gt;Technical Report: arXiv:2602.13344&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Qwen-Image-Edit-2511 Ecosystem&lt;/strong&gt;:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;GitHub Stars: Needs verification&lt;/li&gt;
&lt;li&gt;HuggingFace: Released&lt;/li&gt;
&lt;li&gt;ModelScope: Released&lt;/li&gt;
&lt;li&gt;ComfyUI: Community support&lt;/li&gt;
&lt;li&gt;Technical Report: Needs verification&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Conclusion&lt;/strong&gt;: FireRed ecosystem is newer, Qwen ecosystem is more mature.&lt;/p&gt;




&lt;h2&gt;
  
  
  08 Summary: SOTA Changes Hands, But Competition Just Began
&lt;/h2&gt;

&lt;p&gt;FireRed-Image-Edit-1.1's release indeed refreshes the open-source image editing SOTA.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Leading across all 5 benchmarks&lt;/strong&gt;, achieving new heights in identity consistency, multi-element fusion, and portrait makeup.&lt;/p&gt;

&lt;p&gt;But this is just the beginning.&lt;/p&gt;

&lt;p&gt;Alibaba's Qwen team released version 2511 in December, Xiaohongshu released version 1.1 in March — &lt;strong&gt;the "arms race" in open-source image editing has just begun&lt;/strong&gt;.&lt;/p&gt;

&lt;p&gt;What to expect next:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Will Qwen release version 2603 to counter?&lt;/li&gt;
&lt;li&gt;Will FireRed continue iterating to 1.2, 1.3?&lt;/li&gt;
&lt;li&gt;Will other teams (Stability, Midjourney open-source) join the battle?&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;The SOTA battle in open-source image editing — the best is yet to come.&lt;/strong&gt;&lt;/p&gt;




&lt;p&gt;&lt;strong&gt;What's your take on the FireRed vs Qwen SOTA battle?&lt;/strong&gt;&lt;/p&gt;

&lt;p&gt;Share your thoughts in the comments and discuss the future of open-source image editing.&lt;/p&gt;

</description>
      <category>career</category>
    </item>
    <item>
      <title>小红书 FireRed-Image-Edit-1.1 刚开源就登顶！7.94 分干翻阿里 Qwen-Image-Edit-2511</title>
      <dc:creator>Garyvov</dc:creator>
      <pubDate>Tue, 10 Mar 2026 03:27:58 +0000</pubDate>
      <link>https://dev.to/gary_yan_86eb77d35e0070f5/xiao-hong-shu-firered-image-edit-11-gang-kai-yuan-jiu-deng-ding-794-fen-gan-fan-a-li-qwen-image-edit-2511-am0</link>
      <guid>https://dev.to/gary_yan_86eb77d35e0070f5/xiao-hong-shu-firered-image-edit-11-gang-kai-yuan-jiu-deng-ding-794-fen-gan-fan-a-li-qwen-image-edit-2511-am0</guid>
      <description>&lt;h1&gt;
  
  
  小红书 FireRed-Image-Edit-1.1 刚开源就登顶！7.94 分干翻阿里 Qwen-Image-Edit-2511
&lt;/h1&gt;

&lt;blockquote&gt;
&lt;p&gt;开源图像编辑领域，SOTA 易主了。&lt;/p&gt;
&lt;/blockquote&gt;

&lt;p&gt;&lt;strong&gt;TL;DR&lt;/strong&gt;：小红书 3 月 3 日刚发布 FireRed-Image-Edit-1.1，在 5 个权威 Benchmark 上全面超越阿里 12 月发布的 Qwen-Image-Edit-2511，以 7.943 分刷新开源图像编辑模型纪录。身份一致性、多元素融合、人像美妆三大能力达到 SOTA 级别。&lt;/p&gt;




&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fhzu3pclsegmxilviy67s.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fhzu3pclsegmxilviy67s.png" alt="FireRed-Image-Edit 展示图" width="800" height="446"&gt;&lt;/a&gt;&lt;/p&gt;




&lt;h2&gt;
  
  
  01 开源图像编辑 SOTA 争夺战
&lt;/h2&gt;

&lt;p&gt;2026 年开年以来，图像编辑领域可以说是"神仙打架"。&lt;/p&gt;

&lt;p&gt;12 月 23 日，阿里通义千问团队发布 Qwen-Image-Edit-2511，以 7.877 分（GEdit-EN）拿下开源榜第一。&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;结果才过了 2 个月，小红书反手就给了个惊喜&lt;/strong&gt;。&lt;/p&gt;

&lt;p&gt;3 月 3 日，小红书基础模型团队发布 FireRed-Image-Edit-1.1，&lt;strong&gt;7.943 分&lt;/strong&gt;直接把纪录刷新高。&lt;/p&gt;

&lt;p&gt;更狠的是，FireRed-Image-Edit-1.1 在&lt;strong&gt;5 个权威 Benchmark 上全部领先&lt;/strong&gt;，没有一项落后：&lt;/p&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;指标&lt;/th&gt;
&lt;th&gt;FireRed-1.1&lt;/th&gt;
&lt;th&gt;Qwen-2511&lt;/th&gt;
&lt;th&gt;领先幅度&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;GEdit (EN)&lt;/td&gt;
&lt;td&gt;&lt;strong&gt;7.943&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;7.877&lt;/td&gt;
&lt;td&gt;+0.066&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;GEdit (CN)&lt;/td&gt;
&lt;td&gt;&lt;strong&gt;7.887&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;7.819&lt;/td&gt;
&lt;td&gt;+0.068&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;ImgEdit&lt;/td&gt;
&lt;td&gt;&lt;strong&gt;4.56&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;4.51&lt;/td&gt;
&lt;td&gt;+0.05&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;REDEdit (EN)&lt;/td&gt;
&lt;td&gt;&lt;strong&gt;4.26&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;4.23&lt;/td&gt;
&lt;td&gt;+0.03&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;REDEdit (CN)&lt;/td&gt;
&lt;td&gt;&lt;strong&gt;4.33&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;4.18&lt;/td&gt;
&lt;td&gt;+0.15&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;说实话，这个领先幅度在 SOTA 级别竞争中已经相当可观了。&lt;strong&gt;尤其是中文 REDEdit 领先 0.15 分&lt;/strong&gt;，说明 FireRed 在中文场景理解上确实有优势。&lt;/p&gt;




&lt;h2&gt;
  
  
  02 身份一致性：开源最强人像编辑
&lt;/h2&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F4kcluc8y91x9gdw0wuyu.jpg" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F4kcluc8y91x9gdw0wuyu.jpg" alt="人像编辑效果" width="800" height="562"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;图像编辑最头疼的问题是什么？&lt;strong&gt;人一编辑就变脸&lt;/strong&gt;。&lt;/p&gt;

&lt;p&gt;你给照片换个衣服，结果脸型变了；换个背景，五官也变了。这种"编辑即变形"的问题，一直是图像编辑模型的痛点。&lt;/p&gt;

&lt;p&gt;FireRed-Image-Edit-1.1 的解决方案很直接：&lt;strong&gt;身份一致性做到 SOTA&lt;/strong&gt;。&lt;/p&gt;

&lt;p&gt;FireRed-1.1 在 REDEdit-Bench benchmark 上以 4.33 分（中文）和 4.26 分（英文）拿下开源第一，这个综合评分包含了身份一致性、指令遵循、视觉质量等多个维度。&lt;/p&gt;

&lt;p&gt;这个成绩意味着什么？&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;换衣服&lt;/strong&gt;：身份保持效果优秀&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;换背景&lt;/strong&gt;：五官细节保留完整&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;加配饰&lt;/strong&gt;：原有特征不被覆盖&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;对比 Qwen-Image-Edit-2511 的 4.18 分（中文），FireRed-1.1 在身份保持上确实更胜一筹。&lt;/p&gt;




&lt;h2&gt;
  
  
  03 Agent 智能化：10+ 元素自动融合
&lt;/h2&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fc4911dn1wufcn14yez9q.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fc4911dn1wufcn14yez9q.png" alt="多图融合编辑" width="800" height="537"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;再看这个复杂编辑指令：&lt;/p&gt;

&lt;blockquote&gt;
&lt;p&gt;"将图 2 的男人，穿着图 2 的黑色'New York Bears'棒球夹克和迷彩裤子和蓝黑配色的 AJ1 高帮球鞋，在图 1 的空旷的橄榄球场上。球场阳光明媚，他带着图 2 黑色的帽子，帽檐是红色...他的左肩随意地挎着图 3 那只复古棕色皮质旅行包...右手则轻松地拖着图 3 的白色滑板..."&lt;/p&gt;
&lt;/blockquote&gt;

&lt;p&gt;&lt;strong&gt;这种 10+ 元素的复杂编辑，传统模型怎么处理？&lt;/strong&gt;&lt;/p&gt;

&lt;p&gt;答案很残酷：&lt;strong&gt;分段处理、多次迭代、人工拼接&lt;/strong&gt;——效率低，效果还不好。&lt;/p&gt;

&lt;p&gt;FireRed-Image-Edit-1.1 的做法更聪明：&lt;strong&gt;Agent 自动处理&lt;/strong&gt;。&lt;/p&gt;

&lt;p&gt;内置的 Agent 模块会自动完成三步操作：&lt;/p&gt;

&lt;ol&gt;
&lt;li&gt;
&lt;strong&gt;ROI 检测&lt;/strong&gt; - 调用 Gemini 函数调用模型，识别每张图的关键区域&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;裁剪拼接&lt;/strong&gt; - 自动裁剪并拼接成 2-3 张复合图（约 1024×1024）&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;指令重写&lt;/strong&gt; - 自动改写用户指令，确保图片引用正确&lt;/li&gt;
&lt;/ol&gt;

&lt;p&gt;&lt;strong&gt;整个过程无需人工干预，一键完成复杂编辑。&lt;/strong&gt;&lt;/p&gt;

&lt;p&gt;对比 Qwen-Image-Edit-2511（支持多张输入），FireRed-1.1 的 Agent 方案明显更智能。&lt;/p&gt;




&lt;h2&gt;
  
  
  04 专业美妆：数十种妆容风格
&lt;/h2&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fgithub.com%2FFireRedTeam%2FFireRed-Image-Edit%2Fraw%2Fmain%2Fassets%2Fshowcase_makeup.jpg" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fgithub.com%2FFireRedTeam%2FFireRed-Image-Edit%2Fraw%2Fmain%2Fassets%2Fshowcase_makeup.jpg" alt="美妆效果展示" width="800" height="554"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;美妆编辑一直是图像编辑的"深水区"。&lt;/p&gt;

&lt;p&gt;为什么难？&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;妆容细节多&lt;/strong&gt;（眉毛、眼影、口红、腮红、高光）&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;风格差异大&lt;/strong&gt;（欧美妆 vs 日韩妆 vs 中式妆）&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;肤色适配难&lt;/strong&gt;（黄皮、白皮、橄榄皮效果不同）&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;FireRed-Image-Edit-1.1 的解决方案：&lt;strong&gt;专业美妆 LoRA 模型&lt;/strong&gt;。&lt;/p&gt;

&lt;p&gt;官方发布了专门的美妆 LoRA，支持数十种妆容风格：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;欧美 Y2K 妆&lt;/strong&gt;：冷白皮哑光粉底、深棕色挑眉、银灰眼影、镜面玻璃唇釉&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;缎光底妆&lt;/strong&gt;：自然色缎光粉底、浅棕眉粉、深棕眼影、水润感豆沙色口红&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;万圣节女巫妆&lt;/strong&gt;、&lt;strong&gt;创意妆容&lt;/strong&gt;等&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;这种"专业级"美妆编辑，在开源模型里还是第一次见到。&lt;/strong&gt;&lt;/p&gt;




&lt;h2&gt;
  
  
  05 技术路线对比：FireRed vs Qwen
&lt;/h2&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Ff1aacwbqv25ze1h3ee7l.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Ff1aacwbqv25ze1h3ee7l.png" alt="模型架构图" width="800" height="441"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;两家技术路线有什么差异？&lt;/p&gt;

&lt;h3&gt;
  
  
  FireRed-Image-Edit-1.1
&lt;/h3&gt;

&lt;p&gt;&lt;strong&gt;训练数据&lt;/strong&gt;：1.6B 样本（900M T2I + 700M 编辑对）&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;训练流程&lt;/strong&gt;：&lt;/p&gt;

&lt;ol&gt;
&lt;li&gt;
&lt;strong&gt;Pretrain&lt;/strong&gt; - 预训练阶段，建立基础生成能力&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;SFT&lt;/strong&gt; - 有监督微调，注入编辑能力&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;RL&lt;/strong&gt; - 强化学习，优化身份一致性和指令遵循&lt;/li&gt;
&lt;/ol&gt;

&lt;p&gt;&lt;strong&gt;关键技术&lt;/strong&gt;：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Multi-Condition Aware Bucket Sampler（多条件感知采样器）&lt;/li&gt;
&lt;li&gt;Asymmetric Gradient Optimization for DPO（非对称梯度优化）&lt;/li&gt;
&lt;li&gt;DiffusionNFT with layout-aware OCR rewards（布局感知 OCR 奖励）&lt;/li&gt;
&lt;li&gt;Consistency Loss for identity preservation（身份一致性损失函数）&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  Qwen-Image-Edit-2511
&lt;/h3&gt;

&lt;p&gt;&lt;strong&gt;训练数据&lt;/strong&gt;：未公开&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;训练流程&lt;/strong&gt;：基于 Qwen-Image-2512 的 MMDiT 架构&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;关键技术&lt;/strong&gt;：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;MMDiT（多模态扩散 Transformer）&lt;/li&gt;
&lt;li&gt;原生中文文字渲染&lt;/li&gt;
&lt;li&gt;与 Qwen-Image-2512 统一架构&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;对比结论&lt;/strong&gt;：&lt;/p&gt;

&lt;p&gt;FireRed 在&lt;strong&gt;训练数据规模&lt;/strong&gt;和&lt;strong&gt;技术细节&lt;/strong&gt;上更透明，Qwen 在&lt;strong&gt;架构统一性&lt;/strong&gt;和&lt;strong&gt;中文文字渲染&lt;/strong&gt;上有优势。&lt;/p&gt;




&lt;h2&gt;
  
  
  06 工程优化：4.5 秒/张，30GB 显存
&lt;/h2&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fgithub.com%2FFireRedTeam%2FFireRed-Image-Edit%2Fraw%2Fmain%2Fassets%2Feval_benchmark.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fgithub.com%2FFireRedTeam%2FFireRed-Image-Edit%2Fraw%2Fmain%2Fassets%2Feval_benchmark.png" alt="Benchmark 对比图" width="800" height="269"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;光有精度不够，&lt;strong&gt;工程落地&lt;/strong&gt;才是关键。&lt;/p&gt;

&lt;p&gt;FireRed-Image-Edit-1.1 的工程优化做得相当到位：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;推理速度&lt;/strong&gt;：4.5 秒/张（优化后）&lt;em&gt;基于 1.0 版本数据&lt;/em&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;显存要求&lt;/strong&gt;：30GB（优化后）&lt;em&gt;基于 1.0 版本数据&lt;/em&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;加速方案&lt;/strong&gt;：蒸馏、量化、静态编译全套支持&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;对比 Qwen-Image-Edit-2511：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;需要查证具体显存和速度数据&lt;/li&gt;
&lt;li&gt;但有 LightX2V 为 Qwen 提供 42.55 倍加速支持&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;结论&lt;/strong&gt;：FireRed-1.1 在工程优化上更成熟，Qwen 有加速方案但需要额外配置。&lt;/p&gt;




&lt;h2&gt;
  
  
  07 开源生态：Apache 2.0 完全开放
&lt;/h2&gt;

&lt;p&gt;两家都采用 &lt;strong&gt;Apache 2.0 许可证&lt;/strong&gt;，这意味着：&lt;/p&gt;

&lt;p&gt;✅ 可商业使用&lt;br&gt;&lt;br&gt;
✅ 可修改代码&lt;br&gt;&lt;br&gt;
✅ 可分发&lt;br&gt;&lt;br&gt;
✅ 无需开源衍生作品  &lt;/p&gt;

&lt;p&gt;&lt;strong&gt;FireRed-Image-Edit-1.1 生态&lt;/strong&gt;：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;GitHub Stars：600+（截至 2026.03.03）&lt;/li&gt;
&lt;li&gt;HuggingFace：已发布&lt;/li&gt;
&lt;li&gt;ModelScope：已发布&lt;/li&gt;
&lt;li&gt;ComfyUI：官方节点支持&lt;/li&gt;
&lt;li&gt;技术报告：arXiv:2602.13344&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Qwen-Image-Edit-2511 生态&lt;/strong&gt;：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;GitHub Stars：需查证&lt;/li&gt;
&lt;li&gt;HuggingFace：已发布&lt;/li&gt;
&lt;li&gt;ModelScope：已发布&lt;/li&gt;
&lt;li&gt;ComfyUI：社区支持&lt;/li&gt;
&lt;li&gt;技术报告：需查证&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;结论&lt;/strong&gt;：FireRed 生态更新，Qwen 生态更成熟。&lt;/p&gt;




&lt;h2&gt;
  
  
  08 总结：SOTA 易主，但竞争才刚开始
&lt;/h2&gt;

&lt;p&gt;FireRed-Image-Edit-1.1 的发布，确实刷新了开源图像编辑的 SOTA。&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;5 项 Benchmark 全面领先&lt;/strong&gt;，身份一致性、多元素融合、人像美妆三大能力达到新高度。&lt;/p&gt;

&lt;p&gt;但这只是开始。&lt;/p&gt;

&lt;p&gt;阿里 Qwen 团队已经在 12 月发布了 2511 版本，小红书 3 月发布 1.1 版本，&lt;strong&gt;开源图像编辑领域的"军备竞赛"才刚刚打响&lt;/strong&gt;。&lt;/p&gt;

&lt;p&gt;接下来可以期待：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Qwen 会不会发布 2603 版本反击？&lt;/li&gt;
&lt;li&gt;FireRed 会不会继续迭代 1.2、1.3？&lt;/li&gt;
&lt;li&gt;其他团队（Stability、Midjourney 开源版）会不会加入战局？&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;开源图像编辑的 SOTA 之争，好戏还在后头。&lt;/strong&gt;&lt;/p&gt;




&lt;p&gt;&lt;strong&gt;你怎么看 FireRed vs Qwen 的这场 SOTA 争夺战？&lt;/strong&gt;&lt;/p&gt;

&lt;p&gt;欢迎在评论区留言，一起讨论开源图像编辑的未来。&lt;/p&gt;

</description>
      <category>career</category>
    </item>
    <item>
      <title>阿里开源 Qwen3.5-9B：9B 参数干翻 120B，小模型的 SOTA 时刻</title>
      <dc:creator>Garyvov</dc:creator>
      <pubDate>Tue, 10 Mar 2026 02:11:11 +0000</pubDate>
      <link>https://dev.to/gary_yan_86eb77d35e0070f5/a-li-kai-yuan-qwen35-9b9b-can-shu-gan-fan-120bxiao-mo-xing-de-sota-shi-ke-j36</link>
      <guid>https://dev.to/gary_yan_86eb77d35e0070f5/a-li-kai-yuan-qwen35-9b9b-can-shu-gan-fan-120bxiao-mo-xing-de-sota-shi-ke-j36</guid>
      <description>&lt;h1&gt;
  
  
  阿里开源 Qwen3.5-9B：9B 参数干翻 120B，小模型的 SOTA 时刻
&lt;/h1&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fqianwen-res.oss-accelerate-overseas.aliyuncs.com%2Flogo_qwen3.5.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fqianwen-res.oss-accelerate-overseas.aliyuncs.com%2Flogo_qwen3.5.png" alt="Qwen3.5 Logo" width="800" height="271"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;2026 年 3 月 2 日，阿里开源了 Qwen3.5 小尺寸模型系列。9B 版本在 GPQA Diamond 拿到 81.7 分。超过 OpenAI 的 GPT-OSS-120B（71.5 分）。13.5 倍参数差距，小模型赢了。&lt;/p&gt;

&lt;p&gt;Apache 2.0 协议，代码和权重都能商用。一行 Ollama 命令就能跑，标准笔记本就能部署。&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fqianwen-res.oss-cn-beijing.aliyuncs.com%2FQwen3.5%2FFigures%2Fqwen3.5_small_size_score.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fqianwen-res.oss-cn-beijing.aliyuncs.com%2FQwen3.5%2FFigures%2Fqwen3.5_small_size_score.png" alt="Qwen3.5 小尺寸模型性能对比" width="800" height="378"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;&lt;em&gt;Figure 1: Qwen3.5 小尺寸模型性能对比（来源：GitHub README）&lt;/em&gt;&lt;/p&gt;




&lt;h2&gt;
  
  
  一、Qwen3.5 小尺寸模型系列
&lt;/h2&gt;

&lt;p&gt;2026 年 3 月 2 日，阿里千问团队开源了 4 款 Qwen3.5 小尺寸模型：Qwen3.5-0.8B、2B、4B、9B。&lt;/p&gt;

&lt;p&gt;这不是"缩小版"。这一系列采用原生多模态训练，最新的模型架构。&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fqianwen-res.oss-cn-beijing.aliyuncs.com%2FQwen3.5%2FFigures%2Fqwen3.5_middle_size_score.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fqianwen-res.oss-cn-beijing.aliyuncs.com%2FQwen3.5%2FFigures%2Fqwen3.5_middle_size_score.png" alt="Qwen3.5 中尺寸模型性能" width="800" height="530"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;&lt;em&gt;Figure 2: Qwen3.5 中尺寸模型性能（来源：GitHub README）&lt;/em&gt;&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;各型号定位&lt;/strong&gt;：&lt;/p&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;型号&lt;/th&gt;
&lt;th&gt;定位&lt;/th&gt;
&lt;th&gt;特点&lt;/th&gt;
&lt;th&gt;适用场景&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;0.8B/2B&lt;/td&gt;
&lt;td&gt;端侧首选&lt;/td&gt;
&lt;td&gt;体积极小，推理极快&lt;/td&gt;
&lt;td&gt;移动设备、IoT、实时交互&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;4B&lt;/td&gt;
&lt;td&gt;轻量级 Agent&lt;/td&gt;
&lt;td&gt;多模态基座&lt;/td&gt;
&lt;td&gt;智能体核心&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;9B&lt;/td&gt;
&lt;td&gt;紧凑尺寸，越级性能&lt;/td&gt;
&lt;td&gt;媲美 120B&lt;/td&gt;
&lt;td&gt;服务器端，显存受限&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;0.8B 和 2B 适合移动设备、IoT 边缘设备部署。4B 适合轻量级智能体。9B 适合服务器端部署，性价比极高。&lt;/p&gt;




&lt;h2&gt;
  
  
  二、9B vs 120B：榜单数据
&lt;/h2&gt;

&lt;p&gt;GPQA Diamond 基准测试数据：&lt;/p&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;模型&lt;/th&gt;
&lt;th&gt;GPQA Diamond&lt;/th&gt;
&lt;th&gt;参数量&lt;/th&gt;
&lt;th&gt;方案类型&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;Qwen3.5-9B&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;&lt;strong&gt;81.7&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;9B&lt;/td&gt;
&lt;td&gt;端到端&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;GPT-OSS-120B&lt;/td&gt;
&lt;td&gt;71.5&lt;/td&gt;
&lt;td&gt;120B&lt;/td&gt;
&lt;td&gt;端到端&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;9B 比 120B 高出 10.2 分。&lt;/p&gt;

&lt;p&gt;VentureBeat 的报道标题很直接："Alibaba's small, open source Qwen3.5-9B beats OpenAI's gpt-oss-120B and can run on standard laptops"。&lt;/p&gt;

&lt;p&gt;"can run on standard laptops"是什么意思？9B 模型，显存占用大约 4-5GB。RTX 3090、A10，甚至高端笔记本的 GPU 都能跑。不需要 A100、H100 这种数据中心级别的显卡。&lt;/p&gt;

&lt;p&gt;以前想跑 120B 模型，至少需要 8 张 A100。现在 9B 模型，单卡就能搞定。成本差距是数量级的。&lt;/p&gt;




&lt;h2&gt;
  
  
  三、技术亮点：为什么小模型能赢？
&lt;/h2&gt;

&lt;p&gt;Qwen3.5 不是"蒸馏"或"剪枝"。有几个技术突破：&lt;/p&gt;

&lt;h3&gt;
  
  
  1. 统一视觉 - 语言基础
&lt;/h3&gt;

&lt;p&gt;早期融合训练，数万亿多模态 token。Qwen3.5 在推理、编码、agent 能力和多模态理解上都超过了 Qwen3-VL 模型。&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fqianwen-res.oss-cn-beijing.aliyuncs.com%2FQwen3.5%2FFigures%2Fqwen3.5_397b_a17b_score.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fqianwen-res.oss-cn-beijing.aliyuncs.com%2FQwen3.5%2FFigures%2Fqwen3.5_397b_a17b_score.png" alt="Qwen3.5 旗舰模型性能" width="800" height="517"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;&lt;em&gt;Figure 3: Qwen3.5 旗舰模型性能对比（来源：GitHub README）&lt;/em&gt;&lt;/p&gt;

&lt;h3&gt;
  
  
  2. 高效混合架构
&lt;/h3&gt;

&lt;p&gt;Gated Delta Networks 结合稀疏 MoE（Mixture-of-Experts）。高吞吐推理，低延迟。&lt;/p&gt;

&lt;p&gt;Qwen3.5-397B-A17B 总参数 397B，每次前向传播只激活 17B。Qwen3.5-9B 没公开 MoE 配置，但继承了同样的架构理念。&lt;/p&gt;

&lt;h3&gt;
  
  
  3. 可扩展的 RL 泛化
&lt;/h3&gt;

&lt;p&gt;百万级 agent 环境中规模化强化学习。不是针对特定 benchmark 的优化，而是真实世界的适应力。&lt;/p&gt;

&lt;h3&gt;
  
  
  4. 全球语言覆盖
&lt;/h3&gt;

&lt;p&gt;从 119 种语言扩展到 201 种。词汇表从 150k 扩展到 250k，编码/解码效率提升 10-60%。&lt;/p&gt;




&lt;h2&gt;
  
  
  四、实战：一行命令部署
&lt;/h2&gt;

&lt;p&gt;部署 Qwen3.5-9B 有多简单？Ollama 一行命令：&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight shell"&gt;&lt;code&gt;ollama run qwen3.5:9b
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;就这么简单。&lt;/p&gt;

&lt;p&gt;用 transformers：&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight python"&gt;&lt;code&gt;&lt;span class="kn"&gt;from&lt;/span&gt; &lt;span class="n"&gt;transformers&lt;/span&gt; &lt;span class="kn"&gt;import&lt;/span&gt; &lt;span class="n"&gt;Qwen3VLForConditionalGeneration&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="n"&gt;AutoProcessor&lt;/span&gt;

&lt;span class="n"&gt;model&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;Qwen3VLForConditionalGeneration&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;from_pretrained&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;
    &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;Qwen/Qwen3.5-9B&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
    &lt;span class="n"&gt;torch_dtype&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="n"&gt;torch&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;bfloat16&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
    &lt;span class="n"&gt;device_map&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;auto&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
&lt;span class="p"&gt;)&lt;/span&gt;
&lt;span class="n"&gt;processor&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;AutoProcessor&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;from_pretrained&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;Qwen/Qwen3.5-9B&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;&lt;strong&gt;显存占用&lt;/strong&gt;：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;bfloat16 精度：约 4-5GB&lt;/li&gt;
&lt;li&gt;int8 量化：约 2-3GB&lt;/li&gt;
&lt;li&gt;int4 量化：约 1-2GB&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;推理速度&lt;/strong&gt;（单卡 RTX 3090）：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;生成速度：约 30-50 tokens/秒&lt;/li&gt;
&lt;li&gt;首 token 延迟：&amp;lt;100ms&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;对比 120B 模型：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;显存占用：约 240GB（bfloat16）&lt;/li&gt;
&lt;li&gt;需要：8 张 A100（每张 80GB）&lt;/li&gt;
&lt;li&gt;推理速度：约 5-10 tokens/秒&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;差距很明显。&lt;/p&gt;




&lt;h2&gt;
  
  
  五、选型指南：0.8B/2B/4B/9B 怎么选？
&lt;/h2&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;需求&lt;/th&gt;
&lt;th&gt;推荐型号&lt;/th&gt;
&lt;th&gt;理由&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;移动设备部署&lt;/td&gt;
&lt;td&gt;0.8B/2B&lt;/td&gt;
&lt;td&gt;体积极小，推理极快&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;IoT 边缘设备&lt;/td&gt;
&lt;td&gt;0.8B/2B&lt;/td&gt;
&lt;td&gt;低资源消耗&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;轻量级 Agent&lt;/td&gt;
&lt;td&gt;4B&lt;/td&gt;
&lt;td&gt;性能与资源平衡&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;服务器端通用&lt;/td&gt;
&lt;td&gt;9B&lt;/td&gt;
&lt;td&gt;性价比最高&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;显存 &amp;lt;4GB&lt;/td&gt;
&lt;td&gt;0.8B/2B&lt;/td&gt;
&lt;td&gt;最低资源需求&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;显存 4-8GB&lt;/td&gt;
&lt;td&gt;4B/9B&lt;/td&gt;
&lt;td&gt;中等资源需求&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;追求极致性能&lt;/td&gt;
&lt;td&gt;9B&lt;/td&gt;
&lt;td&gt;接近 120B 的性能&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;&lt;strong&gt;建议&lt;/strong&gt;：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;显存充足（≥8GB），直接上 9B&lt;/li&gt;
&lt;li&gt;移动端开发，选 2B&lt;/li&gt;
&lt;li&gt;Agent 开发，4B 是甜点区&lt;/li&gt;
&lt;/ul&gt;




&lt;h2&gt;
  
  
  六、结论：小尺寸模型的时代
&lt;/h2&gt;

&lt;p&gt;Qwen3.5-9B 开源，标志新趋势：小尺寸模型不再是"妥协"，而是"选择"。&lt;/p&gt;

&lt;p&gt;以前认为，性能=参数。9B 超过 120B 的事实告诉我们：架构优化 &amp;gt; 堆参数。&lt;/p&gt;

&lt;p&gt;这对开发者是好事。以前只能云 API 调用，现在可以本地部署。以前担心数据隐私，现在可以完全离线运行。以前成本太高，现在单卡就能搞定。&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;资源链接&lt;/strong&gt;：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;GitHub：&lt;a href="https://github.com/QwenLM/Qwen3.5" rel="noopener noreferrer"&gt;https://github.com/QwenLM/Qwen3.5&lt;/a&gt;
&lt;/li&gt;
&lt;li&gt;ModelScope：&lt;a href="https://modelscope.cn/collections/Qwen/Qwen35" rel="noopener noreferrer"&gt;https://modelscope.cn/collections/Qwen/Qwen35&lt;/a&gt;
&lt;/li&gt;
&lt;li&gt;HuggingFace：&lt;a href="https://huggingface.co/collections/Qwen/qwen35" rel="noopener noreferrer"&gt;https://huggingface.co/collections/Qwen/qwen35&lt;/a&gt;
&lt;/li&gt;
&lt;li&gt;官方博客：&lt;a href="https://qwen.ai/blog?id=qwen3.5" rel="noopener noreferrer"&gt;https://qwen.ai/blog?id=qwen3.5&lt;/a&gt;
&lt;/li&gt;
&lt;li&gt;Qwen Chat：&lt;a href="https://chat.qwen.ai" rel="noopener noreferrer"&gt;https://chat.qwen.ai&lt;/a&gt;
&lt;/li&gt;
&lt;/ul&gt;




&lt;p&gt;&lt;strong&gt;数据来源&lt;/strong&gt;：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;GitHub README（QwenLM/Qwen3.5）&lt;/li&gt;
&lt;li&gt;VentureBeat 报道（2026-03-02）&lt;/li&gt;
&lt;li&gt;阿里官方博客（qwen.ai）&lt;/li&gt;
&lt;li&gt;GPQA Diamond 官方榜单&lt;/li&gt;
&lt;/ul&gt;

</description>
      <category>career</category>
    </item>
    <item>
      <title>Claude Code New Feature: /loop - Let AI Work for You 24/7</title>
      <dc:creator>Garyvov</dc:creator>
      <pubDate>Mon, 09 Mar 2026 15:54:13 +0000</pubDate>
      <link>https://dev.to/gary_yan_86eb77d35e0070f5/claude-code-new-feature-loop-let-ai-work-for-you-247-25ij</link>
      <guid>https://dev.to/gary_yan_86eb77d35e0070f5/claude-code-new-feature-loop-let-ai-work-for-you-247-25ij</guid>
      <description>&lt;h1&gt;
  
  
  Claude Code New Feature: /loop - Let AI Work for You 24/7
&lt;/h1&gt;

&lt;h2&gt;
  
  
  1. New Feature Launched on March 7th
&lt;/h2&gt;

&lt;p&gt;Claude Code now has a built-in /loop command - a session-scoped task scheduler.&lt;/p&gt;

&lt;p&gt;What it can do:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Automatically repeat prompts&lt;/li&gt;
&lt;li&gt;Monitor project status in background&lt;/li&gt;
&lt;li&gt;Set one-time reminders&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Examples:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;/loop 10m check if deployment finished
/loop every morning at 9:00 summarize my Slack mentions
remind me at 3pm to push the release branch
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;






&lt;h2&gt;
  
  
  2. How to Use
&lt;/h2&gt;

&lt;h3&gt;
  
  
  Three Syntax Styles
&lt;/h3&gt;

&lt;p&gt;Prefix interval:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;/loop 5m check the build
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;Suffix with "every":&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;/loop check the build every 2 hours
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;No interval (defaults to 10 minutes):&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;/loop babysit all my PRs
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;h3&gt;
  
  
  Time Units
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;code&gt;s&lt;/code&gt; seconds (rounds up to minutes)&lt;/li&gt;
&lt;li&gt;
&lt;code&gt;m&lt;/code&gt; minutes&lt;/li&gt;
&lt;li&gt;
&lt;code&gt;h&lt;/code&gt; hours&lt;/li&gt;
&lt;li&gt;
&lt;code&gt;d&lt;/code&gt; days&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  One-time Reminders
&lt;/h3&gt;



&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;remind me at 3pm to push the release branch
in 45 minutes, check whether the tests passed
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;






&lt;h2&gt;
  
  
  3. Managing Tasks
&lt;/h2&gt;

&lt;p&gt;View tasks:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;what scheduled tasks do I have?
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;Cancel tasks:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;cancel the deploy check job
cancel task abc12345
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;Maximum 50 tasks per session.&lt;/p&gt;




&lt;h2&gt;
  
  
  4. Real-World Use Cases
&lt;/h2&gt;

&lt;p&gt;Deployment monitoring:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;/loop 10m check deployment status and alert on errors
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;Auto-fix PRs:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;/loop babysit all my PRs. When builds fail auto-fix
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;Daily morning briefing:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;/loop every morning at 9:05 use Slack MCP to summarize mentions
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;CI checks:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;/loop 15m check main branch CI, notify if red
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;Loop commands:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;/loop 20m /review-pr 1234
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;






&lt;h2&gt;
  
  
  5. How It Works
&lt;/h2&gt;

&lt;p&gt;Timezone: Uses local timezone, not UTC. &lt;code&gt;0 9 * * *&lt;/code&gt; means 9am local time.&lt;/p&gt;

&lt;p&gt;Time jitter:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Loop tasks delayed up to 10% (max 15 minutes)&lt;/li&gt;
&lt;li&gt;On-the-hour reminders may fire up to 90 seconds early&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Pro tip: Use &lt;code&gt;9:07&lt;/code&gt; instead of &lt;code&gt;9:00&lt;/code&gt; to avoid conflicts.&lt;/p&gt;

&lt;p&gt;Execution timing: Runs when Claude is idle, won't interrupt current responses.&lt;/p&gt;




&lt;h2&gt;
  
  
  6. Limitations
&lt;/h2&gt;

&lt;p&gt;Session-scoped: Tasks disappear when you close the terminal, not saved to disk.&lt;/p&gt;

&lt;p&gt;3-day expiry: Auto-deleted after 72 hours, runs one final time before deletion.&lt;/p&gt;

&lt;p&gt;No catch-up: Missed tasks won't run retroactively, only waits for next scheduled time.&lt;/p&gt;

&lt;p&gt;Production use: For long-term tasks, use Desktop Scheduled Tasks or GitHub Actions.&lt;/p&gt;




&lt;h2&gt;
  
  
  7. Getting Started
&lt;/h2&gt;

&lt;p&gt;Update Claude Code: &lt;a href="https://code.claude.com" rel="noopener noreferrer"&gt;https://code.claude.com&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;Try it:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;/loop 10m check if main branch build is green
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;Check status:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;what scheduled tasks do I have?
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;






&lt;h2&gt;
  
  
  8. Summary
&lt;/h2&gt;

&lt;p&gt;/loop transforms AI from passive responder to active worker.&lt;/p&gt;

&lt;p&gt;Good for: Short-term monitoring, development debugging, temporary tasks.&lt;/p&gt;

&lt;p&gt;Not for: Long-term unattended operations, production environments, tasks requiring persistence.&lt;/p&gt;

&lt;p&gt;Official docs: &lt;a href="https://code.claude.com/docs/en/scheduled-tasks" rel="noopener noreferrer"&gt;https://code.claude.com/docs/en/scheduled-tasks&lt;/a&gt;&lt;/p&gt;




&lt;p&gt;&lt;em&gt;End of article&lt;/em&gt;&lt;/p&gt;

</description>
      <category>discuss</category>
    </item>
    <item>
      <title>Claude Code 新功能：/loop 让 AI 自动帮你"值班"</title>
      <dc:creator>Garyvov</dc:creator>
      <pubDate>Mon, 09 Mar 2026 15:52:24 +0000</pubDate>
      <link>https://dev.to/gary_yan_86eb77d35e0070f5/claude-code-xin-gong-neng-loop-rang-ai-zi-dong-bang-ni-zhi-ban--5anh</link>
      <guid>https://dev.to/gary_yan_86eb77d35e0070f5/claude-code-xin-gong-neng-loop-rang-ai-zi-dong-bang-ni-zhi-ban--5anh</guid>
      <description>&lt;h1&gt;
  
  
  Claude Code 新功能：/loop 让 AI 自动帮你"值班"
&lt;/h1&gt;

&lt;h2&gt;
  
  
  一、3月7日上线的新功能
&lt;/h2&gt;

&lt;p&gt;Claude Code 内置了 /loop 命令，会话内的定时任务调度器。&lt;/p&gt;

&lt;p&gt;能干什么：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;自动重复执行提示词&lt;/li&gt;
&lt;li&gt;后台监控项目状态&lt;/li&gt;
&lt;li&gt;设置一次性提醒&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;举个例子：&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;/loop 10m check if deployment finished
/loop every morning at 9:00 summarize my Slack mentions
remind me at 3pm to push the release branch
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;






&lt;h2&gt;
  
  
  二、怎么用
&lt;/h2&gt;

&lt;h3&gt;
  
  
  三种写法
&lt;/h3&gt;

&lt;p&gt;前置间隔：&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;/loop 5m check the build
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;后置 every：&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;/loop check the build every 2 hours
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;不写间隔（默认10分钟）：&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;/loop babysit all my PRs
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;h3&gt;
  
  
  时间单位
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;code&gt;s&lt;/code&gt; 秒（会向上取整到分钟）&lt;/li&gt;
&lt;li&gt;
&lt;code&gt;m&lt;/code&gt; 分钟&lt;/li&gt;
&lt;li&gt;
&lt;code&gt;h&lt;/code&gt; 小时&lt;/li&gt;
&lt;li&gt;
&lt;code&gt;d&lt;/code&gt; 天&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  一次性提醒
&lt;/h3&gt;



&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;remind me at 3pm to push the release branch
in 45 minutes, check whether the tests passed
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;






&lt;h2&gt;
  
  
  三、管理任务
&lt;/h2&gt;

&lt;p&gt;查看：&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;what scheduled tasks do I have?
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;取消：&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;cancel the deploy check job
cancel task abc12345
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;每个会话最多 50 个任务。&lt;/p&gt;




&lt;h2&gt;
  
  
  四、实际场景
&lt;/h2&gt;

&lt;p&gt;部署监控：&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;/loop 10m check deployment status and alert on errors
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;PR 自动修复：&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;/loop babysit all my PRs. When builds fail auto-fix
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;每日晨报：&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;/loop every morning at 9:05 use Slack MCP to summarize mentions
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;CI 检查：&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;/loop 15m check main branch CI, notify if red
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;循环执行命令：&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;/loop 20m /review-pr 1234
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;






&lt;h2&gt;
  
  
  五、工作原理
&lt;/h2&gt;

&lt;p&gt;时区：用本地时区，不是 UTC。&lt;code&gt;0 9 * * *&lt;/code&gt; 就是本地早上9点。&lt;/p&gt;

&lt;p&gt;时间抖动：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;循环任务延迟最多 10%（上限15分钟）&lt;/li&gt;
&lt;li&gt;整点提醒可能提前90秒&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;避坑：用 &lt;code&gt;9:07&lt;/code&gt; 别用 &lt;code&gt;9:00&lt;/code&gt;。&lt;/p&gt;

&lt;p&gt;执行时机：Claude 空闲时执行，不打断当前回复。&lt;/p&gt;




&lt;h2&gt;
  
  
  六、限制
&lt;/h2&gt;

&lt;p&gt;会话级别：关闭终端任务就没了，不会保存到磁盘。&lt;/p&gt;

&lt;p&gt;3天过期：创建后72小时自动删除，删除前最后执行一次。&lt;/p&gt;

&lt;p&gt;无补偿：错过的不会补跑，只等下一次。&lt;/p&gt;

&lt;p&gt;生产环境：长期任务用 Desktop Scheduled Tasks 或 GitHub Actions。&lt;/p&gt;




&lt;h2&gt;
  
  
  七、开始用
&lt;/h2&gt;

&lt;p&gt;更新 Claude Code：&lt;a href="https://code.claude.com" rel="noopener noreferrer"&gt;https://code.claude.com&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;试试：&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;/loop 10m check if main branch build is green
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;查看：&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;what scheduled tasks do I have?
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;






&lt;h2&gt;
  
  
  八、总结
&lt;/h2&gt;

&lt;p&gt;/loop 让 AI 从被动回答变成主动干活。&lt;/p&gt;

&lt;p&gt;适合短期监控、开发调试、临时任务。&lt;/p&gt;

&lt;p&gt;不适合长期无人值守、生产环境、需要持久化的任务。&lt;/p&gt;

&lt;p&gt;官方文档：&lt;a href="https://code.claude.com/docs/en/scheduled-tasks" rel="noopener noreferrer"&gt;https://code.claude.com/docs/en/scheduled-tasks&lt;/a&gt;&lt;/p&gt;




&lt;p&gt;&lt;em&gt;本文完&lt;/em&gt;&lt;/p&gt;

</description>
      <category>discuss</category>
    </item>
    <item>
      <title>Xiaohongshu's FireRed-Image-Edit-1.1 Tops Charts at Launch! 7.94 Score Beats Alibaba's Qwen-Image-Edit-2511</title>
      <dc:creator>Garyvov</dc:creator>
      <pubDate>Sun, 08 Mar 2026 15:51:02 +0000</pubDate>
      <link>https://dev.to/gary_yan_86eb77d35e0070f5/xiaohongshus-firered-image-edit-11-tops-charts-at-launch-794-score-beats-alibabas-4odo</link>
      <guid>https://dev.to/gary_yan_86eb77d35e0070f5/xiaohongshus-firered-image-edit-11-tops-charts-at-launch-794-score-beats-alibabas-4odo</guid>
      <description>&lt;h1&gt;
  
  
  Xiaohongshu's FireRed-Image-Edit-1.1 Tops Charts at Launch! 7.94 Score Beats Alibaba's Qwen-Image-Edit-2511
&lt;/h1&gt;

&lt;blockquote&gt;
&lt;p&gt;Open-source image editing has a new SOTA champion.&lt;/p&gt;
&lt;/blockquote&gt;

&lt;p&gt;&lt;strong&gt;TL;DR&lt;/strong&gt;: Xiaohongshu released FireRed-Image-Edit-1.1 on March 3rd, surpassing Alibaba's Qwen-Image-Edit-2511 (released in December) across 5 authoritative benchmarks with a score of 7.943, setting a new record for open-source image editing models. Achieves SOTA-level performance in identity consistency, multi-element fusion, and portrait makeup.&lt;/p&gt;




&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fhzu3pclsegmxilviy67s.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fhzu3pclsegmxilviy67s.png" alt="FireRed-Image-Edit Showcase" width="800" height="446"&gt;&lt;/a&gt;&lt;/p&gt;




&lt;h2&gt;
  
  
  01 The Battle for Open-Source Image Editing SOTA
&lt;/h2&gt;

&lt;p&gt;2026 has been a year of fierce competition in image editing.&lt;/p&gt;

&lt;p&gt;On December 23rd, Alibaba's Qwen team released Qwen-Image-Edit-2511, scoring 7.877 (GEdit-EN) to claim the top spot in open-source rankings.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Just 2 months later, Xiaohongshu delivered a surprise.&lt;/strong&gt;&lt;/p&gt;

&lt;p&gt;On March 3rd, Xiaohongshu's foundation model team released FireRed-Image-Edit-1.1, scoring &lt;strong&gt;7.943&lt;/strong&gt; to set a new record.&lt;/p&gt;

&lt;p&gt;Even more impressive: FireRed-Image-Edit-1.1 &lt;strong&gt;leads across all 5 authoritative benchmarks&lt;/strong&gt; without a single loss:&lt;/p&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Metric&lt;/th&gt;
&lt;th&gt;FireRed-1.1&lt;/th&gt;
&lt;th&gt;Qwen-2511&lt;/th&gt;
&lt;th&gt;Lead&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;GEdit (EN)&lt;/td&gt;
&lt;td&gt;&lt;strong&gt;7.943&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;7.877&lt;/td&gt;
&lt;td&gt;+0.066&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;GEdit (CN)&lt;/td&gt;
&lt;td&gt;&lt;strong&gt;7.887&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;7.819&lt;/td&gt;
&lt;td&gt;+0.068&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;ImgEdit&lt;/td&gt;
&lt;td&gt;&lt;strong&gt;4.56&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;4.51&lt;/td&gt;
&lt;td&gt;+0.05&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;REDEdit (EN)&lt;/td&gt;
&lt;td&gt;&lt;strong&gt;4.26&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;4.23&lt;/td&gt;
&lt;td&gt;+0.03&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;REDEdit (CN)&lt;/td&gt;
&lt;td&gt;&lt;strong&gt;4.33&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;4.18&lt;/td&gt;
&lt;td&gt;+0.15&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;Honestly, this lead is quite significant at the SOTA level. &lt;strong&gt;Especially the 0.15-point lead in Chinese REDEdit&lt;/strong&gt;, indicating FireRed's advantage in Chinese scene understanding.&lt;/p&gt;




&lt;h2&gt;
  
  
  02 Identity Consistency: Best-in-Class Portrait Editing
&lt;/h2&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F4kcluc8y91x9gdw0wuyu.jpg" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F4kcluc8y91x9gdw0wuyu.jpg" alt="Portrait Editing Effects" width="800" height="562"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;What's the biggest headache in image editing? &lt;strong&gt;People's faces change when you edit them.&lt;/strong&gt;&lt;/p&gt;

&lt;p&gt;You change the clothes in a photo, and the face shape changes; change the background, and the facial features change too. This "edit-equals-deformation" problem has always been a pain point for image editing models.&lt;/p&gt;

&lt;p&gt;FireRed-Image-Edit-1.1's solution is straightforward: &lt;strong&gt;SOTA-level identity consistency.&lt;/strong&gt;&lt;/p&gt;

&lt;p&gt;FireRed-1.1 scores 4.33 (Chinese) and 4.26 (English) on the REDEdit-Bench benchmark, claiming the open-source top spot. This comprehensive score includes identity consistency, instruction following, visual quality, and more.&lt;/p&gt;

&lt;p&gt;What does this mean?&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;Changing clothes&lt;/strong&gt;: Excellent identity preservation&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Changing backgrounds&lt;/strong&gt;: Complete retention of facial details&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Adding accessories&lt;/strong&gt;: Original features not overwritten&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Compared to Qwen-Image-Edit-2511's 4.18 (Chinese), FireRed-1.1 indeed excels in identity preservation.&lt;/p&gt;




&lt;h2&gt;
  
  
  03 Agent Intelligence: 10+ Elements Auto-Fusion
&lt;/h2&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fc4911dn1wufcn14yez9q.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fc4911dn1wufcn14yez9q.png" alt="Multi-Image Fusion Editing" width="800" height="537"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;Consider this complex editing instruction:&lt;/p&gt;

&lt;blockquote&gt;
&lt;p&gt;"Place the man from image 2, wearing the black 'New York Bears' baseball jacket and camouflage pants and blue-black AJ1 high-top sneakers from image 2, on the spacious football field from image 1. The field is sunny, he's wearing the black cap from image 2 with a red brim... casually carrying the vintage brown leather travel bag from image 3 on his left shoulder... and easily dragging the white skateboard from image 3 with his right hand..."&lt;/p&gt;
&lt;/blockquote&gt;

&lt;p&gt;&lt;strong&gt;How do traditional models handle such complex edits with 10+ elements?&lt;/strong&gt;&lt;/p&gt;

&lt;p&gt;The harsh answer: &lt;strong&gt;Segmented processing, multiple iterations, manual stitching&lt;/strong&gt;—inefficient with poor results.&lt;/p&gt;

&lt;p&gt;FireRed-Image-Edit-1.1's approach is smarter: &lt;strong&gt;Agent auto-processing.&lt;/strong&gt;&lt;/p&gt;

&lt;p&gt;The built-in Agent module automatically completes three steps:&lt;/p&gt;

&lt;ol&gt;
&lt;li&gt;
&lt;strong&gt;ROI Detection&lt;/strong&gt; - Calls Gemini function-calling model to identify key regions in each image&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Crop &amp;amp; Stitch&lt;/strong&gt; - Automatically crops and stitches into 2-3 composite images (~1024×1024)&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Instruction Rewriting&lt;/strong&gt; - Automatically rewrites user instructions to ensure correct image references&lt;/li&gt;
&lt;/ol&gt;

&lt;p&gt;&lt;strong&gt;The entire process requires no manual intervention—complex edits completed with one click.&lt;/strong&gt;&lt;/p&gt;

&lt;p&gt;Compared to Qwen-Image-Edit-2511 (supports multiple inputs), FireRed-1.1's Agent solution is clearly more intelligent.&lt;/p&gt;




&lt;h2&gt;
  
  
  04 Professional Makeup: Dozens of Makeup Styles
&lt;/h2&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fgithub.com%2FFireRedTeam%2FFireRed-Image-Edit%2Fraw%2Fmain%2Fassets%2Fshowcase_makeup.jpg" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fgithub.com%2FFireRedTeam%2FFireRed-Image-Edit%2Fraw%2Fmain%2Fassets%2Fshowcase_makeup.jpg" alt="Makeup Effects Showcase" width="800" height="554"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;Makeup editing has always been the "deep end" of image editing.&lt;/p&gt;

&lt;p&gt;Why is it difficult?&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;Many makeup details&lt;/strong&gt; (eyebrows, eyeshadow, lipstick, blush, highlights)&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Large style differences&lt;/strong&gt; (Western makeup vs Japanese/Korean makeup vs Chinese makeup)&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Difficult skin tone adaptation&lt;/strong&gt; (yellow skin, white skin, olive skin have different effects)&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;FireRed-Image-Edit-1.1's solution: &lt;strong&gt;Professional makeup LoRA models.&lt;/strong&gt;&lt;/p&gt;

&lt;p&gt;The official release includes specialized makeup LoRAs supporting dozens of makeup styles:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;Western Y2K Makeup&lt;/strong&gt;: Cool-toned matte foundation, deep brown arched brows, silver-gray eyeshadow, mirror-finish glass lip gloss&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Satin Finish Base&lt;/strong&gt;: Natural satin foundation, light brown brow powder, deep brown eyeshadow, moisturizing bean paste lipstick&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Halloween Witch Makeup&lt;/strong&gt;, &lt;strong&gt;Creative Makeup&lt;/strong&gt;, etc.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;This "professional-grade" makeup editing is the first of its kind in open-source models.&lt;/strong&gt;&lt;/p&gt;




&lt;h2&gt;
  
  
  05 Technical Approach Comparison: FireRed vs Qwen
&lt;/h2&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Ff1aacwbqv25ze1h3ee7l.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Ff1aacwbqv25ze1h3ee7l.png" alt="Model Architecture" width="800" height="441"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;What are the differences in technical approaches?&lt;/p&gt;

&lt;h3&gt;
  
  
  FireRed-Image-Edit-1.1
&lt;/h3&gt;

&lt;p&gt;&lt;strong&gt;Training Data&lt;/strong&gt;: 1.6B samples (900M T2I + 700M editing pairs)&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Training Pipeline&lt;/strong&gt;:&lt;/p&gt;

&lt;ol&gt;
&lt;li&gt;
&lt;strong&gt;Pretrain&lt;/strong&gt; - Pre-training phase, establishing basic generation capabilities&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;SFT&lt;/strong&gt; - Supervised fine-tuning, injecting editing capabilities&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;RL&lt;/strong&gt; - Reinforcement learning, optimizing identity consistency and instruction following&lt;/li&gt;
&lt;/ol&gt;

&lt;p&gt;&lt;strong&gt;Key Technologies&lt;/strong&gt;:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Multi-Condition Aware Bucket Sampler&lt;/li&gt;
&lt;li&gt;Asymmetric Gradient Optimization for DPO&lt;/li&gt;
&lt;li&gt;DiffusionNFT with layout-aware OCR rewards&lt;/li&gt;
&lt;li&gt;Consistency Loss for identity preservation&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  Qwen-Image-Edit-2511
&lt;/h3&gt;

&lt;p&gt;&lt;strong&gt;Training Data&lt;/strong&gt;: Not disclosed&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Training Pipeline&lt;/strong&gt;: Based on Qwen-Image-2512's MMDiT architecture&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Key Technologies&lt;/strong&gt;:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;MMDiT (Multimodal Diffusion Transformer)&lt;/li&gt;
&lt;li&gt;Native Chinese text rendering&lt;/li&gt;
&lt;li&gt;Unified architecture with Qwen-Image-2512&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Comparison Conclusion&lt;/strong&gt;:&lt;/p&gt;

&lt;p&gt;FireRed is more transparent in &lt;strong&gt;training data scale&lt;/strong&gt; and &lt;strong&gt;technical details&lt;/strong&gt;, while Qwen has advantages in &lt;strong&gt;architecture unification&lt;/strong&gt; and &lt;strong&gt;Chinese text rendering&lt;/strong&gt;.&lt;/p&gt;




&lt;h2&gt;
  
  
  06 Engineering Optimization: 4.5s/Image, 30GB VRAM
&lt;/h2&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fgithub.com%2FFireRedTeam%2FFireRed-Image-Edit%2Fraw%2Fmain%2Fassets%2Feval_benchmark.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fgithub.com%2FFireRedTeam%2FFireRed-Image-Edit%2Fraw%2Fmain%2Fassets%2Feval_benchmark.png" alt="Benchmark Comparison" width="800" height="269"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;Accuracy alone isn't enough—&lt;strong&gt;engineering deployment&lt;/strong&gt; is key.&lt;/p&gt;

&lt;p&gt;FireRed-Image-Edit-1.1's engineering optimization is quite solid:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;Inference Speed&lt;/strong&gt;: 4.5s/image (optimized) &lt;em&gt;based on v1.0 data&lt;/em&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;VRAM Requirement&lt;/strong&gt;: 30GB (optimized) &lt;em&gt;based on v1.0 data&lt;/em&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Acceleration&lt;/strong&gt;: Full support for distillation, quantization, static compilation&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Compared to Qwen-Image-Edit-2511:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Specific VRAM and speed data needs verification&lt;/li&gt;
&lt;li&gt;Has LightX2V providing 42.55x acceleration support for Qwen&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Conclusion&lt;/strong&gt;: FireRed-1.1 is more mature in engineering optimization; Qwen has acceleration solutions but requires additional configuration.&lt;/p&gt;




&lt;h2&gt;
  
  
  07 Open-Source Ecosystem: Fully Open Apache 2.0
&lt;/h2&gt;

&lt;p&gt;Both use &lt;strong&gt;Apache 2.0 license&lt;/strong&gt;, meaning:&lt;/p&gt;

&lt;p&gt;✅ Commercial use allowed&lt;br&gt;&lt;br&gt;
✅ Code modification allowed&lt;br&gt;&lt;br&gt;
✅ Distribution allowed&lt;br&gt;&lt;br&gt;
✅ No requirement to open-source derivative works  &lt;/p&gt;

&lt;p&gt;&lt;strong&gt;FireRed-Image-Edit-1.1 Ecosystem&lt;/strong&gt;:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;GitHub Stars: 600+ (as of 2026.03.03)&lt;/li&gt;
&lt;li&gt;HuggingFace: Released&lt;/li&gt;
&lt;li&gt;ModelScope: Released&lt;/li&gt;
&lt;li&gt;ComfyUI: Official node support&lt;/li&gt;
&lt;li&gt;Technical Report: arXiv:2602.13344&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Qwen-Image-Edit-2511 Ecosystem&lt;/strong&gt;:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;GitHub Stars: Needs verification&lt;/li&gt;
&lt;li&gt;HuggingFace: Released&lt;/li&gt;
&lt;li&gt;ModelScope: Released&lt;/li&gt;
&lt;li&gt;ComfyUI: Community support&lt;/li&gt;
&lt;li&gt;Technical Report: Needs verification&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Conclusion&lt;/strong&gt;: FireRed ecosystem is newer, Qwen ecosystem is more mature.&lt;/p&gt;




&lt;h2&gt;
  
  
  08 Summary: SOTA Changes Hands, But Competition Just Began
&lt;/h2&gt;

&lt;p&gt;The release of FireRed-Image-Edit-1.1 has indeed set a new SOTA for open-source image editing.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Leading across all 5 benchmarks&lt;/strong&gt;, achieving new heights in identity consistency, multi-element fusion, and portrait makeup.&lt;/p&gt;

&lt;p&gt;But this is just the beginning.&lt;/p&gt;

&lt;p&gt;Alibaba's Qwen team released version 2511 in December, Xiaohongshu released version 1.1 in March—&lt;strong&gt;the "arms race" in open-source image editing has just begun.&lt;/strong&gt;&lt;/p&gt;

&lt;p&gt;What to expect next:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Will Qwen release a 2603 version to counter?&lt;/li&gt;
&lt;li&gt;Will FireRed continue iterating with 1.2, 1.3?&lt;/li&gt;
&lt;li&gt;Will other teams (Stability, Midjourney open-source) join the battle?&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;The SOTA battle in open-source image editing—the best is yet to come.&lt;/strong&gt;&lt;/p&gt;




&lt;p&gt;&lt;strong&gt;What's your take on the FireRed vs Qwen SOTA battle?&lt;/strong&gt;&lt;/p&gt;

&lt;p&gt;Feel free to comment and discuss the future of open-source image editing.&lt;/p&gt;

</description>
      <category>career</category>
    </item>
  </channel>
</rss>
