<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:dc="http://purl.org/dc/elements/1.1/">
  <channel>
    <title>DEV Community: AIVisionsLab</title>
    <description>The latest articles on DEV Community by AIVisionsLab (@aivisionslab).</description>
    <link>https://dev.to/aivisionslab</link>
    <image>
      <url>https://media2.dev.to/dynamic/image/width=90,height=90,fit=cover,gravity=auto,format=auto/https:%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Fuser%2Fprofile_image%2F3946564%2F2e4047e5-fedf-4680-9e84-b8d8a1f32be6.png</url>
      <title>DEV Community: AIVisionsLab</title>
      <link>https://dev.to/aivisionslab</link>
    </image>
    <atom:link rel="self" type="application/rss+xml" href="https://dev.to/feed/aivisionslab"/>
    <language>en</language>
    <item>
      <title>在老旧 AMD RX 580 (8GB) 上通过原生 Vulkan 运行 Flux Schnell (12B) + LLM — 完整架构指南 [2026]</title>
      <dc:creator>AIVisionsLab</dc:creator>
      <pubDate>Fri, 22 May 2026 18:26:13 +0000</pubDate>
      <link>https://dev.to/aivisionslab/zai-lao-jiu-amd-rx-580-8gb-shang-tong-guo-yuan-sheng-vulkan-yun-xing-flux-schnell-12b-llm-wan-zheng-jia-gou-zhi-nan-2026-3e8d</link>
      <guid>https://dev.to/aivisionslab/zai-lao-jiu-amd-rx-580-8gb-shang-tong-guo-yuan-sheng-vulkan-yun-xing-flux-schnell-12b-llm-wan-zheng-jia-gou-zhi-nan-2026-3e8d</guid>
      <description>&lt;p&gt;很多人在 2026 年依然认为 RX 580 已经“死”于 AI 领域。CUDA 生态的排他性、ROCm 在 5.x 版本后停止对 Polaris 架构的支持，以及 DirectML 在成熟前就被抛弃。以下是我们如何证明这些结论完全错误的详细技术分析。&lt;/p&gt;

&lt;h2&gt;
  
  
  硬件配置
&lt;/h2&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;GPU:&lt;/strong&gt; AMD RX 580 2048SP — 8GB GDDR5 VRAM (原生支持 Vulkan 1.x)&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;CPU:&lt;/strong&gt; Intel Xeon E5-2690 v3 — 12核/24线程 @ 3.5GHz boost&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;RAM:&lt;/strong&gt; 32GB DDR4 REG ECC 四通道&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;存储:&lt;/strong&gt; 1TB NVMe (消除性能瓶颈的关键)&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;操作系统:&lt;/strong&gt; Windows 10 Pro + WSL2 Ubuntu 22.04.5&lt;/li&gt;
&lt;/ul&gt;

&lt;h2&gt;
  
  
  为什么其他方案都失败了？
&lt;/h2&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;方案&lt;/th&gt;
&lt;th&gt;状态&lt;/th&gt;
&lt;th&gt;原因&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;CUDA&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;❌&lt;/td&gt;
&lt;td&gt;Nvidia 专属&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;ROCm&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;❌&lt;/td&gt;
&lt;td&gt;v5.x 后停止支持 Polaris&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;DirectML&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;❌&lt;/td&gt;
&lt;td&gt;CLIPTextEncode 报错 &lt;code&gt;OpaqueTensorImpl&lt;/code&gt;
&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;OpenVINO&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;❌&lt;/td&gt;
&lt;td&gt;Forge 缺少 &lt;code&gt;ldm/sgm&lt;/code&gt; 模块&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;DirectML 的致命错误：&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;NotImplementedError: Cannot access storage of OpaqueTensorImpl

&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;驱动程序将内存封装为 ComfyUI 注意力机制无法读取的不透明张量。这是一个死胡同。&lt;/p&gt;

&lt;h2&gt;
  
  
  解决方案 — 双架构模式
&lt;/h2&gt;

&lt;h3&gt;
  
  
  路径 1 — GPU Vulkan (RX 580 加速)
&lt;/h3&gt;

&lt;p&gt;原生构建的 &lt;code&gt;stable-diffusion.cpp&lt;/code&gt;，编译参数为 &lt;code&gt;-DGGML_VULKAN=ON&lt;/code&gt;。&lt;code&gt;ggml&lt;/code&gt; 引擎直接映射到 GPU，无需 ROCm 或 CUDA。SD 1.5 GGUF 模型生成时间约为 72 秒。&lt;/p&gt;

&lt;h3&gt;
  
  
  路径 2 — Xeon CPU (SOTA 大模型)
&lt;/h3&gt;

&lt;p&gt;FLUX.1 Schnell (16GB) 超出了物理显存。ComfyUI 在 WSL2 中通过 CPU 运行，利用 ECC 内存作为稳定的虚拟显存。生成 768x768 图像耗时约 24 分钟。&lt;/p&gt;

&lt;h3&gt;
  
  
  Flux (12B Q4_K) 的混合内存分段
&lt;/h3&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;组件&lt;/th&gt;
&lt;th&gt;文件&lt;/th&gt;
&lt;th&gt;分配大小&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;扩散模型&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;flux1-schnell-q4_k.gguf&lt;/td&gt;
&lt;td&gt;GPU VRAM ~6.5GB&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;VAE&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;ae.safetensors&lt;/td&gt;
&lt;td&gt;CPU RAM ~160MB&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;CLIP L&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;clip_l.safetensors&lt;/td&gt;
&lt;td&gt;GPU VRAM ~235MB&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;T5XXL&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;t5xxl_fp16.safetensors&lt;/td&gt;
&lt;td&gt;CPU RAM ~9.3GB&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;h2&gt;
  
  
  生产指令
&lt;/h2&gt;



&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight shell"&gt;&lt;code&gt;sd-server.exe &lt;span class="nt"&gt;--listen-ip&lt;/span&gt; 0.0.0.0 &lt;span class="nt"&gt;--listen-port&lt;/span&gt; 7860 &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;--diffusion-model&lt;/span&gt; &lt;span class="s2"&gt;"E:&lt;/span&gt;&lt;span class="se"&gt;\m&lt;/span&gt;&lt;span class="s2"&gt;odels&lt;/span&gt;&lt;span class="se"&gt;\f&lt;/span&gt;&lt;span class="s2"&gt;lux1-schnell-q4_k.gguf"&lt;/span&gt; &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;--vae&lt;/span&gt; &lt;span class="s2"&gt;"E:&lt;/span&gt;&lt;span class="se"&gt;\m&lt;/span&gt;&lt;span class="s2"&gt;odels&lt;/span&gt;&lt;span class="se"&gt;\a&lt;/span&gt;&lt;span class="s2"&gt;e.safetensors"&lt;/span&gt; &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;--clip_l&lt;/span&gt; &lt;span class="s2"&gt;"E:&lt;/span&gt;&lt;span class="se"&gt;\m&lt;/span&gt;&lt;span class="s2"&gt;odels&lt;/span&gt;&lt;span class="se"&gt;\c&lt;/span&gt;&lt;span class="s2"&gt;lip_l.safetensors"&lt;/span&gt; &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;--t5xxl&lt;/span&gt; &lt;span class="s2"&gt;"E:&lt;/span&gt;&lt;span class="se"&gt;\m&lt;/span&gt;&lt;span class="s2"&gt;odels&lt;/span&gt;&lt;span class="se"&gt;\t&lt;/span&gt;&lt;span class="s2"&gt;5xxl_fp16.safetensors"&lt;/span&gt; &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;--cfg-scale&lt;/span&gt; 1.0 &lt;span class="nt"&gt;--steps&lt;/span&gt; 4 &lt;span class="nt"&gt;--clip-on-cpu&lt;/span&gt; &lt;span class="nt"&gt;--vae-on-cpu&lt;/span&gt; &lt;span class="nt"&gt;--vae-tiling&lt;/span&gt;

&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;&lt;code&gt;--vae-on-cpu&lt;/code&gt; 和 &lt;code&gt;--vae-tiling&lt;/code&gt; 是必须的。否则会立刻出现 &lt;code&gt;DeviceMemoryAllocation&lt;/code&gt; 错误。&lt;/p&gt;

&lt;h2&gt;
  
  
  性能基准测试 (Benchmarks)
&lt;/h2&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;工作负载&lt;/th&gt;
&lt;th&gt;后端&lt;/th&gt;
&lt;th&gt;结果&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;LLM 推理&lt;/td&gt;
&lt;td&gt;仅 CPU&lt;/td&gt;
&lt;td&gt;3–5 tokens/s ❌&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;LLM 推理&lt;/td&gt;
&lt;td&gt;RX 580 Vulkan&lt;/td&gt;
&lt;td&gt;15–16 tokens/s ✅&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;SD 1.5 20步&lt;/td&gt;
&lt;td&gt;DirectML&lt;/td&gt;
&lt;td&gt;~450s + 崩溃 ❌&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;SD 1.5 20步&lt;/td&gt;
&lt;td&gt;Vulkan 原生&lt;/td&gt;
&lt;td&gt;~72s ✅&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Flux 1024x1024&lt;/td&gt;
&lt;td&gt;Xeon CPU WSL2&lt;/td&gt;
&lt;td&gt;~24 min ✅&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;&lt;em&gt;注：模型加载时间从 25 分钟 (HDD) 缩短至 4 分钟 (NVMe)。&lt;/em&gt;&lt;/p&gt;

&lt;h2&gt;
  
  
  服务拓扑结构
&lt;/h2&gt;



&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;OpenWebUI Docker :3000
  ├── llama-server.exe :8081  (Vulkan — RX 580)
  ├── sd-server.exe    :7860  (Vulkan — RX 580)
  └── ComfyUI          :8188  (CPU — Xeon WSL2)

&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;h2&gt;
  
  
  资源
&lt;/h2&gt;

&lt;p&gt;完整文档、编排脚本 &lt;code&gt;.bat&lt;/code&gt; 和已编译二进制文件：&lt;br&gt;
👉 &lt;a href="https://setup-ia-local-rx580-vulkan.firebaseapp.com/" rel="noopener noreferrer"&gt;https://setup-ia-local-rx580-vulkan.firebaseapp.com/&lt;/a&gt;&lt;/p&gt;




&lt;p&gt;&lt;strong&gt;硬件不会死亡，只是需要正确的软件来释放它的潜能。&lt;/strong&gt; &lt;em&gt;你也在用 AMD 旧卡运行 AI 吗？欢迎在评论区讨论关于缓冲区分配和指令队列延迟的见解。&lt;/em&gt;&lt;/p&gt;




&lt;p&gt;&lt;strong&gt;发布建议：&lt;/strong&gt; 在 Dev.to 上发布时，请添加标签：&lt;code&gt;china&lt;/code&gt;, &lt;code&gt;ai&lt;/code&gt;, &lt;code&gt;hardware&lt;/code&gt;, &lt;code&gt;amd&lt;/code&gt;, &lt;code&gt;vulkan&lt;/code&gt;。&lt;/p&gt;

</description>
      <category>ai</category>
      <category>webdev</category>
      <category>programming</category>
      <category>productivity</category>
    </item>
    <item>
      <title>Запуск Flux Schnell (12B) + LLM на устаревшей AMD RX 580 (8 ГБ) через Vulkan — Полное архитектурное руководство [2026]</title>
      <dc:creator>AIVisionsLab</dc:creator>
      <pubDate>Fri, 22 May 2026 18:24:02 +0000</pubDate>
      <link>https://dev.to/aivisionslab/zapusk-flux-schnell-12b-llm-na-ustarievshiei-amd-rx-580-8-gb-chieriez-vulkan-polnoie-arkhitiekturnoie-273d</link>
      <guid>https://dev.to/aivisionslab/zapusk-flux-schnell-12b-llm-na-ustarievshiei-amd-rx-580-8-gb-chieriez-vulkan-polnoie-arkhitiekturnoie-273d</guid>
      <description>&lt;p&gt;Многие считали, что RX 580 «мертва» для ИИ в 2026 году. Экосистемы, завязанные только на CUDA, прекращение поддержки Polaris в ROCm начиная с версии 5.x, и DirectML, который так и не был доведен до ума. Это подробный технический отчет о том, как мы доказали обратное.&lt;/p&gt;

&lt;h2&gt;
  
  
  Аппаратное обеспечение
&lt;/h2&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;GPU:&lt;/strong&gt; AMD RX 580 2048SP — 8 ГБ GDDR5 VRAM (нативная поддержка Vulkan 1.x)&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;CPU:&lt;/strong&gt; Intel Xeon E5-2690 v3 — 12 ядер/24 потока @ 3.5 ГГц boost&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;RAM:&lt;/strong&gt; 32 ГБ DDR4 REG ECC Quad Channel&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Накопитель:&lt;/strong&gt; NVMe 1 ТБ (критически важно для устранения «узких мест»)&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;ОС:&lt;/strong&gt; Windows 10 Pro + WSL2 Ubuntu 22.04.5&lt;/li&gt;
&lt;/ul&gt;

&lt;h2&gt;
  
  
  Почему другие решения не работают?
&lt;/h2&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Решение&lt;/th&gt;
&lt;th&gt;Статус&lt;/th&gt;
&lt;th&gt;Причина&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;CUDA&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;❌&lt;/td&gt;
&lt;td&gt;Только для Nvidia&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;ROCm&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;❌&lt;/td&gt;
&lt;td&gt;Поддержка Polaris прекращена в v5.x&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;DirectML&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;❌&lt;/td&gt;
&lt;td&gt;Ошибка &lt;code&gt;OpaqueTensorImpl&lt;/code&gt; в CLIPTextEncode&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;OpenVINO&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;❌&lt;/td&gt;
&lt;td&gt;Отсутствие модулей &lt;code&gt;ldm/sgm&lt;/code&gt; в Forge&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;Фатальная ошибка DirectML:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;NotImplementedError: Cannot access storage of OpaqueTensorImpl

&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;Драйвер упаковывает память в непрозрачные тензоры (opaque tensors), которые бэкенды внимания ComfyUI не могут считать. Это тупик.&lt;/p&gt;

&lt;h2&gt;
  
  
  Решение — Двухуровневая архитектура
&lt;/h2&gt;

&lt;h3&gt;
  
  
  ПУТЬ 1 — GPU Vulkan (ускорение RX 580)
&lt;/h3&gt;

&lt;p&gt;Нативная сборка &lt;code&gt;stable-diffusion.cpp&lt;/code&gt;, скомпилированная с &lt;code&gt;-DGGML_VULKAN=ON&lt;/code&gt;. Движок &lt;code&gt;ggml&lt;/code&gt; работает напрямую с GPU без необходимости в ROCm или CUDA. Модели SD 1.5 GGUF генерируют изображение примерно за 72 секунды.&lt;/p&gt;

&lt;h3&gt;
  
  
  ПУТЬ 2 — CPU Xeon (тяжелые SOTA модели)
&lt;/h3&gt;

&lt;p&gt;FLUX.1 Schnell (16 ГБ) превышает объем физической VRAM. ComfyUI работает через CPU внутри WSL2, используя ECC RAM в качестве стабильной виртуальной VRAM. Генерация 768x768 занимает ~24 минуты.&lt;/p&gt;

&lt;h3&gt;
  
  
  Гибридная сегментация памяти (Flux 12B Q4_K)
&lt;/h3&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Компонент&lt;/th&gt;
&lt;th&gt;Файл&lt;/th&gt;
&lt;th&gt;Выделение памяти&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;Diffusion Model&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;flux1-schnell-q4_k.gguf&lt;/td&gt;
&lt;td&gt;GPU VRAM ~6.5 ГБ&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;VAE&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;ae.safetensors&lt;/td&gt;
&lt;td&gt;CPU RAM ~160 МБ&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;CLIP L&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;clip_l.safetensors&lt;/td&gt;
&lt;td&gt;GPU VRAM ~235 МБ&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;T5XXL&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;t5xxl_fp16.safetensors&lt;/td&gt;
&lt;td&gt;CPU RAM ~9.3 ГБ&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;h2&gt;
  
  
  Команда для запуска
&lt;/h2&gt;



&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight shell"&gt;&lt;code&gt;sd-server.exe &lt;span class="nt"&gt;--listen-ip&lt;/span&gt; 0.0.0.0 &lt;span class="nt"&gt;--listen-port&lt;/span&gt; 7860 &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;--diffusion-model&lt;/span&gt; &lt;span class="s2"&gt;"E:&lt;/span&gt;&lt;span class="se"&gt;\m&lt;/span&gt;&lt;span class="s2"&gt;odels&lt;/span&gt;&lt;span class="se"&gt;\f&lt;/span&gt;&lt;span class="s2"&gt;lux1-schnell-q4_k.gguf"&lt;/span&gt; &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;--vae&lt;/span&gt; &lt;span class="s2"&gt;"E:&lt;/span&gt;&lt;span class="se"&gt;\m&lt;/span&gt;&lt;span class="s2"&gt;odels&lt;/span&gt;&lt;span class="se"&gt;\a&lt;/span&gt;&lt;span class="s2"&gt;e.safetensors"&lt;/span&gt; &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;--clip_l&lt;/span&gt; &lt;span class="s2"&gt;"E:&lt;/span&gt;&lt;span class="se"&gt;\m&lt;/span&gt;&lt;span class="s2"&gt;odels&lt;/span&gt;&lt;span class="se"&gt;\c&lt;/span&gt;&lt;span class="s2"&gt;lip_l.safetensors"&lt;/span&gt; &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;--t5xxl&lt;/span&gt; &lt;span class="s2"&gt;"E:&lt;/span&gt;&lt;span class="se"&gt;\m&lt;/span&gt;&lt;span class="s2"&gt;odels&lt;/span&gt;&lt;span class="se"&gt;\t&lt;/span&gt;&lt;span class="s2"&gt;5xxl_fp16.safetensors"&lt;/span&gt; &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;--cfg-scale&lt;/span&gt; 1.0 &lt;span class="nt"&gt;--steps&lt;/span&gt; 4 &lt;span class="nt"&gt;--clip-on-cpu&lt;/span&gt; &lt;span class="nt"&gt;--vae-on-cpu&lt;/span&gt; &lt;span class="nt"&gt;--vae-tiling&lt;/span&gt;

&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;&lt;code&gt;--vae-on-cpu&lt;/code&gt; и &lt;code&gt;--vae-tiling&lt;/code&gt; обязательны. Без них ошибка &lt;code&gt;DeviceMemoryAllocation&lt;/code&gt; возникает мгновенно.&lt;/p&gt;

&lt;h2&gt;
  
  
  Бенчмарки
&lt;/h2&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Задача&lt;/th&gt;
&lt;th&gt;Бэкенд&lt;/th&gt;
&lt;th&gt;Результат&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;LLM инференс&lt;/td&gt;
&lt;td&gt;Только CPU&lt;/td&gt;
&lt;td&gt;3–5 токенов/с ❌&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;LLM инференс&lt;/td&gt;
&lt;td&gt;RX 580 Vulkan&lt;/td&gt;
&lt;td&gt;15–16 токенов/с ✅&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;SD 1.5 20 шагов&lt;/td&gt;
&lt;td&gt;DirectML&lt;/td&gt;
&lt;td&gt;~450с + сбой ❌&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;SD 1.5 20 шагов&lt;/td&gt;
&lt;td&gt;Vulkan натив&lt;/td&gt;
&lt;td&gt;~72с ✅&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Flux 1024x1024&lt;/td&gt;
&lt;td&gt;Xeon CPU WSL2&lt;/td&gt;
&lt;td&gt;~24 мин ✅&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;&lt;em&gt;Примечание: Время загрузки моделей сократилось с 25 мин (HDD) до 4 мин (NVMe).&lt;/em&gt;&lt;/p&gt;

&lt;h2&gt;
  
  
  Карта сервисов
&lt;/h2&gt;



&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;OpenWebUI Docker :3000
  ├── llama-server.exe :8081  (Vulkan — RX 580)
  ├── sd-server.exe    :7860  (Vulkan — RX 580)
  └── ComfyUI          :8188  (CPU — Xeon WSL2)

&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;h2&gt;
  
  
  Ресурсы
&lt;/h2&gt;

&lt;p&gt;Полная документация, &lt;code&gt;.bat&lt;/code&gt; скрипты оркестрации и скомпилированные бинарные файлы:&lt;br&gt;
👉 &lt;a href="https://setup-ia-local-rx580-vulkan.firebaseapp.com/" rel="noopener noreferrer"&gt;https://setup-ia-local-rx580-vulkan.firebaseapp.com/&lt;/a&gt;&lt;/p&gt;




&lt;p&gt;&lt;strong&gt;Железо не умирает. Оно просто получает вторую жизнь благодаря правильному ПО.&lt;/strong&gt; &lt;em&gt;Используете старые карты AMD для ИИ? Давайте обсудим оптимизацию буферов и задержки в комментариях.&lt;/em&gt;&lt;/p&gt;




&lt;p&gt;&lt;strong&gt;Совет:&lt;/strong&gt; Для тегов на Dev.to используйте: &lt;code&gt;russia&lt;/code&gt;, &lt;code&gt;ai&lt;/code&gt;, &lt;code&gt;hardware&lt;/code&gt;, &lt;code&gt;amd&lt;/code&gt;, &lt;code&gt;vulkan&lt;/code&gt;.&lt;/p&gt;

</description>
      <category>ai</category>
      <category>devops</category>
      <category>opensource</category>
      <category>tutorial</category>
    </item>
    <item>
      <title>Faire tourner Flux Schnell (12B) + LLMs sur une ancienne AMD RX 580 (8 Go) via Vulkan — Guide d'architecture complet [2026]</title>
      <dc:creator>AIVisionsLab</dc:creator>
      <pubDate>Fri, 22 May 2026 18:19:48 +0000</pubDate>
      <link>https://dev.to/aivisionslab/faire-tourner-flux-schnell-12b-llms-sur-une-ancienne-amd-rx-580-8-go-via-vulkan-guide-1pfh</link>
      <guid>https://dev.to/aivisionslab/faire-tourner-flux-schnell-12b-llms-sur-une-ancienne-amd-rx-580-8-go-via-vulkan-guide-1pfh</guid>
      <description>&lt;p&gt;On a dit à beaucoup de monde que la RX 580 était "morte" pour l'IA en 2026. Écosystèmes exclusivement CUDA, abandon du support Polaris par ROCm depuis la v5.x, et DirectML qui n'a jamais atteint sa maturité. Voici l'analyse technique détaillée de la façon dont nous avons prouvé le contraire.&lt;/p&gt;

&lt;h2&gt;
  
  
  Setup matériel
&lt;/h2&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;GPU :&lt;/strong&gt; AMD RX 580 2048SP — 8 Go GDDR5 VRAM (support natif Vulkan 1.x)&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;CPU :&lt;/strong&gt; Intel Xeon E5-2690 v3 — 12c/24t @ 3.5GHz boost&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;RAM :&lt;/strong&gt; 32 Go DDR4 REG ECC Quad Channel&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Stockage :&lt;/strong&gt; NVMe 1 To (indispensable pour supprimer les goulots d'étranglement)&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;OS :&lt;/strong&gt; Windows 10 Pro + WSL2 Ubuntu 22.04.5&lt;/li&gt;
&lt;/ul&gt;

&lt;h2&gt;
  
  
  Pourquoi les autres solutions échouent ?
&lt;/h2&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Solution&lt;/th&gt;
&lt;th&gt;État&lt;/th&gt;
&lt;th&gt;Raison&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;CUDA&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;❌&lt;/td&gt;
&lt;td&gt;Exclusif Nvidia&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;ROCm&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;❌&lt;/td&gt;
&lt;td&gt;Support Polaris arrêté à la v5.x&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;DirectML&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;❌&lt;/td&gt;
&lt;td&gt;Erreur &lt;code&gt;OpaqueTensorImpl&lt;/code&gt; sur CLIPTextEncode&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;OpenVINO&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;❌&lt;/td&gt;
&lt;td&gt;Modules &lt;code&gt;ldm/sgm&lt;/code&gt; manquants sur Forge&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;L'erreur fatale de DirectML :&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;NotImplementedError: Cannot access storage of OpaqueTensorImpl

&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;Le pilote encapsule la mémoire dans des tenseurs opaques que les backends d'attention de ComfyUI ne peuvent pas lire. C'est une impasse.&lt;/p&gt;

&lt;h2&gt;
  
  
  La Solution — Architecture Duale
&lt;/h2&gt;

&lt;h3&gt;
  
  
  CHEMIN 1 — GPU Vulkan (Accélération RX 580)
&lt;/h3&gt;

&lt;p&gt;Build native de &lt;code&gt;stable-diffusion.cpp&lt;/code&gt; compilée avec &lt;code&gt;-DGGML_VULKAN=ON&lt;/code&gt;. Le moteur &lt;code&gt;ggml&lt;/code&gt; mappe directement vers le GPU sans dépendre de ROCm ou CUDA. Les modèles SD 1.5 GGUF tournent en ~72 secondes.&lt;/p&gt;

&lt;h3&gt;
  
  
  CHEMIN 2 — CPU Xeon (Modèles lourds SOTA)
&lt;/h3&gt;

&lt;p&gt;FLUX.1 Schnell (16 Go) dépasse la VRAM physique. ComfyUI tourne via CPU dans WSL2, en utilisant la RAM ECC comme une VRAM virtuelle stable. Génération 768x768 en ~24 minutes.&lt;/p&gt;

&lt;h3&gt;
  
  
  Segmentation de mémoire hybride (Flux 12B Q4_K)
&lt;/h3&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Composant&lt;/th&gt;
&lt;th&gt;Fichier&lt;/th&gt;
&lt;th&gt;Allocation&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;Modèle Diffusion&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;flux1-schnell-q4_k.gguf&lt;/td&gt;
&lt;td&gt;GPU VRAM ~6.5 Go&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;VAE&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;ae.safetensors&lt;/td&gt;
&lt;td&gt;CPU RAM ~160 Mo&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;CLIP L&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;clip_l.safetensors&lt;/td&gt;
&lt;td&gt;GPU VRAM ~235 Mo&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;T5XXL&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;t5xxl_fp16.safetensors&lt;/td&gt;
&lt;td&gt;CPU RAM ~9.3 Go&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;h2&gt;
  
  
  Commande de production
&lt;/h2&gt;



&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight shell"&gt;&lt;code&gt;sd-server.exe &lt;span class="nt"&gt;--listen-ip&lt;/span&gt; 0.0.0.0 &lt;span class="nt"&gt;--listen-port&lt;/span&gt; 7860 &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;--diffusion-model&lt;/span&gt; &lt;span class="s2"&gt;"E:&lt;/span&gt;&lt;span class="se"&gt;\m&lt;/span&gt;&lt;span class="s2"&gt;odels&lt;/span&gt;&lt;span class="se"&gt;\f&lt;/span&gt;&lt;span class="s2"&gt;lux1-schnell-q4_k.gguf"&lt;/span&gt; &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;--vae&lt;/span&gt; &lt;span class="s2"&gt;"E:&lt;/span&gt;&lt;span class="se"&gt;\m&lt;/span&gt;&lt;span class="s2"&gt;odels&lt;/span&gt;&lt;span class="se"&gt;\a&lt;/span&gt;&lt;span class="s2"&gt;e.safetensors"&lt;/span&gt; &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;--clip_l&lt;/span&gt; &lt;span class="s2"&gt;"E:&lt;/span&gt;&lt;span class="se"&gt;\m&lt;/span&gt;&lt;span class="s2"&gt;odels&lt;/span&gt;&lt;span class="se"&gt;\c&lt;/span&gt;&lt;span class="s2"&gt;lip_l.safetensors"&lt;/span&gt; &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;--t5xxl&lt;/span&gt; &lt;span class="s2"&gt;"E:&lt;/span&gt;&lt;span class="se"&gt;\m&lt;/span&gt;&lt;span class="s2"&gt;odels&lt;/span&gt;&lt;span class="se"&gt;\t&lt;/span&gt;&lt;span class="s2"&gt;5xxl_fp16.safetensors"&lt;/span&gt; &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;--cfg-scale&lt;/span&gt; 1.0 &lt;span class="nt"&gt;--steps&lt;/span&gt; 4 &lt;span class="nt"&gt;--clip-on-cpu&lt;/span&gt; &lt;span class="nt"&gt;--vae-on-cpu&lt;/span&gt; &lt;span class="nt"&gt;--vae-tiling&lt;/span&gt;

&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;&lt;code&gt;--vae-on-cpu&lt;/code&gt; et &lt;code&gt;--vae-tiling&lt;/code&gt; sont obligatoires. Sans eux, le crash &lt;code&gt;DeviceMemoryAllocation&lt;/code&gt; est immédiat.&lt;/p&gt;

&lt;h2&gt;
  
  
  Benchmarks réels
&lt;/h2&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Charge de travail&lt;/th&gt;
&lt;th&gt;Backend&lt;/th&gt;
&lt;th&gt;Résultat&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;Inférence LLM&lt;/td&gt;
&lt;td&gt;CPU seulement&lt;/td&gt;
&lt;td&gt;3–5 tokens/s ❌&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Inférence LLM&lt;/td&gt;
&lt;td&gt;RX 580 Vulkan&lt;/td&gt;
&lt;td&gt;15–16 tokens/s ✅&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;SD 1.5 20 steps&lt;/td&gt;
&lt;td&gt;DirectML&lt;/td&gt;
&lt;td&gt;~450s + crash ❌&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;SD 1.5 20 steps&lt;/td&gt;
&lt;td&gt;Vulkan natif&lt;/td&gt;
&lt;td&gt;~72s ✅&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Flux 1024x1024&lt;/td&gt;
&lt;td&gt;Xeon CPU WSL2&lt;/td&gt;
&lt;td&gt;~24 min ✅&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;&lt;em&gt;Note : Le temps de chargement des modèles est passé de 25 min (HDD) à 4 min (NVMe).&lt;/em&gt;&lt;/p&gt;

&lt;h2&gt;
  
  
  Architecture des services
&lt;/h2&gt;



&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;OpenWebUI Docker :3000
  ├── llama-server.exe :8081  (Vulkan — RX 580)
  ├── sd-server.exe    :7860  (Vulkan — RX 580)
  └── ComfyUI          :8188  (CPU — Xeon WSL2)

&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;h2&gt;
  
  
  Ressources
&lt;/h2&gt;

&lt;p&gt;Documentation complète, scripts d'orchestration &lt;code&gt;.bat&lt;/code&gt; et binaires compilés :&lt;br&gt;
👉 &lt;a href="https://setup-ia-local-rx580-vulkan.firebaseapp.com/" rel="noopener noreferrer"&gt;https://setup-ia-local-rx580-vulkan.firebaseapp.com/&lt;/a&gt;&lt;/p&gt;

</description>
      <category>ai</category>
      <category>webdev</category>
      <category>productivity</category>
      <category>beginners</category>
    </item>
    <item>
      <title>Rodando Flux Schnell (12B) + LLMs na lendária RX 580 (8GB) via Vulkan — Guia de Arquitetura [2026]</title>
      <dc:creator>AIVisionsLab</dc:creator>
      <pubDate>Fri, 22 May 2026 18:17:43 +0000</pubDate>
      <link>https://dev.to/aivisionslab/rodando-flux-schnell-12b-llms-na-lendaria-rx-580-8gb-via-vulkan-guia-de-arquitetura-2026-3ig9</link>
      <guid>https://dev.to/aivisionslab/rodando-flux-schnell-12b-llms-na-lendaria-rx-580-8gb-via-vulkan-guia-de-arquitetura-2026-3ig9</guid>
      <description>&lt;p&gt;Muita gente disse que a RX 580 estava "morta" para IA em 2026. Ecossistemas focados apenas em CUDA, o ROCm abandonando o suporte à arquitetura Polaris na v5.x e o DirectML sendo deixado de lado antes mesmo de amadurecer. Este é o relato técnico de como provamos que eles estavam errados.&lt;/p&gt;

&lt;h2&gt;
  
  
  Setup de Hardware
&lt;/h2&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;GPU:&lt;/strong&gt; AMD RX 580 2048SP — 8GB GDDR5 VRAM (Suporte nativo a Vulkan 1.x)&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;CPU:&lt;/strong&gt; Intel Xeon E5-2690 v3 — 12c/24t @ 3.5GHz boost&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;RAM:&lt;/strong&gt; 32GB DDR4 REG ECC Quad Channel&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Armazenamento:&lt;/strong&gt; NVMe 1TB (Essencial para remover gargalos)&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;OS:&lt;/strong&gt; Windows 10 Pro + WSL2 Ubuntu 22.04.5&lt;/li&gt;
&lt;/ul&gt;

&lt;h2&gt;
  
  
  Por que as outras soluções falharam?
&lt;/h2&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Solução&lt;/th&gt;
&lt;th&gt;Status&lt;/th&gt;
&lt;th&gt;Motivo&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;CUDA&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;❌&lt;/td&gt;
&lt;td&gt;Exclusivo para Nvidia&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;ROCm&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;❌&lt;/td&gt;
&lt;td&gt;Suporte à Polaris encerrado na v5.x&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;DirectML&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;❌&lt;/td&gt;
&lt;td&gt;Erro &lt;code&gt;OpaqueTensorImpl&lt;/code&gt; no CLIPTextEncode&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;OpenVINO&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;❌&lt;/td&gt;
&lt;td&gt;Módulos &lt;code&gt;ldm/sgm&lt;/code&gt; ausentes no Forge&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;O erro fatal do DirectML:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;NotImplementedError: Cannot access storage of OpaqueTensorImpl

&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;O driver encapsula a memória em tensores opacos que os backends de atenção do ComfyUI não conseguem ler.&lt;/p&gt;

&lt;h2&gt;
  
  
  A Solução — Arquitetura Dual
&lt;/h2&gt;

&lt;h3&gt;
  
  
  CAMINHO 1 — GPU Vulkan (Aceleração RX 580)
&lt;/h3&gt;

&lt;p&gt;Build nativa do &lt;code&gt;stable-diffusion.cpp&lt;/code&gt; compilada com &lt;code&gt;-DGGML_VULKAN=ON&lt;/code&gt;. O motor &lt;code&gt;ggml&lt;/code&gt; mapeia diretamente para a GPU sem precisar de ROCm ou CUDA. Modelos SD 1.5 GGUF renderizam em ~72 segundos.&lt;/p&gt;

&lt;h3&gt;
  
  
  CAMINHO 2 — CPU Xeon (Modelos pesados SOTA)
&lt;/h3&gt;

&lt;p&gt;O FLUX.1 Schnell (16GB) excede a VRAM física. O ComfyUI roda via CPU dentro do WSL2, usando a RAM ECC como uma VRAM virtual estável. Geração completa em 768x768 em ~24 minutos.&lt;/p&gt;

&lt;h3&gt;
  
  
  Segmentação de Memória Híbrida (Flux 12B Q4_K)
&lt;/h3&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Componente&lt;/th&gt;
&lt;th&gt;Arquivo&lt;/th&gt;
&lt;th&gt;Alocação&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;Modelo Difusão&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;flux1-schnell-q4_k.gguf&lt;/td&gt;
&lt;td&gt;GPU VRAM ~6.5GB&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;VAE&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;ae.safetensors&lt;/td&gt;
&lt;td&gt;CPU RAM ~160MB&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;CLIP L&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;clip_l.safetensors&lt;/td&gt;
&lt;td&gt;GPU VRAM ~235MB&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;T5XXL&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;t5xxl_fp16.safetensors&lt;/td&gt;
&lt;td&gt;CPU RAM ~9.3GB&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;h2&gt;
  
  
  Comando de Produção
&lt;/h2&gt;



&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight shell"&gt;&lt;code&gt;sd-server.exe &lt;span class="nt"&gt;--listen-ip&lt;/span&gt; 0.0.0.0 &lt;span class="nt"&gt;--listen-port&lt;/span&gt; 7860 &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;--diffusion-model&lt;/span&gt; &lt;span class="s2"&gt;"E:&lt;/span&gt;&lt;span class="se"&gt;\m&lt;/span&gt;&lt;span class="s2"&gt;odels&lt;/span&gt;&lt;span class="se"&gt;\f&lt;/span&gt;&lt;span class="s2"&gt;lux1-schnell-q4_k.gguf"&lt;/span&gt; &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;--vae&lt;/span&gt; &lt;span class="s2"&gt;"E:&lt;/span&gt;&lt;span class="se"&gt;\m&lt;/span&gt;&lt;span class="s2"&gt;odels&lt;/span&gt;&lt;span class="se"&gt;\a&lt;/span&gt;&lt;span class="s2"&gt;e.safetensors"&lt;/span&gt; &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;--clip_l&lt;/span&gt; &lt;span class="s2"&gt;"E:&lt;/span&gt;&lt;span class="se"&gt;\m&lt;/span&gt;&lt;span class="s2"&gt;odels&lt;/span&gt;&lt;span class="se"&gt;\c&lt;/span&gt;&lt;span class="s2"&gt;lip_l.safetensors"&lt;/span&gt; &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;--t5xxl&lt;/span&gt; &lt;span class="s2"&gt;"E:&lt;/span&gt;&lt;span class="se"&gt;\m&lt;/span&gt;&lt;span class="s2"&gt;odels&lt;/span&gt;&lt;span class="se"&gt;\t&lt;/span&gt;&lt;span class="s2"&gt;5xxl_fp16.safetensors"&lt;/span&gt; &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;--cfg-scale&lt;/span&gt; 1.0 &lt;span class="nt"&gt;--steps&lt;/span&gt; 4 &lt;span class="nt"&gt;--clip-on-cpu&lt;/span&gt; &lt;span class="nt"&gt;--vae-on-cpu&lt;/span&gt; &lt;span class="nt"&gt;--vae-tiling&lt;/span&gt;

&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;&lt;code&gt;--vae-on-cpu&lt;/code&gt; e &lt;code&gt;--vae-tiling&lt;/code&gt; são obrigatórios. Sem eles, o crash &lt;code&gt;DeviceMemoryAllocation&lt;/code&gt; é instantâneo.&lt;/p&gt;

&lt;h2&gt;
  
  
  Benchmarks Reais
&lt;/h2&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Carga de Trabalho&lt;/th&gt;
&lt;th&gt;Backend&lt;/th&gt;
&lt;th&gt;Resultado&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;Inferência LLM&lt;/td&gt;
&lt;td&gt;CPU apenas&lt;/td&gt;
&lt;td&gt;3–5 tokens/s ❌&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Inferência LLM&lt;/td&gt;
&lt;td&gt;RX 580 Vulkan&lt;/td&gt;
&lt;td&gt;15–16 tokens/s ✅&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;SD 1.5 20 steps&lt;/td&gt;
&lt;td&gt;DirectML&lt;/td&gt;
&lt;td&gt;~450s + crash ❌&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;SD 1.5 20 steps&lt;/td&gt;
&lt;td&gt;Vulkan nativo&lt;/td&gt;
&lt;td&gt;~72s ✅&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Flux 1024x1024&lt;/td&gt;
&lt;td&gt;Xeon CPU WSL2&lt;/td&gt;
&lt;td&gt;~24 min ✅&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;&lt;em&gt;Nota: O tempo de carregamento de modelo caiu de 25 min (HDD) para 4 min (NVMe).&lt;/em&gt;&lt;/p&gt;

&lt;h2&gt;
  
  
  Mapa de Serviços
&lt;/h2&gt;



&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;OpenWebUI Docker :3000
  ├── llama-server.exe :8081  (Vulkan — RX 580)
  ├── sd-server.exe    :7860  (Vulkan — RX 580)
  └── ComfyUI          :8188  (CPU — Xeon WSL2)

&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;h2&gt;
  
  
  Recursos
&lt;/h2&gt;

&lt;p&gt;Documentação completa, scripts de orquestração &lt;code&gt;.bat&lt;/code&gt; e binários compilados:&lt;br&gt;
👉 &lt;a href="https://setup-ia-local-rx580-vulkan.firebaseapp.com/" rel="noopener noreferrer"&gt;https://setup-ia-local-rx580-vulkan.firebaseapp.com/&lt;/a&gt;&lt;/p&gt;




&lt;p&gt;&lt;strong&gt;Hardware não morre. Ele é apenas libertado pelo software correto.&lt;/strong&gt; &lt;em&gt;Você roda modelos em GPUs AMD legadas? Vamos discutir suas otimizações de buffer nos comentários.&lt;/em&gt;&lt;/p&gt;

</description>
      <category>ai</category>
      <category>webdev</category>
      <category>programming</category>
      <category>javascript</category>
    </item>
    <item>
      <title>Running Flux Schnell (12B) + LLMs on a Legacy AMD RX 580 (8GB) via Native Vulkan — Full Architecture Guide [2026]</title>
      <dc:creator>AIVisionsLab</dc:creator>
      <pubDate>Fri, 22 May 2026 18:09:52 +0000</pubDate>
      <link>https://dev.to/aivisionslab/running-flux-schnell-12b-llms-on-a-legacy-amd-rx-580-8gb-via-native-vulkan-full-1aa8</link>
      <guid>https://dev.to/aivisionslab/running-flux-schnell-12b-llms-on-a-legacy-amd-rx-580-8gb-via-native-vulkan-full-1aa8</guid>
      <description>&lt;p&gt;Most people were told the RX 580 was dead for AI in 2026. CUDA-only ecosystems, ROCm dropping Polaris support at v5.x, DirectML abandoned before it matured. This is the full technical breakdown of how we proved that wrong.&lt;/p&gt;

&lt;h2&gt;
  
  
  Hardware Setup
&lt;/h2&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;GPU:&lt;/strong&gt; AMD RX 580 2048SP — 8GB GDDR5 VRAM (Vulkan 1.x native)&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;CPU:&lt;/strong&gt; Intel Xeon E5-2690 v3 — 12c/24t @ 3.5GHz boost&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;RAM:&lt;/strong&gt; 32GB DDR4 REG ECC Quad Channel&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Storage:&lt;/strong&gt; NVMe 1TB — &lt;strong&gt;critical bottleneck fix&lt;/strong&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;OS:&lt;/strong&gt; Windows 10 Pro + WSL2 Ubuntu 22.04.5&lt;/li&gt;
&lt;/ul&gt;

&lt;h2&gt;
  
  
  Why everything else failed
&lt;/h2&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Solution&lt;/th&gt;
&lt;th&gt;Status&lt;/th&gt;
&lt;th&gt;Reason&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;CUDA&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;❌&lt;/td&gt;
&lt;td&gt;Nvidia-only&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;ROCm&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;❌&lt;/td&gt;
&lt;td&gt;Dropped Polaris at v5.x&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;DirectML&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;❌&lt;/td&gt;
&lt;td&gt;OpaqueTensorImpl crash on CLIPTextEncode&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;OpenVINO&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;❌&lt;/td&gt;
&lt;td&gt;ldm/sgm modules missing on Forge&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;h3&gt;
  
  
  DirectML's fatal error:
&lt;/h3&gt;



&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;NotImplementedError: Cannot access storage of OpaqueTensorImpl

&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;The driver wraps memory in opaque tensors that ComfyUI's attention backends can't read. It's a dead end.&lt;/p&gt;

&lt;h2&gt;
  
  
  The Solution — Dual Architecture
&lt;/h2&gt;

&lt;h3&gt;
  
  
  PATH 1 — GPU Vulkan (RX 580 acceleration)
&lt;/h3&gt;

&lt;p&gt;Native build of &lt;code&gt;stable-diffusion.cpp&lt;/code&gt; compiled with &lt;code&gt;-DGGML_VULKAN=ON&lt;/code&gt;. The ggml engine maps directly to the GPU without ROCm or CUDA. SD 1.5 GGUF models render in ~72 seconds.&lt;/p&gt;

&lt;h3&gt;
  
  
  PATH 2 — CPU Xeon (SOTA heavy models)
&lt;/h3&gt;

&lt;p&gt;FLUX.1 Schnell at 16GB exceeds physical VRAM. ComfyUI runs via CPU inside WSL2, using ECC RAM as stable virtual VRAM. Full 768x768 generation in ~24 minutes.&lt;/p&gt;

&lt;h3&gt;
  
  
  Hybrid Memory Segmentation for Flux (12B Q4_K)
&lt;/h3&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Component&lt;/th&gt;
&lt;th&gt;File&lt;/th&gt;
&lt;th&gt;Allocation Size&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;Diffusion Model&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;flux1-schnell-q4_k.gguf&lt;/td&gt;
&lt;td&gt;GPU VRAM ~6.5GB&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;VAE&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;ae.safetensors&lt;/td&gt;
&lt;td&gt;CPU RAM ~160MB&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;CLIP L&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;clip_l.safetensors&lt;/td&gt;
&lt;td&gt;GPU VRAM ~235MB&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;T5XXL&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;t5xxl_fp16.safetensors&lt;/td&gt;
&lt;td&gt;CPU RAM ~9.3GB&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;h2&gt;
  
  
  Production command
&lt;/h2&gt;



&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight shell"&gt;&lt;code&gt;sd-server.exe &lt;span class="nt"&gt;--listen-ip&lt;/span&gt; 0.0.0.0 &lt;span class="nt"&gt;--listen-port&lt;/span&gt; 7860 &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;--diffusion-model&lt;/span&gt; &lt;span class="s2"&gt;"E:&lt;/span&gt;&lt;span class="se"&gt;\m&lt;/span&gt;&lt;span class="s2"&gt;odels&lt;/span&gt;&lt;span class="se"&gt;\f&lt;/span&gt;&lt;span class="s2"&gt;lux1-schnell-q4_k.gguf"&lt;/span&gt; &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;--vae&lt;/span&gt; &lt;span class="s2"&gt;"E:&lt;/span&gt;&lt;span class="se"&gt;\m&lt;/span&gt;&lt;span class="s2"&gt;odels&lt;/span&gt;&lt;span class="se"&gt;\a&lt;/span&gt;&lt;span class="s2"&gt;e.safetensors"&lt;/span&gt; &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;--clip_l&lt;/span&gt; &lt;span class="s2"&gt;"E:&lt;/span&gt;&lt;span class="se"&gt;\m&lt;/span&gt;&lt;span class="s2"&gt;odels&lt;/span&gt;&lt;span class="se"&gt;\c&lt;/span&gt;&lt;span class="s2"&gt;lip_l.safetensors"&lt;/span&gt; &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;--t5xxl&lt;/span&gt; &lt;span class="s2"&gt;"E:&lt;/span&gt;&lt;span class="se"&gt;\m&lt;/span&gt;&lt;span class="s2"&gt;odels&lt;/span&gt;&lt;span class="se"&gt;\t&lt;/span&gt;&lt;span class="s2"&gt;5xxl_fp16.safetensors"&lt;/span&gt; &lt;span class="se"&gt;\&lt;/span&gt;
  &lt;span class="nt"&gt;--cfg-scale&lt;/span&gt; 1.0 &lt;span class="nt"&gt;--steps&lt;/span&gt; 4 &lt;span class="nt"&gt;--clip-on-cpu&lt;/span&gt; &lt;span class="nt"&gt;--vae-on-cpu&lt;/span&gt; &lt;span class="nt"&gt;--vae-tiling&lt;/span&gt;

&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;&lt;code&gt;--vae-on-cpu&lt;/code&gt; + &lt;code&gt;--vae-tiling&lt;/code&gt; are non-negotiable. Without them: instant &lt;code&gt;DeviceMemoryAllocation&lt;/code&gt; crash.&lt;/p&gt;

&lt;h2&gt;
  
  
  Real Benchmarks
&lt;/h2&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Workload&lt;/th&gt;
&lt;th&gt;Backend&lt;/th&gt;
&lt;th&gt;Result&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;LLM text inference&lt;/td&gt;
&lt;td&gt;CPU only&lt;/td&gt;
&lt;td&gt;3–5 tokens/s ❌&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;LLM text inference&lt;/td&gt;
&lt;td&gt;RX 580 Vulkan&lt;/td&gt;
&lt;td&gt;15–16 tokens/s ✅&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;SD 1.5 20 steps&lt;/td&gt;
&lt;td&gt;DirectML&lt;/td&gt;
&lt;td&gt;~450s + crash ❌&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;SD 1.5 20 steps&lt;/td&gt;
&lt;td&gt;Vulkan native&lt;/td&gt;
&lt;td&gt;~72s ✅&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Flux 1024x1024&lt;/td&gt;
&lt;td&gt;Xeon CPU WSL2&lt;/td&gt;
&lt;td&gt;~24 min ✅&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;&lt;strong&gt;NVMe impact:&lt;/strong&gt; Model load time dropped from 25 minutes (HDD) to 4 minutes (NVMe). For Flux 16GB: from 25 min to ~30 seconds. Storage is as critical as compute.&lt;/p&gt;

&lt;h2&gt;
  
  
  Service Map
&lt;/h2&gt;



&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;OpenWebUI Docker :3000
  ├── llama-server.exe :8081  (Vulkan — RX 580)
  ├── sd-server.exe    :7860  (Vulkan — RX 580)
  └── ComfyUI          :8188  (CPU — Xeon WSL2)

&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;h2&gt;
  
  
  Resources
&lt;/h2&gt;

&lt;p&gt;Full documentation, .bat orchestration scripts, compiled binaries and model configs:&lt;br&gt;
👉 &lt;a href="https://setup-ia-local-rx580-vulkan.firebaseapp.com/" rel="noopener noreferrer"&gt;https://setup-ia-local-rx580-vulkan.firebaseapp.com/&lt;/a&gt;&lt;/p&gt;




&lt;p&gt;&lt;strong&gt;Hardware doesn't die. It gets liberated by the right software.&lt;/strong&gt; &lt;em&gt;Are you running legacy AMD cards? Let's discuss your buffer allocation and command queue latency findings in the comments.&lt;/em&gt;&lt;/p&gt;

</description>
      <category>ai</category>
      <category>architecture</category>
      <category>llm</category>
      <category>tutorial</category>
    </item>
    <item>
      <title>Running Flux Schnell (12B) on a legacy AMD RX 580 (8GB) — 100% Local, No Cloud, No ROCm</title>
      <dc:creator>AIVisionsLab</dc:creator>
      <pubDate>Fri, 22 May 2026 18:02:26 +0000</pubDate>
      <link>https://dev.to/aivisionslab/running-flux-schnell-12b-on-a-legacy-amd-rx-580-8gb-100-local-no-cloud-no-rocm-9fa</link>
      <guid>https://dev.to/aivisionslab/running-flux-schnell-12b-on-a-legacy-amd-rx-580-8gb-100-local-no-cloud-no-rocm-9fa</guid>
      <description>&lt;p&gt;I've developed a specialized pipeline to run State-Of-The-Art local AI models on legacy hardware — specifically the AMD RX 580 (Polaris architecture, 8GB VRAM) — without cloud APIs, subscriptions, or ROCm overhead on Windows.&lt;br&gt;
The Problem:&lt;br&gt;
Most platform layers introduce abstraction overhead that immediately chokes an 8GB VRAM card, causing instant DeviceMemoryAllocation (OOM) crashes.&lt;br&gt;
The Solution — Hybrid Memory Segmentation:&lt;/p&gt;

&lt;p&gt;Backend: native build of stable-diffusion.cpp running directly over the Vulkan API&lt;br&gt;
Text encoders (clip_l + t5xxl_fp16) fully offloaded to host system RAM (~9.3GB)&lt;br&gt;
Quantized diffusion weights (flux1-schnell-q4_k.gguf) pinned inside GPU VRAM (~6.5GB)&lt;br&gt;
Flags: --vae-on-cpu + --vae-tiling for block-decoding, preventing OOM crashes at high resolution&lt;/p&gt;

&lt;p&gt;Orchestration:&lt;br&gt;
Custom modular .bat pipeline to clear ghost VRAM processes, spin up a headless ComfyUI instance on CPU (port 3030), and hook the sd-server.exe backend into a lightweight Vanilla JS/HTML5 dashboard hosted locally via Firebase.&lt;br&gt;
It's not a speed demon (~14 min/image), but it runs 100% offline with zero cloud handshakes.&lt;br&gt;
The whole point is democratization — proving you don't need a $2,000 GPU to run top-tier local AI.&lt;br&gt;
Full docs, source code, and .bat scripts: &lt;a href="https://setup-ia-local-rx580-vulkan.firebaseapp.com/" rel="noopener noreferrer"&gt;https://setup-ia-local-rx580-vulkan.firebaseapp.com/&lt;/a&gt;&lt;/p&gt;

</description>
      <category>ai</category>
      <category>webdev</category>
      <category>programming</category>
      <category>productivity</category>
    </item>
  </channel>
</rss>
