DEV Community

JH5
JH5

Posted on

用 AI Agent 控制地端 Kubernetes Cluster

2026 年 3 月 | 整理自社群公開發表的實戰經驗與開源專案


前言

2025–2026 年,AI Agent 從「實驗性玩具」快速演變為能直接操作生產環境的基礎設施。其中最引人注目的應用之一,就是讓 AI Agent 直接控制地端(on-premise)Kubernetes 叢集——從故障診斷、資源調度到自動修復,全都可以用自然語言驅動。

CNCF 在 2026 年 2 月正式宣布 KubeCon Europe 2026 將舉辦 Agentics Day: MCP + Agents 共置活動,標誌著 Agentic AI 在雲原生領域已從實驗走向生產。本文整理了近期社群中公開發表的實戰經驗、開源工具與架構建議,幫助你快速掌握這個領域的最新進展。


一、主流開源工具全景

目前社群中有幾個重要的開源專案,各自從不同角度解決「Agent 控制 K8s」的問題:

1. kubectl-ai(Google Cloud Platform)

  • GitHub stars:7.3k+ | 語言:Go
  • 定位:將自然語言轉換為精確的 Kubernetes 操作
  • 核心能力
    • 支援 Gemini、OpenAI、Anthropic、Azure OpenAI、Ollama 等多種 LLM
    • 內建 kubectlbash 工具,可自定義擴展
    • MCP Server 模式:讓 Claude Code、Cursor 等 AI 客戶端直接操作 K8s
    • MCP Client 模式:連接外部 MCP Server,一條指令串接多個服務
    • 支援 session 持久化,跨次對話維持上下文

參考來源GoogleCloudPlatform/kubectl-ai

2. k8sgpt

  • GitHub stars:7.5k+ | 語言:Go
  • 定位:K8s 叢集掃描、診斷與分類,用簡單的英文告訴你哪裡出了問題
  • 核心能力
    • 內建 14+ 個預設分析器(Pod、PVC、Service、Ingress、Deployment 等)
    • 支援 OpenAI、Azure、Cohere、Amazon Bedrock、Google Gemini 及本地模型
    • MCP Server 模式(v0.4.14+):提供 12 個工具、3 個資源、3 個互動式排障 prompt
    • 可整合 Claude Desktop 進行 AI 驅動的叢集分析
    • Operator 模式可在叢集內持續監控

參考來源k8sgpt-ai/k8sgpt

3. HolmesGPT(CNCF Sandbox 專案)

  • GitHub stars:1.9k+ | 語言:Python
  • 定位:生產環境事件調查與根因分析的 SRE Agent
  • 核心能力
    • 使用 agentic loop 從多個可觀測性來源查詢即時資料
    • 整合 Prometheus、Grafana、Datadog、Loki、Elasticsearch 等 20+ 資料源
    • 雙向告警整合:從 AlertManager / PagerDuty / OpsGenie 拉取告警,分析後寫回
    • Operator 模式可定期排程執行調查
    • Petabyte 等級資料處理:Server-side filtering + JSON tree traversal

參考來源HolmesGPT/holmesgpt

4. Sympozium(k8sgpt 作者新作)

  • GitHub stars:157+ (快速成長中)| 語言:Go + TypeScript
  • 定位:在 K8s 上運行 AI Agent 艦隊,用 Agent 管理叢集本身
  • 核心架構理念(極具參考價值):
    • 每個 Agent 執行 = 一個臨時 Pod(K8s Job),天然隔離
    • 每個策略 = 一個 CRD(SympoziumPolicy)
    • Skill Sidecar 模式:kubectl、helm 等工具以 sidecar 容器注入,搭配臨時 RBAC
    • RBAC 生命週期管理:Agent 執行時自動建立最小權限的 Role/ClusterRole,結束即銷毀
    • NetworkPolicy deny-all egress:Agent Pod 預設無法存取外部網路
    • PersonaPack CRD:預設 Agent 組合包,一鍵啟用整個 Agent 團隊
    • 支援 Telegram / Slack / Discord / WhatsApp 頻道整合
    • 內建 OpenTelemetry 可觀測性

參考來源AlexsJones/sympozium


二、實戰經驗與架構模式

案例 1:kubectl-ai 的三大使用情境(台灣 KubeSummit 2025 分享)

台灣開發者 AppleBoy(Bo-Yi Wu)在 2025 KubeSummit 分享了 kubectl-ai 的 MCP 架構與實戰經驗,提出三大核心使用情境:

情境一:K8s 問題診斷助手

直接用自然語言問 kubectl-ai「為什麼 Nginx 起不來?」,Agent 會自動:

  1. 檢查 Deployment 配置
  2. 識別錯誤的 image tag 和不合理的 memory request
  3. 給出具體的修復建議

與直接使用 Claude Code 相比,kubectl-ai 更深入理解 K8s 運作機制,能提供更精準的診斷建議。

情境二:MCP Server 模式——擴展 LLM 能力

一行指令啟動 MCP Server:

kubectl-ai --mcp-server --mcp-server-mode streamable-http --http-port 9080
Enter fullscreen mode Exit fullscreen mode

然後在 Claude Code 中連接:

claude mcp add --transport http kubernetes http://localhost:9080/mcp
Enter fullscreen mode Exit fullscreen mode

這讓任何支援 MCP 的 AI 客戶端都能直接操作你的 K8s 叢集。

情境三:MCP Client 模式——一條指令串接多服務

傳統做法需要寫複雜腳本。現在只需:

kubectl-ai --mcp-client \
  "掃描 srv-gitea namespace 的 RBAC 權限,找出過度授權的 ServiceAccount,
   並在 GAIA 專案中建立 Jira issue,將掃描結果放在描述中"
Enter fullscreen mode Exit fullscreen mode

Agent 自動完成 kubectl 掃描 → 分析 → 呼叫 Jira API 建立問題單。

參考來源Bo-Yi Wu 的 Blog


案例 2:Sympozium 的 Kubernetes-Native Agent 隔離架構

Sympozium 提出了一套極為嚴謹的安全隔離設計,值得任何想在生產環境運行 AI Agent 的團隊參考:

核心設計原則:「給 Agent 工具,不給信任」

層級 機制 說明
網路 NetworkPolicy deny-all egress Agent Pod 只有 IPC bridge 能連 NATS,無法存取外部
Pod 沙箱 SecurityContext — runAsNonRoot, UID 1000, read-only root filesystem 最小權限容器
准入控制 SympoziumPolicy 准入 webhook 功能和工具閘門在 Pod 建立前執行
Skill RBAC 每次 AgentRun 獨立的 Role/ClusterRole Skill 宣告需要的 API 權限,Controller 自動佈建、結束即回收
多租戶 Namespaced CRDs + K8s RBAC 標準 K8s RBAC 控制誰能建立 Agent

與傳統 Agent 框架的關鍵差異

面向 傳統框架(如 OpenClaw) Sympozium
Agent 執行 共享記憶體、單一 Process 臨時 Pod(K8s Job)
工具隔離 所有工具在同一 Process 每個 Skill 獨立 Sidecar 容器
狀態管理 SQLite + 本地檔案 etcd (CRDs) + PostgreSQL + Object Storage
擴展性 只能垂直擴展 水平擴展——無狀態控制平面 + HPA
可觀測性 應用日誌 kubectl logs + events + OpenTelemetry traces/metrics

案例 3:k8sgpt + Claude Desktop 整合實戰

k8sgpt 自 v0.4.14 起支援 MCP Server 整合,可直接在 Claude Desktop 中操作:

{
  "mcpServers": {
    "k8sgpt": {
      "command": "k8sgpt",
      "args": ["serve", "--mcp"]
    }
  }
}
Enter fullscreen mode Exit fullscreen mode

設定完成後,可以在 Claude Desktop 中直接問:

  • 「分析我的 Kubernetes 叢集」
  • 「default namespace 有什麼問題?」
  • 「叢集健康狀態如何?」

k8sgpt 會自動執行內建分析器,結合 LLM 提供人類可讀的診斷結果。


三、CNCF 社群趨勢信號

KubeCon Europe 2026 Agentics Day

CNCF 在 2026 年 2 月宣布 KubeCon Europe 2026(阿姆斯特丹)將舉辦 Agentics Day: MCP + Agents 共置活動。幾個關鍵訊息:

  1. Agentic 系統正快速從實驗進入真正的生產工作負載
  2. MCP 正朝向中立治理下的共享互操作層發展
  3. 目標受眾:Platform / SRE / 基礎架構團隊,以及建構 Agent、工具伺服器的開發者
  4. 建議提前熟悉 MCP 協議與 Goose 等參考實作

Kubernetes 1.35 的 AI 基礎設施信號

CNCF Ambassador 在分析 K8s 1.35 發布時指出,這個版本的變更讀起來更像是一個 AI 基礎設施版本——Kubernetes 正在成為 AI 的作業系統。


四、實戰建議與避坑指南

安全性是第一優先

  1. 永遠不要給 Agent cluster-admin:使用臨時、最小權限的 RBAC,執行完即銷毀
  2. NetworkPolicy 隔離:Agent Pod 預設 deny-all egress,只允許必要的內部通訊
  3. Admission Webhook 閘門:在 Pod 建立前檢查 Agent 的工具和功能權限
  4. 稽核軌跡:所有 Agent 操作都應該有完整的 K8s audit log

架構選擇

場景 推薦工具 理由
即時故障診斷 kubectl-ai / k8sgpt 上手快,單一用途
持續監控 + 根因分析 HolmesGPT(Operator 模式) 深度整合多個可觀測性平台
多 Agent 協作 + 叢集自治 Sympozium 完整的 K8s-native 隔離架構
IDE 整合(開發者體驗) kubectl-ai MCP Server + Claude/Cursor 在 IDE 中直接操作 K8s

地端部署注意事項

  1. LLM 選擇:地端叢集可用 Ollama 或 llama.cpp 部署本地模型,避免敏感資料外洩
  2. Network 考量:若使用雲端 LLM API,確保只有 Agent 的 LLM 呼叫可以出外網
  3. MCP 協議:優先採用 MCP 作為 Agent 與工具之間的標準介面,避免廠商鎖定
  4. 可觀測性:從第一天就建立 OpenTelemetry 追蹤,了解 Agent 做了什麼
  5. 漸進式導入:先從唯讀診斷開始(k8sgpt analyze),確認可靠後再開放寫入操作

MCP 協議的關鍵角色

Model Context Protocol (MCP) 正在成為 Agent 與外部系統之間的標準化連接層。它的核心價值是:

  • Build once, integrate across clients:一個 MCP Server 可以同時服務 Claude、Cursor、VS Code 等多個客戶端
  • 工具聚合:kubectl-ai 可同時作為 MCP Server(暴露 K8s 工具)和 MCP Client(消費其他 MCP Server 的工具)
  • 社群治理:MCP 正朝向 CNCF 等中立組織的治理方向發展

五、工具快速比較表

工具 Stars 語言 MCP 支援 Operator 模式 適用場景 CNCF 狀態
kubectl-ai 7.3k Go Server + Client 互動式 K8s 操作
k8sgpt 7.5k Go Server (Stdio + HTTP) (k8sgpt-operator) 叢集診斷分類
HolmesGPT 1.9k Python 整合 MCP 工具源 生產事件調查 CNCF Sandbox
Sympozium 157 Go + TS Agent 可透過 Skill 使用 (原生 K8s) 多 Agent 協作 + 叢集自治

六、結語

AI Agent 控制 Kubernetes 叢集已不再是概念驗證,而是正在發生的生產實踐。從 kubectl-ai 的自然語言操作、k8sgpt 的智慧診斷、HolmesGPT 的根因分析,到 Sympozium 的完整 K8s-native Agent 平台,社群正在快速建立成熟的工具鏈和最佳實踐。

最值得關注的趨勢是:

  1. MCP 協議成為標準:Agent 與工具之間的互操作層正在標準化
  2. 安全隔離模式成熟:臨時 RBAC + Sidecar 隔離 + NetworkPolicy 成為共識
  3. 從唯讀到讀寫:社群正從「Agent 幫你看問題」演化到「Agent 幫你修問題」
  4. K8s 成為 Agent 的原生運行時:每個 Agent 天然就是一個 Pod,享有 K8s 的全部基礎設施能力

如果你正在評估如何在地端 K8s 叢集中引入 AI Agent,建議從 kubectl-ai 或 k8sgpt 的唯讀模式開始,搭配 MCP 協議逐步擴展能力,同時參考 Sympozium 的安全架構設計你的長期方案。


參考資料

  1. kubectl-ai — AI powered Kubernetes Assistant(Google Cloud Platform, 7.3k stars)
  2. k8sgpt — Giving Kubernetes Superpowers to everyone(k8sgpt-ai, 7.5k stars)
  3. HolmesGPT — The CNCF SRE Agent(CNCF Sandbox, 1.9k stars)
  4. Sympozium — Run a fleet of AI agents on Kubernetes(k8sgpt 作者新作, 157 stars)
  5. From Natural Language to K8s Operations: The MCP Architecture and Practice of kubectl-ai(Bo-Yi Wu, KubeSummit 2025)
  6. KubeCon Europe 2026 Agentics Day: MCP + Agents(CNCF Blog, 2026/02/20)
  7. Kubernetes as AI's operating system: 1.35 release signals(CNCF Ambassador Blog, 2026/02/23)
  8. The great migration: Why every AI platform is converging on Kubernetes(CNCF Blog, 2026/03/05)

Top comments (0)