2026 年 3 月 | 整理自社群公開發表的實戰經驗與開源專案
前言
2025–2026 年,AI Agent 從「實驗性玩具」快速演變為能直接操作生產環境的基礎設施。其中最引人注目的應用之一,就是讓 AI Agent 直接控制地端(on-premise)Kubernetes 叢集——從故障診斷、資源調度到自動修復,全都可以用自然語言驅動。
CNCF 在 2026 年 2 月正式宣布 KubeCon Europe 2026 將舉辦 Agentics Day: MCP + Agents 共置活動,標誌著 Agentic AI 在雲原生領域已從實驗走向生產。本文整理了近期社群中公開發表的實戰經驗、開源工具與架構建議,幫助你快速掌握這個領域的最新進展。
一、主流開源工具全景
目前社群中有幾個重要的開源專案,各自從不同角度解決「Agent 控制 K8s」的問題:
1. kubectl-ai(Google Cloud Platform)
- GitHub stars:7.3k+ | 語言:Go
- 定位:將自然語言轉換為精確的 Kubernetes 操作
-
核心能力:
- 支援 Gemini、OpenAI、Anthropic、Azure OpenAI、Ollama 等多種 LLM
- 內建
kubectl和bash工具,可自定義擴展 - MCP Server 模式:讓 Claude Code、Cursor 等 AI 客戶端直接操作 K8s
- MCP Client 模式:連接外部 MCP Server,一條指令串接多個服務
- 支援 session 持久化,跨次對話維持上下文
2. k8sgpt
- GitHub stars:7.5k+ | 語言:Go
- 定位:K8s 叢集掃描、診斷與分類,用簡單的英文告訴你哪裡出了問題
-
核心能力:
- 內建 14+ 個預設分析器(Pod、PVC、Service、Ingress、Deployment 等)
- 支援 OpenAI、Azure、Cohere、Amazon Bedrock、Google Gemini 及本地模型
- MCP Server 模式(v0.4.14+):提供 12 個工具、3 個資源、3 個互動式排障 prompt
- 可整合 Claude Desktop 進行 AI 驅動的叢集分析
- Operator 模式可在叢集內持續監控
參考來源:k8sgpt-ai/k8sgpt
3. HolmesGPT(CNCF Sandbox 專案)
- GitHub stars:1.9k+ | 語言:Python
- 定位:生產環境事件調查與根因分析的 SRE Agent
-
核心能力:
- 使用 agentic loop 從多個可觀測性來源查詢即時資料
- 整合 Prometheus、Grafana、Datadog、Loki、Elasticsearch 等 20+ 資料源
- 雙向告警整合:從 AlertManager / PagerDuty / OpsGenie 拉取告警,分析後寫回
- Operator 模式可定期排程執行調查
- Petabyte 等級資料處理:Server-side filtering + JSON tree traversal
參考來源:HolmesGPT/holmesgpt
4. Sympozium(k8sgpt 作者新作)
- GitHub stars:157+ (快速成長中)| 語言:Go + TypeScript
- 定位:在 K8s 上運行 AI Agent 艦隊,用 Agent 管理叢集本身
-
核心架構理念(極具參考價值):
- 每個 Agent 執行 = 一個臨時 Pod(K8s Job),天然隔離
- 每個策略 = 一個 CRD(SympoziumPolicy)
- Skill Sidecar 模式:kubectl、helm 等工具以 sidecar 容器注入,搭配臨時 RBAC
- RBAC 生命週期管理:Agent 執行時自動建立最小權限的 Role/ClusterRole,結束即銷毀
- NetworkPolicy deny-all egress:Agent Pod 預設無法存取外部網路
- PersonaPack CRD:預設 Agent 組合包,一鍵啟用整個 Agent 團隊
- 支援 Telegram / Slack / Discord / WhatsApp 頻道整合
- 內建 OpenTelemetry 可觀測性
參考來源:AlexsJones/sympozium
二、實戰經驗與架構模式
案例 1:kubectl-ai 的三大使用情境(台灣 KubeSummit 2025 分享)
台灣開發者 AppleBoy(Bo-Yi Wu)在 2025 KubeSummit 分享了 kubectl-ai 的 MCP 架構與實戰經驗,提出三大核心使用情境:
情境一:K8s 問題診斷助手
直接用自然語言問 kubectl-ai「為什麼 Nginx 起不來?」,Agent 會自動:
- 檢查 Deployment 配置
- 識別錯誤的 image tag 和不合理的 memory request
- 給出具體的修復建議
與直接使用 Claude Code 相比,kubectl-ai 更深入理解 K8s 運作機制,能提供更精準的診斷建議。
情境二:MCP Server 模式——擴展 LLM 能力
一行指令啟動 MCP Server:
kubectl-ai --mcp-server --mcp-server-mode streamable-http --http-port 9080
然後在 Claude Code 中連接:
claude mcp add --transport http kubernetes http://localhost:9080/mcp
這讓任何支援 MCP 的 AI 客戶端都能直接操作你的 K8s 叢集。
情境三:MCP Client 模式——一條指令串接多服務
傳統做法需要寫複雜腳本。現在只需:
kubectl-ai --mcp-client \
"掃描 srv-gitea namespace 的 RBAC 權限,找出過度授權的 ServiceAccount,
並在 GAIA 專案中建立 Jira issue,將掃描結果放在描述中"
Agent 自動完成 kubectl 掃描 → 分析 → 呼叫 Jira API 建立問題單。
參考來源:Bo-Yi Wu 的 Blog
案例 2:Sympozium 的 Kubernetes-Native Agent 隔離架構
Sympozium 提出了一套極為嚴謹的安全隔離設計,值得任何想在生產環境運行 AI Agent 的團隊參考:
核心設計原則:「給 Agent 工具,不給信任」
| 層級 | 機制 | 說明 |
|---|---|---|
| 網路 | NetworkPolicy deny-all egress | Agent Pod 只有 IPC bridge 能連 NATS,無法存取外部 |
| Pod 沙箱 | SecurityContext — runAsNonRoot, UID 1000, read-only root filesystem | 最小權限容器 |
| 准入控制 | SympoziumPolicy 准入 webhook | 功能和工具閘門在 Pod 建立前執行 |
| Skill RBAC | 每次 AgentRun 獨立的 Role/ClusterRole | Skill 宣告需要的 API 權限,Controller 自動佈建、結束即回收 |
| 多租戶 | Namespaced CRDs + K8s RBAC | 標準 K8s RBAC 控制誰能建立 Agent |
與傳統 Agent 框架的關鍵差異
| 面向 | 傳統框架(如 OpenClaw) | Sympozium |
|---|---|---|
| Agent 執行 | 共享記憶體、單一 Process | 臨時 Pod(K8s Job) |
| 工具隔離 | 所有工具在同一 Process | 每個 Skill 獨立 Sidecar 容器 |
| 狀態管理 | SQLite + 本地檔案 | etcd (CRDs) + PostgreSQL + Object Storage |
| 擴展性 | 只能垂直擴展 | 水平擴展——無狀態控制平面 + HPA |
| 可觀測性 | 應用日誌 | kubectl logs + events + OpenTelemetry traces/metrics |
案例 3:k8sgpt + Claude Desktop 整合實戰
k8sgpt 自 v0.4.14 起支援 MCP Server 整合,可直接在 Claude Desktop 中操作:
{
"mcpServers": {
"k8sgpt": {
"command": "k8sgpt",
"args": ["serve", "--mcp"]
}
}
}
設定完成後,可以在 Claude Desktop 中直接問:
- 「分析我的 Kubernetes 叢集」
- 「default namespace 有什麼問題?」
- 「叢集健康狀態如何?」
k8sgpt 會自動執行內建分析器,結合 LLM 提供人類可讀的診斷結果。
三、CNCF 社群趨勢信號
KubeCon Europe 2026 Agentics Day
CNCF 在 2026 年 2 月宣布 KubeCon Europe 2026(阿姆斯特丹)將舉辦 Agentics Day: MCP + Agents 共置活動。幾個關鍵訊息:
- Agentic 系統正快速從實驗進入真正的生產工作負載
- MCP 正朝向中立治理下的共享互操作層發展
- 目標受眾:Platform / SRE / 基礎架構團隊,以及建構 Agent、工具伺服器的開發者
- 建議提前熟悉 MCP 協議與 Goose 等參考實作
Kubernetes 1.35 的 AI 基礎設施信號
CNCF Ambassador 在分析 K8s 1.35 發布時指出,這個版本的變更讀起來更像是一個 AI 基礎設施版本——Kubernetes 正在成為 AI 的作業系統。
四、實戰建議與避坑指南
安全性是第一優先
- 永遠不要給 Agent cluster-admin:使用臨時、最小權限的 RBAC,執行完即銷毀
- NetworkPolicy 隔離:Agent Pod 預設 deny-all egress,只允許必要的內部通訊
- Admission Webhook 閘門:在 Pod 建立前檢查 Agent 的工具和功能權限
- 稽核軌跡:所有 Agent 操作都應該有完整的 K8s audit log
架構選擇
| 場景 | 推薦工具 | 理由 |
|---|---|---|
| 即時故障診斷 | kubectl-ai / k8sgpt | 上手快,單一用途 |
| 持續監控 + 根因分析 | HolmesGPT(Operator 模式) | 深度整合多個可觀測性平台 |
| 多 Agent 協作 + 叢集自治 | Sympozium | 完整的 K8s-native 隔離架構 |
| IDE 整合(開發者體驗) | kubectl-ai MCP Server + Claude/Cursor | 在 IDE 中直接操作 K8s |
地端部署注意事項
- LLM 選擇:地端叢集可用 Ollama 或 llama.cpp 部署本地模型,避免敏感資料外洩
- Network 考量:若使用雲端 LLM API,確保只有 Agent 的 LLM 呼叫可以出外網
- MCP 協議:優先採用 MCP 作為 Agent 與工具之間的標準介面,避免廠商鎖定
- 可觀測性:從第一天就建立 OpenTelemetry 追蹤,了解 Agent 做了什麼
- 漸進式導入:先從唯讀診斷開始(k8sgpt analyze),確認可靠後再開放寫入操作
MCP 協議的關鍵角色
Model Context Protocol (MCP) 正在成為 Agent 與外部系統之間的標準化連接層。它的核心價值是:
- Build once, integrate across clients:一個 MCP Server 可以同時服務 Claude、Cursor、VS Code 等多個客戶端
- 工具聚合:kubectl-ai 可同時作為 MCP Server(暴露 K8s 工具)和 MCP Client(消費其他 MCP Server 的工具)
- 社群治理:MCP 正朝向 CNCF 等中立組織的治理方向發展
五、工具快速比較表
| 工具 | Stars | 語言 | MCP 支援 | Operator 模式 | 適用場景 | CNCF 狀態 |
|---|---|---|---|---|---|---|
| kubectl-ai | 7.3k | Go | Server + Client | 互動式 K8s 操作 | — | |
| k8sgpt | 7.5k | Go | Server (Stdio + HTTP) | (k8sgpt-operator) | 叢集診斷分類 | — |
| HolmesGPT | 1.9k | Python | 整合 MCP 工具源 | 生產事件調查 | CNCF Sandbox | |
| Sympozium | 157 | Go + TS | Agent 可透過 Skill 使用 | (原生 K8s) | 多 Agent 協作 + 叢集自治 | — |
六、結語
AI Agent 控制 Kubernetes 叢集已不再是概念驗證,而是正在發生的生產實踐。從 kubectl-ai 的自然語言操作、k8sgpt 的智慧診斷、HolmesGPT 的根因分析,到 Sympozium 的完整 K8s-native Agent 平台,社群正在快速建立成熟的工具鏈和最佳實踐。
最值得關注的趨勢是:
- MCP 協議成為標準:Agent 與工具之間的互操作層正在標準化
- 安全隔離模式成熟:臨時 RBAC + Sidecar 隔離 + NetworkPolicy 成為共識
- 從唯讀到讀寫:社群正從「Agent 幫你看問題」演化到「Agent 幫你修問題」
- K8s 成為 Agent 的原生運行時:每個 Agent 天然就是一個 Pod,享有 K8s 的全部基礎設施能力
如果你正在評估如何在地端 K8s 叢集中引入 AI Agent,建議從 kubectl-ai 或 k8sgpt 的唯讀模式開始,搭配 MCP 協議逐步擴展能力,同時參考 Sympozium 的安全架構設計你的長期方案。
參考資料
- kubectl-ai — AI powered Kubernetes Assistant(Google Cloud Platform, 7.3k stars)
- k8sgpt — Giving Kubernetes Superpowers to everyone(k8sgpt-ai, 7.5k stars)
- HolmesGPT — The CNCF SRE Agent(CNCF Sandbox, 1.9k stars)
- Sympozium — Run a fleet of AI agents on Kubernetes(k8sgpt 作者新作, 157 stars)
- From Natural Language to K8s Operations: The MCP Architecture and Practice of kubectl-ai(Bo-Yi Wu, KubeSummit 2025)
- KubeCon Europe 2026 Agentics Day: MCP + Agents(CNCF Blog, 2026/02/20)
- Kubernetes as AI's operating system: 1.35 release signals(CNCF Ambassador Blog, 2026/02/23)
- The great migration: Why every AI platform is converging on Kubernetes(CNCF Blog, 2026/03/05)
Top comments (0)