yuuto128

Posted on Mar 6

OpusからSonnetへ？OpenClawのモデル最適化とQMD活用法

#openclaw #aiコスト削減 #大規模言語モデル運用 #llm

みんな、最近X（旧Twitter）やRedditなどで「OpenClawのToken代がヤバい…毎月の請求が怖くて使えない」って嘆いてるのをよく見かけるよね。
実は僕も、インストールしたばかりの頃はその一人だった。

2026年、最もアツいオープンソースプロジェクトといえば間違いなく「OpenClaw」。GitHubのスター数も26万を突破し、シリコンバレーのエンジニアから効率化を求める一般のビジネスパーソンまで、誰もが自分だけの「Jarvis AI」を手に入れる時代になった。
でも、ローカル環境にウキウキでデプロイして「これで俺もAIマスターだ！」と喜んでいたのも束の間。3日後にAPIの請求ダッシュボードを見て、文字通りフリーズしたよ（笑）。

1日で200ドル溶かした猛者や、1ヶ月で3600ドル請求された人、ひどいケースだと自動化タスクが無限ループに陥って朝起きたら請求が4桁（数千ドル）に達していたなんて悲惨な事例もある。
OpenClawの「無料」というのは、あくまでソフトウェア本体の話。本当にコストがかかるのは裏で動いているAIモデルのAPI呼び出しなんだよね。全ての会話、定期タスクの手動実行、ツールの呼び出し。その一つ一つがTokenを消費し、Tokenは直接「お金」として消えていく。

最適化を全くせずに使えば、月に数百ドルが飛んでいくのは当たり前。でも、ちゃんとポイントを押さえて最適化すれば、月額$5〜$15くらいでかなり快適に使えるようになる。
今回は、僕自身が実際に色々な沼にハマりながら検証し、効果的だった「OpenClawの運用コストを80%以上削減できる7つの具体的な最適化手法」を全部シェアしようと思う！

そもそも、どこにそんなにお金が消えているのか？

節約を始める前に、まずは「どこで無駄なお金を垂れ流しているのか」を正確に把握する必要がある。OpenClawのToken消費は、主に以下の6つのポイントに集中している。

1. システムプロンプトによる「見えないオーバーヘッド」

OpenClawに話しかけるとき、システムはあなたの発言だけをAIに送っているわけじゃない。その前に、大量のシステムプロンプト（あなたのペルソナ設定 SOUL.md、行動規範 AGENTS.md、ツールリスト TOOLS.md、過去の記憶 MEMORY.md など）をごっそり詰め込んでいる。これが平気で8000〜15000 Tokenになる。「こんにちは」と送るだけで、裏では数万Tokenのオーバーヘッドが消費されているんだ。
2. 会話履歴の蓄積（肥大化するコンテキスト）

OpenClawは文脈を保つために、会話履歴全体をモデルに送信する。長く会話すればするほど、1回のリクエストあたりのコストが雪だるま式に増えていく。1週間放置したセッションが20万Tokenに膨れ上がり、1回のリクエストで$6〜$8飛ぶ上にタイムアウトで失敗する、なんていう極端なケースも見たことがある。お金の無駄遣い以外の何物でもない。
3. 定期実行される「Heartbeat」機構

OpenClawには、AIに定期的にタスクを実行させるバックグラウンドのHeartbeat（定期実行）機能がある。このHeartbeatが発火するたびに、完全なコンテキストを持ったAPIリクエストが行われる。もし「5分に1回メールをチェックする」なんて設定にしたら、それだけで1日$50くらい簡単に溶ける。普通の個人開発者にそこまでの高頻度は不要だ。
4. ツール呼び出しの連鎖的な消費

「今日の未読メールを整理して」と頼むと、AIはそれを1ステップでは終わらせない。「メールの取得」→「内容のパース」→「優先度の判断」→「Todoistへのタスク登録」→「サマリーの生成」と、裏で5〜10回のAPIリクエストを連鎖的に行う。しかも毎回の呼び出しで重いコンテキストが付いて回る。
5. ツール出力によるコンテキストの無駄な肥大化
OpenClawはツールの実行結果もセッション履歴に保存する。例えば500行のソースコードを読み込ませたら、3000〜5000 Tokenがそのまま履歴に残り、次回の対話時にもそのままAIに送信される。無駄の極みだ。
6. モデル選択のミス（最もありがちな罠）

これが一番多い。Claude Opus 4.6の価格は$15/$75（入力/出力、100万Tokenあたり）なのに対し、Haiku 4.5は$1/$5（※価格は時期による）と、約5倍以上の価格差がある。「今日の天気は？」といった簡単な質問にいちいちOpusを呼び出しているのは、明らかにオーバースペックだし、完全にリソースの無駄遣いだ。

これらのお金の「垂れ流しポイント」さえ押さえれば、やるべき最適化戦略は自然と見えてくる。

第1の裏技：モデルのダウングレード（効果絶大！）

これが節約の第一歩であり、最も即効性がある必殺技だ。

公式のデフォルトではClaude Opus 4.6が推奨されていて、確かに性能は圧倒的。でもぶっちゃけ、日々の個人的なタスクの80%にOpusはオーバースペックだ。ちょっとした調べ物、タスクのチェック、ファイル操作や翻訳なら、Sonnet 4.5で十分すぎるほど事足りる。Sonnetなら出力コストはOpusの60%以下に抑えられる。

設定は簡単。OpenClawの設定ファイル（デフォルト設定）をSonnetに変更するだけだ。

{
  "agents": {
    "defaults": {
      "model": {
        "primary": "anthropic/claude-sonnet-4-5-20251001",
        "fallback": "anthropic/claude-haiku-4-5-20251001"
      }
    }
  }
}

さらに賢い運用として、fallback（フォールバック）モデルを設定しておくこと。主力にSonnetを置き、レート制限やAPIの残高不足に引っかかった時に自動でHaikuに切り替わるようにしておく。
本当にOpusが必要な重いタスク（長文の執筆、複雑なコード生成、深い推論が必要なロジック設計）の時だけ、手動でモデルを指定すればいい。これだけで月額コストを約40%は削れる。

もしさらに予算を抑えたいなら、MiniMax M2.5が激推しだ。100万Tokenあたりの入力がたった$0.30で、Sonnetの約1/10という圧倒的コスパ。SWE-Benchの結果でもかなりSonnetに迫る性能を出しているので、日常用途には全く問題ない。OpenClawのプラグインでOAuth一発で連携できるのも最高。

第2の裏技：システムプロンプトのダイエット

リクエストのたびに送信されるシステムプロンプトは「見えない税金」みたいなもの。実はこのファイル、かなり贅肉が削ぎ落とせる。

特に以下の3つのファイルを見直そう：

AGENTS.md: グループチャットのルールやTTS（音声合成）の設定など、普段全く使わない機能の記述が大量に入っている。Telegram 1つでしか使ってないならグループチャットのルールは全削除！音声を使わないならTTSも削除！目標は800 Token以下に圧縮すること。
SOUL.md: AIのペルソナ設定。変に「あなたは親切でプロフェッショナルな…」なんて長文のお手紙を書く必要はない。AIは賢いので、2〜3行の簡潔な指示で十分だ。
MEMORY.md: 放置しておくとあっという間に肥大化するメモリーファイル。定期的にアーカイブするか、現在アクティブなプロジェクトのコンテキストだけを残すようにしよう。

これらを綺麗にするだけで、毎回13,000+ Tokenかかっていた見えないコスト（オーバーヘッド）が3,000〜5,000 Tokenにまで下がる。リクエスト回数が増えれば増えるほど効いてくるボディーブローのような効果がある。

第3の裏技：QMDの導入（コスト削減の最終兵器）

QMD（Quantum Memory Database） は、Shopifyの共同創業者Tobi氏が開発したローカルでのセマンティック検索システムで、OpenClaw 2026.2.2から標準機能として組み込まれている。

従来のシステムが MEMORY.md 全体をそのままAIに投げつけていたのに対し、QMDはクエリの意図をローカルで解釈し、関連する具体的な2〜3文の記憶だけを精査してAIに渡してくれる。無関係な90%の情報をカットできるわけだ。

公式のベンチマークによると、Token消費量が90〜99%削減されるだけでなく、AIが余計なノイズに惑わされないため、応答速度が5〜50倍、回答の精度も93%に向上するという圧倒的チート性能。
2026.2.2以上のバージョンなら標準搭載されているので、記憶ファイルが数千Tokenを超え始めているなら絶対に有効化すべき機能だ。間違いなく「神機能」と言える。

第4の裏技：Heartbeat頻度の最適化

「5分おきにメールやスケジュールをチェックする」。プログラマーなら一度はやってみたくなる自動化だけど、冷静に考えて、本当にそんな高頻度で確認する必要はあるだろうか？

そもそも「リアルタイムに通知が欲しい」なんて、たいていは自分自身の思い込み（偽のニーズ）に過ぎない。システムチェックのインターバルは30分や1時間に伸ばし、アップデートの確認は1日1回にしよう。そして通知も「定期的な報告」ではなく「必要な時だけ教えて（オンデマンド）」に変えるべきだ。
さらに上級者向けのテクニックとして、複数の独立した定時タスクをまとめるという手がある。「メールチェック」「カレンダー確認」「タスク一覧の取得」を別々に回すのではなく、『朝8時のデイリーサマリー』として1つのcronタスクにまとめれば、コンテキストの注入コストを75%もカットできる。

第5の裏技：マルチAgentによるタスクの分散

OpenClawは複数のAgentを立ち上げて、それぞれに独立したセッションとワークスペースを持たせることができる。単なる機能分離ではなく、実はこれが強烈なコストコントロールの手法になる。

設計思想はシンプルだ。

メインAgent（重作業用）: 複雑なプログラミング、執筆。OpusやSonnetを割り当てる。
ライトAgent（軽作業用）: 日常のちょっとした質問、翻訳、リマインダー。HaikuやGemini Flashを割り当てる。

すべてを1つのAgentに任せると、コンテキストに色んな情報が混ざり合って無駄にTokenを消費するし、AI自体も「記憶汚染」で回答の精度が落ちていく（いきなり前のタスクの話題を引きずり出したりね）。タスクの重さに応じて専属のAgentを切り替えるのが、早くて一番安い。

第6の裏技：定期的なセッションのリセット

これ、意外とやってない人が多いんだよね。
OpenClawのセッションは無限にログが蓄積される。数日間放置したチャット履歴が10万Tokenをこえることなんてザラにある。

解決策はとにかく「定期的に新しいセッション（チャット）を立ち上げる」こと。
openclaw.json の設定で maxSessionTokens を50,000〜100,000くらいに設定しておくと、上限に達したときに自動でコンテキストを切ってくれる（ローカルの履歴ファイル自体は消えないから安心して）。
チャット上で /status を打てば今のセッションの重さが分かるので、膨らんできたら手動で /clear するか新しい会話を始めるクセをつけよう。

第7の裏技：無料枠やサブスクリプションの活用

APIの従量課金が怖いなら、いっそ定額制や無料枠を使い倒すのもアリだ。

Anthropic Claude Pro ($20/月): もし月額API代が$20を超えそうなら、素直にClaude Proを契約した方がいい。Claude Code CLIのAPIキーをプロキシしてOpenClawに連携させれば、実質定額で利用できる。
Google Gemini: Geminiの無料枠（Flashモデル）は個人的にかなり寛大だと思う。APIのリセットサイクルも早い（5時間ごと）。Antigravity認証と組み合わせればGemini 3 ProやFlashなど全シリーズのモデルが解放されるので、コストにシビアな学生や駆け出しエンジニアには最高の選択肢になる。
ローカルモデル（Ollamaなど）: M1/M2/M3のMac（メモリ32GB以上）か強めのGPU搭載PCを持ってるなら、ローカルでLLMを回せばAPI代は完全無料。複雑な処理は厳しいけど、日常会話なら十分活躍する。
MiniMax Coding Plan: Agent向けに特化したサブスク。初期費用を抑えて長期運用するならかなりコスパが高い。

実際にどれくらい安くなるの？（コスト試算）

仮に、1日30回くらいOpenClawとやり取りし、日常的にツールや定時タスクを使っているとしよう。

【最適化前】（デフォルトのOpus、設定そのまま、Heartbeatガン回し）
1日のToken消費量：約200万Token
月の費用：約$300〜$600（個人開発だと笑えない金額）
【最適化後】（主力Sonnet/Haiku、プロンプトダイエット、QMD導入、頻度調整、セッション管理）
1日のToken消費量：約15万〜30万Token
月の費用：約$10〜$25

なんと90%以上の削減だ。これは別に誇張でもなんでもなく、海外のRedditコミュニティや実際の僕の運用環境でも実証済みの数字だ。
さらに極端な話をすればベースをMiniMax M2.5やGemini Flashにして、ガチのコードを書く時だけSonnetを叩く運用にすれば、月$5以下に抑え込むことも全然可能だ。

具体的な設定コマンドリスト（コピペ用）

最後に、上で紹介した設定のアシスト用コマンドを置いておくので、ターミナルでコピペして使ってほしい。

1. デフォルトモデルの切り替えとエイリアス設定

openclaw config set 'agents.defaults.model' --json '{
  "primary": "anthropic/claude-sonnet-4-5",
  "fallbacks": ["anthropic/claude-haiku-4-5"]
}'

openclaw config set 'agents.defaults.models' --json '{
  "anthropic/claude-haiku-4-5": { "alias": "haiku" },
  "anthropic/claude-sonnet-4-5": { "alias": "sonnet" },
  "anthropic/claude-opus-4-6": { "alias": "opus" },
  "minimax/MiniMax-M2.5": { "alias": "minimax" }
}'

# 設定反映
openclaw gateway restart

2. MiniMaxのプラグイン導入（OAuth対応）

openclaw plugins enable minimax-portal-auth
openclaw gateway restart

3. システムプロンプトファイルの軽量化
ワークスペースディレクトリ（デフォルトは ~/.openclaw/workspace/）に入り、各ファイルを個別に編集する：

cd ~/.openclaw/workspace

# AGENTS.md を編集し、不要な機能説明を削除
nano AGENTS.md

# SOUL.md を編集し、2〜3行にまとめる
nano SOUL.md

# MEMORY.md をクリーンアップし、期限切れの内容をアーカイブ
nano memory/*.md

4. Heartbeat頻度の変更と定時タスクの統合
Heartbeat（定期実行）間隔をデフォルトから30分に変更：

openclaw config set 'agents.defaults.heartbeat.every' '30m'

毎朝8時のデイリーサマリーをcronに追加（~/.openclaw/cron/jobs.json に追記）：

{
  "name": "毎朝レポート",
  "schedule": { "kind": "cron", "expr": "0 8 * * *" },
  "sessionTarget": "isolated", // "isolated" を指定することで、毎回新しいセッション（チャット）を立ち上げ、過去のコンテキストを蓄積させない
  "payload": {
    "kind": "agentTurn",
    "message": "今日の未読メール、カレンダーの予定、Todoをまとめて簡潔なレポートを作成して。"
  }
}

5. マルチAgentによるタスクの分散
openclaw.json の agents セクションに複数のAgentを設定：

{
  "agents": {
    "defaults": {
      "model": { "primary": "anthropic/claude-sonnet-4-5" }
    },
    "list": [
      { "id": "main", "default": true },
      { "id": "light", "workspace": "~/.openclaw/workspace-light" }
    ]
  }
}

その後、bindings を使用して異なるチャットチャンネルを異なるAgentにバインドする：

{
  "bindings": [
    {
      "agentId": "light",
      "match": { "channel": "telegram", "peer": { "kind": "group", "id": "あなたのグループID" } }
    }
  ]
}

6. 現在のToken消費状況の確認
チャット内やターミナルでいつでも確認可能：

# チャット内で送信
/status

# ターミナルで確認
openclaw status

まとめ：これからの個人AI開発に向けて

OpenClawは現時点で間違いなく最高のパーソナルAIアシスタントのフレームワークだ。しかし「オープンソースで無料」だからといって、適当に動かして良い代物ではない。何も考えずに使えばただの「Tokenをバクバク食うだけの金食い虫」になってしまうが、今回紹介したような設定周りをきちんとチューニングしてやれば、最強の効率化パートナーとして活躍してくれる。

これからますますAIエージェントの運用が一般化していく中で、単純な「プロンプトエンジニアリング」だけではなく、こうした「リソースの最適化」や「アーキテクチャ設計」の視点を持つかどうかが、エンジニアとしての運用力の差になってくるんじゃないかなと思う。

OpenClawを使えているかどうかは、「どれだけ課金したか」ではない。「メリハリをつけて、本当に価値のあるコアなタスクにだけコストを集中できているか（コスパを最大化できているか）」で決まるのだ。

この記事が役に立ったら、ぜひ同じようにAPI代に震えている友達にシェアしてあげてね。
設定でつまずいたところや、「俺はこんな必殺技でコスト削ってるぜ！」っていうのがあれば、コメント欄やSNSで気軽に教えてほしい！

DEV Community