モデル選びの基準は賢さの上限ではなく、間違えた時にどこまで巻き戻しが効くかだ。

AIエージェントのモデルは「頭の良さ」でなく「間違えた時のコスト」で選んでいる

思考版1 AI執筆

前回の記事(AIに仕事を任せて一番効いたのは、プロンプトの工夫ではなく「仕組み」だった)で「モデルは作業単位で使い分ける」と一行だけ書きました。今回はその一行を掘り下げます。実際に運用してみて分かったのは、モデルを選ぶ基準が「賢さ」ではなく「間違えた時にどこまで巻き戻しが効くか」だったということです。

実装・PR・デプロイ実務は中位モデルを既定にする

コードを書く・PRを作る・デプロイを回すという実務は、中位モデルで十分に仕事になる。

これらの作業には共通点があります。手順がある程度決まっていて、途中経過を人が確認でき、間違っていれば差分やテスト結果を見て気づけるということです。中位モデルにこの範囲を任せても、途中で軌道修正できる余地が十分に残っています。だから実装・PR作成・デプロイといった実務は、最初から中位モデルを既定にしています。ここに最上位モデルを充てても、賢さが余ってしまい、コストと待ち時間だけが増えるという結果になりました。

最上位モデルを充てるのは「1回の判断が下流を決める」時だけ

難解な設計判断・棚卸し・ロードマップ作成のように、1回の判断が後続の全作業の前提になる場面だけ最上位モデルに切り替える。

設計判断を誤ると、その判断の上に積まれる実装がすべて誤った前提でできあがります。棚卸しの見落としは、見落とされたまま次の意思決定の材料になります。ロードマップの引き方を間違えると、複数の作業がその間違った順番で進んでしまいます。共通しているのは、間違いに気づくのが遅く、気づいた時にはやり直す範囲が大きく広がっているということです。この種の場面だけ、最上位モデルに切り替えます。複数の案件をまたいで状況を統括する場面も同じ理由でここに含めています。1つの案件の中では正しく見える判断が、別の案件の事情と衝突していないかを見るには、視野の広さそのものが必要になるからです。

判断基準は「賢さ」でなく「やり直しコスト」と「影響範囲」

その作業を間違えたら、どこまで戻ってやり直すことになるか。1回の判断が下流の何を決めてしまうか。この2つで、使うモデルを決める。

最初はなんとなく「難しそうな作業には賢いモデルを」という感覚でモデルを割り振っていました。しかしこの感覚は当てになりません。難しく見える作業でも、途中で気づいて直せるならやり直しコストは小さく、逆に一見単純に見える判断でも、それが後続のすべての前提になるなら影響範囲は大きくなります。だから今は、作業に着手する前に「これを間違えたら、どこまで巻き戻すことになるか」「この1回の判断が、後続の作業の何を決めてしまうか」の2つを自分に問い、答えが小さければ中位モデル、大きければ最上位モデルという振り分けにしています。

失敗パターンは両極端に出る

全部最上位モデルで回すとコストと待ち時間が膨らみ、全部中位モデルで済ませると設計が浅くなって後で高くつく。

この使い分けをせずに片方へ寄せると、失敗の形は対称に出ます。すべてを最上位モデルに任せると、実務レベルの単純な作業にまで重い処理を割くことになり、コストと待ち時間がじわじわ膨らみます。逆にすべてを中位モデルに任せると、設計判断や棚卸しの場面でも手順通りの浅い答えしか返ってこず、後になって前提の誤りが発覚し、そこから積み上がった実務ごとやり直すことになります。どちらの失敗も、最初は気づきにくいというのが厄介なところです。コストの膨らみは請求が来てから、設計の浅さは後続の作業が積み上がってから、それぞれ遅れて表面化します。

使い分け自体を仕組みにする

判断基準を持っているだけでは、毎回の着手時に判断コストがかかります。なので今は、作業の種類ごとに使うモデルをあらかじめ決めておき、着手のたびに考え直さないようにしています。実装・PR・デプロイ実務は中位モデルが既定、設計判断・棚卸し・ロードマップ作成・複数案件の統括は最上位モデル、という割り振り自体を先に固定してしまう。都度考えるのではなく、作業の種類を見た瞬間にモデルが決まる状態にしておくことで、使い分けの判断コストそのものをゼロに近づけています。

月曜からできる一手

まず、今抱えている作業を1つ選び「これを間違えたら、どこまで戻ってやり直すことになるか」を自分に問うてみてください。答えが「差分を見ればすぐ直せる」なら中位モデルのままで大丈夫です。答えが「後続の作業がまるごとやり直しになる」なら、その作業だけ最上位モデルに切り替えてみる。この1問だけで、賢さの感覚ではなくやり直しコストで振り分けるという型を体験できます。

3行まとめ

  1. 実装・PR・デプロイ実務は中位モデルが既定 — 手順が決まっていて途中で気づいて直せる作業には十分
  2. 最上位モデルは「1回の判断が下流を決める」場面だけ — 設計判断・棚卸し・ロードマップ作成・複数案件の統括
  3. 基準は賢さでなくやり直しコストと影響範囲 — 全部最上位はコスト膨張、全部中位は設計が浅くなる

※この記事は、本文に登場するAI相棒(Claude)との共同執筆です。何を運用ルールにするか・何を公開するかの判断は人間側、実行と初稿はAI側です。