大手AI企業の内部では、トークン使用量はもはや単なる技術的な課金明細ではなくなりつつある。ステータス指標のように機能し始めているのだ。より多くのモデル呼び出しを燃やすチームほど、より先進的で、より実験的で、よりAIネイティブに見える。実際により良い成果を出していると誰も証明していなくても、そう見えてしまう。
Metaの社内トークン・ランキングが報じられたことで、その緊張は表に出た。出来事そのものはかなり具体的だった。報道によれば、直近30日間に消費したトークン量にもとづいて社員やチームを順位づけする社内ランキングがあり、モデル利用が目に見える社内スコアボードに近いものになっていたという。AIを多用する社員の単純な順位表に見えて、実際にはもっと深い業界の問題をあぶり出しているのかもしれない。企業が、膨れ上がるトークン量を、成果の証拠ではなく、肥大化したワークフローの隠れみのにしている可能性があるにもかかわらず、生産性の証明として扱い始めているという問題だ……
報じられた数字は、この話を一部の内部事情として片づけられないほど目を引くものだった。
直近30日間のトークン使用量は非常に大きな規模だとされ、上位の社内ユーザーは、通常の公開クラウド料金で換算すれば巨額の請求額になる水準で動いていたという。もちろん、専用インフラ、割引、社内会計の違いはあり得る。それでも基本的なシグナルは同じだ。推論はもはや取るに足らないソフトウェア費用ではない。AIを深く使う環境では、本物の運営コストになりつつある。
この点が重要なのは、多くの企業がいまだに、トークン量が多いほど自動的に良いことだという前提で語っているからだ。
AI業界では、重いモデル利用は野心のように見える。実験を速く回していること、攻めた自動化をしていること、AIファーストの仕事に深く踏み込んでいることを示しているように見える。巨大なトラフィックを発生させるチームは、モデル利用を控えめにしているチームより技術的に進んでいるように映る。消費そのものが進歩に見え始める。たとえそれが単なる無駄を反映しているだけだとしてもだ。
だが、トークン使用量は成果指標ではなく、投入指標にすぎない。
ワークフローは、悪い理由で膨大なモデル・トラフィックを生み出すことがある。プロンプトが不安定で再試行が多い、コンテキスト・ウィンドウが過大、ツール間で呼び出しが重複している、マルチエージェントの連鎖が余計な推論ステップを増やしている、検証ループを何度も回している、あるいは設計の弱さを力ずくの計算で覆い隠すオーケストレーション層が挟まっている。そうした場合、高いトークン消費は知性の証拠ではない。非効率の証拠だ。
このリスクは、企業が単発プロンプトのシステムからエージェント型のワークフローへ移るほど大きくなる。
表面上は単純に見えるリクエストでも、裏では分解、検索、計画、ツール呼び出し、自己チェック、要約、フォールバック処理が走っているかもしれない。ユーザーが目にするのはひとつの答えだけだ。だがシステムは、そこへ至るまでに何十もの隠れたステップを費やしている可能性がある。オーケストレーションが複雑になるほど、「高い」と「効果的」を取り違えやすくなる。
だからMetaの件は、一企業の話を超えて響く。業界全体が、「モデル利用が多いほどワクワクする」という段階から、「そのタスクを終えるのに、実際にはどれだけの計算、遅延、隠れたプロセス負荷が必要だったのか」と問わなければならない段階へ移っているからだ。
これは研究の問題というより、経営の問題だ。
トークン使用量が社内の名声シグナルになると、チームはその目に見える指標を最大化し始める。これは他の企業システムでも何度も見られてきた現象だ。努力の大まかな指標が文化的に重要になると、人は本来代表すべき事業成果ではなく、その指標そのものを最大化し始める。
AIシステムで本当に重い指標は、もっと地味だ。完了タスクあたりのコスト、精度、信頼性、レイテンシー、失敗率、人間によるレビュー負荷、そして下流の事業インパクト。トークン使用量が重要でないわけではない。だがそれは勲章ではなく、診断のための明細行として重要なのだ。
大手AI企業がいまぶつかっている居心地の悪い転換はここにある。実験フェーズでは、膨大なトークン消費は発見の代償として正当化できた。だが運用フェーズに入ると、それが測定可能な改善を生まない限り、浪費に近いものに見え始める。
モデル利用にもとづく社内ランキングの本当の意味は、おそらくそこにある。業界が、AI効率をどう測るべきかを定める前に、目に見えるAIの濃さを褒めたたえたくなる誘惑から、まだ抜けきれていないことを示しているのだ。トークン消費と生産性を取り違えた企業は、気づいたときには、実は成果の順位づけなどしていなかったことを知るかもしれない。彼らが順位づけていたのは、そこへ到達するためにどれだけの計算資源を燃やす気があったかだったのだ。