AIの性能を上げるには、モデルを大きくするしかない——そう信じられてきた常識が、いま覆されようとしています。
MiroThinker は、MiroMind 社が開発したオープンソースの検索エージェントです。30Bパラメータという比較的小さなモデルでありながら、1兆パラメータ級のモデルを上回る性能を達成しています。その秘密は「Interactive Scaling」という新しいスケーリング手法にあります。
AIの進化における3つのスケーリング軸
従来、AIの性能向上には2つの軸がありました。
graph LR
subgraph 従来のスケーリング
A[モデルサイズ] --> B[パラメータ数増加]
C[コンテキスト長] --> D[入力長拡張]
end
subgraph 新しいスケーリング
E[Interactive Scaling] --> F[ツール呼び出し深度]
end
B --> G[性能向上]
D --> G
F --> G
- モデルサイズのスケーリング: パラメータ数を増やす(7B → 70B → 700B)
- コンテキスト長のスケーリング: 入力できるトークン数を増やす(4K → 32K → 128K)
MiroThinkerが提唱する「Interactive Scaling」は、これに続く第3の軸です。
Interactive Scalingとは何か
Interactive Scalingの核心は、「AIを賢くするには、より多くの知識を詰め込むのではなく、より深く外界と対話させる」という発想です。
従来のアプローチ:記憶に頼る
従来の大規模言語モデル(LLM)は、膨大なテキストデータを学習して「記憶」し、その記憶から回答を生成します。
質問 → [LLMの記憶から検索] → 回答
この方式の問題点は明確です。
- ハルシネーション: 記憶が曖昧だと、自信満々に間違った回答をする
- 情報の陳腐化: 学習データ以降の情報は知らない
- コスト増大: より多くを記憶させるには、より大きなモデルが必要
MiroThinkerのアプローチ:調査する
MiroThinkerは、記憶に頼る代わりに「調査」します。
質問 → [仮説を立てる] → [ツールで調査] → [結果を検証] → [必要なら再調査] → 回答
重要なのは、この「調査 → 検証 → 再調査」のループを最大400回(v1.5の場合)まで繰り返せるということです。これが「Interactive Scaling」の実体です。
性能は「ツール呼び出し回数」に比例する
MiroThinkerの論文 では、興味深い発見が報告されています。
「ツール呼び出しの深度と頻度が増すにつれて、研究タスクの性能が予測可能な形で向上する」
つまり、モデルサイズやコンテキスト長と同様に、ツール呼び出し回数もスケーリング則に従うのです。
なぜ30Bで1兆パラメータを超えられるのか
MiroThinker v1.5(30Bパラメータ)は、BrowseComp-ZHベンチマークで1兆パラメータのKimi-K2-Thinkingを上回りました。
| モデル | パラメータ数 | BrowseComp-ZH |
|---|---|---|
| Kimi-K2-Thinking | 1T | 68.5 |
| MiroThinker v1.5 | 30B | 69.8 |
この逆転現象は、以下のように説明できます。
大きなモデルの限界
1兆パラメータのモデルは、膨大な知識を「記憶」しています。しかし、
- 記憶は完璧ではない
- 新しい情報は知らない
- 複雑な推論では記憶の「つなぎ合わせ」が困難
小さなモデル + 深い調査の強み
30Bのモデルは記憶量では劣りますが、
- 「何を調べるべきか」を判断する能力は十分
- 外部ツールで最新・正確な情報を取得
- 仮説 → 検証 → 修正のループで精度を向上
結果として、「賢く調べる能力」が「たくさん記憶する能力」を上回ったのです。
Scientist Mode:幻覚を減らす仕組み
MiroThinkerの特徴的な設計として「Scientist Mode」があります。
VentureBeat の記事 によると、
「MiroThinkerは、統計的にもっともらしい回答を記憶パターンから生成する代わりに、検証可能な研究ループを実行するよう訓練されている」
具体的には以下のステップを踏みます。
- 仮説の提案: 質問に対する仮説を立てる
- 外部ソースへのクエリ: 証拠を求めてツールを使用
- 不一致の特定: 仮説と証拠の矛盾を検出
- 結論の修正: 必要に応じて仮説を更新
- 再検証: 修正した結論を再度検証
このアプローチにより、エンタープライズ環境で重要な監査可能性(Auditability)が実現されます。AIが「どうやってその結論に至ったか」を追跡できるのです。
コスト効率:1/20のコストでGPT-5に迫る
Interactive Scalingのもう一つの利点は、コスト効率です。
| 項目 | MiroThinker v1.5 | Kimi-K2-Thinking |
|---|---|---|
| 推論コスト | $0.07/コール | $1.40/コール |
| パラメータ数 | 30B | 1T |
| 必要GPU | 中規模 | 大規模クラスター |
MiroMind社の報告によると、MiroThinker v1.5の推論コストはKimi-K2-Thinkingの約1/20です。これは、
- ローカルデプロイが現実的: 企業の自社サーバーで運用可能
- API依存からの脱却: 外部APIへの依存度を下げられる
- 試行錯誤のハードルが低い: 多くの実験を低コストで実行可能
を意味します。
Time-Sensitive Training Sandbox
MiroThinkerのもう一つの技術的イノベーションは「Time-Sensitive Training Sandbox」です。
従来のモデル訓練では、モデルは「神の視点」を持っています。つまり、訓練データに含まれる「未来の情報」にもアクセスできてしまいます。これは現実世界での推論とは異なる条件です。
MiroThinkerの訓練では、
- 特定のタイムスタンプ以前の情報のみにアクセス可能
- 「未来の漏洩」を防止
- 不完全な情報下での推論を強制
これにより、実世界のタスクにより適した推論能力が獲得されます。
実際の使用例
MiroThinkerはオンラインデモ で試すことができます。
また、ローカルでの実行も可能です。SGLangまたはvLLMでモデルをサーブできます。
| |
MITライセンスで公開されており、商用利用も可能です。
人間に例えると何か
ここで、AIの3つのスケーリング軸を人間の能力に置き換えて考えてみましょう。
| AIのスケーリング軸 | 人間の能力 | 具体例 |
|---|---|---|
| モデルサイズ | 記憶力・知識量 | 博識な人、暗記力が高い人 |
| コンテキスト長 | ワーキングメモリ | 複数の情報を同時に保持して処理できる能力 |
| Interactive Scaling | 調査力・研究力 | 図書館で調べる、専門家に聞く、実験して検証する |
記憶型 vs 調査型
従来のLLMは「百科事典を丸暗記した人」に近いかもしれません。膨大な知識を持っていますが、知らないことは答えられず、記憶違いをそのまま自信満々に語ってしまいます。
一方、MiroThinkerは「優秀な研究者」や「調査報道記者」に近い存在です。
- すべてを記憶していなくても、「何を調べるべきか」を知っている
- 一次情報源に当たる習慣がある
- 仮説を立て、検証し、間違っていたら修正する
- 複数のソースを突き合わせて信頼性を確認する
| 記憶型(従来のLLM) | 調査型(MiroThinker) |
|---|---|
| 百科事典を暗記した人 | 優秀な図書館司書 |
| クイズ王 | 調査報道記者 |
| 試験で高得点を取る学生 | 論文を書ける研究者 |
核心的な違いは明確です。
- 記憶型: 「知っていること」しか答えられない
- 調査型: 「知らないこと」も調べて答えられる
私たち人間も、すべてを記憶しているわけではありません。むしろ、必要なときに調べ、検証し、修正する——その能力こそが、真の「知性」と呼べるものではないでしょうか。
Interactive Scalingの意味するもの
MiroThinkerの成功は、AIの進化に対する根本的な問いを投げかけます。
「AIを賢くするには、より多くを記憶させるべきか、それとも、より賢く調べさせるべきか」
これまでの答えは「記憶」でした。GPT-4、Claude、Geminiなど、すべてのフロンティアモデルは「より大きく、より多くを記憶する」方向に進化してきました。
しかし、MiroThinkerは別の道を示しています。
- 記憶には限界がある(幻覚、陳腐化、コスト)
- 調査能力はスケールする(ツール呼び出し回数に比例)
- 小さなモデルでも、十分な調査能力があれば大きなモデルを超えられる
AIの進化は、「より多くを記憶する」から「より賢く調べる」へと、パラダイムシフトを迎えているのかもしれません。
