MiroThinker: AIは「記憶」ではなく「調査」で賢くなる時代へ

AIの性能を上げるには、モデルを大きくするしかない——そう信じられてきた常識が、いま覆されようとしています。

MiroThinker は、MiroMind 社が開発したオープンソースの検索エージェントです。30Bパラメータという比較的小さなモデルでありながら、1兆パラメータ級のモデルを上回る性能を達成しています。その秘密は「Interactive Scaling」という新しいスケーリング手法にあります。

AIの進化における3つのスケーリング軸

従来、AIの性能向上には2つの軸がありました。

graph LR
    subgraph 従来のスケーリング
        A[モデルサイズ] --> B[パラメータ数増加]
        C[コンテキスト長] --> D[入力長拡張]
    end
    subgraph 新しいスケーリング
        E[Interactive Scaling] --> F[ツール呼び出し深度]
    end
    B --> G[性能向上]
    D --> G
    F --> G

モデルサイズのスケーリング: パラメータ数を増やす（7B → 70B → 700B）
コンテキスト長のスケーリング: 入力できるトークン数を増やす（4K → 32K → 128K）

MiroThinkerが提唱する「Interactive Scaling」は、これに続く第3の軸です。

Interactive Scalingとは何か

Interactive Scalingの核心は、「AIを賢くするには、より多くの知識を詰め込むのではなく、より深く外界と対話させる」という発想です。

従来のアプローチ：記憶に頼る

従来の大規模言語モデル（LLM）は、膨大なテキストデータを学習して「記憶」し、その記憶から回答を生成します。

質問 → [LLMの記憶から検索] → 回答

この方式の問題点は明確です。

ハルシネーション: 記憶が曖昧だと、自信満々に間違った回答をする
情報の陳腐化: 学習データ以降の情報は知らない
コスト増大: より多くを記憶させるには、より大きなモデルが必要

MiroThinkerのアプローチ：調査する

MiroThinkerは、記憶に頼る代わりに「調査」します。

質問 → [仮説を立てる] → [ツールで調査] → [結果を検証] → [必要なら再調査] → 回答

重要なのは、この「調査 → 検証 → 再調査」のループを最大400回（v1.5の場合）まで繰り返せるということです。これが「Interactive Scaling」の実体です。

性能は「ツール呼び出し回数」に比例する

MiroThinkerの論文では、興味深い発見が報告されています。

「ツール呼び出しの深度と頻度が増すにつれて、研究タスクの性能が予測可能な形で向上する」

つまり、モデルサイズやコンテキスト長と同様に、ツール呼び出し回数もスケーリング則に従うのです。

なぜ30Bで1兆パラメータを超えられるのか

MiroThinker v1.5（30Bパラメータ）は、BrowseComp-ZHベンチマークで1兆パラメータのKimi-K2-Thinkingを上回りました。

モデル	パラメータ数	BrowseComp-ZH
Kimi-K2-Thinking	1T	68.5
MiroThinker v1.5	30B	69.8

この逆転現象は、以下のように説明できます。

大きなモデルの限界

1兆パラメータのモデルは、膨大な知識を「記憶」しています。しかし、

記憶は完璧ではない
新しい情報は知らない
複雑な推論では記憶の「つなぎ合わせ」が困難

小さなモデル + 深い調査の強み

30Bのモデルは記憶量では劣りますが、

「何を調べるべきか」を判断する能力は十分
外部ツールで最新・正確な情報を取得
仮説 → 検証 → 修正のループで精度を向上

結果として、「賢く調べる能力」が「たくさん記憶する能力」を上回ったのです。

Scientist Mode：幻覚を減らす仕組み

MiroThinkerの特徴的な設計として「Scientist Mode」があります。

VentureBeat の記事によると、

「MiroThinkerは、統計的にもっともらしい回答を記憶パターンから生成する代わりに、検証可能な研究ループを実行するよう訓練されている」

具体的には以下のステップを踏みます。

仮説の提案: 質問に対する仮説を立てる
外部ソースへのクエリ: 証拠を求めてツールを使用
不一致の特定: 仮説と証拠の矛盾を検出
結論の修正: 必要に応じて仮説を更新
再検証: 修正した結論を再度検証

このアプローチにより、エンタープライズ環境で重要な監査可能性（Auditability）が実現されます。AIが「どうやってその結論に至ったか」を追跡できるのです。

コスト効率：1/20のコストでGPT-5に迫る

Interactive Scalingのもう一つの利点は、コスト効率です。

項目	MiroThinker v1.5	Kimi-K2-Thinking
推論コスト	$0.07/コール	$1.40/コール
パラメータ数	30B	1T
必要GPU	中規模	大規模クラスター

MiroMind社の報告によると、MiroThinker v1.5の推論コストはKimi-K2-Thinkingの約1/20です。これは、

ローカルデプロイが現実的: 企業の自社サーバーで運用可能
API依存からの脱却: 外部APIへの依存度を下げられる
試行錯誤のハードルが低い: 多くの実験を低コストで実行可能

を意味します。

Time-Sensitive Training Sandbox

MiroThinkerのもう一つの技術的イノベーションは「Time-Sensitive Training Sandbox」です。

従来のモデル訓練では、モデルは「神の視点」を持っています。つまり、訓練データに含まれる「未来の情報」にもアクセスできてしまいます。これは現実世界での推論とは異なる条件です。

MiroThinkerの訓練では、

特定のタイムスタンプ以前の情報のみにアクセス可能
「未来の漏洩」を防止
不完全な情報下での推論を強制

これにより、実世界のタスクにより適した推論能力が獲得されます。

実際の使用例

MiroThinkerはオンラインデモで試すことができます。

また、ローカルでの実行も可能です。SGLangまたはvLLMでモデルをサーブできます。

1
2
3
4
5
6
# SGLangでのデプロイ例
python -m sglang.launch_server \
    --model-path miromind-ai/MiroThinker-v1.5-30B \
    --tp 4 \
    --host 0.0.0.0 \
    --port 1234

MITライセンスで公開されており、商用利用も可能です。

人間に例えると何か

ここで、AIの3つのスケーリング軸を人間の能力に置き換えて考えてみましょう。

AIのスケーリング軸	人間の能力	具体例
モデルサイズ	記憶力・知識量	博識な人、暗記力が高い人
コンテキスト長	ワーキングメモリ	複数の情報を同時に保持して処理できる能力
Interactive Scaling	調査力・研究力	図書館で調べる、専門家に聞く、実験して検証する

記憶型 vs 調査型

従来のLLMは「百科事典を丸暗記した人」に近いかもしれません。膨大な知識を持っていますが、知らないことは答えられず、記憶違いをそのまま自信満々に語ってしまいます。

一方、MiroThinkerは「優秀な研究者」や「調査報道記者」に近い存在です。

すべてを記憶していなくても、「何を調べるべきか」を知っている
一次情報源に当たる習慣がある
仮説を立て、検証し、間違っていたら修正する
複数のソースを突き合わせて信頼性を確認する

記憶型（従来のLLM）	調査型（MiroThinker）
百科事典を暗記した人	優秀な図書館司書
クイズ王	調査報道記者
試験で高得点を取る学生	論文を書ける研究者

核心的な違いは明確です。

記憶型: 「知っていること」しか答えられない
調査型: 「知らないこと」も調べて答えられる

私たち人間も、すべてを記憶しているわけではありません。むしろ、必要なときに調べ、検証し、修正する——その能力こそが、真の「知性」と呼べるものではないでしょうか。

Interactive Scalingの意味するもの

MiroThinkerの成功は、AIの進化に対する根本的な問いを投げかけます。

「AIを賢くするには、より多くを記憶させるべきか、それとも、より賢く調べさせるべきか」

これまでの答えは「記憶」でした。GPT-4、Claude、Geminiなど、すべてのフロンティアモデルは「より大きく、より多くを記憶する」方向に進化してきました。

しかし、MiroThinkerは別の道を示しています。

記憶には限界がある（幻覚、陳腐化、コスト）
調査能力はスケールする（ツール呼び出し回数に比例）
小さなモデルでも、十分な調査能力があれば大きなモデルを超えられる

AIの進化は、「より多くを記憶する」から「より賢く調べる」へと、パラダイムシフトを迎えているのかもしれません。

Fragments of verbose memory

冗長な記憶の断片 - Web技術のメモをほぼ毎日更新