Fragments of verbose memory

冗長な記憶の断片 - Web技術のメモをほぼ毎日更新

Jan 25, 2026 - 日記

MiroThinker: AIは「記憶」ではなく「調査」で賢くなる時代へ

MiroThinker: AIは「記憶」ではなく「調査」で賢くなる時代へ

AIの性能を上げるには、モデルを大きくするしかない——そう信じられてきた常識が、いま覆されようとしています。

MiroThinker は、MiroMind 社が開発したオープンソースの検索エージェントです。30Bパラメータという比較的小さなモデルでありながら、1兆パラメータ級のモデルを上回る性能を達成しています。その秘密は「Interactive Scaling」という新しいスケーリング手法にあります。

AIの進化における3つのスケーリング軸

従来、AIの性能向上には2つの軸がありました。

graph LR
    subgraph 従来のスケーリング
        A[モデルサイズ] --> B[パラメータ数増加]
        C[コンテキスト長] --> D[入力長拡張]
    end
    subgraph 新しいスケーリング
        E[Interactive Scaling] --> F[ツール呼び出し深度]
    end
    B --> G[性能向上]
    D --> G
    F --> G
  1. モデルサイズのスケーリング: パラメータ数を増やす(7B → 70B → 700B)
  2. コンテキスト長のスケーリング: 入力できるトークン数を増やす(4K → 32K → 128K)

MiroThinkerが提唱する「Interactive Scaling」は、これに続く第3の軸です。

Interactive Scalingとは何か

Interactive Scalingの核心は、「AIを賢くするには、より多くの知識を詰め込むのではなく、より深く外界と対話させる」という発想です。

従来のアプローチ:記憶に頼る

従来の大規模言語モデル(LLM)は、膨大なテキストデータを学習して「記憶」し、その記憶から回答を生成します。

質問 → [LLMの記憶から検索] → 回答

この方式の問題点は明確です。

  • ハルシネーション: 記憶が曖昧だと、自信満々に間違った回答をする
  • 情報の陳腐化: 学習データ以降の情報は知らない
  • コスト増大: より多くを記憶させるには、より大きなモデルが必要

MiroThinkerのアプローチ:調査する

MiroThinkerは、記憶に頼る代わりに「調査」します。

質問 → [仮説を立てる] → [ツールで調査] → [結果を検証] → [必要なら再調査] → 回答

重要なのは、この「調査 → 検証 → 再調査」のループを最大400回(v1.5の場合)まで繰り返せるということです。これが「Interactive Scaling」の実体です。

性能は「ツール呼び出し回数」に比例する

MiroThinkerの論文 では、興味深い発見が報告されています。

「ツール呼び出しの深度と頻度が増すにつれて、研究タスクの性能が予測可能な形で向上する」

つまり、モデルサイズやコンテキスト長と同様に、ツール呼び出し回数もスケーリング則に従うのです。

なぜ30Bで1兆パラメータを超えられるのか

MiroThinker v1.5(30Bパラメータ)は、BrowseComp-ZHベンチマークで1兆パラメータのKimi-K2-Thinkingを上回りました。

モデルパラメータ数BrowseComp-ZH
Kimi-K2-Thinking1T68.5
MiroThinker v1.530B69.8

この逆転現象は、以下のように説明できます。

大きなモデルの限界

1兆パラメータのモデルは、膨大な知識を「記憶」しています。しかし、

  • 記憶は完璧ではない
  • 新しい情報は知らない
  • 複雑な推論では記憶の「つなぎ合わせ」が困難

小さなモデル + 深い調査の強み

30Bのモデルは記憶量では劣りますが、

  • 「何を調べるべきか」を判断する能力は十分
  • 外部ツールで最新・正確な情報を取得
  • 仮説 → 検証 → 修正のループで精度を向上

結果として、「賢く調べる能力」が「たくさん記憶する能力」を上回ったのです。

Scientist Mode:幻覚を減らす仕組み

MiroThinkerの特徴的な設計として「Scientist Mode」があります。

VentureBeat の記事 によると、

「MiroThinkerは、統計的にもっともらしい回答を記憶パターンから生成する代わりに、検証可能な研究ループを実行するよう訓練されている」

具体的には以下のステップを踏みます。

  1. 仮説の提案: 質問に対する仮説を立てる
  2. 外部ソースへのクエリ: 証拠を求めてツールを使用
  3. 不一致の特定: 仮説と証拠の矛盾を検出
  4. 結論の修正: 必要に応じて仮説を更新
  5. 再検証: 修正した結論を再度検証

このアプローチにより、エンタープライズ環境で重要な監査可能性(Auditability)が実現されます。AIが「どうやってその結論に至ったか」を追跡できるのです。

コスト効率:1/20のコストでGPT-5に迫る

Interactive Scalingのもう一つの利点は、コスト効率です。

項目MiroThinker v1.5Kimi-K2-Thinking
推論コスト$0.07/コール$1.40/コール
パラメータ数30B1T
必要GPU中規模大規模クラスター

MiroMind社の報告によると、MiroThinker v1.5の推論コストはKimi-K2-Thinkingの約1/20です。これは、

  • ローカルデプロイが現実的: 企業の自社サーバーで運用可能
  • API依存からの脱却: 外部APIへの依存度を下げられる
  • 試行錯誤のハードルが低い: 多くの実験を低コストで実行可能

を意味します。

Time-Sensitive Training Sandbox

MiroThinkerのもう一つの技術的イノベーションは「Time-Sensitive Training Sandbox」です。

従来のモデル訓練では、モデルは「神の視点」を持っています。つまり、訓練データに含まれる「未来の情報」にもアクセスできてしまいます。これは現実世界での推論とは異なる条件です。

MiroThinkerの訓練では、

  • 特定のタイムスタンプ以前の情報のみにアクセス可能
  • 「未来の漏洩」を防止
  • 不完全な情報下での推論を強制

これにより、実世界のタスクにより適した推論能力が獲得されます。

実際の使用例

MiroThinkerはオンラインデモ で試すことができます。

また、ローカルでの実行も可能です。SGLangまたはvLLMでモデルをサーブできます。

1
2
3
4
5
6
# SGLangでのデプロイ例
python -m sglang.launch_server \
    --model-path miromind-ai/MiroThinker-v1.5-30B \
    --tp 4 \
    --host 0.0.0.0 \
    --port 1234

MITライセンスで公開されており、商用利用も可能です。

人間に例えると何か

ここで、AIの3つのスケーリング軸を人間の能力に置き換えて考えてみましょう。

AIのスケーリング軸人間の能力具体例
モデルサイズ記憶力・知識量博識な人、暗記力が高い人
コンテキスト長ワーキングメモリ複数の情報を同時に保持して処理できる能力
Interactive Scaling調査力・研究力図書館で調べる、専門家に聞く、実験して検証する

記憶型 vs 調査型

従来のLLMは「百科事典を丸暗記した人」に近いかもしれません。膨大な知識を持っていますが、知らないことは答えられず、記憶違いをそのまま自信満々に語ってしまいます。

一方、MiroThinkerは「優秀な研究者」や「調査報道記者」に近い存在です。

  • すべてを記憶していなくても、「何を調べるべきか」を知っている
  • 一次情報源に当たる習慣がある
  • 仮説を立て、検証し、間違っていたら修正する
  • 複数のソースを突き合わせて信頼性を確認する
記憶型(従来のLLM)調査型(MiroThinker)
百科事典を暗記した人優秀な図書館司書
クイズ王調査報道記者
試験で高得点を取る学生論文を書ける研究者

核心的な違いは明確です。

  • 記憶型: 「知っていること」しか答えられない
  • 調査型: 「知らないこと」も調べて答えられる

私たち人間も、すべてを記憶しているわけではありません。むしろ、必要なときに調べ、検証し、修正する——その能力こそが、真の「知性」と呼べるものではないでしょうか。

Interactive Scalingの意味するもの

MiroThinkerの成功は、AIの進化に対する根本的な問いを投げかけます。

「AIを賢くするには、より多くを記憶させるべきか、それとも、より賢く調べさせるべきか」

これまでの答えは「記憶」でした。GPT-4、Claude、Geminiなど、すべてのフロンティアモデルは「より大きく、より多くを記憶する」方向に進化してきました。

しかし、MiroThinkerは別の道を示しています。

  • 記憶には限界がある(幻覚、陳腐化、コスト)
  • 調査能力はスケールする(ツール呼び出し回数に比例)
  • 小さなモデルでも、十分な調査能力があれば大きなモデルを超えられる

AIの進化は、「より多くを記憶する」から「より賢く調べる」へと、パラダイムシフトを迎えているのかもしれません。

参考リンク