Fragments of verbose memory

冗長な記憶の断片 - Web技術のメモをほぼ毎日更新

Dec 23, 2025 - 日記

exo 1.0: RDMA over Thunderbolt 5で分散AI推論が最大3.2倍高速化

exo-1.0-rdma-thunderbolt5-performance cover image

2025年12月18日、exo のバージョン1.0が正式リリースされました。最大の目玉機能はRDMA over Thunderbolt 5対応です。これにより、複数台のMac Studioを接続した際の分散AI推論が劇的に高速化されました。以前当ブログで紹介したexomacOS 26.2のRDMA機能 の続報となります。

exo 1.0の主要アップデート

RDMA対応によるテンソル並列処理

exo 1.0では、ApplemacOS 26.2 で導入したRDMA over Thunderbolt機能を活用し、テンソル並列処理(Tensor Parallelism)に対応しました。

従来のパイプライン並列では、モデルのレイヤーを複数台に分割するだけで、推論速度の向上は見込めませんでした。しかしテンソル並列では、各レイヤー自体を複数マシンに分割することで、台数に応じた速度向上が可能になります。

パイプライン並列 vs テンソル並列の比較

この実現には低レイテンシ通信が不可欠です。exo 1.0はRDMAにより、デバイス間のレイテンシを99%削減しました。

実測パフォーマンス: Jeff Geerlingベンチマーク

著名なホームラボ系YouTuber Jeff Geerling 氏が、4台のM3 Ultra Mac Studioクラスター(合計1.5TB統合メモリ)で詳細なベンチマークを実施しています。

ベンチマーク結果の比較グラフ

Qwen3-235B (8-bit)

ノード数llama.cpp (RPC)exo 1.0 (RDMA)
1ノード13.9 tok/s14.7 tok/s
2ノード10.5 tok/s21.2 tok/s
4ノード7.8 tok/s32.0 tok/s

llama.cpp の従来方式(RPC)ではノード追加で逆に遅くなりますが、exo 1.0のRDMAテンソル並列ではノード追加に応じた速度向上を実現しています(公式発表では4デバイスで最大3.2倍)。

DeepSeek V3.1 671B (8-bit)

ノード数exo 1.0 (RDMA)
1ノード21.1 tok/s
2ノード27.8 tok/s
4ノード32.5 tok/s

671BパラメータのDeepSeek モデルでも、ほぼリニアなスケーリングを実現しています。

Kimi K2 Thinking (1T params, 32B active)

1兆パラメータのKimi K2 モデル(600GB超)は単一ノードでは動作不可能ですが、4ノードクラスタで約30 tok/sを達成しています。

詳細なベンチマーク結果はJeff Geerlingのブログ記事 で公開されています。

macOSアプリ版の提供

exo 1.0では、macOS向けネイティブアプリが提供されるようになりました。

  • ダウンロード: EXO-latest.dmg
  • 動作環境: macOS Tahoe 26.2以降
  • 機能: バックグラウンドで動作し、自動的にクラスタノードを検出

アプリはシステム環境設定の変更とネットワークプロファイルのインストールが必要です。初回起動時に管理者権限を求められます。

RDMA有効化とセットアップ

前提条件

  • ハードウェア: Mac Studio M3/M4 Ultra(Thunderbolt 5対応)
  • ケーブル: Thunderbolt 5ケーブル(Apple純正 推奨、$70/本)
  • 接続形態: フルメッシュ接続(各マシンが相互に直接接続)

接続トポロジーの制約

Thunderbolt 5スイッチは存在しない

2025年12月時点で、Thunderbolt 5対応のネットワークスイッチやハブは存在しません。そのため、各Mac Studioを中央のスイッチに接続する一般的なスター型トポロジーは使用できません。

フルメッシュ接続が必須

RDMAを利用するには、すべてのマシンを相互に直接接続する必要があります:

  • 2台構成: 1本のケーブル
  • 3台構成: 3本のケーブル(三角形)
  • 4台構成: 6本のケーブル(完全グラフ)

必要なケーブル本数は N × (N-1) ÷ 2 で計算されます。

現在の実用的な上限

  • macOS制限: 現時点では4ノードまでの動作が確認されている
  • 物理的制約: Mac Studio M3/M4 Ultraには5つのThunderbolt 5ポートがあり、理論上は6台まで接続可能
  • ケーブル管理: 4台で6本、6台では15本のケーブルが必要になり、物理的な管理が困難

Jeff Geerlingの検証 では、Appleは5つのTB5ポートすべてがRDMA対応と述べていますが、macOSの制限により現状は4ノード構成が実用的な上限となっています。

デイジーチェーン接続の可能性

Thunderboltは理論上、1ポートあたり最大6デバイスのデイジーチェーン接続に対応していますが、RDMA over Thunderboltでの動作は未検証です。デイジーチェーン接続では中継によるレイテンシ増加が発生し、RDMAの低レイテンシという利点が損なわれる可能性が高いと考えられます。

RDMA有効化手順

RDMAはデフォルトで無効になっており、リカバリモードでの有効化が必要です:

# 1. Mac Studioをシャットダウン
# 2. 電源ボタンを10秒間長押し(起動メニューが表示される)
# 3. 「Options」を選択
# 4. ユーティリティメニューからターミナルを起動
# 5. 以下のコマンドを実行
rdma_ctl enable

# 6. 再起動

この手順は各マシンで個別に実行する必要があります。

exo 1.0の起動

ソースからインストールする場合:

# 前提条件のインストール(macOSの場合)
brew install uv macmon

# リポジトリをクローン
git clone https://github.com/exo-explore/exo
cd exo

# ダッシュボードをビルド
cd dashboard && npm install && npm run build && cd ..

# exoを起動
uv run exo

起動後、ブラウザで http://localhost:52415/ にアクセスすると、Webダッシュボードが表示されます。

既知の課題と注意点

M1/M2世代は非対応

RDMA over ThunderboltはThunderbolt 5が必須です。Thunderbolt 4のM1/M2世代のMacでは利用できません。現時点で対応しているのはM3/M4 Ultraのみです。

安定性の課題

Jeff Geerlingの検証では、プレリリース版での頻繁なクラッシュが報告されています:

  • モデルロード失敗
  • HPL over Thunderboltで1分後にクラッシュ
  • 複数ノード接続時の不安定性

正式版では改善されている可能性がありますが、プロダクション環境での使用には注意が必要です。

物理的な接続管理

Thunderboltケーブルはサーバー用途としては物理的な耐久性に課題があります:

  • コネクタのロック機構がない
  • ケーブル品質によるばらつき
  • ラックマウント時のケーブル管理の難しさ

長期運用を考える場合は、Sonnet ThunderLok のような固定アダプタの使用を検討してください。

macOSのクラスタ管理

Linuxと比較して、macOSのヘッドレス運用には制約があります:

  • システムアップデートはGUI操作が必要(SSH経由では不可)
  • Ansible等での完全自動化が困難
  • クラスタ規模ではJamf 等のMDM導入が推奨

NeurIPS 2025での公開デモ

Appleブース でexo 1.0が公式デモされました:

  • 4台のM3 Ultra Mac Studio(各512GB)をフルメッシュ接続
  • DeepSeek V3.2 (8-bit)を25 tok/secで動作
  • RDMA over Thunderbolt 5の実用性を実証

まとめ

exo 1.0は、Apple Silicon Macクラスタでの分散AI推論に大きな進化をもたらしました:

  • 実用的な速度向上: 4ノードで最大3.2倍
  • 超大規模モデルの実行: 1兆パラメータ以上も動作可能
  • 低消費電力: 2ノードで50W以下
  • macOS統合: ネイティブアプリで簡単セットアップ

一方で、M1/M2非対応、安定性の課題、物理的な接続管理など、改善の余地もあります。

NVIDIAのDGX Spark と比較して、exo+Mac Studioクラスタは容量面で優位性があります。$50,000のコストで3TBの統合メモリを確保でき、同等のNVIDIA構成($270,000)の18%のコストで実現できます。

プライバシーを重視し、自宅で大規模言語モデルを動かしたい開発者・研究者にとって、exo 1.0は実用的な選択肢になりつつあります。

参考リンク