Fragments of verbose memory

冗長な記憶の断片 - Web技術のメモをほぼ毎日更新

Mar 17, 2026 - 日記

CanIRun.ai: 手持ちGPUでどのLLMが動くか一発でわかるツール

CanIRun.ai: 手持ちGPUでどのLLMが動くか一発でわかるツール

「このLLM、自分のGPUで動くのかな?」——ローカルLLMを試すたびにGoogleで「RTX 4070 Llama 3 VRAM」と検索して、Redditのスレッドを読み漁る。そんな経験はないでしょうか。

CanIRun.ai は、ブラウザを開くだけで手持ちのハードウェアを自動検出し、各LLMがどの程度の速度で動くかをスコアリングしてくれるWebツールです。Hacker Newsで1位(1,361ポイント)を獲得し、大きな注目を集めました。

何ができるのか

CanIRun.aiにアクセスすると、ブラウザのAPIを使ってGPU・CPU・メモリを自動検出します。その情報をもとに、各LLM モデルに対して0〜100のスコアを算出し、S〜Fのランクで表示します。

完全にブラウザ内で完結します。インストール不要、ユーザー登録不要、データ送信なし。GPU名、RAM、ベンチマーク結果はすべてデバイスローカルに留まります。

主な特徴:

  • 自動ハードウェア検出: WebGL / WebGPU / Navigator APIでGPU・CPU・RAMを特定
  • スコアリング: 速度・メモリ余裕・モデル品質の3軸で0〜100点
  • 量子化対応: Q2_K / Q4_K_M / Q6_K / Q8_0 / F16 の各量子化レベルを比較
  • Apple Silicon対応: 統合メモリアーキテクチャを正しく評価
  • 40種以上のGPU: データベースに主要GPUの仕様を保持
  • ティアリスト表示: ゲームの「Tier List」風にモデルをランク付け

スコアリングの仕組み

スコアは3つの要素の加重平均です。

1. Speed Score(55%)

推論速度の推定に使われる計算式:

tok/s ≈ メモリ帯域幅 (GB/s) ÷ モデルVRAM (GB) × 効率係数

効率係数はディスクリートGPUで0.70、Apple Siliconで0.65。

推定速度スコア体感
80+ tok/s100瞬時
40〜80 tok/s80快適
20〜40 tok/s60実用的
10〜20 tok/s40やや遅い
5〜10 tok/s20遅い
5未満 tok/s10実用困難

2. Memory Headroom(35%)

VRAMの使用率に応じてペナルティが入ります。

メモリ使用率スコア
≤30%100(余裕あり)
50%70
70%40
85%超10(ギリギリ)

さらに、使用率が85〜110%の場合は「tight fit penalty」でスコア全体に0.65が乗算されます。VRAM不足でスワップが発生する状況は大幅に減点されるわけです。

3. Quality Bonus(〜10%)

大きなモデルほど高品質な出力を出す傾向があるため、パラメータ数に応じた対数ボーナスが加算されます。

1
const qualityBonus = Math.min(15, Math.log2(paramsBillions + 1) × 2.5)

70Bモデルで最大約15ポイント。小さなモデルでもペナルティはなく、大きなモデルにボーナスが付く形式です。

ハードウェア検出の仕組み

GPU検出

ブラウザで隠しWebGLキャンバスを作成し、WEBGL_debug_renderer_info 拡張を使ってGPU名とベンダーを取得します。

例: "ANGLE (NVIDIA GeForce RTX 4090)"

この文字列を40種以上のGPUデータベースと照合して、メモリ帯域幅やVRAMサイズを特定します。WebGPUが使える環境では、さらに詳しいアーキテクチャ情報も取得します。

Apple Siliconの特殊処理

ここがCanIRun.aiの気の利いた点です。Apple Siliconの統合メモリアーキテクチャを正しく考慮しています。

  • 通常のGPU: 専用VRAMのみ使用可能(RTX 4060の8GBなら8GBまで)
  • Apple Silicon: システムRAMの約75%をGPUが使用可能

つまり36GBのMacBook Proなら約27GBのモデルが動かせる計算です。一方、8GB VRAMのディスクリートGPUでは8GBを超えるモデルは実用困難。この違いを自動で考慮してスコアリングしてくれるのは便利です。

量子化の選び方

CanIRun.aiでは、各モデルに対して複数の量子化レベルでVRAM要件を表示します。

量子化ビット数品質用途
Q2_K2bit低いVRAMが厳しい場合の最終手段
Q4_K_M4bit推奨バランスほとんどの場合これ
Q6_K6bitほぼ無損失品質重視
Q8_08bitほぼ完全VRAMに余裕がある場合
F1616bitフル精度ベンチマーク・研究用

VRAM計算式:

VRAM (GB) = パラメータ数 × ビット数 ÷ 8 ÷ 1024³ + オーバーヘッド

個人的には、まずQ4_K_Mでスコアを確認して、余裕があればQ6_Kに上げるのが現実的な選び方だと思います。

実際に使ってみる

  1. CanIRun.ai にアクセス
  2. ハードウェアが自動検出される(数秒)
  3. モデル一覧がスコア順に表示される
  4. 量子化レベルを切り替えて比較

ソート条件はスコア以外にも、パラメータ数、リリース日、コンテキスト長、VRAM要件で切り替えられます。ティアリスト表示 では、ゲームのキャラランクのようにS〜Fでモデルが並びます。

類似ツールとの比較

CanIRun.ai以外にも同様のツールがあります。

ツール方式特徴
CanIRun.aiWebブラウザGPU自動検出、スコアリング、量子化比較
CanIRunThisLLMWebシンプルなUI、基本的な判定
llm-checkerCLIOllama統合、ローカルハードウェアスキャン
APXML VRAM CalculatorWebVRAM計算特化、手動GPU選択

CanIRun.aiの強みは「アクセスするだけで自動判定」という手軽さと、3軸スコアリングの情報量のバランスです。

注意点

  • ブラウザの制限: WebGLが無効な環境やプライバシー拡張でGPU情報を隠している場合、正確な検出ができない
  • 推定値: 実際の推論速度はモデルの実装やフレームワーク(llama.cpp / Ollama / vLLM等)によって変わる。あくまで目安として使うのが適切
  • MoEモデル: Mixtralのようなスパースモデルは、全パラメータがVRAMに載る必要があるが、推論時はサブセットしか使わないため、スコアがやや保守的になる

まとめ

「自分のGPUでこのLLM動くかな?」という疑問に対して、CanIRun.aiは「ブラウザ開いて見るだけ」という最も低い敷居の回答を提供しています。

個人的に便利だと思ったのは、Apple Siliconの統合メモリを正しく考慮してくれる点。MacでローカルLLMを動かす場合、「VRAMが○GB」ではなく「システムRAMの75%」で考える必要がありますが、これを自動計算してくれるのは地味にありがたい。

ローカルAI を始めたい人にとっては、「何を買えばいいか」「どのモデルを選べばいいか」の判断材料になるツールです。モデル選びで迷ったら、まずCanIRun.aiでスコアを確認してみてください。

参考リンク