CanIRun.ai: 手持ちGPUでどのLLMが動くか一発でわかるツール

「このLLM、自分のGPUで動くのかな？」——ローカルLLMを試すたびにGoogleで「RTX 4070 Llama 3 VRAM」と検索して、Redditのスレッドを読み漁る。そんな経験はないでしょうか。

CanIRun.ai は、ブラウザを開くだけで手持ちのハードウェアを自動検出し、各LLMがどの程度の速度で動くかをスコアリングしてくれるWebツールです。Hacker Newsで1位（1,361ポイント）を獲得し、大きな注目を集めました。

何ができるのか

CanIRun.aiにアクセスすると、ブラウザのAPIを使ってGPU・CPU・メモリを自動検出します。その情報をもとに、各LLM モデルに対して0〜100のスコアを算出し、S〜Fのランクで表示します。

完全にブラウザ内で完結します。インストール不要、ユーザー登録不要、データ送信なし。GPU名、RAM、ベンチマーク結果はすべてデバイスローカルに留まります。

主な特徴:

自動ハードウェア検出: WebGL / WebGPU / Navigator APIでGPU・CPU・RAMを特定
スコアリング: 速度・メモリ余裕・モデル品質の3軸で0〜100点
量子化対応: Q2_K / Q4_K_M / Q6_K / Q8_0 / F16 の各量子化レベルを比較
Apple Silicon対応: 統合メモリアーキテクチャを正しく評価
40種以上のGPU: データベースに主要GPUの仕様を保持
ティアリスト表示: ゲームの「Tier List」風にモデルをランク付け

スコアリングの仕組み

スコアは3つの要素の加重平均です。

1. Speed Score（55%）

推論速度の推定に使われる計算式:

tok/s ≈ メモリ帯域幅 (GB/s) ÷ モデルVRAM (GB) × 効率係数

効率係数はディスクリートGPUで0.70、Apple Siliconで0.65。

推定速度	スコア	体感
80+ tok/s	100	瞬時
40〜80 tok/s	80	快適
20〜40 tok/s	60	実用的
10〜20 tok/s	40	やや遅い
5〜10 tok/s	20	遅い
5未満 tok/s	10	実用困難

2. Memory Headroom（35%）

VRAMの使用率に応じてペナルティが入ります。

メモリ使用率	スコア
≤30%	100（余裕あり）
50%	70
70%	40
85%超	10（ギリギリ）

さらに、使用率が85〜110%の場合は「tight fit penalty」でスコア全体に0.65が乗算されます。VRAM不足でスワップが発生する状況は大幅に減点されるわけです。

3. Quality Bonus（〜10%）

大きなモデルほど高品質な出力を出す傾向があるため、パラメータ数に応じた対数ボーナスが加算されます。

1
const qualityBonus = Math.min(15, Math.log2(paramsBillions + 1) × 2.5)

70Bモデルで最大約15ポイント。小さなモデルでもペナルティはなく、大きなモデルにボーナスが付く形式です。

ハードウェア検出の仕組み

GPU検出

ブラウザで隠しWebGLキャンバスを作成し、WEBGL_debug_renderer_info 拡張を使ってGPU名とベンダーを取得します。

例: "ANGLE (NVIDIA GeForce RTX 4090)"

この文字列を40種以上のGPUデータベースと照合して、メモリ帯域幅やVRAMサイズを特定します。WebGPUが使える環境では、さらに詳しいアーキテクチャ情報も取得します。

Apple Siliconの特殊処理

ここがCanIRun.aiの気の利いた点です。Apple Siliconの統合メモリアーキテクチャを正しく考慮しています。

通常のGPU: 専用VRAMのみ使用可能（RTX 4060の8GBなら8GBまで）
Apple Silicon: システムRAMの約75%をGPUが使用可能

つまり36GBのMacBook Proなら約27GBのモデルが動かせる計算です。一方、8GB VRAMのディスクリートGPUでは8GBを超えるモデルは実用困難。この違いを自動で考慮してスコアリングしてくれるのは便利です。

量子化の選び方

CanIRun.aiでは、各モデルに対して複数の量子化レベルでVRAM要件を表示します。

量子化	ビット数	品質	用途
Q2_K	2bit	低い	VRAMが厳しい場合の最終手段
Q4_K_M	4bit	推奨バランス	ほとんどの場合これ
Q6_K	6bit	ほぼ無損失	品質重視
Q8_0	8bit	ほぼ完全	VRAMに余裕がある場合
F16	16bit	フル精度	ベンチマーク・研究用

VRAM計算式:

VRAM (GB) = パラメータ数 × ビット数 ÷ 8 ÷ 1024³ + オーバーヘッド

個人的には、まずQ4_K_Mでスコアを確認して、余裕があればQ6_Kに上げるのが現実的な選び方だと思います。

実際に使ってみる

CanIRun.ai にアクセス
ハードウェアが自動検出される（数秒）
モデル一覧がスコア順に表示される
量子化レベルを切り替えて比較

ソート条件はスコア以外にも、パラメータ数、リリース日、コンテキスト長、VRAM要件で切り替えられます。ティアリスト表示では、ゲームのキャラランクのようにS〜Fでモデルが並びます。

類似ツールとの比較

CanIRun.ai以外にも同様のツールがあります。

ツール	方式	特徴
CanIRun.ai	Webブラウザ	GPU自動検出、スコアリング、量子化比較
CanIRunThisLLM	Web	シンプルなUI、基本的な判定
llm-checker	CLI	Ollama統合、ローカルハードウェアスキャン
APXML VRAM Calculator	Web	VRAM計算特化、手動GPU選択

CanIRun.aiの強みは「アクセスするだけで自動判定」という手軽さと、3軸スコアリングの情報量のバランスです。

注意点

ブラウザの制限: WebGLが無効な環境やプライバシー拡張でGPU情報を隠している場合、正確な検出ができない
推定値: 実際の推論速度はモデルの実装やフレームワーク（llama.cpp / Ollama / vLLM等）によって変わる。あくまで目安として使うのが適切
MoEモデル: Mixtralのようなスパースモデルは、全パラメータがVRAMに載る必要があるが、推論時はサブセットしか使わないため、スコアがやや保守的になる

まとめ

「自分のGPUでこのLLM動くかな？」という疑問に対して、CanIRun.aiは「ブラウザ開いて見るだけ」という最も低い敷居の回答を提供しています。

個人的に便利だと思ったのは、Apple Siliconの統合メモリを正しく考慮してくれる点。MacでローカルLLMを動かす場合、「VRAMが○GB」ではなく「システムRAMの75%」で考える必要がありますが、これを自動計算してくれるのは地味にありがたい。

ローカルAI を始めたい人にとっては、「何を買えばいいか」「どのモデルを選べばいいか」の判断材料になるツールです。モデル選びで迷ったら、まずCanIRun.aiでスコアを確認してみてください。

Fragments of verbose memory

冗長な記憶の断片 - Web技術のメモをほぼ毎日更新