「このLLM、自分のGPUで動くのかな?」——ローカルLLMを試すたびにGoogleで「RTX 4070 Llama 3 VRAM」と検索して、Redditのスレッドを読み漁る。そんな経験はないでしょうか。
CanIRun.ai は、ブラウザを開くだけで手持ちのハードウェアを自動検出し、各LLMがどの程度の速度で動くかをスコアリングしてくれるWebツールです。Hacker Newsで1位(1,361ポイント)を獲得し、大きな注目を集めました。
何ができるのか
CanIRun.aiにアクセスすると、ブラウザのAPIを使ってGPU・CPU・メモリを自動検出します。その情報をもとに、各LLM モデルに対して0〜100のスコアを算出し、S〜Fのランクで表示します。
完全にブラウザ内で完結します。インストール不要、ユーザー登録不要、データ送信なし。GPU名、RAM、ベンチマーク結果はすべてデバイスローカルに留まります。
主な特徴:
- 自動ハードウェア検出: WebGL / WebGPU / Navigator APIでGPU・CPU・RAMを特定
- スコアリング: 速度・メモリ余裕・モデル品質の3軸で0〜100点
- 量子化対応: Q2_K / Q4_K_M / Q6_K / Q8_0 / F16 の各量子化レベルを比較
- Apple Silicon対応: 統合メモリアーキテクチャを正しく評価
- 40種以上のGPU: データベースに主要GPUの仕様を保持
- ティアリスト表示: ゲームの「Tier List」風にモデルをランク付け
スコアリングの仕組み
スコアは3つの要素の加重平均です。
1. Speed Score(55%)
推論速度の推定に使われる計算式:
tok/s ≈ メモリ帯域幅 (GB/s) ÷ モデルVRAM (GB) × 効率係数
効率係数はディスクリートGPUで0.70、Apple Siliconで0.65。
| 推定速度 | スコア | 体感 |
|---|---|---|
| 80+ tok/s | 100 | 瞬時 |
| 40〜80 tok/s | 80 | 快適 |
| 20〜40 tok/s | 60 | 実用的 |
| 10〜20 tok/s | 40 | やや遅い |
| 5〜10 tok/s | 20 | 遅い |
| 5未満 tok/s | 10 | 実用困難 |
2. Memory Headroom(35%)
VRAMの使用率に応じてペナルティが入ります。
| メモリ使用率 | スコア |
|---|---|
| ≤30% | 100(余裕あり) |
| 50% | 70 |
| 70% | 40 |
| 85%超 | 10(ギリギリ) |
さらに、使用率が85〜110%の場合は「tight fit penalty」でスコア全体に0.65が乗算されます。VRAM不足でスワップが発生する状況は大幅に減点されるわけです。
3. Quality Bonus(〜10%)
大きなモデルほど高品質な出力を出す傾向があるため、パラメータ数に応じた対数ボーナスが加算されます。
| |
70Bモデルで最大約15ポイント。小さなモデルでもペナルティはなく、大きなモデルにボーナスが付く形式です。
ハードウェア検出の仕組み
GPU検出
ブラウザで隠しWebGLキャンバスを作成し、WEBGL_debug_renderer_info 拡張を使ってGPU名とベンダーを取得します。
例: "ANGLE (NVIDIA GeForce RTX 4090)"
この文字列を40種以上のGPUデータベースと照合して、メモリ帯域幅やVRAMサイズを特定します。WebGPUが使える環境では、さらに詳しいアーキテクチャ情報も取得します。
Apple Siliconの特殊処理
ここがCanIRun.aiの気の利いた点です。Apple Siliconの統合メモリアーキテクチャを正しく考慮しています。
- 通常のGPU: 専用VRAMのみ使用可能(RTX 4060の8GBなら8GBまで)
- Apple Silicon: システムRAMの約75%をGPUが使用可能
つまり36GBのMacBook Proなら約27GBのモデルが動かせる計算です。一方、8GB VRAMのディスクリートGPUでは8GBを超えるモデルは実用困難。この違いを自動で考慮してスコアリングしてくれるのは便利です。
量子化の選び方
CanIRun.aiでは、各モデルに対して複数の量子化レベルでVRAM要件を表示します。
| 量子化 | ビット数 | 品質 | 用途 |
|---|---|---|---|
| Q2_K | 2bit | 低い | VRAMが厳しい場合の最終手段 |
| Q4_K_M | 4bit | 推奨バランス | ほとんどの場合これ |
| Q6_K | 6bit | ほぼ無損失 | 品質重視 |
| Q8_0 | 8bit | ほぼ完全 | VRAMに余裕がある場合 |
| F16 | 16bit | フル精度 | ベンチマーク・研究用 |
VRAM計算式:
VRAM (GB) = パラメータ数 × ビット数 ÷ 8 ÷ 1024³ + オーバーヘッド
個人的には、まずQ4_K_Mでスコアを確認して、余裕があればQ6_Kに上げるのが現実的な選び方だと思います。
実際に使ってみる
- CanIRun.ai にアクセス
- ハードウェアが自動検出される(数秒)
- モデル一覧がスコア順に表示される
- 量子化レベルを切り替えて比較
ソート条件はスコア以外にも、パラメータ数、リリース日、コンテキスト長、VRAM要件で切り替えられます。ティアリスト表示 では、ゲームのキャラランクのようにS〜Fでモデルが並びます。
類似ツールとの比較
CanIRun.ai以外にも同様のツールがあります。
| ツール | 方式 | 特徴 |
|---|---|---|
| CanIRun.ai | Webブラウザ | GPU自動検出、スコアリング、量子化比較 |
| CanIRunThisLLM | Web | シンプルなUI、基本的な判定 |
| llm-checker | CLI | Ollama統合、ローカルハードウェアスキャン |
| APXML VRAM Calculator | Web | VRAM計算特化、手動GPU選択 |
CanIRun.aiの強みは「アクセスするだけで自動判定」という手軽さと、3軸スコアリングの情報量のバランスです。
注意点
- ブラウザの制限: WebGLが無効な環境やプライバシー拡張でGPU情報を隠している場合、正確な検出ができない
- 推定値: 実際の推論速度はモデルの実装やフレームワーク(llama.cpp / Ollama / vLLM等)によって変わる。あくまで目安として使うのが適切
- MoEモデル: Mixtralのようなスパースモデルは、全パラメータがVRAMに載る必要があるが、推論時はサブセットしか使わないため、スコアがやや保守的になる
まとめ
「自分のGPUでこのLLM動くかな?」という疑問に対して、CanIRun.aiは「ブラウザ開いて見るだけ」という最も低い敷居の回答を提供しています。
個人的に便利だと思ったのは、Apple Siliconの統合メモリを正しく考慮してくれる点。MacでローカルLLMを動かす場合、「VRAMが○GB」ではなく「システムRAMの75%」で考える必要がありますが、これを自動計算してくれるのは地味にありがたい。
ローカルAI を始めたい人にとっては、「何を買えばいいか」「どのモデルを選べばいいか」の判断材料になるツールです。モデル選びで迷ったら、まずCanIRun.aiでスコアを確認してみてください。
