目次 / llama.cpp の準備
llama.cpp の準備(OS別)
Pixubus EX の頭脳は llama.cpp(の llama-server)です。これだけは アプリに同梱していないので、お使いの OS に合わせて自分で用意します。ここがいちばんの山場ですが、当てはまる OS の箇所だけ読めば大丈夫です。
llama-server(実行ファイル)1 つ。 モデル本体(GGUF)は 次のページで別に入手します。ここでは「エンジン」だけ手に入れます。
まず方針:GPU?CPU?どのビルド?
llama.cpp は環境に合わせて何種類かのビルドがあります。迷ったら下の早見で選んでください。速度を求めるなら GPU、確実さを求めるなら CPU が基本です。
| あなたの環境 | 選ぶビルド | 体感 |
|---|---|---|
| NVIDIA GPU(GeForce/RTX 等) | CUDA ビルド | 速い(画像解析が数秒〜) |
| Apple Silicon(M1〜) | macOS arm64(Metal 内蔵) | 速い・省電力 |
| GPU が無い / 不安定 | CPU ビルド | 遅いが確実(数十秒〜/枚) |
| AMD / Intel GPU | Vulkan ビルド | 環境差が大きい(下の注意) |
入手の手段は大きく2つ。パッケージマネージャ(一番ラク)か、公式の配布 zip を手で展開(GPU ビルドを細かく選びたいとき)です。配布 zip は llama.cpp 公式の GitHub Releases にあります。
※ ファイル名の b####(例 b9821)はリリース番号で、頻繁に更新されます。Releases ページで最新の番号に読み替えてください。以下の例の番号はあくまで一例です。
かんたん:winget で入れる
コマンドプロンプトか PowerShell で 1 行。新しいバージョンが出ても更新されます。
winget install llama.cpp
入ったら llama-server --version で確認できます。NVIDIA GPU をフルに使いたい / Blackwell 世代(RTX 50 系)の場合は、次の「手で展開」で CUDA ビルドを選ぶほうが確実です。
確実:配布 zip を手で展開(GPU を選びたいとき)
Releases から、環境に合う zip を落として好きなフォルダに展開します。
| 環境 | 落とすファイル(例) |
|---|---|
| GPU 無し / まず確実に | llama-b####-bin-win-cpu-x64.zip |
| NVIDIA GPU(推奨) | llama-b####-bin-win-cuda-12.4-x64.zip+ cudart-llama-bin-win-cuda-12.4-x64.zip |
| AMD / Intel GPU | llama-b####-bin-win-vulkan-x64.zip |
cudart-… も必ず一緒に展開してください(CUDA ランタイム DLL。これが無いと起動しません)。本体 zip と同じフォルダに上書き展開すれば OK です。
展開すると llama-server.exe が入っています。これが本体です。場所(フルパス)を控えておきます(例 C:\tools\llama\llama-server.exe)。動作確認:
cd C:\tools\llama # 展開した場所
.\llama-server.exe --version
Apple Silicon なら Metal(GPU)が標準で有効なので、特別なことをしなくても速く動きます。Homebrew が一番ラクです。
brew install llama.cpp
これで llama-server が使えるようになります(新リリースに追従して更新されます)。確認:
llama-server --version
which llama-server # 実行ファイルの場所を確認(設定で使う)
Homebrew を使わない場合は、Releases から llama-b####-bin-macos-arm64.tar.gz を落として展開します。
tar -xf llama-b####-bin-macos-arm64.tar.gz # 展開
xattr -dr com.apple.quarantine . # Gatekeeper の隔離属性を外す(必要なら)
xattr で隔離属性を外すか、Finder で右クリック →「開く」で許可してください。
Linux も Homebrew(Linuxbrew)が手軽です。
brew install llama.cpp
Homebrew を使わない場合は、Releases の llama-b####-bin-ubuntu-x64.tar.gz(CPU)を展開して使えます。
tar -xf llama-b####-bin-ubuntu-x64.tar.gz
./build/bin/llama-server --version # 同梱の場所は配布物により異なる
conda-forge(CUDA 対応パッケージあり)や 公式のビルド手順(-DGGML_CUDA=ON でソースからビルド)が確実です。まずは CPU で動作確認してから GPU 版に差し替えるのがおすすめ。
用意できたら:アプリにつなぐ
手に入れた llama-server を Pixubus EX に渡す方法は2通り。どちらでも構いません(詳しくは 設定)。
- 設定で
llama-serverのパスとモデルを登録するだけ。 - 起動はアプリが自動(モデルは登録済みから既定を選び、切替は再起動)。
--jinjaなどの必須オプションも自動で付与。
- 自分で
llama-serverを起動しておく。 - アプリには URL(例
http://127.0.0.1:8080)を教えるだけ。 - 別 PC・クラウド GPU の llama-server にもつなげる。
--jinja を必ず付けてください。 無いと画像を渡した瞬間にクラッシュします(Windows では 0xC0000409)。最大のハマりどころです。あわせて --reasoning-format deepseek --image-max-tokens 1120 も付けるのが推奨(具体例は モデルの入手)。managed なら自動で付くので気にしなくて OK。
次は、その llama-server に読ませる モデル(Gemma4 の GGUF + mmproj) を入手します。