目次 / llama.cpp の準備

llama.cpp の準備(OS別)

Pixubus EX の頭脳は llama.cpp(の llama-server)です。これだけは アプリに同梱していないので、お使いの OS に合わせて自分で用意します。ここがいちばんの山場ですが、当てはまる OS の箇所だけ読めば大丈夫です。

用意するのは llama-server(実行ファイル)1 つ。 モデル本体(GGUF)は 次のページで別に入手します。ここでは「エンジン」だけ手に入れます。

まず方針:GPU?CPU?どのビルド?

llama.cpp は環境に合わせて何種類かのビルドがあります。迷ったら下の早見で選んでください。速度を求めるなら GPU、確実さを求めるなら CPU が基本です。

あなたの環境選ぶビルド体感
NVIDIA GPU(GeForce/RTX 等)CUDA ビルド速い(画像解析が数秒〜)
Apple Silicon(M1〜)macOS arm64(Metal 内蔵)速い・省電力
GPU が無い / 不安定CPU ビルド遅いが確実(数十秒〜/枚)
AMD / Intel GPUVulkan ビルド環境差が大きい(下の注意)
速度が出なくても「動けばよい」 なら CPU ビルドが一番ラクで確実です。あとから GPU ビルドに差し替えても、設定で実行ファイルのパスを変えるだけです。

入手の手段は大きく2つ。パッケージマネージャ(一番ラク)か、公式の配布 zip を手で展開(GPU ビルドを細かく選びたいとき)です。配布 zip は llama.cpp 公式の GitHub Releases にあります。

※ ファイル名の b####(例 b9821)はリリース番号で、頻繁に更新されます。Releases ページで最新の番号に読み替えてください。以下の例の番号はあくまで一例です。

Windowswindows 10 / 11 · x64

かんたん:winget で入れる

コマンドプロンプトか PowerShell で 1 行。新しいバージョンが出ても更新されます。

winget install llama.cpp

入ったら llama-server --version で確認できます。NVIDIA GPU をフルに使いたい / Blackwell 世代(RTX 50 系)の場合は、次の「手で展開」で CUDA ビルドを選ぶほうが確実です。

確実:配布 zip を手で展開(GPU を選びたいとき)

Releases から、環境に合う zip を落として好きなフォルダに展開します。

環境落とすファイル(例)
GPU 無し / まず確実にllama-b####-bin-win-cpu-x64.zip
NVIDIA GPU(推奨)llama-b####-bin-win-cuda-12.4-x64.zip
cudart-llama-bin-win-cuda-12.4-x64.zip
AMD / Intel GPUllama-b####-bin-win-vulkan-x64.zip
CUDA を使う場合は cudart-… も必ず一緒に展開してください(CUDA ランタイム DLL。これが無いと起動しません)。本体 zip と同じフォルダに上書き展開すれば OK です。
Blackwell 世代(RTX 50 系 / sm_120)の注意。 本 PoC では CUDA 12.4 ビルドで動作を確認しています。一方 CUDA 13.x はクラッシュ(MMQ)、Vulkan は不安定でした。50 系は CUDA 12.4 を選んでください。それ以前の世代は素直に最新の CUDA ビルドで構いません。

展開すると llama-server.exe が入っています。これが本体です。場所(フルパス)を控えておきます(例 C:\tools\llama\llama-server.exe)。動作確認:

cd C:\tools\llama          # 展開した場所
.\llama-server.exe --version
macOSapple silicon (M1〜) 推奨

Apple Silicon なら Metal(GPU)が標準で有効なので、特別なことをしなくても速く動きます。Homebrew が一番ラクです。

brew install llama.cpp

これで llama-server が使えるようになります(新リリースに追従して更新されます)。確認:

llama-server --version
which llama-server        # 実行ファイルの場所を確認(設定で使う)

Homebrew を使わない場合は、Releases から llama-b####-bin-macos-arm64.tar.gz を落として展開します。

tar -xf llama-b####-bin-macos-arm64.tar.gz   # 展開
xattr -dr com.apple.quarantine .             # Gatekeeper の隔離属性を外す(必要なら)
ダウンロードしたバイナリは、初回に「開発元を確認できない」と止められることがあります。上の xattr で隔離属性を外すか、Finder で右クリック →「開く」で許可してください。
Linuxubuntu 等 · x64

Linux も Homebrew(Linuxbrew)が手軽です。

brew install llama.cpp

Homebrew を使わない場合は、Releasesllama-b####-bin-ubuntu-x64.tar.gz(CPU)を展開して使えます。

tar -xf llama-b####-bin-ubuntu-x64.tar.gz
./build/bin/llama-server --version    # 同梱の場所は配布物により異なる
NVIDIA GPU を Linux で使うなら、CUDA を有効にしたビルドが要ります。conda-forge(CUDA 対応パッケージあり)や 公式のビルド手順(-DGGML_CUDA=ON でソースからビルド)が確実です。まずは CPU で動作確認してから GPU 版に差し替えるのがおすすめ。

用意できたら:アプリにつなぐ

手に入れた llama-server を Pixubus EX に渡す方法は2通り。どちらでも構いません(詳しくは 設定)。

A
managed(おすすめ)
アプリが起動を面倒みる
  • 設定で llama-serverパスとモデルを登録するだけ。
  • 起動はアプリが自動(モデルは登録済みから既定を選び、切替は再起動)。
  • --jinja などの必須オプションも自動で付与
B
connect
自分で起動して URL 接続
  • 自分で llama-server を起動しておく。
  • アプリには URL(例 http://127.0.0.1:8080)を教えるだけ。
  • 別 PC・クラウド GPU の llama-server にもつなげる。
connect で自分で起動する場合は --jinja を必ず付けてください。 無いと画像を渡した瞬間にクラッシュします(Windows では 0xC0000409)。最大のハマりどころです。あわせて --reasoning-format deepseek --image-max-tokens 1120 も付けるのが推奨(具体例は モデルの入手)。managed なら自動で付くので気にしなくて OK。

次は、その llama-server に読ませる モデル(Gemma4 の GGUF + mmproj) を入手します。