目次 / llama.cpp の準備

llama.cpp の準備(OS別)

Pixubus EX の頭脳は llama.cpp(の llama-server)です。これだけは アプリに同梱していないので、お使いの OS に合わせて自分で用意します。ここがいちばんの山場ですが、当てはまる OS の箇所だけ読めば大丈夫です。

用意するのは llama-server(実行ファイル)1 つ。 モデル本体(GGUF)は次のページで別に入手します。ここでは「エンジン」だけ手に入れます。

まず方針:GPU?CPU?どのビルド?

llama.cpp は環境に合わせて何種類かのビルドがあります。迷ったら下の早見で選んでください。速度を求めるなら GPU、確実さを求めるなら CPU が基本です。

あなたの環境	選ぶビルド	体感
NVIDIA GPU(GeForce/RTX 等)	CUDA ビルド	速い(画像解析が数秒〜)
Apple Silicon(M1〜)	macOS arm64(Metal 内蔵)	速い・省電力
GPU が無い / 不安定	CPU ビルド	遅いが確実(数十秒〜/枚)
AMD / Intel GPU	Vulkan ビルド	環境差が大きい(下の注意)

速度が出なくても「動けばよい」 なら CPU ビルドが一番ラクで確実です。あとから GPU ビルドに差し替えても、設定で実行ファイルのパスを変えるだけです。

入手の手段は大きく2つ。パッケージマネージャ(一番ラク)か、公式の配布 zip を手で展開(GPU ビルドを細かく選びたいとき)です。配布 zip は llama.cpp 公式の GitHub Releases にあります。

※ ファイル名の b####(例 b9821)はリリース番号で、頻繁に更新されます。Releases ページで最新の番号に読み替えてください。以下の例の番号はあくまで一例です。

Windowswindows 10 / 11 · x64

かんたん:winget で入れる

コマンドプロンプトか PowerShell で 1 行。新しいバージョンが出ても更新されます。

winget install llama.cpp

入ったら llama-server --version で確認できます。NVIDIA GPU をフルに使いたい / Blackwell 世代(RTX 50 系)の場合は、次の「手で展開」で CUDA ビルドを選ぶほうが確実です。

確実:配布 zip を手で展開(GPU を選びたいとき)

Releases から、環境に合う zip を落として好きなフォルダに展開します。

環境	落とすファイル(例)
GPU 無し / まず確実に	`llama-b####-bin-win-cpu-x64.zip`
NVIDIA GPU(推奨)	`llama-b####-bin-win-cuda-12.4-x64.zip` ＋ `cudart-llama-bin-win-cuda-12.4-x64.zip`
AMD / Intel GPU	`llama-b####-bin-win-vulkan-x64.zip`

CUDA を使う場合は cudart-… も必ず一緒に展開してください(CUDA ランタイム DLL。これが無いと起動しません)。本体 zip と同じフォルダに上書き展開すれば OK です。

Blackwell 世代(RTX 50 系 / sm_120)の注意。 本 PoC では CUDA 12.4 ビルドで動作を確認しています。一方 CUDA 13.x はクラッシュ(MMQ)、Vulkan は不安定でした。50 系は CUDA 12.4 を選んでください。それ以前の世代は素直に最新の CUDA ビルドで構いません。

展開すると llama-server.exe が入っています。これが本体です。場所(フルパス)を控えておきます(例 C:\tools\llama\llama-server.exe)。動作確認:

cd C:\tools\llama          # 展開した場所
.\llama-server.exe --version

macOSapple silicon (M1〜) 推奨

Apple Silicon なら Metal(GPU)が標準で有効なので、特別なことをしなくても速く動きます。Homebrew が一番ラクです。

brew install llama.cpp

これで llama-server が使えるようになります(新リリースに追従して更新されます)。確認:

llama-server --version
which llama-server        # 実行ファイルの場所を確認(設定で使う)

Homebrew を使わない場合は、Releases から llama-b####-bin-macos-arm64.tar.gz を落として展開します。

tar -xf llama-b####-bin-macos-arm64.tar.gz   # 展開
xattr -dr com.apple.quarantine .             # Gatekeeper の隔離属性を外す(必要なら)

ダウンロードしたバイナリは、初回に「開発元を確認できない」と止められることがあります。上の xattr で隔離属性を外すか、Finder で右クリック →「開く」で許可してください。

Linuxubuntu 等 · x64

Linux も Homebrew(Linuxbrew)が手軽です。

brew install llama.cpp

Homebrew を使わない場合は、Releases の llama-b####-bin-ubuntu-x64.tar.gz(CPU)を展開して使えます。

tar -xf llama-b####-bin-ubuntu-x64.tar.gz
./build/bin/llama-server --version    # 同梱の場所は配布物により異なる

NVIDIA GPU を Linux で使うなら、CUDA を有効にしたビルドが要ります。conda-forge(CUDA 対応パッケージあり)や公式のビルド手順(-DGGML_CUDA=ON でソースからビルド)が確実です。まずは CPU で動作確認してから GPU 版に差し替えるのがおすすめ。

用意できたら:アプリにつなぐ

手に入れた llama-server を Pixubus EX に渡す方法は2通り。どちらでも構いません(詳しくは設定)。

managed(おすすめ)

アプリが起動を面倒みる

設定で llama-server のパスとモデルを登録するだけ。
起動はアプリが自動(モデルは登録済みから既定を選び、切替は再起動)。
--jinja などの必須オプションも自動で付与。

connect

自分で起動して URL 接続

自分で llama-server を起動しておく。
アプリには URL(例 http://127.0.0.1:8080)を教えるだけ。
別 PC・クラウド GPU の llama-server にもつなげる。

connect で自分で起動する場合は --jinja を必ず付けてください。 無いと画像を渡した瞬間にクラッシュします(Windows では 0xC0000409)。最大のハマりどころです。あわせて --reasoning-format deepseek --image-max-tokens 1120 も付けるのが推奨(具体例はモデルの入手)。managed なら自動で付くので気にしなくて OK。

次は、その llama-server に読ませる モデル(Gemma4 の GGUF + mmproj) を入手します。