目次 / 設定(LLM 接続)

設定(LLM 接続)

画面右上の 「設定」で、llama-server とのつなぎ方と、画像をどこまで細かく読むかを決めます。まずは モードを選ぶ → モデルを登録する の2手順です。

2つのモード:managed と connect

managed(おすすめ)

アプリが起動・切替

手元の 1 台で完結したい人はこれ。

connect

URL 接続

強い GPU の別マシンを使う人向け。

「接続テスト / 状態」で疎通を確認できます。画面右上のチップにも現在の状態(ready / starting / error)が出ます。

設定画面は LLM / 生成 / 外観 / データ の 4 タブに分かれています。下のとおり。

managed の入力項目:

項目	入れるもの
llama-server.exe パス	展開した実行ファイル(例 `C:\tools\llama\llama-server.exe` / mac・Linux は `which llama-server` の場所)。
host / port	アプリが起動する llama-server の待受。ふつうは既定のままで OK。
-ngl	GPU に載せる層数。大きいほど速い(VRAM を使う)。CPU のみなら `0`、GPU 全部なら大きめ(例 `99`)。
ctx(-c)	文脈の長さ。本用途は `8192` 程度で十分。
image-max-tokens	画像トークン予算。大きいほど細部まで読める(重くなる)。送信画像の長辺も連動(≈ √(値 × 2304))。既定 `1120`(≈ 1606px)= Pixubus EX の肝。
モデル(複数登録可)	各行にラベル / model GGUF パス / mmproj パス(Ollama の blob パスも可)。既定を1つ選択。切替は既定を変えて再起動(生成画面に切替 UI はありません)。

「パス検証」で exe とモデルの存在を確認し、「保存して起動 / 再起動」で llama-server を立ち上げます(初回ロードは時間がかかります)。入手はモデルの入手、実行ファイルは llama.cpp の準備へ。

connect の場合は URL だけ(例 http://127.0.0.1:8080)+「接続テスト」。自分で起動する llama-server には、次を付けるのが推奨です。

llama-server -m model.gguf --mmproj mmproj-F16.gguf \
  --jinja --reasoning-format deepseek --image-max-tokens 1120

項目	何が変わる
抽出 temperature(0〜1)	STEP 01(画像 → タグ)のばらつき。低いほど安定・決定的。読み取りは低めが無難。
生成 temperature(0〜1.5)	STEP 02(プロンプト生成)のばらつき。高いほど多様な表現に。
outfit モード	keep = 元画像の服装を維持 / override = 状況の指示で服装を総入れ替え。

読み取りが甘いと感じたら:① 入力画像をトリミングしてキャラを大きく、② image-max-tokens を上げる、③ より大きいモデル(31B)に替える。逆に遅いときは image-max-tokens を下げる / 12B にする / GPU を使う。

managed では Ollama を停止しておくこと(同じ GPU の VRAM を奪い合う)。ollama ps が空であることを確認。