目次 / 設定(LLM 接続)

設定(LLM 接続)

画面右上の 「設定」で、llama-server とのつなぎ方と、画像をどこまで細かく読むかを決めます。まずは モードを選ぶモデルを登録する の2手順です。

2つのモード:managed と connect

A
managed(おすすめ)
アプリが起動・切替
  • llama-server実行ファイルのパスを登録。
  • モデル(GGUF と mmproj のパス)を登録。複数登録して既定を1つ選択(切替は既定を変えて再起動)。
  • 起動・停止をアプリが自動--jinja 等の必須オプションも自動付与。

手元の 1 台で完結したい人はこれ。

B
connect
URL 接続
  • 自分で起動した llama-serverURL を登録(例 http://127.0.0.1:8080)。
  • モデルの切替は自分で(起動時の指定)。
  • 別 PC・クラウド GPU の llama-server にもつなげる。

強い GPU の別マシンを使う人向け。

「接続テスト / 状態」で疎通を確認できます。画面右上のチップにも現在の状態(ready / starting / error)が出ます。

設定画面は LLM / 生成 / 外観 / データ の 4 タブに分かれています。下のとおり。

「LLM」タブ:接続とモデル

managed の入力項目:

項目入れるもの
llama-server.exe パス展開した実行ファイル(例 C:\tools\llama\llama-server.exe / mac・Linux は which llama-server の場所)。
host / portアプリが起動する llama-server の待受。ふつうは既定のままで OK。
-nglGPU に載せる層数。大きいほど速い(VRAM を使う)。CPU のみなら 0、GPU 全部なら大きめ(例 99)。
ctx(-c)文脈の長さ。本用途は 8192 程度で十分。
image-max-tokens画像トークン予算。大きいほど細部まで読める(重くなる)。送信画像の長辺も連動(≈ √(値 × 2304))。既定 1120(≈ 1606px)= Pixubus EX の肝。
モデル(複数登録可)各行に ラベル / model GGUF パス / mmproj パス(Ollama の blob パスも可)。既定を1つ選択。切替は既定を変えて再起動(生成画面に切替 UI はありません)。

パス検証」で exe とモデルの存在を確認し、「保存して起動 / 再起動」で llama-server を立ち上げます(初回ロードは時間がかかります)。入手は モデルの入手、実行ファイルは llama.cpp の準備 へ。

connect の場合は URL だけ(例 http://127.0.0.1:8080)+「接続テスト」。自分で起動する llama-server には、次を付けるのが推奨です。

llama-server -m model.gguf --mmproj mmproj-F16.gguf \
  --jinja --reasoning-format deepseek --image-max-tokens 1120

「生成」タブ:温度と服装

項目何が変わる
抽出 temperature(0〜1)STEP 01(画像 → タグ)のばらつき。低いほど安定・決定的。読み取りは低めが無難。
生成 temperature(0〜1.5)STEP 02(プロンプト生成)のばらつき。高いほど多様な表現に。
outfit モードkeep = 元画像の服装を維持 / override = 状況の指示で服装を総入れ替え。

「外観」「データ」タブ

読み取りが甘いと感じたら:① 入力画像を トリミングしてキャラを大きく、② image-max-tokens を上げる、③ より大きいモデル(31B)に替える。逆に遅いときは image-max-tokens を下げる / 12B にする / GPU を使う。
managed では Ollama を停止しておくこと(同じ GPU の VRAM を奪い合う)。ollama ps が空であることを確認。