目次 / 設定(LLM 接続)
設定(LLM 接続)
画面右上の 「設定」で、llama-server とのつなぎ方と、画像をどこまで細かく読むかを決めます。まずは モードを選ぶ → モデルを登録する の2手順です。
2つのモード:managed と connect
A
managed(おすすめ)
アプリが起動・切替llama-serverの実行ファイルのパスを登録。- モデル(GGUF と mmproj のパス)を登録。複数登録して既定を1つ選択(切替は既定を変えて再起動)。
- 起動・停止をアプリが自動。
--jinja等の必須オプションも自動付与。
手元の 1 台で完結したい人はこれ。
B
connect
URL 接続- 自分で起動した
llama-serverの URL を登録(例http://127.0.0.1:8080)。 - モデルの切替は自分で(起動時の指定)。
- 別 PC・クラウド GPU の llama-server にもつなげる。
強い GPU の別マシンを使う人向け。
「接続テスト / 状態」で疎通を確認できます。画面右上のチップにも現在の状態(ready / starting / error)が出ます。
設定画面は LLM / 生成 / 外観 / データ の 4 タブに分かれています。下のとおり。
「LLM」タブ:接続とモデル
managed の入力項目:
| 項目 | 入れるもの |
|---|---|
| llama-server.exe パス | 展開した実行ファイル(例 C:\tools\llama\llama-server.exe / mac・Linux は which llama-server の場所)。 |
| host / port | アプリが起動する llama-server の待受。ふつうは既定のままで OK。 |
| -ngl | GPU に載せる層数。大きいほど速い(VRAM を使う)。CPU のみなら 0、GPU 全部なら大きめ(例 99)。 |
| ctx(-c) | 文脈の長さ。本用途は 8192 程度で十分。 |
| image-max-tokens | 画像トークン予算。大きいほど細部まで読める(重くなる)。送信画像の長辺も連動(≈ √(値 × 2304))。既定 1120(≈ 1606px)= Pixubus EX の肝。 |
| モデル(複数登録可) | 各行に ラベル / model GGUF パス / mmproj パス(Ollama の blob パスも可)。既定を1つ選択。切替は既定を変えて再起動(生成画面に切替 UI はありません)。 |
「パス検証」で exe とモデルの存在を確認し、「保存して起動 / 再起動」で llama-server を立ち上げます(初回ロードは時間がかかります)。入手は モデルの入手、実行ファイルは llama.cpp の準備 へ。
connect の場合は URL だけ(例 http://127.0.0.1:8080)+「接続テスト」。自分で起動する llama-server には、次を付けるのが推奨です。
llama-server -m model.gguf --mmproj mmproj-F16.gguf \
--jinja --reasoning-format deepseek --image-max-tokens 1120
「生成」タブ:温度と服装
| 項目 | 何が変わる |
|---|---|
| 抽出 temperature(0〜1) | STEP 01(画像 → タグ)のばらつき。低いほど安定・決定的。読み取りは低めが無難。 |
| 生成 temperature(0〜1.5) | STEP 02(プロンプト生成)のばらつき。高いほど多様な表現に。 |
| outfit モード | keep = 元画像の服装を維持 / override = 状況の指示で服装を総入れ替え。 |
「外観」「データ」タブ
- 外観 — 配色テーマを選択(クリックで即反映・端末に保存)。ヘッダーのアイコンからも切替可。
- データ — 保存場所の確認(
data/history.db/data/uploads/)。個別削除は 履歴画面から。
読み取りが甘いと感じたら:① 入力画像を トリミングしてキャラを大きく、② image-max-tokens を上げる、③ より大きいモデル(31B)に替える。逆に遅いときは image-max-tokens を下げる / 12B にする / GPU を使う。
managed では Ollama を停止しておくこと(同じ GPU の VRAM を奪い合う)。
ollama ps が空であることを確認。