Local-first · llama.cpp × Gemma4

Pixubus EX
キャラ画像から、絵のプロンプトを。

キャラ画像と「こんな絵にしたい」を日本語で書くだけ。ローカル LLM がキャラを細部まで読み、ComfyUI などで使える画像生成プロンプトに変換。生成はお好みの環境で。

note で手に入れる → 使い方を見る

Pixubus EX の流れ:① キャラ画像を入れる → llama.cpp が画像を解析してタグ化 → ② 日本語でシチュエーションを足す → llama.cpp が日本語と合成してプロンプト化 → ③ ComfyUI などお好みの環境で画像生成(白いワンピース姿の生成例)

1分でわかる Pixubus EX

操作の流れ(キャラ画像 → 抽出 → プロンプト → ComfyUI で生成)を 58 秒にまとめました。

紹介動画のサムネイル(Pixubus EX ─ 800pxの壁、こえる。Gemma4 を、限界まで。)

▶ クリックで再生(ここで初めて YouTube を読み込みます)

なぜ Pixubus EX?

Pixubus EX は、キャラ画像から画像生成プロンプトを作るローカルアプリ本家 Pixubus の姉妹版(上位版)です。本家はローカル LLM の定番 Ollama でキャラ画像を読みますが、その Ollama には「解像度の壁」があります。

Ollama で Gemma4 に画像を渡すと、内部で約 0.65MP(~803×803)に縮められます(画像トークンが 280 に固定)。だから髪飾り・小物・細かい柄・小さな文字を取りこぼし、ときに幻覚します。

これは Ollama 本体のリポジトリにも報告されている実在の既知問題です(ollama/ollama #15626・2026-07 時点で未解決)。「Expose max_soft_tokens (image token budget) as a runtime parameter for Gemma 4 models」= 画像トークン予算を実行時に変えられるようにしてほしい、という要望が挙がったままになっています。実測での検証過程は検証記事(note)に全文公開しています。

Pixubus EX のキービジュアル。800pxの壁、こえる。Gemma4 を、限界まで。Ollama → llama.cpp で、キャラ画像を細部まで読んで画像生成プロンプトに。

1120

画像トークン予算
(Ollama は 280 で頭打ち)

~1600px

読み込む長辺
(Ollama は ~800px)

0

クラウド送信
(完全ローカル)

Pixubus EX は llama.cpp を直接駆動して --image-max-tokens 1120(Gemma4 の OCR 予算)を渡し、同じ Gemma4 で約 2 倍小さい文字・細部まで読みます(長辺 ~1606px・最大 2.58MP)。= 「Ollama の壁を越えて、Gemma4 を限界まで引き出す上位版」。

	Ollama × Gemma4	Pixubus EX(llama.cpp)
画像トークン	280 で固定	1120(可変)
実質の解像度	~0.65MP(≈803px)	~2.58MP(長辺 ~1606px)
小さな文字・細部	つぶれて幻覚しがち	読める

※ この壁は「Ollama × Gemma4」の組み合わせ固有の挙動です(他の vision モデルは別の方式)。数値は 2026-06 の実測時点。上の issue が解決されれば Ollama 側でも予算を広げられるようになる可能性があります。

できること

🔍~800px の壁を越えるOllama が縮める制約を llama.cpp で回避。image-max-tokens 1120 で細部まで読む。

🪜2ステップで完結STEP 01 抽出(画像 → 外見タグ)→ STEP 02 生成(タグ + 状況 → positive / negative)。

✂️賢いトリミング原寸で切ってから、はみ出すときだけ縮小。背景を切ってキャラを大きく送れる。

🔌llama-server に URL 接続起動済みの llama-server につなぐだけ(ollama serve と同じ感覚)。別 PC・クラウド GPU にも。

🗂ジョブ・履歴ブラウザを閉じても継続・再アタッチ。履歴は復元・★お気に入り・コピー。

📴完全ローカル・検閲なしセットアップ後は外部に出ない。題材も表現も思いのまま、手元で完結。

動作条件

手元の PC で動くローカルアプリです。下の3つをそろえれば動きます。GPU があれば速く、無くても CPU で動きます。

対応 OSWindowsmacOSLinux

1アプリ本体中核

Node.js 24 以降
配布物(zip)+ ブラウザ

2llama.cpp + モデル頭脳

llama-server(OS 別に入手・同梱なし)
Gemma4 の GGUF + mmproj
GPU 推奨(無ければ CPU で遅め)

llama.cpp の選び方の分岐図。Windows は NVIDIA GPU があれば CUDA 12.4 ビルド(推奨)、手軽に試すなら winget の Vulkan、GPU なしは CPU。macOS は brew の Metal(推奨)。Linux は NVIDIA GPU があれば CUDA をソースビルド(推奨)、GPU なしは CPU。 — llama.cpp は OS と GPU で入れ方を選ぶ — 迷ったらこの図のとおりに。

速さ優先 = 12B、精度優先 = 31B(遅くても可)。 NVIDIA GPU は CUDA 12.4 ビルド推奨。入手は llama.cpp の準備に OS 別で詳しく。

ローカルだから、創作は自由

解析もプロンプトも、すべてあなたの PC の中だけ。クラウドに送らないから、題材も表現も思いのまま。外部サービスのフィルタや検閲に縛られず、描きたい世界をそのまま形にできます。難しいタグや英語を覚えなくても、手持ちのキャラ画像と日本語の「こうしたい」から始められます。

本家 Pixubus との違い

本家 Pixubus は、キャラ画像から外見タグを抽出し、日本語の要望と画風を掛け合わせてプロンプトを作り、ComfyUI で画像生成まで 1 画面で完結するローカルアプリです。Pixubus EX はその姉妹プロダクトで、llama.cpp に特化して Ollama の解像度の壁を越え、「画像を細部まで読む」ことに振り切った Extended(上位)版。出力はプロンプトまで — 画像生成はお好みの環境で。

本家 Pixubus のキービジュアル:キャラ画像を入れる → ローカル LLM がプロンプト化 → ComfyUI で画像生成

Pixubus — キャラ画像から、そのまま画像生成まで。 Ollama + ComfyUI で「画像が出るところまで」を 1 画面で完結する本家版。生成までおまかせにしたい方はこちらから。 pixubus.pages.dev →

手に入れる

配布は note のメンバーシップから。最新版の入手とアップデートに対応します。

note で手に入れる → 先に使い方を見る

このサイトは配布物に同梱(オフラインでも閲覧可)。アプリ起動中は画面右上の「使い方 ↗」からも開けます。

Pixubus EXキャラ画像から、絵のプロンプトを。

1分でわかる Pixubus EX

なぜ Pixubus EX?

できること

動作条件

ローカルだから、創作は自由

本家 Pixubus との違い

手に入れる

Pixubus EX
キャラ画像から、絵のプロンプトを。