目次 / 速度の目安
速度の目安
どれくらい待つのか、何を選べば速いのか。本 PoC の検証環境での実測例です(GPU = RTX 5070 Ti 16GB / Blackwell、CPU ビルドも併用)。お使いのハード・モデル・量子化で大きく変わりますので、傾向としてご覧ください。
GPU と CPU
いちばん効くのは GPU を使うかどうか。画像を読み込む処理(エンコード)で差が出ます。
| 画像エンコード(同条件) | 所要 |
|---|---|
| CPU ビルド | 約 39 秒 |
| GPU(CUDA 12.4) | 約 7.4 秒 |
GPU が使えるなら、まず GPU ビルド。使えない/不安定なら CPU ビルドで「遅いが確実」に倒します。
12B と 31B
- 12B — 軽く、扱いやすい。最初の一本に。8GB 級の GPU でも載ります。
- 31B — 精度は上だが重い。VRAM 16GB には載りきらず、共有メモリにあふれると 1 枚あたり 2 分超になることも(GPU 使用率が高くても実体は転送待ち)。
速度優先なら 12B、精度優先なら 31B(遅くても良い前提で)。 31B を快適に回すには、より大きな VRAM か、割り切った待ち時間が要ります。
読み取り精度と画像トークン予算
image-max-tokens(画像トークン予算)を上げるほど、小さな文字や細部まで読めます。予算と「読める最小文字サイズ」の関係(検証例):
| 画像トークン予算 | 読める最小文字(目安) |
|---|---|
| 280(Ollama 相当の上限) | 約 28px まで |
| 560 | 12B で約 17px / 31B で約 10px |
| 1120(本アプリ既定) | さらに小さい文字まで |
予算を上げると細かく読める代わりに重くなります。精度と速度のバランスを、用途に合わせて。
※ 数値は検証時点(2026-06)・特定環境の実測例です。モデル/量子化/画像によって変動します。検証の詳細は配布物の research/ 側にあります。