目次 / 速度の目安

速度の目安

どれくらい待つのか、何を選べば速いのか。本 PoC の検証環境での実測例です(GPU = RTX 5070 Ti 16GB / Blackwell、CPU ビルドも併用)。お使いのハード・モデル・量子化で大きく変わりますので、傾向としてご覧ください。

GPU と CPU

いちばん効くのは GPU を使うかどうか。画像を読み込む処理(エンコード)で差が出ます。

画像エンコード(同条件)所要
CPU ビルド約 39 秒
GPU(CUDA 12.4)約 7.4 秒

GPU が使えるなら、まず GPU ビルド。使えない/不安定なら CPU ビルドで「遅いが確実」に倒します。

12B と 31B

速度優先なら 12B、精度優先なら 31B(遅くても良い前提で)。 31B を快適に回すには、より大きな VRAM か、割り切った待ち時間が要ります。

読み取り精度と画像トークン予算

image-max-tokens(画像トークン予算)を上げるほど、小さな文字や細部まで読めます。予算と「読める最小文字サイズ」の関係(検証例):

画像トークン予算読める最小文字(目安)
280(Ollama 相当の上限)約 28px まで
56012B で約 17px / 31B で約 10px
1120(本アプリ既定)さらに小さい文字まで

予算を上げると細かく読める代わりに重くなります。精度と速度のバランスを、用途に合わせて。

※ 数値は検証時点(2026-06)・特定環境の実測例です。モデル/量子化/画像によって変動します。検証の詳細は配布物の research/ 側にあります。