目次 / 速度の目安

速度の目安

どれくらい待つのか、何を選べば速いのか。本 PoC の検証環境での実測例です(GPU = RTX 5070 Ti 16GB / Blackwell、CPU ビルドも併用)。お使いのハード・モデル・量子化で大きく変わりますので、傾向としてご覧ください。

GPU と CPU

いちばん効くのは GPU を使うかどうか。画像を読み込む処理(エンコード)で差が出ます。

画像エンコード(同条件)	所要
CPU ビルド	約 39 秒
GPU(CUDA 12.4)	約 7.4 秒

GPU が使えるなら、まず GPU ビルド。使えない/不安定なら CPU ビルドで「遅いが確実」に倒します。

12B — 軽く、扱いやすい。最初の一本に。8GB 級の GPU でも載ります。
31B — 精度は上だが重い。VRAM 16GB には載りきらず、共有メモリにあふれると 1 枚あたり 2 分超になることも(GPU 使用率が高くても実体は転送待ち)。

速度優先なら 12B、精度優先なら 31B(遅くても良い前提で)。 31B を快適に回すには、より大きな VRAM か、割り切った待ち時間が要ります。

image-max-tokens(画像トークン予算)を上げるほど、小さな文字や細部まで読めます。予算と「読める最小文字サイズ」の関係(検証例):

予算を上げると細かく読める代わりに重くなります。精度と速度のバランスを、用途に合わせて。

※ 数値は検証時点(2026-06)・特定環境の実測例です。モデル/量子化/画像によって変動します。検証の詳細は配布物の research/ 側にあります。