ローカルLLMは、モデル名だけでは選びにくい
ローカルLLMを試そうとすると、最初に悩みやすいのがモデル選びです。
Qwen、Gemma、Mistral、ELYZA、DeepSeek、Phiなど、よく聞く名前は増えています。しかし、名前を知っているだけでは、自分の仕事にどれが合うのか判断しにくいです。
今回の動画では、同じPC、同じお題でローカルLLMを試し、テキスト要約、領収書OCR、画像推論という3つの観点から見比べています。
大切なのは、「このモデルが一番」と決めることではありません。自社で使いたい作業に近い条件で、どのモデルが扱いやすいかを見ることです。
今回の検証環境
動画では、MacBook Air M3、メモリ16GBの環境で検証しています。
Ollama公式アプリを使い、MacのGPUが効く状態で動かしています。モデルは主に7Bから9B前後の、手元PCで試しやすいサイズを中心に選んでいます。
ただし、速度は固定の数字ではありません。PCの状態、発熱、モデルの読み込み状態、同時に動いているアプリによって変わります。特にMacBook Airはファンレス機なので、連続実行時の速度は参考値として見る必要があります。
今回の結果も、2026年6月時点の手元環境での小規模検証です。一般的な性能ランキングではなく、実務で試す時の見方として受け取るのが安全です。
8BやE4Bは「サイズの目安」として見る
ローカルLLMのモデル名には、7B、8B、9B のような数字が付いていることがあります。
B は billion の略で、8B なら約80億パラメータ規模のモデルという目安です。一般には数字が大きいほど重くなりやすく、必要なメモリも増えやすくなります。
ただし、数字が大きいほど仕事で必ず使いやすいわけではありません。
学習内容、モデル設計、量子化、対応している入出力、用途との相性によって、実際の使い勝手は変わります。
また、Gemma系で見かける E4B の E は Effective の意味として扱われます。総パラメータ数そのものではなく、動作時の有効サイズの目安として見る方が安全です。
比較したモデルの見方
動画では、検証結果を見るための地図として、モデルの国や系統も整理しています。
| モデル | 読み方 | 系統 |
|---|---|---|
| Qwen | クウェン | 中国・Alibaba系 |
| Gemma | ジェマ | 米国・Google系 |
| Mistral / Ministral | ミストラル / ミニストラル | フランス・Mistral AI系 |
| ELYZA | エライザ | 日本・ELYZA系 |
| DeepSeek | ディープシーク | 中国・DeepSeek系 |
| Phi | ファイ | 米国・Microsoft系 |
この整理は、優劣を決めるためではありません。どの系統のモデルを、どの用途で試しているのかを分かりやすくするための前提です。
実際に会社で使う場合は、モデルカード、ライセンス、商用利用条件、提供元の公式情報を確認してください。モデル名が似ていても、バージョンや派生モデルによって条件が変わることがあります。
テキスト要約では、自然さだけでは足りない
最初の検証は、テキスト要約です。
動画では、整った議事メモと、話者ラベルのない会話メモを使っています。仕事では、きれいに整った文章だけでなく、雑談や言い直しが混ざった記録を整理したい場面もあります。
評価軸は、日本語の自然さだけではありません。
- 必要な情報を落とさないか
- 決定事項や数字を拾えるか
- 指示した形式を守れるか
- 書かれていないことを補わないか
- 長い入力でも安定するか
- 確認しやすい形で出力できるか
今回の環境では、Gemma 4 E4Bがテキスト要約で扱いやすい印象でした。網羅性、正確さ、形式の守り方のバランスが良く、会話メモのような少し雑然とした入力でも必要な情報を整理しやすい結果でした。
一方で、モデルごとの癖も見えます。日本語が自然でも情報を省きがちなモデル、網羅性は高いものの書かれていない情報を補ってしまうモデル、形式が崩れやすいモデルがあります。
議事録や会話メモでは、「読みやすい文章」だけでなく、「仕事で必要な情報が残っているか」を確認することが大切です。
領収書OCRでは、精度と速度を分けて見る
次に、領収書OCRの検証です。
動画では、ダミー領収書と実写に近い領収書を使い、店名、合計金額、税、日付などの読み取りを見ています。
今回の小規模検証では、Qwen2.5-VL 7BがOCR精度の面で強い結果でした。新しいモデルが単純な読み取りで必ず強いとは限らない、という点でも興味深い結果です。
一方で、Gemma 4 E4Bは精度と速度のバランスが良く、複数枚を処理する実務では扱いやすさが見えました。最高精度だけを見るのか、速度とのバランスを見るのかで、選び方は変わります。
OCRを仕事に使う場合は、以下の点を確認してください。
- 自社で扱う書類に近いサンプルで試しているか
- 手書き、傾き、影、画質の悪さに耐えられるか
- 金額、日付、税区分など重要項目を落とさないか
- 読み取り結果を人が確認する運用になっているか
領収書、請求書、契約書、証憑のような資料では、AIの出力をそのまま確定情報として扱わず、人の確認を前提にした方がよいです。
画像推論は、OCRとは別の能力として見る
画像読み取りには、2つの段階があります。
1つは、画像の中の文字を読むOCRです。もう1つは、読んだ情報を使って計算したり、比較したり、関係性を判断したりする画像推論です。
動画では、粗利率表、折れ線グラフ、買い物メモ、客数表のような画像を使い、読んだ後に考えるタスクも検証しています。
ここで見えてきたのは、文字を読めることと、読んだ後に正しく判断できることは別だという点です。
今回の小規模検証では、Qwen3-VL 8BやMinistral 3 8Bが画像を読んで考える用途で良い結果を見せました。一方で、Qwen3-VL 8Bは処理時間が長くなる場面もあり、精度と速度のバランスをどう見るかがポイントになります。
Gemma 4 E4Bは、OCRや表・計算系では安定していましたが、線グラフのような視覚的な位置関係を読む問題では注意が必要な結果もありました。
このように、画像系のタスクは「画像が扱えるモデルか」だけでは不十分です。OCR、表の読み取り、グラフの読み取り、計算、比較を分けて試す必要があります。
実務でのモデル選びは、用途別に小さく試す
今回の動画で一番伝えたいのは、ローカルLLMのモデル選びを総合ランキングだけで決めない方がよい、ということです。
たとえば、次のように用途を分けて見ます。
| 用途 | 見るべきポイント |
|---|---|
| 議事録・会話メモ要約 | 決定事項、ToDo、数字を落とさないか |
| 社内文書の要約 | 長い文章でも破綻しないか |
| 領収書OCR | 重要項目を正しく読めるか |
| 表やグラフの読み取り | 文字だけでなく関係性を判断できるか |
| 画像からの計算・比較 | 読み取り後の推論が安定するか |
| 日常利用 | 速度と精度のバランスがよいか |
自社で使うなら、いきなり本番資料を入れるのではなく、架空データやサンプルで小さく試してください。
おすすめは、次のような検証です。
- 架空の議事メモを3本用意する
- 自社で扱う書類に近いダミー画像を5枚用意する
- 同じ入力を複数モデルに投げる
- 出力の正確さ、抜け漏れ、速度を記録する
- 最後は人が見て、業務に使えるか判断する
ローカルLLMは、クラウドAIを避けたい時の選択肢になります。ただし、ローカルで動くことだけで安全性が決まるわけではありません。PCのアクセス権、保存場所、ログ、クラウド同期、社内ルールも合わせて確認する必要があります。
動画で見られること
動画では、ローカルLLMのモデル選びについて、次の流れで確認しています。
- MacBook Air M3、メモリ16GBでの検証環境
7B、8B、E4Bなどモデル名の数字の見方- Qwen、Gemma、Mistral、ELYZA、DeepSeek、Phiの概要
- テキスト要約で見えたモデルごとの癖
- 領収書OCRでの精度と速度の違い
- 画像推論で見えたOCRとは別の評価軸
- 会社で試す時の小さな検証の進め方
ローカルLLMを仕事に使いたい方にとって、最初のモデル選びで迷いすぎないための参考になる内容です。
万能の正解を探すより、自分の用途に近いお題で試す。この考え方を持っておくと、モデル名が増えても落ち着いて選びやすくなります。