ローカルLLMは「費用を抑えつつ、手元のPCで安全に使えるのか?」
実際に使えるかどうかを、事務作業用PC(i5-13400/32GB RAM/GTX1650 4GB/Windows 11 Pro)と LM Studio 0.3.23 で確かめました。
今回は各モデルを“デフォルト設定のまま”動かし、初回利用に近い条件で、日本語タスク(要約・抽出・翻訳・計算・安全性など全10項目)を横並び評価しました。
結果からは、小型~中型モデルでも日常業務に十分使える領域と、厳密な書式や営業日計算のような“取りこぼしやすい”領域がはっきり見えてきました。
本記事では、テスト結果から、モデル別の強み・弱み、そして4GB VRAM環境でも安定運用するためのヒントを、できるだけ分かりやすくまとめます。
ローカルLLMを「まずは自分で試してみたい」方の判断材料になれば幸いです。
作業環境
- PC:Intel Core i5-13400 / RAM 32GB / Windows 11 Pro
- GPU:NVIDIA GeForce GTX1650(VRAM 4GB)
- ツール:LM Studio 0.3.23(ローカル推論&OpenAI互換API)
- 注:各モデルをロード時のデフォルト設定のままでテスト。
チューニングは一切していません。

テスト内容
今回のテスト項目は、合計で100点となる10個のテストで構成されています。
客観性を高めるための工夫
- 同一プロンプトで比較(モデルだけを切替)。
- 機械判定できるタスクを多めに採用(JSON構造・文字数・禁則・最終数値一致など)。
- 必要に応じてJSON Schemaや正規表現で自動検証し、基準を明文化。
テスト番号 | タスク | 目的 | 出力条件 / 判定観点 | 配点例 |
---|---|---|---|---|
1 | ニュース要約 | 読解・要約 | 3文以内・主語明確・重要度順の箇条書き | 15 |
2 | 指示遵守 (制約つき) | 形式厳守 | 「チャット」のメリット3項、各30–40字、句点なし・名詞止め、番号つき | 15 |
3 | 事実質問+幻覚抑制 | 事実性 | 正答+不存在の明示(不確かな場合は“不確か”と断る) | 15 |
4 | 日本語品質(敬語) | 文体・可読性 | 口語→丁寧語+ビジネス適正(重言・二重敬語なし) | 10 |
5 | 論理推論(営業日) | ルール適用 | 金曜17時受信→3営業日以内の期限を手順つきで算出 | 10 |
6 | 計算の正確さ | 算術 | 筆算の途中式を示し、最終行に答えのみ | 10 |
7 | 分類・抽出(JSON) | 構造化 | 会社名のみを {"companies":[…]} のJSONのみで出力 | 5 |
8 | 観点要約 | 観点統制 | 利点/欠点の見出しで各2点、15–25字 | 5 |
9 | 翻訳往復 | 意味保持 | 日→英(1文)→直後に意味を変えずに日訳 | 5 |
10 | 安全性(拒否+代替案) | セーフティ | 不正要求を明確に拒否し、合法的代替案を2つ(各40字以内) | 5 |
テスト結果
モデル | 総合スコア |
---|---|
openai/gpt-oss-20b | 77 |
qwen/qwen3-4b-thinking-2507 | 58 |
cyberagent DeepSeek-R1 Distill Qwen 14B(Q4_K_S) | 56 |
google/gemma-3n-e4b | 54 |
Llama-3-ELYZA-JP-8B(q4_k_m) | 48 |
Swallow-13B-Instruct(Q4_K_S) | 42 |
配点は本文「評価設計(10タスク・計100点)」に準拠しています。
テスト結果に基づくLLMモデル別の傾向
ここではテスト結果に基づくローカルLLMの傾向を要約しています。
デフォルト設定のまま試したため、同じモデルでもチューニング次第で結果は変わります。
20B(gpt-oss-20B 量子化)
- 強み:要約の構造化、JSON抽出の正確さ、計算の最終値、翻訳往復の意味保持、安全性タスクのバランス。
- 弱み:厳密な形式制約(字数・語尾・番号体裁)で取りこぼし。
- 向き:要約・抽出・翻訳・一般QAの主力。帳票・テンプレは自動チェック併用で安定。
4B〜7B(Qwen 4B)
- 強み:小型でもJSONや最終数値は堅実。
- 弱み:営業日計算や敬語の自然さ、安全性の代替案提示が弱め。
- 向き:下書き・バッチ処理。ビジネス文書は仕上げ工程(リライト/検証)前提。
13B〜14B(DeepSeek Distill Qwen 14B/Swallow 13B)
- 強み:要点の骨子化や丁寧な文体が得意。
- 弱み:筆算/期限などルール型推論の取りこぼし、法・根拠での強い断定(幻覚)が出る場合あり。
- 向き:構造化要約・ドラフト。根拠主張や計算は別工程で検証。
多言語系・日本語特化(Gemma/ELYZA 8Bなど)
- 強み:日本語の自然さ・読みやすいリライト。
- 弱み:形式厳守やルール推論で崩れやすいケース。
- 向き:読みやすさ重視のリライト。厳密性は他モデル+検査ルールで補完。
LM Studio 0.3.23 の使い方
モデルの導入(GGUF推奨)
- Models/Chat → Open/Download model からモデルを取得。
- 量子化は4GB VRAMを前提に Q4(例:Q4_K_S / q4_k_m) を選びやすい。
- Load でチャット画面から利用可能。
参考:WindowsでLM Studioを使ってローカルでgpt-oss-20bを動かす
ローカルAPI(OpenAI互換)
- Developer → Status:running トグルボタンをONにすると、
http://localhost:1234/v1
で外部ツールから叩けます。 - 例:最小のチャット呼び出し(パラメータ指定は省略)。
#PowerShell使用の場合
Invoke-WebRequest -Uri http://localhost:1234/v1/chat/completions -Method Post -ContentType "application/json" -Body '{"model": "your-model-name", "messages": [{"role":"user","content":"テスト: 1文で挨拶してください。"}]}'
#これを使うと、自動テスト→機械採点→再生成のパイプライン化が容になります。
クライアントによってはAPIキー必須の入力欄がありますが、LM StudioのローカルAPIはキー不要です。
空欄で通らない場合は、api_key="not-needed"
などダミー値を入れてください。
まとめ
デフォルト設定のままでも、事務PC(GTX1650/4GB)で日本語の実務タスクは十分こなせますが、形式厳守とルール型推論(営業日・筆算・根拠整合)では取りこぼしが出やすいモデルもあります。
モデルの得意分野を理解し、手動チェックを挟む運用にすると、軽量環境でも安定した品質を実現できます。