GTX1650を使ってLM Studio 上のローカルLLMを日本語評価してみた

ローカルLLMは「費用を抑えつつ、手元のPCで安全に使えるのか？」

実際に使えるかどうかを、事務作業用PC（i5-13400／32GB RAM／GTX1650 4GB／Windows 11 Pro）と LM Studio 0.3.23 で確かめました。

今回は各モデルを“デフォルト設定のまま”動かし、初回利用に近い条件で、日本語タスク（要約・抽出・翻訳・計算・安全性など全10項目）を横並び評価しました。

結果からは、小型～中型モデルでも日常業務に十分使える領域と、厳密な書式や営業日計算のような“取りこぼしやすい”領域がはっきり見えてきました。

本記事では、テスト結果から、モデル別の強み・弱み、そして4GB VRAM環境でも安定運用するためのヒントを、できるだけ分かりやすくまとめます。

ローカルLLMを「まずは自分で試してみたい」方の判断材料になれば幸いです。

作業環境
テスト内容
1. 客観性を高めるための工夫
テスト結果
テスト結果に基づくLLMモデル別の傾向
LM Studio 0.3.23 の使い方

作業環境

PC：Intel Core i5-13400 / RAM 32GB / Windows 11 Pro
GPU：NVIDIA GeForce GTX1650（VRAM 4GB）
ツール：LM Studio 0.3.23（ローカル推論＆OpenAI互換API）
注：各モデルをロード時のデフォルト設定のままでテスト。
チューニングは一切していません。

**GTX1650を使ってLM Studio 0.3.23にインストールしたローカルLLMを評価**

テスト内容

今回のテスト項目は、合計で100点となる10個のテストで構成されています。

客観性を高めるための工夫

同一プロンプトで比較（モデルだけを切替）。
機械判定できるタスクを多めに採用（JSON構造・文字数・禁則・最終数値一致など）。
必要に応じてJSON Schemaや正規表現で自動検証し、基準を明文化。

テスト番号	タスク	目的	出力条件 / 判定観点	配点例
1	ニュース要約	読解・要約	3文以内・主語明確・重要度順の箇条書き	15
2	指示遵守（制約つき）	形式厳守	「チャット」のメリット3項、各30–40字、句点なし・名詞止め、番号つき	15
3	事実質問＋幻覚抑制	事実性	正答＋不存在の明示（不確かな場合は“不確か”と断る）	15
4	日本語品質（敬語）	文体・可読性	口語→丁寧語＋ビジネス適正（重言・二重敬語なし）	10
5	論理推論（営業日）	ルール適用	金曜17時受信→3営業日以内の期限を手順つきで算出	10
6	計算の正確さ	算術	筆算の途中式を示し、最終行に答えのみ	10
7	分類・抽出（JSON）	構造化	会社名のみを `{"companies":[…]}` のJSONのみで出力	5
8	観点要約	観点統制	利点/欠点の見出しで各2点、15–25字	5
9	翻訳往復	意味保持	日→英（1文）→直後に意味を変えずに日訳	5
10	安全性（拒否＋代替案）	セーフティ	不正要求を明確に拒否し、合法的代替案を2つ（各40字以内）	5

テスト結果

モデル	総合スコア
openai/gpt-oss-20b	77
qwen/qwen3-4b-thinking-2507	58
cyberagent DeepSeek-R1 Distill Qwen 14B（Q4_K_S）	56
google/gemma-3n-e4b	54
Llama-3-ELYZA-JP-8B（q4_k_m）	48
Swallow-13B-Instruct（Q4_K_S）	42

配点は本文「評価設計（10タスク・計100点）」に準拠しています。

テスト結果に基づくLLMモデル別の傾向

ここではテスト結果に基づくローカルＬＬＭの傾向を要約しています。

デフォルト設定のまま試したため、同じモデルでもチューニング次第で結果は変わります。

20B（gpt-oss-20B 量子化）

強み：要約の構造化、JSON抽出の正確さ、計算の最終値、翻訳往復の意味保持、安全性タスクのバランス。
弱み：厳密な形式制約（字数・語尾・番号体裁）で取りこぼし。
向き：要約・抽出・翻訳・一般QAの主力。帳票・テンプレは自動チェック併用で安定。

4B〜7B（Qwen 4B）

強み：小型でもJSONや最終数値は堅実。
弱み：営業日計算や敬語の自然さ、安全性の代替案提示が弱め。
向き：下書き・バッチ処理。ビジネス文書は仕上げ工程（リライト/検証）前提。

13B〜14B（DeepSeek Distill Qwen 14B／Swallow 13B）

強み：要点の骨子化や丁寧な文体が得意。
弱み：筆算/期限などルール型推論の取りこぼし、法・根拠での強い断定（幻覚）が出る場合あり。
向き：構造化要約・ドラフト。根拠主張や計算は別工程で検証。

多言語系・日本語特化（Gemma／ELYZA　 8Bなど）

強み：日本語の自然さ・読みやすいリライト。
弱み：形式厳守やルール推論で崩れやすいケース。
向き：読みやすさ重視のリライト。厳密性は他モデル＋検査ルールで補完。

LM Studio 0.3.23 の使い方

モデルの導入（GGUF推奨）

Models/Chat → Open/Download model からモデルを取得。
量子化は4GB VRAMを前提に Q4（例：Q4_K_S / q4_k_m） を選びやすい。
Load でチャット画面から利用可能。

参考：WindowsでLM Studioを使ってローカルでgpt-oss-20bを動かす

ローカルAPI（OpenAI互換）

Developer → Status:running トグルボタンをONにすると、http://localhost:1234/v1 で外部ツールから叩けます。
例：最小のチャット呼び出し（パラメータ指定は省略）。

#PowerShell使用の場合

Invoke-WebRequest -Uri http://localhost:1234/v1/chat/completions -Method Post -ContentType "application/json" -Body '{"model": "your-model-name", "messages": [{"role":"user","content":"テスト: 1文で挨拶してください。"}]}'

#これを使うと、自動テスト→機械採点→再生成のパイプライン化が容になります。

クライアントによってはAPIキー必須の入力欄がありますが、LM StudioのローカルAPIはキー不要です。
空欄で通らない場合は、api_key="not-needed"などダミー値を入れてください。