GTX1650を使ってLM Studio 上のローカルLLMを日本語評価してみた

スポンサーリンク
この記事は約6分で読めます。

ローカルLLMは「費用を抑えつつ、手元のPCで安全に使えるのか?」

実際に使えるかどうかを、事務作業用PC(i5-13400/32GB RAM/GTX1650 4GB/Windows 11 Pro)と LM Studio 0.3.23 で確かめました。

今回は各モデルを“デフォルト設定のまま”動かし、初回利用に近い条件で、日本語タスク(要約・抽出・翻訳・計算・安全性など全10項目)を横並び評価しました。

結果からは、小型~中型モデルでも日常業務に十分使える領域と、厳密な書式や営業日計算のような“取りこぼしやすい”領域がはっきり見えてきました。

本記事では、テスト結果から、モデル別の強み・弱み、そして4GB VRAM環境でも安定運用するためのヒントを、できるだけ分かりやすくまとめます。

ローカルLLMを「まずは自分で試してみたい」方の判断材料になれば幸いです。

作業環境

  • PC:Intel Core i5-13400 / RAM 32GB / Windows 11 Pro
  • GPU:NVIDIA GeForce GTX1650(VRAM 4GB)
  • ツール:LM Studio 0.3.23(ローカル推論&OpenAI互換API)
  • :各モデルをロード時のデフォルト設定のままでテスト。
    チューニングは一切していません
GTX1650を使ってLM Studio 0.3.23にインストールしたローカルLLMを評価

テスト内容

今回のテスト項目は、合計で100点となる10個のテストで構成されています。

客観性を高めるための工夫

  • 同一プロンプトで比較(モデルだけを切替)。
  • 機械判定できるタスクを多めに採用(JSON構造・文字数・禁則・最終数値一致など)。
  • 必要に応じてJSON Schemaや正規表現で自動検証し、基準を明文化。
テスト番号タスク目的出力条件 / 判定観点配点例
1ニュース要約読解・要約3文以内・主語明確・重要度順の箇条書き15
2指示遵守
(制約つき)
形式厳守「チャット」のメリット3項各30–40字句点なし・名詞止め番号つき15
3事実質問+幻覚抑制事実性正答+不存在の明示(不確かな場合は“不確か”と断る)15
4日本語品質(敬語)文体・可読性口語→丁寧語+ビジネス適正(重言・二重敬語なし)10
5論理推論(営業日)ルール適用金曜17時受信→3営業日以内の期限手順つきで算出10
6計算の正確さ算術筆算の途中式を示し、最終行に答えのみ10
7分類・抽出(JSON)構造化会社名のみを {"companies":[…]}JSONのみで出力5
8観点要約観点統制利点/欠点の見出しで各2点、15–25字5
9翻訳往復意味保持日→英(1文)→直後に意味を変えずに日訳5
10安全性(拒否+代替案)セーフティ不正要求を明確に拒否し、合法的代替案を2つ(各40字以内)5

テスト結果

モデル総合スコア
openai/gpt-oss-20b77
qwen/qwen3-4b-thinking-250758
cyberagent DeepSeek-R1 Distill Qwen 14B(Q4_K_S)56
google/gemma-3n-e4b54
Llama-3-ELYZA-JP-8B(q4_k_m)48
Swallow-13B-Instruct(Q4_K_S)42

配点は本文「評価設計(10タスク・計100点)」に準拠しています。

テスト結果に基づくLLMモデル別の傾向

ここではテスト結果に基づくローカルLLMの傾向を要約しています。

デフォルト設定のまま試したため、同じモデルでもチューニング次第で結果は変わります

20B(gpt-oss-20B 量子化)

  • 強み:要約の構造化、JSON抽出の正確さ計算の最終値、翻訳往復の意味保持、安全性タスクのバランス。
  • 弱み厳密な形式制約(字数・語尾・番号体裁)で取りこぼし。
  • 向き:要約・抽出・翻訳・一般QAの主力。帳票・テンプレは自動チェック併用で安定。

4B〜7B(Qwen 4B)

  • 強み:小型でもJSON最終数値は堅実。
  • 弱み営業日計算敬語の自然さ、安全性の代替案提示が弱め。
  • 向き下書き・バッチ処理。ビジネス文書は仕上げ工程(リライト/検証)前提。

13B〜14B(DeepSeek Distill Qwen 14B/Swallow 13B)

  • 強み:要点の骨子化や丁寧な文体が得意。
  • 弱み筆算/期限などルール型推論の取りこぼし、法・根拠での強い断定(幻覚)が出る場合あり。
  • 向き構造化要約・ドラフト。根拠主張や計算は別工程で検証

多言語系・日本語特化(Gemma/ELYZA  8Bなど)

  • 強み日本語の自然さ・読みやすいリライト。
  • 弱み形式厳守ルール推論で崩れやすいケース。
  • 向き読みやすさ重視のリライト。厳密性は他モデル+検査ルールで補完。

LM Studio 0.3.23 の使い方

モデルの導入(GGUF推奨)

  1. Models/Chat → Open/Download model からモデルを取得。
  2. 量子化は4GB VRAMを前提に Q4(例:Q4_K_S / q4_k_m) を選びやすい。
  3. Load でチャット画面から利用可能。

参考:WindowsでLM Studioを使ってローカルでgpt-oss-20bを動かす

ローカルAPI(OpenAI互換)

  • Developer → Status:running トグルボタンをONにすると、http://localhost:1234/v1 で外部ツールから叩けます。
  • 例:最小のチャット呼び出し(パラメータ指定は省略)。

クライアントによってはAPIキー必須の入力欄がありますが、LM StudioのローカルAPIはキー不要です。
空欄で通らない場合は、api_key="not-needed"などダミー値を入れてください。

まとめ

デフォルト設定のままでも、事務PC(GTX1650/4GB)で日本語の実務タスクは十分こなせますが、形式厳守とルール型推論(営業日・筆算・根拠整合)では取りこぼしが出やすいモデルもあります。

モデルの得意分野を理解し、手動チェックを挟む運用にすると、軽量環境でも安定した品質を実現できます。

error: Content is protected !!