今更聞けない、ローカルPC環境にLLMをインストールして無料で生成AIを使う方法（Ollama版）

2025年4月11日

58 views

1 min read

OllamaでローカルPCに無料でLLMをインストールする方法を解説。NVIDIA StudioドライバーやAMD ROCmのGPU設定、Modelfileによる細かい設定、QwenやDeepSeekなど主要モデルの比較も紹介。

ChatGPTやClaudeは便利だが、無料枠には制限がある。入力した内容がサーバーに送られることを気にする人もいる。そういった悩みを解決するのが、ローカルPC上でLLM（大規模言語モデル）を動かす方法だ。

この記事ではOllamaを使って、自分のPCに無料で生成AIをインストールする手順を解説する。インターネット接続なし、月額料金なし、入力内容がどこかに送られる心配なしで生成AIが使えるようになる。

Ollamaとは

OllamaはローカルPCでLLMを簡単に動かすためのツールだ。コマンド1行でモデルをダウンロードして実行できる。対応モデルも豊富で、Meta製のLlama、MistralAI製のMistral、GoogleのGemmaなど主要なオープンソースモデルに対応している。

Windows・Mac・Linuxすべてに対応している。

動かすのに必要なスペック

LLMはモデルのサイズによって必要なスペックが異なる。目安は以下の通り。

モデルサイズ	必要なRAM	動作の目安
3B〜4B	8GB以上	軽快に動く
7B〜8B	16GB以上	実用的な速度
13B〜	32GB以上	GPUがあると快適

GPUがなくてもCPUだけで動くが、回答の生成速度は遅くなる。まずは小さいモデルから試してみるのがオススメだ。

【重要】事前にグラフィックカードのメーカーを確認する

GPUを使って処理を高速化するには、メーカーごとに異なる準備が必要になる。まず自分のPCのGPUメーカーを確認しよう。

Windowsの場合はWin + R→dxdiagと入力して実行すると「ディスプレイ」タブにグラフィックカードの情報が表示される。または、デバイスマネージャーの「ディスプレイアダプター」からも確認できる。

NVIDIAの場合：Studioドライバーをインストールする

NVIDIAのGPUはCUDA（クーダ）という技術でAI処理を高速化できる。OllamaはNVIDIA GPUを検出すると自動でCUDAを使うが、ドライバーの種類によっては安定しないことがある。

ゲーマー向けの「Game Readyドライバー」よりも、クリエイター向けの「Studioドライバー」の方がAIワークロードでの安定性が高い。以下の手順でインストールする。

NVIDIAの公式ドライバーページ（https://www.nvidia.com/ja-jp/drivers/）にアクセス
GPU型番を入力してドライバーを検索
「ダウンロードタイプ」で「Studio Driver（SD）」を選択
ダウンロードしてインストール（クリーンインストールを推奨）

インストール後、ターミナルで nvidia-smi を実行してCUDAのバージョンが表示されれば準備完了だ。

nvidia-smi
# CUDA Version: 12.x と表示されればOK

AMDの場合：ROCmでGPU処理を有効にする

AMDのGPUはNVIDIAのCUDAに相当するROCm（Radeon Open Compute）という技術でAI処理を行う。OllamaはROCmにも対応している。

Linuxの場合はROCmの公式サポートがあり、比較的導入しやすい。AMDの公式サイト（https://rocm.docs.amd.com）からROCmをインストールする。

Windowsの場合はROCmのサポートが限定的だ。代替手段としてZLUDAというツールを使うとCUDA向けのアプリケーションをAMD GPUで動かせる場合がある。ただしWindowsのAMD GPU対応はまだ発展途上のため、動作しない場合はCPUモードでの運用も選択肢になる。

OllamaでROCmを使う場合は、起動前に以下の環境変数を設定する。

# Windows（PowerShell）
$env:HSA_OVERRIDE_GFX_VERSION="11.0.0"  # GPU世代に合わせて変更

# Linux
export HSA_OVERRIDE_GFX_VERSION=11.0.0

OllamaのGPU設定をファイルで行う（Modelfile）

OllamaはModelfileというファイルを使って、GPUの使用レイヤー数などを細かく設定できる。デフォルトでもGPUは自動検出されるが、明示的に設定しておくと確実だ。

まず任意の場所にModelfileというファイルを作成する。

FROM llama3.2

# GPUを最大限使う（999はすべてのレイヤーをGPUに割り当てる意味）
PARAMETER num_gpu 999

# 同時に処理するリクエスト数
PARAMETER num_parallel 2

# コンテキスト長（長い会話に対応する場合は増やす）
PARAMETER num_ctx 4096

作成したModelfileを読み込んでカスタムモデルを作成する。

ollama create myllama -f ./Modelfile
ollama run myllama

また、Windowsでは環境変数でもGPUの動作を制御できる。システムの環境変数に以下を追加する（システムのプロパティ→環境変数から設定）。

環境変数	内容
`CUDA_VISIBLE_DEVICES`	使用するGPUを番号で指定（例：`0`）
`OLLAMA_MAX_LOADED_MODELS`	同時にメモリに乗せるモデル数（デフォルト1）
`OLLAMA_NUM_PARALLEL`	並列処理数（デフォルト1）

Ollamaのインストール

公式サイト（https://ollama.com）にアクセスして「Download」からインストーラーをダウンロードする。

Windowsの場合はダウンロードした.exeファイルを実行するだけでインストールが完了する。Macの場合は.dmgファイルを開いてアプリをApplicationsフォルダに移動する。

インストール後、ターミナル（WindowsはコマンドプロンプトまたはPowerShell）を開いて以下のコマンドでインストールを確認できる。

ollama --version

バージョン番号が表示されれば成功だ。

モデルをダウンロードして動かす

コマンド1行でモデルのダウンロードから起動まで完了する。

ollama run llama3.2

初回はモデルのダウンロードが始まる（llama3.2は約2GB）。ダウンロードが完了すると自動でチャット画面がターミナルに表示され、すぐに会話できる。

>>> こんにちは
こんにちは！何かお手伝いできることはありますか？

終了するときは/byeと入力するかCtrl+Dを押す。

主なモデルの選び方

Ollamaが対応しているモデルはhttps://ollama.com/libraryで一覧できる。主要なモデルをまとめた。

モデル名	コマンド	特徴
Llama 3.2	`ollama run llama3.2`	Meta製。バランスが良く日本語もそこそこ
Gemma 3	`ollama run gemma3`	Google製。軽量で速い
Mistral	`ollama run mistral`	英語に強い。コード生成が得意
Phi-4	`ollama run phi4`	Microsoft製。小さいが高性能
Qwen2.5	`ollama run qwen2.5`	Alibaba製。日本語・中国語が特に強い。多言語モデルとして優秀
Qwen2.5-Coder	`ollama run qwen2.5-coder`	Alibaba製。コーディング特化版。補完精度が高い
DeepSeek-R1	`ollama run deepseek-r1`	中国のDeepSeek製。推論型モデルで数学・論理問題が得意。思考プロセスを出力する
DeepSeek-Coder-V2	`ollama run deepseek-coder-v2`	コーディング特化。GPT-4レベルと言われる精度

日本語での回答を重視するならQwen2.5が現時点でローカルモデルの中でもトップクラスの日本語精度を持つ。DeepSeek-R1は回答の前に考える過程を出力する推論型モデルで、複雑な問題を解くのに向いている。

ChatGPTのようなWeb UIで使う（Open WebUI）

ターミナルでのチャットに慣れていない人は、Web UIを追加するとChatGPTに近い見た目で使えるようになる。Ollamaと組み合わせて使えるUIの中で最も有名なのがOpen WebUIだ。

DockerがインストールされているPCなら以下のコマンド1行で起動できる。

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

起動後にブラウザでhttp://localhost:3000を開くと、ChatGPTそっくりの画面が表示される。初回はアカウント登録（ローカルのみ）が必要だが、メールアドレスは何でも構わない。

Dockerを使いたくない場合はpipでインストールする方法もある。

pip install open-webui
open-webui serve

よく使うコマンド

コマンド	内容
`ollama list`	インストール済みのモデルを確認
`ollama pull llama3.2`	モデルをダウンロードのみ（起動なし）
`ollama rm llama3.2`	モデルを削除
`ollama ps`	現在動いているモデルを確認
`ollama stop llama3.2`	動いているモデルを停止

まとめ

Ollamaを使えば、月額料金なし・入力内容のプライバシー心配なしでローカルPCに生成AIを導入できる。手順をまとめると以下の通りだ。

GPUメーカーを確認（dxdiag）
NVIDIAならStudioドライバー、AMDならROCmを準備
ollama.comからOllamaをダウンロード・インストール
ollama run qwen2.5 などでモデルをダウンロードして起動
必要に応じてModelfileでGPU設定、Open WebUIでUI追加

クオリティはChatGPT-4oやClaudeには及ばないものの、日常的な質問やコードの補助には十分使えるレベルだ。特にQwenやDeepSeekは無料とは思えない精度を持っているので、まずは気軽に試してみてほしい。

Twillioでサーバーダウン時に電話コール通知方法	7票
Linuxサーバーでメール送受信ができない時のチェックポイント	1票
株式会社RES 児玉一希の似非投資術を暴く	1票
PC版ChiakiでPSリモートプレイ	0票
CoinOPS NEXT2に好きなエミュレーターを追加	0票

今更聞けない、ローカルPC環境にLLMをインストールして無料で生成AIを使う方法（Ollama版）

Ollamaとは

動かすのに必要なスペック

【重要】事前にグラフィックカードのメーカーを確認する

NVIDIAの場合：Studioドライバーをインストールする

AMDの場合：ROCmでGPU処理を有効にする

OllamaのGPU設定をファイルで行う（Modelfile）

Ollamaのインストール

モデルをダウンロードして動かす

主なモデルの選び方

ChatGPTのようなWeb UIで使う（Open WebUI）

よく使うコマンド

まとめ

Add comment

コメントをキャンセル

SRush

Follow Me

最近の投稿

SE・プログラマーなど開発者の悩み「腰痛」がほぼ克服できた！

XBOXエミュレーター「xemu」のソースを修正して、名作「O・TO・GI」シリーズをプレイしちゃうゾと

ダークソウルIII レビュー：歴史に残したい、フロムの集大成

Arch Enemy「Burning Bridges」 — Johan Liiva時代の最高傑作と日本版ライブ盤の奇跡

日本のアングラインターネット史 — リンク集からP2Pまで、あの時代の記録

読みたい記事内容に投票

今更聞けない、ローカルPC環境にLLMをインストールして無料で生成AIを使う方法（Ollama版）

Ollamaとは

動かすのに必要なスペック

【重要】事前にグラフィックカードのメーカーを確認する

NVIDIAの場合：Studioドライバーをインストールする

AMDの場合：ROCmでGPU処理を有効にする

OllamaのGPU設定をファイルで行う（Modelfile）

Ollamaのインストール

モデルをダウンロードして動かす

主なモデルの選び方

ChatGPTのようなWeb UIで使う（Open WebUI）

よく使うコマンド

まとめ

関連投稿:

You may also like

Add comment

Follow Me

最近の投稿

読みたい記事内容に投票