今更聞けない、ローカルPC環境にLLMをインストールして無料で生成AIを使う方法(Ollama版)

OllamaでローカルPCに無料でLLMをインストールする方法を解説。NVIDIA StudioドライバーやAMD ROCmのGPU設定、Modelfileによる細かい設定、QwenやDeepSeekなど主要モデルの比較も紹介。

ChatGPTやClaudeは便利だが、無料枠には制限がある。入力した内容がサーバーに送られることを気にする人もいる。そういった悩みを解決するのが、ローカルPC上でLLM(大規模言語モデル)を動かす方法だ。

この記事ではOllamaを使って、自分のPCに無料で生成AIをインストールする手順を解説する。インターネット接続なし、月額料金なし、入力内容がどこかに送られる心配なしで生成AIが使えるようになる。

Ollamaとは

OllamaはローカルPCでLLMを簡単に動かすためのツールだ。コマンド1行でモデルをダウンロードして実行できる。対応モデルも豊富で、Meta製のLlama、MistralAI製のMistral、GoogleのGemmaなど主要なオープンソースモデルに対応している。

Windows・Mac・Linuxすべてに対応している。

動かすのに必要なスペック

LLMはモデルのサイズによって必要なスペックが異なる。目安は以下の通り。

モデルサイズ必要なRAM動作の目安
3B〜4B8GB以上軽快に動く
7B〜8B16GB以上実用的な速度
13B〜32GB以上GPUがあると快適

GPUがなくてもCPUだけで動くが、回答の生成速度は遅くなる。まずは小さいモデルから試してみるのがオススメだ。

【重要】事前にグラフィックカードのメーカーを確認する

GPUを使って処理を高速化するには、メーカーごとに異なる準備が必要になる。まず自分のPCのGPUメーカーを確認しよう。

Windowsの場合はWin + Rdxdiagと入力して実行すると「ディスプレイ」タブにグラフィックカードの情報が表示される。または、デバイスマネージャーの「ディスプレイアダプター」からも確認できる。

NVIDIAの場合:Studioドライバーをインストールする

NVIDIAのGPUはCUDA(クーダ)という技術でAI処理を高速化できる。OllamaはNVIDIA GPUを検出すると自動でCUDAを使うが、ドライバーの種類によっては安定しないことがある。

ゲーマー向けの「Game Readyドライバー」よりも、クリエイター向けの「Studioドライバー」の方がAIワークロードでの安定性が高い。以下の手順でインストールする。

  1. NVIDIAの公式ドライバーページ(https://www.nvidia.com/ja-jp/drivers/)にアクセス
  2. GPU型番を入力してドライバーを検索
  3. 「ダウンロードタイプ」で「Studio Driver(SD)」を選択
  4. ダウンロードしてインストール(クリーンインストールを推奨)

インストール後、ターミナルで nvidia-smi を実行してCUDAのバージョンが表示されれば準備完了だ。

nvidia-smi
# CUDA Version: 12.x と表示されればOK

AMDの場合:ROCmでGPU処理を有効にする

AMDのGPUはNVIDIAのCUDAに相当するROCm(Radeon Open Compute)という技術でAI処理を行う。OllamaはROCmにも対応している。

Linuxの場合はROCmの公式サポートがあり、比較的導入しやすい。AMDの公式サイト(https://rocm.docs.amd.com)からROCmをインストールする。

Windowsの場合はROCmのサポートが限定的だ。代替手段としてZLUDAというツールを使うとCUDA向けのアプリケーションをAMD GPUで動かせる場合がある。ただしWindowsのAMD GPU対応はまだ発展途上のため、動作しない場合はCPUモードでの運用も選択肢になる。

OllamaでROCmを使う場合は、起動前に以下の環境変数を設定する。

# Windows(PowerShell)
$env:HSA_OVERRIDE_GFX_VERSION="11.0.0"  # GPU世代に合わせて変更

# Linux
export HSA_OVERRIDE_GFX_VERSION=11.0.0

OllamaのGPU設定をファイルで行う(Modelfile)

OllamaはModelfileというファイルを使って、GPUの使用レイヤー数などを細かく設定できる。デフォルトでもGPUは自動検出されるが、明示的に設定しておくと確実だ。

まず任意の場所にModelfileというファイルを作成する。

FROM llama3.2

# GPUを最大限使う(999はすべてのレイヤーをGPUに割り当てる意味)
PARAMETER num_gpu 999

# 同時に処理するリクエスト数
PARAMETER num_parallel 2

# コンテキスト長(長い会話に対応する場合は増やす)
PARAMETER num_ctx 4096

作成したModelfileを読み込んでカスタムモデルを作成する。

ollama create myllama -f ./Modelfile
ollama run myllama

また、Windowsでは環境変数でもGPUの動作を制御できる。システムの環境変数に以下を追加する(システムのプロパティ→環境変数から設定)。

環境変数内容
CUDA_VISIBLE_DEVICES使用するGPUを番号で指定(例:0
OLLAMA_MAX_LOADED_MODELS同時にメモリに乗せるモデル数(デフォルト1)
OLLAMA_NUM_PARALLEL並列処理数(デフォルト1)

Ollamaのインストール

公式サイト(https://ollama.com)にアクセスして「Download」からインストーラーをダウンロードする。

Windowsの場合はダウンロードした.exeファイルを実行するだけでインストールが完了する。Macの場合は.dmgファイルを開いてアプリをApplicationsフォルダに移動する。

インストール後、ターミナル(WindowsはコマンドプロンプトまたはPowerShell)を開いて以下のコマンドでインストールを確認できる。

ollama --version

バージョン番号が表示されれば成功だ。

モデルをダウンロードして動かす

コマンド1行でモデルのダウンロードから起動まで完了する。

ollama run llama3.2

初回はモデルのダウンロードが始まる(llama3.2は約2GB)。ダウンロードが完了すると自動でチャット画面がターミナルに表示され、すぐに会話できる。

>>> こんにちは
こんにちは!何かお手伝いできることはありますか?

終了するときは/byeと入力するかCtrl+Dを押す。

主なモデルの選び方

Ollamaが対応しているモデルはhttps://ollama.com/libraryで一覧できる。主要なモデルをまとめた。

モデル名コマンド特徴
Llama 3.2ollama run llama3.2Meta製。バランスが良く日本語もそこそこ
Gemma 3ollama run gemma3Google製。軽量で速い
Mistralollama run mistral英語に強い。コード生成が得意
Phi-4ollama run phi4Microsoft製。小さいが高性能
Qwen2.5ollama run qwen2.5Alibaba製。日本語・中国語が特に強い。多言語モデルとして優秀
Qwen2.5-Coderollama run qwen2.5-coderAlibaba製。コーディング特化版。補完精度が高い
DeepSeek-R1ollama run deepseek-r1中国のDeepSeek製。推論型モデルで数学・論理問題が得意。思考プロセスを出力する
DeepSeek-Coder-V2ollama run deepseek-coder-v2コーディング特化。GPT-4レベルと言われる精度

日本語での回答を重視するならQwen2.5が現時点でローカルモデルの中でもトップクラスの日本語精度を持つ。DeepSeek-R1は回答の前に考える過程を出力する推論型モデルで、複雑な問題を解くのに向いている。

ChatGPTのようなWeb UIで使う(Open WebUI)

ターミナルでのチャットに慣れていない人は、Web UIを追加するとChatGPTに近い見た目で使えるようになる。Ollamaと組み合わせて使えるUIの中で最も有名なのがOpen WebUIだ。

DockerがインストールされているPCなら以下のコマンド1行で起動できる。

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

起動後にブラウザでhttp://localhost:3000を開くと、ChatGPTそっくりの画面が表示される。初回はアカウント登録(ローカルのみ)が必要だが、メールアドレスは何でも構わない。

Dockerを使いたくない場合はpipでインストールする方法もある。

pip install open-webui
open-webui serve

よく使うコマンド

コマンド内容
ollama listインストール済みのモデルを確認
ollama pull llama3.2モデルをダウンロードのみ(起動なし)
ollama rm llama3.2モデルを削除
ollama ps現在動いているモデルを確認
ollama stop llama3.2動いているモデルを停止

まとめ

Ollamaを使えば、月額料金なし・入力内容のプライバシー心配なしでローカルPCに生成AIを導入できる。手順をまとめると以下の通りだ。

  1. GPUメーカーを確認(dxdiag)
  2. NVIDIAならStudioドライバー、AMDならROCmを準備
  3. ollama.comからOllamaをダウンロード・インストール
  4. ollama run qwen2.5 などでモデルをダウンロードして起動
  5. 必要に応じてModelfileでGPU設定、Open WebUIでUI追加

クオリティはChatGPT-4oやClaudeには及ばないものの、日常的な質問やコードの補助には十分使えるレベルだ。特にQwenやDeepSeekは無料とは思えない精度を持っているので、まずは気軽に試してみてほしい。

Add comment

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください

Follow Me

読みたい記事内容に投票

投票数が多い記事から優先的に記事を作っていこうと思います。是非投票してください!
Twillioでサーバーダウン時に電話コール通知方法
7票
Linuxサーバーでメール送受信ができない時のチェックポイント
1票
株式会社RES 児玉一希の似非投資術を暴く
1票
PC版ChiakiでPSリモートプレイ
0票
CoinOPS NEXT2に好きなエミュレーターを追加
0票