ChatGPTやClaudeは便利だが、無料枠には制限がある。入力した内容がサーバーに送られることを気にする人もいる。そういった悩みを解決するのが、ローカルPC上でLLM(大規模言語モデル)を動かす方法だ。
この記事ではOllamaを使って、自分のPCに無料で生成AIをインストールする手順を解説する。インターネット接続なし、月額料金なし、入力内容がどこかに送られる心配なしで生成AIが使えるようになる。
Ollamaとは
OllamaはローカルPCでLLMを簡単に動かすためのツールだ。コマンド1行でモデルをダウンロードして実行できる。対応モデルも豊富で、Meta製のLlama、MistralAI製のMistral、GoogleのGemmaなど主要なオープンソースモデルに対応している。
Windows・Mac・Linuxすべてに対応している。
動かすのに必要なスペック
LLMはモデルのサイズによって必要なスペックが異なる。目安は以下の通り。
| モデルサイズ | 必要なRAM | 動作の目安 |
|---|---|---|
| 3B〜4B | 8GB以上 | 軽快に動く |
| 7B〜8B | 16GB以上 | 実用的な速度 |
| 13B〜 | 32GB以上 | GPUがあると快適 |
GPUがなくてもCPUだけで動くが、回答の生成速度は遅くなる。まずは小さいモデルから試してみるのがオススメだ。
【重要】事前にグラフィックカードのメーカーを確認する
GPUを使って処理を高速化するには、メーカーごとに異なる準備が必要になる。まず自分のPCのGPUメーカーを確認しよう。
Windowsの場合はWin + R→dxdiagと入力して実行すると「ディスプレイ」タブにグラフィックカードの情報が表示される。または、デバイスマネージャーの「ディスプレイアダプター」からも確認できる。
NVIDIAの場合:Studioドライバーをインストールする
NVIDIAのGPUはCUDA(クーダ)という技術でAI処理を高速化できる。OllamaはNVIDIA GPUを検出すると自動でCUDAを使うが、ドライバーの種類によっては安定しないことがある。
ゲーマー向けの「Game Readyドライバー」よりも、クリエイター向けの「Studioドライバー」の方がAIワークロードでの安定性が高い。以下の手順でインストールする。
- NVIDIAの公式ドライバーページ(https://www.nvidia.com/ja-jp/drivers/)にアクセス
- GPU型番を入力してドライバーを検索
- 「ダウンロードタイプ」で「Studio Driver(SD)」を選択
- ダウンロードしてインストール(クリーンインストールを推奨)
インストール後、ターミナルで nvidia-smi を実行してCUDAのバージョンが表示されれば準備完了だ。
nvidia-smi
# CUDA Version: 12.x と表示されればOKAMDの場合:ROCmでGPU処理を有効にする
AMDのGPUはNVIDIAのCUDAに相当するROCm(Radeon Open Compute)という技術でAI処理を行う。OllamaはROCmにも対応している。
Linuxの場合はROCmの公式サポートがあり、比較的導入しやすい。AMDの公式サイト(https://rocm.docs.amd.com)からROCmをインストールする。
Windowsの場合はROCmのサポートが限定的だ。代替手段としてZLUDAというツールを使うとCUDA向けのアプリケーションをAMD GPUで動かせる場合がある。ただしWindowsのAMD GPU対応はまだ発展途上のため、動作しない場合はCPUモードでの運用も選択肢になる。
OllamaでROCmを使う場合は、起動前に以下の環境変数を設定する。
# Windows(PowerShell)
$env:HSA_OVERRIDE_GFX_VERSION="11.0.0" # GPU世代に合わせて変更
# Linux
export HSA_OVERRIDE_GFX_VERSION=11.0.0OllamaのGPU設定をファイルで行う(Modelfile)
OllamaはModelfileというファイルを使って、GPUの使用レイヤー数などを細かく設定できる。デフォルトでもGPUは自動検出されるが、明示的に設定しておくと確実だ。
まず任意の場所にModelfileというファイルを作成する。
FROM llama3.2
# GPUを最大限使う(999はすべてのレイヤーをGPUに割り当てる意味)
PARAMETER num_gpu 999
# 同時に処理するリクエスト数
PARAMETER num_parallel 2
# コンテキスト長(長い会話に対応する場合は増やす)
PARAMETER num_ctx 4096作成したModelfileを読み込んでカスタムモデルを作成する。
ollama create myllama -f ./Modelfile
ollama run myllamaまた、Windowsでは環境変数でもGPUの動作を制御できる。システムの環境変数に以下を追加する(システムのプロパティ→環境変数から設定)。
| 環境変数 | 内容 |
|---|---|
CUDA_VISIBLE_DEVICES | 使用するGPUを番号で指定(例:0) |
OLLAMA_MAX_LOADED_MODELS | 同時にメモリに乗せるモデル数(デフォルト1) |
OLLAMA_NUM_PARALLEL | 並列処理数(デフォルト1) |
Ollamaのインストール
公式サイト(https://ollama.com)にアクセスして「Download」からインストーラーをダウンロードする。
Windowsの場合はダウンロードした.exeファイルを実行するだけでインストールが完了する。Macの場合は.dmgファイルを開いてアプリをApplicationsフォルダに移動する。
インストール後、ターミナル(WindowsはコマンドプロンプトまたはPowerShell)を開いて以下のコマンドでインストールを確認できる。
ollama --versionバージョン番号が表示されれば成功だ。
モデルをダウンロードして動かす
コマンド1行でモデルのダウンロードから起動まで完了する。
ollama run llama3.2初回はモデルのダウンロードが始まる(llama3.2は約2GB)。ダウンロードが完了すると自動でチャット画面がターミナルに表示され、すぐに会話できる。
>>> こんにちは
こんにちは!何かお手伝いできることはありますか?終了するときは/byeと入力するかCtrl+Dを押す。
主なモデルの選び方
Ollamaが対応しているモデルはhttps://ollama.com/libraryで一覧できる。主要なモデルをまとめた。
| モデル名 | コマンド | 特徴 |
|---|---|---|
| Llama 3.2 | ollama run llama3.2 | Meta製。バランスが良く日本語もそこそこ |
| Gemma 3 | ollama run gemma3 | Google製。軽量で速い |
| Mistral | ollama run mistral | 英語に強い。コード生成が得意 |
| Phi-4 | ollama run phi4 | Microsoft製。小さいが高性能 |
| Qwen2.5 | ollama run qwen2.5 | Alibaba製。日本語・中国語が特に強い。多言語モデルとして優秀 |
| Qwen2.5-Coder | ollama run qwen2.5-coder | Alibaba製。コーディング特化版。補完精度が高い |
| DeepSeek-R1 | ollama run deepseek-r1 | 中国のDeepSeek製。推論型モデルで数学・論理問題が得意。思考プロセスを出力する |
| DeepSeek-Coder-V2 | ollama run deepseek-coder-v2 | コーディング特化。GPT-4レベルと言われる精度 |
日本語での回答を重視するならQwen2.5が現時点でローカルモデルの中でもトップクラスの日本語精度を持つ。DeepSeek-R1は回答の前に考える過程を出力する推論型モデルで、複雑な問題を解くのに向いている。
ChatGPTのようなWeb UIで使う(Open WebUI)
ターミナルでのチャットに慣れていない人は、Web UIを追加するとChatGPTに近い見た目で使えるようになる。Ollamaと組み合わせて使えるUIの中で最も有名なのがOpen WebUIだ。
DockerがインストールされているPCなら以下のコマンド1行で起動できる。
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main起動後にブラウザでhttp://localhost:3000を開くと、ChatGPTそっくりの画面が表示される。初回はアカウント登録(ローカルのみ)が必要だが、メールアドレスは何でも構わない。
Dockerを使いたくない場合はpipでインストールする方法もある。
pip install open-webui
open-webui serveよく使うコマンド
| コマンド | 内容 |
|---|---|
ollama list | インストール済みのモデルを確認 |
ollama pull llama3.2 | モデルをダウンロードのみ(起動なし) |
ollama rm llama3.2 | モデルを削除 |
ollama ps | 現在動いているモデルを確認 |
ollama stop llama3.2 | 動いているモデルを停止 |
まとめ
Ollamaを使えば、月額料金なし・入力内容のプライバシー心配なしでローカルPCに生成AIを導入できる。手順をまとめると以下の通りだ。
- GPUメーカーを確認(dxdiag)
- NVIDIAならStudioドライバー、AMDならROCmを準備
- ollama.comからOllamaをダウンロード・インストール
ollama run qwen2.5などでモデルをダウンロードして起動- 必要に応じてModelfileでGPU設定、Open WebUIでUI追加
クオリティはChatGPT-4oやClaudeには及ばないものの、日常的な質問やコードの補助には十分使えるレベルだ。特にQwenやDeepSeekは無料とは思えない精度を持っているので、まずは気軽に試してみてほしい。

Add comment