MS-S1 MAXでローカルAI大規模モデルを動かす完全ガイド

はじめに ― なぜ「ローカルAI」を選ぶのか?

 MS-S1 MAXはAMD Ryzen™ AI MAX+ 395プロセッサーと128GB LPDDR5X UMAメモリを搭載し、最大96GBの共有ビデオメモリを動的に割り当て可能です。大規模言語モデルのローカル実行に十分な演算リソースを提供します。

ローカルAIの利点:

  • オフライン実行可能(機密データを外部にアップロード不要)
  • 低遅延応答
  • プライベート環境での安定稼働

一方、クラウドAIの利点は:

  • 圧倒的な計算リソース
  • 迅速なアップデート
  • 複数デバイスの連携

両者は対立関係ではなく、補完関係にあります。使用シーンに応じて柔軟に選択することで、生産性とデータセキュリティを両立できます。

本記事では、実機検証環境:

  • Windows 11 24H2
  • AMD Adrenalin 25.10 RC
  • LM Studio

に基づき、導入から最適化までを解説します。

 

ステップ1|BIOSのビデオメモリ割り当て最適化

まずはハードウェア性能を最大限引き出します。

目的

  • 電源モードを「Performance(パフォーマンスモード)」に設定
  • 共有ビデオメモリを96GBに拡張

設定手順

1. PCを再起動 → 電源投入時診断画面(POST)でDelキー連打

2. 詳細設定 → 電力制限設定 → パフォーマンス

3. 詳細設定 → AMD CBS → NBIO共通オプション → GFX設定

iGPU設定 → UMA_SPECIFIED

UMAフレームバッファサイズ → 96GB

4. F4キーで保存 → 再起動

これでAI推論用のVRAMが最大化されます。ビデオメモリ設定が有効になります。

ステップ 2|LM Studio のインストール(Windows 11)

 

  LM Studio は、大規模言語モデルをローカルで実行するソフトウェアです。モデルのダウンロード、管理、オフライン推論をサポートし、個人ユーザーが自身のマシンで AI 対話や開発テストを行うのに適しています。

 

インストール

1. 公式サイトhttps://lmstudio.ai にアクセスし、Windows 版をダウンロードします。

2. インストール手順:インストールパッケージをダブルクリックし、利用規約に同意後、デフォルトのパスを保持したまま「Next」を連続クリックしてインストールを完了します。

3. ソフトウェア起動:「LM Studioの実行」にチェックを入れ「Finish」をクリックします。ログイン不要で使用可能です。

ランタイム設定(重要)

 

 インストール完了後、設定画面でシステム→ランタイムを選択します。これらのオプションはLM Studioが大規模モデルを実行するための「計算エンジン」です。GGUFはVulkan llamaを選択してください。下部に更新情報が表示された場合は、最新版にアップグレードしてください。

選択肢比較

オプション名

対応ハードウェア

必要コンポーネント

性能特性

CPU llama.cpp(Windows)

すべてのデバイス(CPUのみ使用)

追加コンポーネント不要

最も低速(CPU単体処理)

ROCm llama.cpp(Windows)

AMD GPU(単体GPU/一部内蔵GPU)

AMD ROCmドライバ+対応SDK

AMD GPUによる高性能アクセラレーション

Vulkan llama.cpp(Windows)

AMD GPU(単体GPU/内蔵GPU)

AMD公式グラフィックドライバのみ

AMD GPUによる中〜高性能アクセラレーション

CUDA llama.cpp(Windows)

NVIDIA単体GPU

NVIDIA CUDA Toolkit+対応ドライバ

NVIDIA GPUで最適な高速処理

なぜ「Vulkan llama」を選ぶのか?

GPU-OSS-20bモデルを用いた実測比較を実施。データが示す「今すぐVulkanモードに切り替えるべき理由」とは?

オプション

tok/sec

初回出力

CPU使用率/GPU使用率

CPU

17.24

0.21s

76% / 2%

Vulkan

62.08

0.16s

15% / 89%

ROCm

61.24

0.24s

13% / 90%

実測データ結論:

 

 CPUおよびROCmと比較により、Windows環境ではVulkanが「高速実行、設定簡便、リソース利用率の高さ」という優位性から最適な選択肢となります。

 簡単に言えば、VulkanはROCmに近い高性能を実現しながら、CPU実行のように設定が容易です。Windows環境でAMD GPUを使用しているユーザーにとって、最もバランスの取れた最適解と言えるでしょう。

 

ステップ3:ローカル大規模モデルダウンロード

 

 単体(スタンドアロン)環境でご利用の場合、以下のモデルを優先的にご選択ください。いずれも MINISFORUM MS-S1 MAX にて動作検証済みです。

モデル名

推奨理由(簡潔版)

代表的な用途

DeepSeek-R1-Distill-Qwen-7B

軽量で導入容易、計算リソース要求が低く、推論能力がバランス良好

ローカル軽量Q&A、オフィス支援、基礎コード生成

DeepSeek-R1-Distill-Qwen-14B

7Bより高性能、コンテキストウィンドウが広く、プライベートデプロイに適応

企業ナレッジベースQ&A、複雑な文書分析、技術コンテンツ作成

Qwen3-VL-30B-A3B

マルチモーダルフラッグシップ、画像・テキスト認識分析能力に優れ、多様なシナリオに対応

画像とテキストを組み合わせた創作、工業品質検査、伝票/画像認識

DeepSeek-70B Q4_K_M

Q4-K-M量子化、精度とリソースのバランス、専門能力が突出

高度なプログラミング、科学計算、企業レベルの複雑な推論

GPT-OSS-120B

大規模パラメータで高性能、デプロイ効率化、オープンソースで微調整可能

企業向けAIプラットフォーム、エージェント開発、クロスドメイン知識応用

※文末付録に出力速度の参考値を掲載しています。

 

モデルのダウンロード方法

 LM Studio メイン画面から操作します。

  1. 左メニューの【モデルの検索】をクリック
  2. 【モデル名】を入力(あいまい検索対応)
  3. 該当モデルを選択し、GGUF形式および対応する量子化バージョンを選択
  4. 量子化精度を選択(緑色のロケットアイコンが表示されていれば対応)→「ダウンロード」をクリック

推奨量子化:Q4-K-M

 「容量も・品質も・速度も」すべてをバランスよく実現します。
例:7Bモデルの場合、約14GB → 約3.5GBまで圧縮しながら、実用的な出力品質と十分な推論速度を維持します

  1. モデルの読み込み設定

◦ 「チャット」画面へ移動 → 画面上部「読み込むモデルを選択」をクリック

◦ ダウンロード済みモデルを選択 → 「モデルを読み込む」をクリック  → 進行バーが完了すれば、対話を開始できます。

 

ステップ4:基本対話

  1. 基本対話
     入力欄に指示(例:「随筆を書いてください」)を入力し送信すると、応答が生成されます。
  2. パラメータ最適化
     右側パネルで以下を調整可能:
     温度(推奨値:0.7)
     最大トークン数(用途に応じて512~4096を設定)
     またはシステムプロンプトでモデル役割を定義
  3. セッション管理
     「新しいチャット」で新規セッション作成します。トピック分類をサポートします。
⚠ 重要注意事項・最適化提案
  1. 放熱対策
    大規模モデル実行時は「パフォーマンス」電源モードを維持し、デュアルターボファン+6本ヒートパイプ構成により安定した温度制御を実現します。
  2. モデル管理
    「ローカルモデル」で未使用モデルを削除しストレージ容量を解放してください。
  3. トークン速度確認方法
    画面下部より「パワーユーザーモード」に切り替えることで確認できます。

 

その他のローカルAIソフトウェア

 

1. Ollama

  • 軽量なオープンソースフレームワーク
  • コマンドライン操作が簡潔
  • 主流のGGUF/GGMLモデル対応
  • OpenWebUIと組み合わせることでChatGPT類似のGUI環境を構築可能
  • 2026年 v0.15.1では推論精度とクロスプラットフォーム互換性が向上し、AMD環境への最適化も改善

 公式サイト:Ollama

注意事項

 Windows版Ollamaは現在CPU推論のみ対応しており、AMD内蔵GPUのVulkanやROCm計算能力は利用できません。

 Ryzen AI MAX+395搭載のMS-S1 MAXで、96GB UMAメモリおよびRDNA3.5内蔵GPUを活用したローカル大規模モデル推論を行う場合は、LM Studio(Vulkanバックエンド) または llama.cpp Vulkan環境の直接構築 を推奨します。

2. FlowyAIPC

 オフライン対応のエッジAIアシスタント。テキスト生成、画像生成、会議議事録、AIノート、ローカルナレッジベース、760以上のエージェント機能を統合。ローカル大規模モデルを迅速に導入し、業務効率とデータプライバシーを同時に向上させます。

 公式サイト:www.flowyaipc.com

 

その他のローカルAIソフトウェア

 

1. Ollama

  • 軽量なオープンソースフレームワーク
  • コマンドライン操作が簡潔
  • 主流のGGUF/GGMLモデル対応
  • OpenWebUIと組み合わせることでChatGPT類似のGUI環境を構築可能
  • 2026年 v0.15.1では推論精度とクロスプラットフォーム互換性が向上し、AMD環境への最適化も改善

 公式サイト:Ollama

注意事項

 Windows版Ollamaは現在CPU推論のみ対応しており、AMD内蔵GPUのVulkanやROCm計算能力は利用できません。

 Ryzen AI MAX+395搭載のMS-S1 MAXで、96GB UMAメモリおよびRDNA3.5内蔵GPUを活用したローカル大規模モデル推論を行う場合は、LM Studio(Vulkanバックエンド) または llama.cpp Vulkan環境の直接構築 を推奨します。

2. FlowyAIPC

 オフライン対応のエッジAIアシスタント。テキスト生成、画像生成、会議議事録、AIノート、ローカルナレッジベース、760以上のエージェント機能を統合。ローカル大規模モデルを迅速に導入し、業務効率とデータプライバシーを同時に向上させます。

 公式サイト:www.flowyaipc.com

付録:一部モデルの出力速度参考値

注:以下のデータは全て銘凡 MS-S1 MAX の 96GB グラフィックメモリ構成におけるローカル実測結果です。異なるドライバーバージョン、モデルの量子化精度、およびモデルアーキテクチャにより速度に差異が生じます。

モデル名
出力速度(tok/sec)
モデル名
出力速度(tok/sec)
DeepSeek-R1-Distill-Qwen-1.5B-Q8


96.59


cogito-v2-preview-Llama-109B-MoE-GGUF


14.18

Qwen3-4B-Thinking-2507-GGUF


53.62


Llama4-Scout-17B-16E-Instruct-GGUF


13.94