Huawei AscendでDeepSeek V4を実行：国産ハードウェアで最先端AIを動かす実践ガイド

DeepSeek V4プレビューのリリースは、AIハードウェア環境における重要な変化を示しています。初めて、フロンティアクラスのモデルがHuawei Ascend NPUをファーストクラスサポートしました — つまり、NVIDIA GPUを1つも使わずに競争力のあるAI推論を実行できるのです。

これは、GPUの入手に制約を受けてきた中国の開発者、研究機関、企業にとって大きな出来事です。この意味と開始方法について説明します。

ハードウェア環境

Ascend 910B vs. NVIDIA A100（主要スペック）
┌────────────────────┬────────────────────┬────────────────────┐
│      スペック      │  Ascend 910B       │  NVIDIA A100       │
├────────────────────┼────────────────────┼────────────────────┤
│ 演算性能（FP16）   │  320 TFLOPS        │  312 TFLOPS        │
│ メモリ             │  64GB HBM2e        │  80GB HBM2e        │
│ メモリ帯域幅       │  1.5 TB/s          │  2.0 TB/s          │
│ インターコネクト   │  HCCS 56GB/s       │  NVLink 600GB/s    │
│ TDP                │  310W              │  400W              │
│ 入手性             │  高（国内）        │  制約あり*          │
└────────────────────┴────────────────────┴────────────────────┘
* NVIDIAの特定市場への輸出規制

数字は興味深いストーリーを示しています。生の演算能力は同等です — 910BはFP16 TFLOPSで実際に僅かに勝っています。差はメモリ帯域幅とインターコネクトにあり、これは大バッチ推論とマルチカードスケーリングに影響します。しかし、シングルカード推論と小バッチサービングでは、その差は急速に縮まっています。

アーキテクチャ概要

┌─────────────────────────────────────────────────────────────┐
│              DeepSeek V4 on Ascend — デプロイメントスタック    │
├─────────────────────────────────────────────────────────────┤
│                                                              │
│  ┌───────────────────────────────────────────────────────┐  │
│  │  クライアント層                                         │  │
│  │  (Chat UI / API Client / curl)                        │  │
│  └────────────────────┬──────────────────────────────────┘  │
│                       │ HTTP/WebSocket                      │
│  ┌────────────────────▼──────────────────────────────────┐  │
│  │  サービング層                                           │  │
│  │  vLLM-Ascend / TGI-Ascend                             │  │
│  └────────────────────┬──────────────────────────────────┘  │
│                       │ CANN (Compute Architecture)          │
│  ┌────────────────────▼──────────────────────────────────┐  │
│  │  CANN スタック                                          │  │
│  │  ├── ACL (Ascend Compute Language)                    │  │
│  │  ├── GE (Graph Engine)                                │  │
│  │  └── ランタイムドライバ                                │  │
│  └────────────────────┬──────────────────────────────────┘  │
│                       │                                     │
│  ┌────────────────────▼──────────────────────────────────┐  │
│  │  ハードウェア                                           │  │
│  │  Ascend 910B / 910 Pro                                │  │
│  └───────────────────────────────────────────────────────┘  │
│                                                              │
└─────────────────────────────────────────────────────────────┘

デプロイメントガイド

前提条件

# システム要件
- OS: Ubuntu 22.04 / EulerOS
- カーネル: 5.10+
- NPU: Ascend 910B（最低1カード）
- メモリ: 64GB以上のシステムRAM
- ディスク: 200GB以上の空き容量

ステップ1：CANNツールキットのインストール

# HuaweiのサポートサイトからCANNをダウンロード
chmod +x Ascend-cann-toolkit_*.run
./Ascend-cann-toolkit_*.run --install --quiet

# インストールの確認
npu-smi info
# 利用可能なAscend NPUが表示されるはず

ステップ2：Docker環境のセットアップ

docker pull deepseek-ai/deepseek-v4-ascend:latest

docker run --rm -it \
  --device=/dev/davinci0 \
  --device=/dev/davinci_manager \
  --device=/dev/hisi_hdc \
  -v /usr/local/Ascend:/usr/local/Ascend \
  -p 8000:8000 \
  deepseek-ai/deepseek-v4-ascend:latest

ステップ3：推論サーバーの起動

# コンテナ内部
python -m vllm.entrypoints.openai.api_server \
  --model /models/deepseek-v4-preview \
  --trust-remote-code \
  --dtype bfloat16 \
  --max-model-len 4096 \
  --gpu-memory-utilization 0.9

ステップ4：テスト

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek-v4-preview",
    "messages": [{"role": "user", "content": "Hello, what can you do?"}]
  }'

パフォーマンスの観察

コミュニティからの初期ベンチマークは有望な結果を示しています：

モデル	ハードウェア	Tokens/s	メモリ	備考
V4 Preview (7B)	1× Ascend 910B	~45 t/s	14GB	高速、シングルカードに適合
V4 Preview (14B)	1× Ascend 910B	~22 t/s	28GB	実運用可能
V4 Preview (70B)	4× Ascend 910B	~15 t/s	63GB	量子化が必要
V4 Preview (70B)	1× A100 80GB	~35 t/s	70GB	参照ベースライン

最適化されたCANNカーネルにより差は縮まっています。7Bおよび14Bモデルでは、実運用に十分な体験が得られます。

開発者への6つのヒント

生のCANNではなくvLLM-Ascendを使用 — Ascendバックエンド付きvLLMのコミュニティフォークが最適化作業のほとんどを代行します
Flash Attentionを有効に — Ascend実装（--enable-flash-attn）により、長いシーケンスで1.5〜2倍の高速化が可能
バッチサイズに注意 — メモリ帯域幅がボトルネックです。小バッチ（1-4）が最適なレイテンシ/スループットのトレードオフを実現
INT8ではなくBF16を使用 — INT8の方が高速ですが、Ascendでの品質低下はCUDAよりも顕著です（量子化キャリブレーションの違いのため）
CANNを定期的に更新 — リリースごとに大きなパフォーマンス改善があります。7.0.0は良好でしたが、8.0.0+は顕著に優れています
コミュニティに参加 — GitHubや中国の開発者フォーラムのAscend AIコミュニティは活発で役立ちます

より広い視野

AscendでのDeepSeek V4は、単なる別のデプロイメントオプションではありません。これは切り離しの瞬間を表しています — AIモデル開発とAIハードウェアエコシステム開発が独立して進化できるようになる時です。中国の開発者にとっては、地政学的制約なしに最先端AIにアクセスできることを意味します。グローバルコミュニティにとっては、より多様で強靭なハードウェアエコシステムを意味します。

CUDAとの差はまだ埋まっていません。しかし、縮小しており、改善のペースは加速しています。