Huawei AscendでDeepSeek V4を実行:国産ハードウェアで最先端AIを動かす実践ガイド
著者 needhelp
deepseek
huawei-ascend
ai-deployment
domestic-ai
DeepSeek V4プレビューのリリースは、AIハードウェア環境における重要な変化を示しています。初めて、フロンティアクラスのモデルがHuawei Ascend NPUをファーストクラスサポートしました — つまり、NVIDIA GPUを1つも使わずに競争力のあるAI推論を実行できるのです。
これは、GPUの入手に制約を受けてきた中国の開発者、研究機関、企業にとって大きな出来事です。この意味と開始方法について説明します。
ハードウェア環境
Ascend 910B vs. NVIDIA A100(主要スペック)
┌────────────────────┬────────────────────┬────────────────────┐
│ スペック │ Ascend 910B │ NVIDIA A100 │
├────────────────────┼────────────────────┼────────────────────┤
│ 演算性能(FP16) │ 320 TFLOPS │ 312 TFLOPS │
│ メモリ │ 64GB HBM2e │ 80GB HBM2e │
│ メモリ帯域幅 │ 1.5 TB/s │ 2.0 TB/s │
│ インターコネクト │ HCCS 56GB/s │ NVLink 600GB/s │
│ TDP │ 310W │ 400W │
│ 入手性 │ 高(国内) │ 制約あり* │
└────────────────────┴────────────────────┴────────────────────┘
* NVIDIAの特定市場への輸出規制
数字は興味深いストーリーを示しています。生の演算能力は同等です — 910BはFP16 TFLOPSで実際に僅かに勝っています。差はメモリ帯域幅とインターコネクトにあり、これは大バッチ推論とマルチカードスケーリングに影響します。しかし、シングルカード推論と小バッチサービングでは、その差は急速に縮まっています。
アーキテクチャ概要
┌─────────────────────────────────────────────────────────────┐
│ DeepSeek V4 on Ascend — デプロイメントスタック │
├─────────────────────────────────────────────────────────────┤
│ │
│ ┌───────────────────────────────────────────────────────┐ │
│ │ クライアント層 │ │
│ │ (Chat UI / API Client / curl) │ │
│ └────────────────────┬──────────────────────────────────┘ │
│ │ HTTP/WebSocket │
│ ┌────────────────────▼──────────────────────────────────┐ │
│ │ サービング層 │ │
│ │ vLLM-Ascend / TGI-Ascend │ │
│ └────────────────────┬──────────────────────────────────┘ │
│ │ CANN (Compute Architecture) │
│ ┌────────────────────▼──────────────────────────────────┐ │
│ │ CANN スタック │ │
│ │ ├── ACL (Ascend Compute Language) │ │
│ │ ├── GE (Graph Engine) │ │
│ │ └── ランタイムドライバ │ │
│ └────────────────────┬──────────────────────────────────┘ │
│ │ │
│ ┌────────────────────▼──────────────────────────────────┐ │
│ │ ハードウェア │ │
│ │ Ascend 910B / 910 Pro │ │
│ └───────────────────────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────┘
デプロイメントガイド
前提条件
# システム要件
- OS: Ubuntu 22.04 / EulerOS
- カーネル: 5.10+
- NPU: Ascend 910B(最低1カード)
- メモリ: 64GB以上のシステムRAM
- ディスク: 200GB以上の空き容量
ステップ1:CANNツールキットのインストール
# HuaweiのサポートサイトからCANNをダウンロード
chmod +x Ascend-cann-toolkit_*.run
./Ascend-cann-toolkit_*.run --install --quiet
# インストールの確認
npu-smi info
# 利用可能なAscend NPUが表示されるはず
ステップ2:Docker環境のセットアップ
docker pull deepseek-ai/deepseek-v4-ascend:latest
docker run --rm -it \
--device=/dev/davinci0 \
--device=/dev/davinci_manager \
--device=/dev/hisi_hdc \
-v /usr/local/Ascend:/usr/local/Ascend \
-p 8000:8000 \
deepseek-ai/deepseek-v4-ascend:latest
ステップ3:推論サーバーの起動
# コンテナ内部
python -m vllm.entrypoints.openai.api_server \
--model /models/deepseek-v4-preview \
--trust-remote-code \
--dtype bfloat16 \
--max-model-len 4096 \
--gpu-memory-utilization 0.9
ステップ4:テスト
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "deepseek-v4-preview",
"messages": [{"role": "user", "content": "Hello, what can you do?"}]
}'
パフォーマンスの観察
コミュニティからの初期ベンチマークは有望な結果を示しています:
| モデル | ハードウェア | Tokens/s | メモリ | 備考 |
|---|---|---|---|---|
| V4 Preview (7B) | 1× Ascend 910B | ~45 t/s | 14GB | 高速、シングルカードに適合 |
| V4 Preview (14B) | 1× Ascend 910B | ~22 t/s | 28GB | 実運用可能 |
| V4 Preview (70B) | 4× Ascend 910B | ~15 t/s | 63GB | 量子化が必要 |
| V4 Preview (70B) | 1× A100 80GB | ~35 t/s | 70GB | 参照ベースライン |
最適化されたCANNカーネルにより差は縮まっています。7Bおよび14Bモデルでは、実運用に十分な体験が得られます。
開発者への6つのヒント
- 生のCANNではなくvLLM-Ascendを使用 — Ascendバックエンド付きvLLMのコミュニティフォークが最適化作業のほとんどを代行します
- Flash Attentionを有効に — Ascend実装(
--enable-flash-attn)により、長いシーケンスで1.5〜2倍の高速化が可能 - バッチサイズに注意 — メモリ帯域幅がボトルネックです。小バッチ(1-4)が最適なレイテンシ/スループットのトレードオフを実現
- INT8ではなくBF16を使用 — INT8の方が高速ですが、Ascendでの品質低下はCUDAよりも顕著です(量子化キャリブレーションの違いのため)
- CANNを定期的に更新 — リリースごとに大きなパフォーマンス改善があります。7.0.0は良好でしたが、8.0.0+は顕著に優れています
- コミュニティに参加 — GitHubや中国の開発者フォーラムのAscend AIコミュニティは活発で役立ちます
より広い視野
AscendでのDeepSeek V4は、単なる別のデプロイメントオプションではありません。これは切り離しの瞬間を表しています — AIモデル開発とAIハードウェアエコシステム開発が独立して進化できるようになる時です。中国の開発者にとっては、地政学的制約なしに最先端AIにアクセスできることを意味します。グローバルコミュニティにとっては、より多様で強靭なハードウェアエコシステムを意味します。
CUDAとの差はまだ埋まっていません。しかし、縮小しており、改善のペースは加速しています。