DeepSeek V4 auf Huawei Ascend: Eine Praktische Anleitung zum Ausfuhren von Spitzen-KI auf Heimischer Hardware

Die Veroffentlichung der DeepSeek V4 Preview markiert eine bedeutende Verschiebung in der KI-Hardware-Landschaft. Zum ersten Mal bietet ein Spitzenmodell erstklassige Unterstutzung fur Huawei Ascend NPUs – was bedeutet, dass Sie wettbewerbsfahige KI-Inferenz ohne eine einzige NVIDIA-GPU ausfuhren konnen.

Dies ist eine große Sache fur chinesische Entwickler, Forschungseinrichtungen und Unternehmen, die durch die GPU-Verfugbarkeit eingeschrankt waren. Lassen Sie mich durchgehen, was dies bedeutet und wie Sie loslegen konnen.

Hardware-Landschaft

Ascend 910B vs. NVIDIA A100 (Wichtige Spezifikationen)
┌────────────────────┬────────────────────┬────────────────────┐
│      Spezifikation  │  Ascend 910B       │  NVIDIA A100       │
├────────────────────┼────────────────────┼────────────────────┤
│ Rechenleistung      │  320 TFLOPS        │  312 TFLOPS        │
│ (FP16)             │                    │                    │
│ Speicher           │  64 GB HBM2e       │  80 GB HBM2e       │
│ Speicherbandbreite │  1,5 TB/s          │  2,0 TB/s          │
│ Interconnect       │  HCCS 56 GB/s      │  NVLink 600 GB/s   │
│ TDP                │  310 W             │  400 W             │
│ Verfugbarkeit      │  Hoch (Inland)     │  Eingeschrankt*    │
└────────────────────┴────────────────────┴────────────────────┘
* NVIDIA-Exportbeschrankungen fur bestimmte Markte

Die Zahlen erzahlen eine interessante Geschichte. Die reine Rechenleistung ist vergleichbar – der 910B liegt bei FP16-TFLOPS sogar leicht vorn. Der Unterschied liegt bei der Speicherbandbreite und den Interconnects, was die Inferenz mit großen Batches und die Multi-Card-Skalierung beeinflusst. Aber fur Single-Card-Inferenz und Small-Batch-Serving schließt sich die Lucke schnell.

Architektur-Ubersicht

┌─────────────────────────────────────────────────────────────┐
│              DeepSeek V4 auf Ascend – Bereitstellungs-Stack  │
├─────────────────────────────────────────────────────────────┤
│                                                              │
│  ┌───────────────────────────────────────────────────────┐  │
│  │  Client-Schicht                                        │  │
│  │  (Chat-UI / API-Client / curl)                        │  │
│  └────────────────────┬──────────────────────────────────┘  │
│                       │ HTTP/WebSocket                      │
│  ┌────────────────────▼──────────────────────────────────┐  │
│  │  Serving-Schicht                                       │  │
│  │  vLLM-Ascend / TGI-Ascend                             │  │
│  └────────────────────┬──────────────────────────────────┘  │
│                       │ CANN (Compute Architecture)         │
│  ┌────────────────────▼──────────────────────────────────┐  │
│  │  CANN-Stack                                            │  │
│  │  ├── ACL (Ascend Compute Language)                    │  │
│  │  ├── GE (Graph Engine)                                │  │
│  │  └── Runtime-Treiber                                  │  │
│  └────────────────────┬──────────────────────────────────┘  │
│                       │                                     │
│  ┌────────────────────▼──────────────────────────────────┐  │
│  │  Hardware                                              │  │
│  │  Ascend 910B / 910 Pro                                │  │
│  └───────────────────────────────────────────────────────┘  │
│                                                              │
└─────────────────────────────────────────────────────────────┘

Bereitstellungsanleitung

Voraussetzungen

# Systemanforderungen
- OS: Ubuntu 22.04 / EulerOS
- Kernel: 5.10+
- NPU: Ascend 910B (mindestens 1 Karte)
- Arbeitsspeicher: 64 GB+ System-RAM
- Festplatte: 200 GB+ freier Speicher

Schritt 1: CANN-Toolkit installieren

# CANN von Huaweis Support-Seite herunterladen
chmod +x Ascend-cann-toolkit_*.run
./Ascend-cann-toolkit_*.run --install --quiet

# Installation uberprufen
npu-smi info
# Sollte verfugbare Ascend-NPUs anzeigen

Schritt 2: Docker-Umgebung einrichten

docker pull deepseek-ai/deepseek-v4-ascend:latest

docker run --rm -it \
  --device=/dev/davinci0 \
  --device=/dev/davinci_manager \
  --device=/dev/hisi_hdc \
  -v /usr/local/Ascend:/usr/local/Ascend \
  -p 8000:8000 \
  deepseek-ai/deepseek-v4-ascend:latest

Schritt 3: Inferenz-Server starten

# Innerhalb des Containers
python -m vllm.entrypoints.openai.api_server \
  --model /models/deepseek-v4-preview \
  --trust-remote-code \
  --dtype bfloat16 \
  --max-model-len 4096 \
  --gpu-memory-utilization 0.9

Schritt 4: Testen

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek-v4-preview",
    "messages": [{"role": "user", "content": "Hallo, was kannst du tun?"}]
  }'

Leistungsbeobachtungen

Erste Benchmarks aus der Community zeigen vielversprechende Ergebnisse:

Modell	Hardware	Tokens/s	Speicher	Anmerkungen
V4 Preview (7B)	1× Ascend 910B	~45 t/s	14 GB	Schnell, passt auf eine Karte
V4 Preview (14B)	1× Ascend 910B	~22 t/s	28 GB	Fur Produktion nutzbar
V4 Preview (70B)	4× Ascend 910B	~15 t/s	63 GB	Erfordert Quantisierung
V4 Preview (70B)	1× A100 80 GB	~35 t/s	70 GB	Referenz-Baseline

Die Lucke schließt sich mit optimierten CANN-Kernels. Bei den 7B- und 14B-Modellen ist die Erfahrung wirklich produktionsreif.

Sechs Tipps fur Entwickler

Verwenden Sie vLLM-Ascend, nicht rohes CANN – Der Community-Fork von vLLM mit Ascend-Backend erledigt den Großteil der Optimierungsarbeit fur Sie
Aktivieren Sie Flash Attention – Die Ascend-Implementierung (--enable-flash-attn) bringt 1,5-2x Beschleunigung bei langeren Sequenzen
Behalten Sie Ihre Batch-Große im Auge – Speicherbandbreite ist der Engpass; kleine Batches (1-4) bieten den besten Latenz/Durchsatz-Kompromiss
Verwenden Sie BF16, nicht INT8 – Obwohl INT8 schneller ist, ist die Qualitatsminderung auf Ascend aufgrund unterschiedlicher Quantisierungskalibrierung starker spurbar als auf CUDA
Aktualisieren Sie CANN regelmaßig – Jede Veroffentlichung bringt erhebliche Leistungsverbesserungen. 7.0.0 war gut; 8.0.0+ ist spurbar besser
Treten Sie der Community bei – Die Ascend-AI-Community auf GitHub und chinesischen Entwicklerforen ist aktiv und hilfreich

Das Große Ganze

DeepSeek V4 auf Ascend ist mehr als nur eine weitere Bereitstellungsoption. Es reprasentiert einen Entkopplungsmoment – in dem die KI-Modellentwicklung und die Entwicklung des KI-Hardware-Okosystems unabhangig voneinander verlaufen konnen. Fur chinesische Entwickler bedeutet dies Zugang zu Spitzen-KI ohne geopolitische Einschrankungen. Fur die globale Gemeinschaft bedeutet es ein vielfaltigeres und widerstandsfahigeres Hardware-Okosystem.

Die Lucke zu CUDA ist noch nicht geschlossen. Aber sie schließt sich, und die Verbesserungsrate beschleunigt sich.