DeepSeek V4 auf Huawei Ascend: Eine Praktische Anleitung zum Ausfuhren von Spitzen-KI auf Heimischer Hardware
Die Veroffentlichung der DeepSeek V4 Preview markiert eine bedeutende Verschiebung in der KI-Hardware-Landschaft. Zum ersten Mal bietet ein Spitzenmodell erstklassige Unterstutzung fur Huawei Ascend NPUs – was bedeutet, dass Sie wettbewerbsfahige KI-Inferenz ohne eine einzige NVIDIA-GPU ausfuhren konnen.
Dies ist eine große Sache fur chinesische Entwickler, Forschungseinrichtungen und Unternehmen, die durch die GPU-Verfugbarkeit eingeschrankt waren. Lassen Sie mich durchgehen, was dies bedeutet und wie Sie loslegen konnen.
Hardware-Landschaft
Ascend 910B vs. NVIDIA A100 (Wichtige Spezifikationen)
┌────────────────────┬────────────────────┬────────────────────┐
│ Spezifikation │ Ascend 910B │ NVIDIA A100 │
├────────────────────┼────────────────────┼────────────────────┤
│ Rechenleistung │ 320 TFLOPS │ 312 TFLOPS │
│ (FP16) │ │ │
│ Speicher │ 64 GB HBM2e │ 80 GB HBM2e │
│ Speicherbandbreite │ 1,5 TB/s │ 2,0 TB/s │
│ Interconnect │ HCCS 56 GB/s │ NVLink 600 GB/s │
│ TDP │ 310 W │ 400 W │
│ Verfugbarkeit │ Hoch (Inland) │ Eingeschrankt* │
└────────────────────┴────────────────────┴────────────────────┘
* NVIDIA-Exportbeschrankungen fur bestimmte Markte
Die Zahlen erzahlen eine interessante Geschichte. Die reine Rechenleistung ist vergleichbar – der 910B liegt bei FP16-TFLOPS sogar leicht vorn. Der Unterschied liegt bei der Speicherbandbreite und den Interconnects, was die Inferenz mit großen Batches und die Multi-Card-Skalierung beeinflusst. Aber fur Single-Card-Inferenz und Small-Batch-Serving schließt sich die Lucke schnell.
Architektur-Ubersicht
┌─────────────────────────────────────────────────────────────┐
│ DeepSeek V4 auf Ascend – Bereitstellungs-Stack │
├─────────────────────────────────────────────────────────────┤
│ │
│ ┌───────────────────────────────────────────────────────┐ │
│ │ Client-Schicht │ │
│ │ (Chat-UI / API-Client / curl) │ │
│ └────────────────────┬──────────────────────────────────┘ │
│ │ HTTP/WebSocket │
│ ┌────────────────────▼──────────────────────────────────┐ │
│ │ Serving-Schicht │ │
│ │ vLLM-Ascend / TGI-Ascend │ │
│ └────────────────────┬──────────────────────────────────┘ │
│ │ CANN (Compute Architecture) │
│ ┌────────────────────▼──────────────────────────────────┐ │
│ │ CANN-Stack │ │
│ │ ├── ACL (Ascend Compute Language) │ │
│ │ ├── GE (Graph Engine) │ │
│ │ └── Runtime-Treiber │ │
│ └────────────────────┬──────────────────────────────────┘ │
│ │ │
│ ┌────────────────────▼──────────────────────────────────┐ │
│ │ Hardware │ │
│ │ Ascend 910B / 910 Pro │ │
│ └───────────────────────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────┘
Bereitstellungsanleitung
Voraussetzungen
# Systemanforderungen
- OS: Ubuntu 22.04 / EulerOS
- Kernel: 5.10+
- NPU: Ascend 910B (mindestens 1 Karte)
- Arbeitsspeicher: 64 GB+ System-RAM
- Festplatte: 200 GB+ freier Speicher
Schritt 1: CANN-Toolkit installieren
# CANN von Huaweis Support-Seite herunterladen
chmod +x Ascend-cann-toolkit_*.run
./Ascend-cann-toolkit_*.run --install --quiet
# Installation uberprufen
npu-smi info
# Sollte verfugbare Ascend-NPUs anzeigen
Schritt 2: Docker-Umgebung einrichten
docker pull deepseek-ai/deepseek-v4-ascend:latest
docker run --rm -it \
--device=/dev/davinci0 \
--device=/dev/davinci_manager \
--device=/dev/hisi_hdc \
-v /usr/local/Ascend:/usr/local/Ascend \
-p 8000:8000 \
deepseek-ai/deepseek-v4-ascend:latest
Schritt 3: Inferenz-Server starten
# Innerhalb des Containers
python -m vllm.entrypoints.openai.api_server \
--model /models/deepseek-v4-preview \
--trust-remote-code \
--dtype bfloat16 \
--max-model-len 4096 \
--gpu-memory-utilization 0.9
Schritt 4: Testen
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "deepseek-v4-preview",
"messages": [{"role": "user", "content": "Hallo, was kannst du tun?"}]
}'
Leistungsbeobachtungen
Erste Benchmarks aus der Community zeigen vielversprechende Ergebnisse:
| Modell | Hardware | Tokens/s | Speicher | Anmerkungen |
|---|---|---|---|---|
| V4 Preview (7B) | 1× Ascend 910B | ~45 t/s | 14 GB | Schnell, passt auf eine Karte |
| V4 Preview (14B) | 1× Ascend 910B | ~22 t/s | 28 GB | Fur Produktion nutzbar |
| V4 Preview (70B) | 4× Ascend 910B | ~15 t/s | 63 GB | Erfordert Quantisierung |
| V4 Preview (70B) | 1× A100 80 GB | ~35 t/s | 70 GB | Referenz-Baseline |
Die Lucke schließt sich mit optimierten CANN-Kernels. Bei den 7B- und 14B-Modellen ist die Erfahrung wirklich produktionsreif.
Sechs Tipps fur Entwickler
- Verwenden Sie vLLM-Ascend, nicht rohes CANN – Der Community-Fork von vLLM mit Ascend-Backend erledigt den Großteil der Optimierungsarbeit fur Sie
- Aktivieren Sie Flash Attention – Die Ascend-Implementierung (
--enable-flash-attn) bringt 1,5-2x Beschleunigung bei langeren Sequenzen - Behalten Sie Ihre Batch-Große im Auge – Speicherbandbreite ist der Engpass; kleine Batches (1-4) bieten den besten Latenz/Durchsatz-Kompromiss
- Verwenden Sie BF16, nicht INT8 – Obwohl INT8 schneller ist, ist die Qualitatsminderung auf Ascend aufgrund unterschiedlicher Quantisierungskalibrierung starker spurbar als auf CUDA
- Aktualisieren Sie CANN regelmaßig – Jede Veroffentlichung bringt erhebliche Leistungsverbesserungen. 7.0.0 war gut; 8.0.0+ ist spurbar besser
- Treten Sie der Community bei – Die Ascend-AI-Community auf GitHub und chinesischen Entwicklerforen ist aktiv und hilfreich
Das Große Ganze
DeepSeek V4 auf Ascend ist mehr als nur eine weitere Bereitstellungsoption. Es reprasentiert einen Entkopplungsmoment – in dem die KI-Modellentwicklung und die Entwicklung des KI-Hardware-Okosystems unabhangig voneinander verlaufen konnen. Fur chinesische Entwickler bedeutet dies Zugang zu Spitzen-KI ohne geopolitische Einschrankungen. Fur die globale Gemeinschaft bedeutet es ein vielfaltigeres und widerstandsfahigeres Hardware-Okosystem.
Die Lucke zu CUDA ist noch nicht geschlossen. Aber sie schließt sich, und die Verbesserungsrate beschleunigt sich.