DeepSeek V4 auf Huawei Ascend: Eine Praktische Anleitung zum Ausfuhren von Spitzen-KI auf Heimischer Hardware
Die Veroffentlichung der DeepSeek V4 Preview markiert eine bedeutende Verschiebung in der KI-Hardware-Landschaft. Zum ersten Mal bietet ein Spitzenmodell erstklassige Unterstutzung fur Huawei Ascend NPUs – was bedeutet, dass Sie wettbewerbsfahige KI-Inferenz ohne eine einzige NVIDIA-GPU ausfuhren konnen.
Dies ist eine große Sache fur chinesische Entwickler, Forschungseinrichtungen und Unternehmen, die durch die GPU-Verfugbarkeit eingeschrankt waren. Lassen Sie mich durchgehen, was dies bedeutet und wie Sie loslegen konnen.
Hardware-Landschaft
Ascend 910B vs. NVIDIA A100 (Wichtige Spezifikationen)┌────────────────────┬────────────────────┬────────────────────┐│ Spezifikation │ Ascend 910B │ NVIDIA A100 │├────────────────────┼────────────────────┼────────────────────┤│ Rechenleistung │ 320 TFLOPS │ 312 TFLOPS ││ (FP16) │ │ ││ Speicher │ 64 GB HBM2e │ 80 GB HBM2e ││ Speicherbandbreite │ 1,5 TB/s │ 2,0 TB/s ││ Interconnect │ HCCS 56 GB/s │ NVLink 600 GB/s ││ TDP │ 310 W │ 400 W ││ Verfugbarkeit │ Hoch (Inland) │ Eingeschrankt* │└────────────────────┴────────────────────┴────────────────────┘* NVIDIA-Exportbeschrankungen fur bestimmte MarkteDie Zahlen erzahlen eine interessante Geschichte. Die reine Rechenleistung ist vergleichbar – der 910B liegt bei FP16-TFLOPS sogar leicht vorn. Der Unterschied liegt bei der Speicherbandbreite und den Interconnects, was die Inferenz mit großen Batches und die Multi-Card-Skalierung beeinflusst. Aber fur Single-Card-Inferenz und Small-Batch-Serving schließt sich die Lucke schnell.
Architektur-Ubersicht
┌─────────────────────────────────────────────────────────────┐│ DeepSeek V4 auf Ascend – Bereitstellungs-Stack │├─────────────────────────────────────────────────────────────┤│ ││ ┌───────────────────────────────────────────────────────┐ ││ │ Client-Schicht │ ││ │ (Chat-UI / API-Client / curl) │ ││ └────────────────────┬──────────────────────────────────┘ ││ │ HTTP/WebSocket ││ ┌────────────────────▼──────────────────────────────────┐ ││ │ Serving-Schicht │ ││ │ vLLM-Ascend / TGI-Ascend │ ││ └────────────────────┬──────────────────────────────────┘ ││ │ CANN (Compute Architecture) ││ ┌────────────────────▼──────────────────────────────────┐ ││ │ CANN-Stack │ ││ │ ├── ACL (Ascend Compute Language) │ ││ │ ├── GE (Graph Engine) │ ││ │ └── Runtime-Treiber │ ││ └────────────────────┬──────────────────────────────────┘ ││ │ ││ ┌────────────────────▼──────────────────────────────────┐ ││ │ Hardware │ ││ │ Ascend 910B / 910 Pro │ ││ └───────────────────────────────────────────────────────┘ ││ │└─────────────────────────────────────────────────────────────┘Bereitstellungsanleitung
Voraussetzungen
# Systemanforderungen- OS: Ubuntu 22.04 / EulerOS- Kernel: 5.10+- NPU: Ascend 910B (mindestens 1 Karte)- Arbeitsspeicher: 64 GB+ System-RAM- Festplatte: 200 GB+ freier SpeicherSchritt 1: CANN-Toolkit installieren
# CANN von Huaweis Support-Seite herunterladenchmod +x Ascend-cann-toolkit_*.run./Ascend-cann-toolkit_*.run --install --quiet
# Installation uberprufennpu-smi info# Sollte verfugbare Ascend-NPUs anzeigenSchritt 2: Docker-Umgebung einrichten
docker pull deepseek-ai/deepseek-v4-ascend:latest
docker run --rm -it \ --device=/dev/davinci0 \ --device=/dev/davinci_manager \ --device=/dev/hisi_hdc \ -v /usr/local/Ascend:/usr/local/Ascend \ -p 8000:8000 \ deepseek-ai/deepseek-v4-ascend:latestSchritt 3: Inferenz-Server starten
# Innerhalb des Containerspython -m vllm.entrypoints.openai.api_server \ --model /models/deepseek-v4-preview \ --trust-remote-code \ --dtype bfloat16 \ --max-model-len 4096 \ --gpu-memory-utilization 0.9Schritt 4: Testen
curl http://localhost:8000/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "deepseek-v4-preview", "messages": [{"role": "user", "content": "Hallo, was kannst du tun?"}] }'Leistungsbeobachtungen
Erste Benchmarks aus der Community zeigen vielversprechende Ergebnisse:
| Modell | Hardware | Tokens/s | Speicher | Anmerkungen |
|---|---|---|---|---|
| V4 Preview (7B) | 1× Ascend 910B | ~45 t/s | 14 GB | Schnell, passt auf eine Karte |
| V4 Preview (14B) | 1× Ascend 910B | ~22 t/s | 28 GB | Fur Produktion nutzbar |
| V4 Preview (70B) | 4× Ascend 910B | ~15 t/s | 63 GB | Erfordert Quantisierung |
| V4 Preview (70B) | 1× A100 80 GB | ~35 t/s | 70 GB | Referenz-Baseline |
Die Lucke schließt sich mit optimierten CANN-Kernels. Bei den 7B- und 14B-Modellen ist die Erfahrung wirklich produktionsreif.
Sechs Tipps fur Entwickler
- Verwenden Sie vLLM-Ascend, nicht rohes CANN – Der Community-Fork von vLLM mit Ascend-Backend erledigt den Großteil der Optimierungsarbeit fur Sie
- Aktivieren Sie Flash Attention – Die Ascend-Implementierung (
--enable-flash-attn) bringt 1,5-2x Beschleunigung bei langeren Sequenzen - Behalten Sie Ihre Batch-Große im Auge – Speicherbandbreite ist der Engpass; kleine Batches (1-4) bieten den besten Latenz/Durchsatz-Kompromiss
- Verwenden Sie BF16, nicht INT8 – Obwohl INT8 schneller ist, ist die Qualitatsminderung auf Ascend aufgrund unterschiedlicher Quantisierungskalibrierung starker spurbar als auf CUDA
- Aktualisieren Sie CANN regelmaßig – Jede Veroffentlichung bringt erhebliche Leistungsverbesserungen. 7.0.0 war gut; 8.0.0+ ist spurbar besser
- Treten Sie der Community bei – Die Ascend-AI-Community auf GitHub und chinesischen Entwicklerforen ist aktiv und hilfreich
Das Große Ganze
DeepSeek V4 auf Ascend ist mehr als nur eine weitere Bereitstellungsoption. Es reprasentiert einen Entkopplungsmoment – in dem die KI-Modellentwicklung und die Entwicklung des KI-Hardware-Okosystems unabhangig voneinander verlaufen konnen. Fur chinesische Entwickler bedeutet dies Zugang zu Spitzen-KI ohne geopolitische Einschrankungen. Fur die globale Gemeinschaft bedeutet es ein vielfaltigeres und widerstandsfahigeres Hardware-Okosystem.
Die Lucke zu CUDA ist noch nicht geschlossen. Aber sie schließt sich, und die Verbesserungsrate beschleunigt sich.