needhelp
← Zurück zum Blog

DeepSeek V4 auf Huawei Ascend: Eine Praktische Anleitung zum Ausfuhren von Spitzen-KI auf Heimischer Hardware

von needhelp
deepseek
huawei-ascend
ai-deployment
domestic-ai

Die Veroffentlichung der DeepSeek V4 Preview markiert eine bedeutende Verschiebung in der KI-Hardware-Landschaft. Zum ersten Mal bietet ein Spitzenmodell erstklassige Unterstutzung fur Huawei Ascend NPUs – was bedeutet, dass Sie wettbewerbsfahige KI-Inferenz ohne eine einzige NVIDIA-GPU ausfuhren konnen.

Dies ist eine große Sache fur chinesische Entwickler, Forschungseinrichtungen und Unternehmen, die durch die GPU-Verfugbarkeit eingeschrankt waren. Lassen Sie mich durchgehen, was dies bedeutet und wie Sie loslegen konnen.

Hardware-Landschaft

Ascend 910B vs. NVIDIA A100 (Wichtige Spezifikationen)
┌────────────────────┬────────────────────┬────────────────────┐
│ Spezifikation │ Ascend 910B │ NVIDIA A100 │
├────────────────────┼────────────────────┼────────────────────┤
│ Rechenleistung │ 320 TFLOPS │ 312 TFLOPS │
│ (FP16) │ │ │
│ Speicher │ 64 GB HBM2e │ 80 GB HBM2e │
│ Speicherbandbreite │ 1,5 TB/s │ 2,0 TB/s │
│ Interconnect │ HCCS 56 GB/s │ NVLink 600 GB/s │
│ TDP │ 310 W │ 400 W │
│ Verfugbarkeit │ Hoch (Inland) │ Eingeschrankt* │
└────────────────────┴────────────────────┴────────────────────┘
* NVIDIA-Exportbeschrankungen fur bestimmte Markte

Die Zahlen erzahlen eine interessante Geschichte. Die reine Rechenleistung ist vergleichbar – der 910B liegt bei FP16-TFLOPS sogar leicht vorn. Der Unterschied liegt bei der Speicherbandbreite und den Interconnects, was die Inferenz mit großen Batches und die Multi-Card-Skalierung beeinflusst. Aber fur Single-Card-Inferenz und Small-Batch-Serving schließt sich die Lucke schnell.

Architektur-Ubersicht

┌─────────────────────────────────────────────────────────────┐
│ DeepSeek V4 auf Ascend – Bereitstellungs-Stack │
├─────────────────────────────────────────────────────────────┤
│ │
│ ┌───────────────────────────────────────────────────────┐ │
│ │ Client-Schicht │ │
│ │ (Chat-UI / API-Client / curl) │ │
│ └────────────────────┬──────────────────────────────────┘ │
│ │ HTTP/WebSocket │
│ ┌────────────────────▼──────────────────────────────────┐ │
│ │ Serving-Schicht │ │
│ │ vLLM-Ascend / TGI-Ascend │ │
│ └────────────────────┬──────────────────────────────────┘ │
│ │ CANN (Compute Architecture) │
│ ┌────────────────────▼──────────────────────────────────┐ │
│ │ CANN-Stack │ │
│ │ ├── ACL (Ascend Compute Language) │ │
│ │ ├── GE (Graph Engine) │ │
│ │ └── Runtime-Treiber │ │
│ └────────────────────┬──────────────────────────────────┘ │
│ │ │
│ ┌────────────────────▼──────────────────────────────────┐ │
│ │ Hardware │ │
│ │ Ascend 910B / 910 Pro │ │
│ └───────────────────────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────┘

Bereitstellungsanleitung

Voraussetzungen

Terminal window
# Systemanforderungen
- OS: Ubuntu 22.04 / EulerOS
- Kernel: 5.10+
- NPU: Ascend 910B (mindestens 1 Karte)
- Arbeitsspeicher: 64 GB+ System-RAM
- Festplatte: 200 GB+ freier Speicher

Schritt 1: CANN-Toolkit installieren

Terminal window
# CANN von Huaweis Support-Seite herunterladen
chmod +x Ascend-cann-toolkit_*.run
./Ascend-cann-toolkit_*.run --install --quiet
# Installation uberprufen
npu-smi info
# Sollte verfugbare Ascend-NPUs anzeigen

Schritt 2: Docker-Umgebung einrichten

Terminal window
docker pull deepseek-ai/deepseek-v4-ascend:latest
docker run --rm -it \
--device=/dev/davinci0 \
--device=/dev/davinci_manager \
--device=/dev/hisi_hdc \
-v /usr/local/Ascend:/usr/local/Ascend \
-p 8000:8000 \
deepseek-ai/deepseek-v4-ascend:latest

Schritt 3: Inferenz-Server starten

Terminal window
# Innerhalb des Containers
python -m vllm.entrypoints.openai.api_server \
--model /models/deepseek-v4-preview \
--trust-remote-code \
--dtype bfloat16 \
--max-model-len 4096 \
--gpu-memory-utilization 0.9

Schritt 4: Testen

Terminal window
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "deepseek-v4-preview",
"messages": [{"role": "user", "content": "Hallo, was kannst du tun?"}]
}'

Leistungsbeobachtungen

Erste Benchmarks aus der Community zeigen vielversprechende Ergebnisse:

Modell Hardware Tokens/s Speicher Anmerkungen
V4 Preview (7B) 1× Ascend 910B ~45 t/s 14 GB Schnell, passt auf eine Karte
V4 Preview (14B) 1× Ascend 910B ~22 t/s 28 GB Fur Produktion nutzbar
V4 Preview (70B) 4× Ascend 910B ~15 t/s 63 GB Erfordert Quantisierung
V4 Preview (70B) 1× A100 80 GB ~35 t/s 70 GB Referenz-Baseline

Die Lucke schließt sich mit optimierten CANN-Kernels. Bei den 7B- und 14B-Modellen ist die Erfahrung wirklich produktionsreif.

Sechs Tipps fur Entwickler

  1. Verwenden Sie vLLM-Ascend, nicht rohes CANN – Der Community-Fork von vLLM mit Ascend-Backend erledigt den Großteil der Optimierungsarbeit fur Sie
  2. Aktivieren Sie Flash Attention – Die Ascend-Implementierung (--enable-flash-attn) bringt 1,5-2x Beschleunigung bei langeren Sequenzen
  3. Behalten Sie Ihre Batch-Große im Auge – Speicherbandbreite ist der Engpass; kleine Batches (1-4) bieten den besten Latenz/Durchsatz-Kompromiss
  4. Verwenden Sie BF16, nicht INT8 – Obwohl INT8 schneller ist, ist die Qualitatsminderung auf Ascend aufgrund unterschiedlicher Quantisierungskalibrierung starker spurbar als auf CUDA
  5. Aktualisieren Sie CANN regelmaßig – Jede Veroffentlichung bringt erhebliche Leistungsverbesserungen. 7.0.0 war gut; 8.0.0+ ist spurbar besser
  6. Treten Sie der Community bei – Die Ascend-AI-Community auf GitHub und chinesischen Entwicklerforen ist aktiv und hilfreich

Das Große Ganze

DeepSeek V4 auf Ascend ist mehr als nur eine weitere Bereitstellungsoption. Es reprasentiert einen Entkopplungsmoment – in dem die KI-Modellentwicklung und die Entwicklung des KI-Hardware-Okosystems unabhangig voneinander verlaufen konnen. Fur chinesische Entwickler bedeutet dies Zugang zu Spitzen-KI ohne geopolitische Einschrankungen. Fur die globale Gemeinschaft bedeutet es ein vielfaltigeres und widerstandsfahigeres Hardware-Okosystem.

Die Lucke zu CUDA ist noch nicht geschlossen. Aber sie schließt sich, und die Verbesserungsrate beschleunigt sich.

Referenzen

Diese Seite teilen