DeepSeek V4 Review: Funktionen, Feedback und Preise

DeepSeek V4 Review mit Flash/Pro-Funktionen, 1M-Kontext, CSA/HCA-Architektur, Benchmarks, Feedback, Grenzen und API-Preisen.

Industry News
DeepSeek V4 Flash und Pro in der öffentlichen API

DeepSeek V4 – lange prägten Release-Datum, Modell-Details und Parameter die Presse und Spekulation. Jetzt ist die Lage klarer: DeepSeek V4 ist mit deepseek-v4-flash und deepseek-v4-pro, 1M Kontext, bis zu 384K Ausgabe, dokumentierten Preisen und einer Migration von deepseek-chat / deepseek-reasoner veröffentlicht. PixVerse betrachtet V4 als Option für Long-Context-Planung, Codeanalyse und kreative Workflows.

24. April 2026: DeepSeek V4 ist live

Am 24. April 2026 wechselte DeepSeek V4 von Roadmap-Spekulation zu einem öffentlichen Produkt: 1M-Kontext, offene Gewichte und API mit deepseek-v4-pro und deepseek-v4-flash. In der Mitteilung: 1,6T gesamt / 49B aktiv (Pro), 284B / 13B (Flash), Vortraining 33T bzw. 32T Tokens. Web unter chat.deepseek.com, App-Modi Experte (Pro) und Schnell (Flash). Abrechnung und Limits bleiben an der offiziellen Modelle-&-Preis-Seite der Docs gebunden.

Modelle und Preise: V4-Flash und V4-Pro

deepseek-v4-flash*deepseek-v4-pro
Base (OpenAI)https://api.deepseek.com
Base (Anthropic)https://api.deepseek.com/anthropic
Kontext1M1M
Max. Output384K (laut Tabelle)384K
Preis (Input hit/miss, Output)0,2 / 1 / 2 CNY je 1M (Output ≈ $0.28)1 / 12 / 24 CNY je 1M (Output ≈ $3.48)

Der Output-Preis ist besonders relevant: V4-Flash liegt bei etwa $0.28 pro 1M Tokens, V4-Pro bei etwa $3.48. Alte Namen wie deepseek-chat und deepseek-reasoner werden laut Doku später entfernt; planen Sie die Migration früh.

Release-Datum: von Presse zu öffentlicher API

Reuters u. a. (Jan.–Apr. 2026) liefern Hintergrund. Für Produktteams ist der 24. April 2026 das öffentliche Release-Datum, an dem Modell-IDs, Kontextfenster und Preise in den Dokumenten auftauchten.

Parameter (Story vs. Rechnung)

Medien nennen oft Billionen-Param-MoE und sparse Routing – sinnvoll fürs Verständnis. Abrechnung folgt CNY/1M Tokens auf der offiziellen Seite. Der zentrale Architekturbegriff ist CSA (compressed sparse attention) + HCA (heavy compressed attention), eine hybride Attention-Struktur für 1M Kontext. Dazu kommen Ascend-basierte Trainings- und Inferenzinfrastruktur sowie die Open-Source-Anpassung von Cambricon vLLM für V4-Flash und V4-Pro.

Benchmarks und externe Bewertung

Laut Arena.ai belegt V4-Pro Platz 3 in der Open-Source-Code-Arena und Platz 14 insgesamt. Im Vals AI Vibe Code Benchmark führt V4 unter Open-Weight-Modellen, liegt ungefähr 10x über V3.2 und schlägt in einzelnen Szenarien geschlossene Modelle wie Gemini 3.1 Pro.

Feedback: Long Context und Agent Coding

In einem Reddit-Test fand V4-Pro eine fiktive Information in einem Dokument mit 800.000 Zeichen. Bei einem 500.000-Zeichen-Report dauerte der Upload etwa 30 Sekunden, die Verarbeitung etwa 1 Minute; die Zusammenfassung deckte mehr als 90% der Kernpunkte ab. Für Agent Coding wurden Non-think, Think High und Think Max als klare Denkmodi beschrieben.

Grenzen und objektive Einordnung

DeepSeek selbst sagt, V4 liege bei komplexem Wissen und Reasoning noch etwa 3 bis 6 Monate hinter den besten geschlossenen Systemen. Außerdem hat V4-Pro wegen begrenzter High-End-Rechenleistung ein Throughput-Limit. Prüfen Sie daher Preis, Rate Limits, Region, Latenz und Verfügbarkeit zusammen.

Kreative, PixVerse

  • Flash für hohe Volumen, Pro für tiefere Sitzungen.
  • 1M Kontext ersetzt kein gutes Chunking und Zusammenfassung.
  • Neben Seedance 2.0 (Seedance 2.0) & Co. wählt PixVerse Modelle passend zum Shot.

Wir integrieren V4 parallel zu bestehenden Optionen, mit Fokus auf stabile Modellnamen und künftigen Entfall der Legacy-IDs.

FAQ (kurz)

  • Ist V4 draußen? Ja, Flash/Pro sind dokumentiert; prüfen Sie Ihre Region.
  • Alte deepseek-chat? Abschaffung geplant – Flash-Mapping.
  • API-Preis? Flash-Output etwa $0.28/1M Tokens; Pro etwa $3.48/1M.
  • Parameter? Pro 1.6T gesamt / 49B aktiv; Flash 284B / 13B.