DeepSeek V4 Review : fonctionnalités, retours et prix

Review de DeepSeek V4 : Flash/Pro, contexte 1M, architecture CSA/HCA, benchmarks, retours utilisateurs, limites et prix API.

Industry News
DeepSeek V4 Flash et Pro sur l’API publique

L’histoire de DeepSeek V4 a longtemps mélangé rumeur, lancement et paramètres. La situation est désormais plus claire : DeepSeek V4 est publié avec deepseek-v4-flash et deepseek-v4-pro, un contexte de 1M tokens, jusqu’à 384K en sortie, des prix documentés et une migration depuis deepseek-chat / deepseek-reasoner. PixVerse suit V4 comme option pour le long contexte, l’analyse de code et les workflows créatifs.

24 avril 2026 : DeepSeek V4 est disponible

Le 24 avril 2026, DeepSeek V4 est passé de la spéculation à un produit public : contexte 1M tokens, poids ouverts et API via deepseek-v4-pro et deepseek-v4-flash. Chiffres annoncés : 1,6T total / 49B actifs (Pro) ; 284B / 13B (Flash) ; pré-entraînement 33T / 32T tokens. Web : chat.deepseek.com ; app : mode Expert (Pro) et Rapide (Flash). Facturation et plafonds : toujours la page Modèles & tarifs en ligne.

Modèles et prix : V4-Flash et V4-Pro

deepseek-v4-flash*deepseek-v4-pro
Base OpenAIhttps://api.deepseek.com=
Base Anthropichttps://api.deepseek.com/anthropic=
Contexte1M1M
Sortie max. (table docs)384K384K
Prix (CNY/M, entrée hit/miss, sortie)0,2 / 1 / 2 (sortie ≈ $0.28)1 / 12 / 24 (sortie ≈ $3.48)

Le prix de sortie est l’un des points les plus recherchés : V4-Flash est listé autour de $0.28 par million de tokens, V4-Pro autour de $3.48. Les anciens noms deepseek-chat et deepseek-reasoner doivent être migrés vers les IDs V4.

Date de sortie : de la presse à l’API publique

De janvier à avril 2026, les dépêches ont donné le contexte. Pour le produit, la date publique est le 24 avril 2026, quand Flash et Pro apparaissent avec IDs, contexte et prix dans la documentation.

« Paramètres » : rumeur ingénieur vs. facture

Médias : MoE à l’échelle du billion de paramètres, V4 Lite, etc. Coût : yuan / million de tokens sur le site. Le terme technique clé est l’attention hybride CSA (compressed sparse attention) + HCA (heavy compressed attention), qui rend le contexte 1M plus praticable. À noter aussi : entraînement/inférence sur infrastructure Ascend et adaptation open source de Cambricon vLLM pour V4-Flash et V4-Pro.

Benchmarks et évaluation externe

Selon Arena.ai, V4-Pro se classe 3e dans l’arène de code des modèles open source et 14e au global. Dans Vals AI Vibe Code Benchmark, V4 arrive en tête des modèles open-weight, progresse d’environ 10x face à V3.2 et bat Gemini 3.1 Pro dans certains scénarios.

Retours : long contexte et Agent coding

Dans un test Reddit, V4-Pro a retrouvé une information fictive cachée dans un document de 800 000 caractères. Sur un rapport sectoriel de 500 000 caractères, l’envoi a pris environ 30 secondes, le traitement environ 1 minute, et le résumé couvrait plus de 90% des points clés sans hallucination grave. Côté code agentique, les modes Non-think, Think High et Think Max ont été observés.

Limites et évaluation objective

DeepSeek indique que V4 reste environ 3 à 6 mois derrière les meilleurs systèmes fermés sur le savoir complexe et le raisonnement. Le throughput de V4-Pro est aussi plafonné par la disponibilité du calcul haut de gamme. Évaluez donc prix, limites, région, latence et disponibilité ensemble.

Créateurs, PixVerse

Flash pour volume, Pro pour profondeur. 1M de contexte ≠ collage infini. Avec Seedance 2.0 (Seedance 2.0) & partenaires, choisir l’outil adapté. Intégration V4 côté noms et UX de sélection de modèles.

FAQ

  • Lancé ? Oui, Flash/Pro sont listés dans la documentation, avec vérification par région.
  • Ancien deepseek-chat ? Dépréciation prévue.
  • Prix API ? Sortie Flash ≈ $0.28/1M tokens ; Pro ≈ $3.48/1M.
  • Paramètres ? Pro 1.6T total / 49B actifs ; Flash 284B / 13B.