IA 2026 05 10 | News Makertronic

Voici un résumé structuré et factuel des informations fournies, rédigé en français conformément à vos consignes :

Les couches 2 à 60 alternent entre attention CSA et HCA, tandis que le bloc MTP final utilise exclusivement une fenêtre glissante.
Le cache KV est stocké majoritairement en FP8, avec BF16 réservé uniquement aux dimensions RoPE. L'indexeur lightning interne au CSA fonctionne en FP4.
Ces choix de compression font baisser l'empreinte du cache KV à seulement 2 %.
Les couches feed-forward utilisent DeepSeekMoE, et les connexions résiduelles classiques sont remplacées par des hyper-connexions contraintes par manifold (mHC).

Raisonnement continu : La V4 conserve l'historique complet du raisonnement à travers les tours utilisateur et les appels d'outils, permettant une chaîne de pensée cumulative sur les tâches à long horizon. Pour les conversations classiques sans outils, le comportement précédent (effacement du raisonnement à chaque tour) est conservé.
Schéma d'appels d'outils XML : Introduction du jeton spécial |DSML| et d'un format XML qui réduit les échecs d'échappement liés au JSON. Les paramètres chaîne sont transmis tels quels (string="true"), tandis que les paramètres structurés utilisent du JSON (string="false"), éliminant une classe d'erreurs de parsing sur les nombres et booléens.
Entraînement par RL sur DSec : DeepSeek Elastic Compute est une plateforme Rust exposée via un SDK Python, supportant fonctions, conteneurs, microVMs (Firecracker) et VMs complètes (QEMU). Ses atouts incluent un chargement rapide d'images (3FS), une reprise sécurisée des trajectoires après préemption, et une API unifiée, servant de socle aux performances élevées sur les benchmarks agents.

Terminal Bench 2.0 : 67.9 (derrière GPT-5.4-xHigh et Gemini-3.1-Pro, mais devant GLM-5.1 et K2.6).
SWE Verified : 80.6 % de tâches résolues (à une longueur d'Opus-4.6-Max et Gemini-3.1-Pro).
MCPAtlas Public : 73.6 (deuxième, juste derrière Opus-4.6-Max).
Toolathlon : 51.8 (devant K2.6, GLM-5.1 et Gemini-3.1-Pro).
Benchmark interne R&D : 67 % de réussite sur 30 tâches curated (PyTorch, CUDA, Rust, C++), contre 47 % pour Sonnet 4.5 et 70 % pour Opus 4.5.
Récupération de contexte long (MRCR 8-aiguilles) : Précision >0.82 jusqu'à 256K tokens, stable à 0.59 à 1M de tokens.
Adoption interne : 52 % des développeurs DeepSeek sondés jugent le modèle prêt à remplacer leur modèle principal, et 39 % penchent vers l'affirmatif.

Quatre checkpoints sont publiés : DeepSeek-V4-Pro (1.6T / 49B activés, instruct), DeepSeek-V4-Flash (284B / 13B activés, instruct), et leurs équivalents Base.
Les modèles instruct utilisent FP4 pour les experts MoE et FP8 pour le reste ; les modèles base sont entièrement en FP8.
Trois modes de raisonnement sont supportés : Non-think (rapide), Think High (raisonnement explicite), et Think Max (effort maximal, requiert une fenêtre de contexte d'au moins 384K tokens).
Paramètres d'échantillonnage recommandés pour tous les modes : temperature=1.0, top_p=1.0.

Source des faits : Document de référence fourni.