IA 2026 05 09 | News Makertronic

IA - 09/05/2026

Voici un résumé structuré et factuel des informations fournies, organisé par thématiques principales, avec citations [n] pour chaque fait :

🔹 Architecture et modèles IA optimisés pour les agents

DeepSeek V4 propose une fenêtre de contexte de 1 M de tokens avec une attention hybride (CSA et HCA) qui réduit les FLOPs d'inférence et la mémoire du cache KV à ~2 % d'une architecture standard, facilitant les workloads agents longs [24](https://huggingface.co/blog/deepseekv4).
Le modèle conserve l'historique de raisonnement entre les appels d'outils, utilise un schéma XML dédié (|DSML|) pour réduire les erreurs de parsing, et s'appuie sur le bac à sable DSec pour l'entraînement par RL [24](https://huggingface.co/blog/deepseekv4).
Sur les benchmarks agents, DeepSeek V4-Pro-Max atteint 80,6 % sur SWE Verified, 73,6 % sur MCPAtlas et 67,9 % sur Terminal Bench 2.0, se positionnant parmi les meilleurs modèles open pour le coding [24](https://huggingface.co/blog/deepseekv4).
OpenAI GPT-5.2 et GPT-5.3 Codex sont entraînés sur des infrastructures NVIDIA (Hopper et GB200 NVL72) ; GPT-5.3 combine codage et raisonnement, établissant de nouveaux records sur SWE-Bench Pro et Terminal-Bench [26](https://blogs.nvidia.com/blog/leading-models-nvidia/).
L'API Realtime d'OpenAI sort de bêta avec trois nouveaux modèles : GPT-Realtime-2 (raisonnement vocal, fenêtre 128K, contrôle du ton et effort de raisonnement ajustable), GPT-Realtime-Translate (traduction live 70+ langues → 13 langues) et GPT-Realtime-Whisper (transcription streaming à faible latence) [32](https://www.marktechpost.com/2026/05/08/openai-releases-three-realtime-audio-models-gpt-realtime-2-gpt-realtime-translate-and-gpt-realtime-whisper-in-the-realtime-api/).
Le projet UK-LLM développe un modèle souverain pour le gallois basé sur NVIDIA Nemotron, entraîné sur le supercalculateur Isambard-AI (GH200), visant à moderniser les services publics et soutenir l'objectif Cymraeg 2050 [27](https://blogs.nvidia.com/blog/uk-llm-nemotron/).

🔹 Infrastructure matérielle et optimisation de l'inférence

NVIDIA a présenté la plateforme Rubin à CES 2026 : architecture à 6 puces codesignées, successeur de Blackwell, promettant un coût de génération de tokens divisé par 10 grâce à une optimisation extrême du réseau, du stockage KV-cache et de l'interconnexion [28](https://blogs.nvidia.com/blog/2026-ces-special-presentation/).
Les systèmes GB200 NVL72 offrent ~3x de performance d'entraînement et ~2x de performance par dollar par rapport à Hopper, tandis que GB300 vise plus de 4x de vitesse supplémentaire [26](https://blogs.nvidia.com/blog/leading-models-nvidia/).
TokenSpeed, moteur d'inférence open-source (MIT) de LightSeek Foundation, est conçu spécifiquement pour les agents de code : il utilise un compilateur SPMD, un planificateur C++ à machine à états pour sécuriser le cache KV, et des kernels MLA optimisés pour Blackwell [30](https://www.marktechpost.com/2026/05/07/lightseek-foundation-releases-tokenspeed-an-open-source-llm-inference-engine-targeting-tensorrt-llm-level-performance-for-agentic-workloads/).
Sur B200, TokenSpeed surpasse TensorRT-LLM de ~9 % en latence minimale et ~11 % en débit à 100 TPS/utilisateur, avec une réduction quasi de moitié de la latence de décodage sous spéculation [30](https://www.marktechpost.com/2026/05/07/lightseek-foundation-releases-tokenspeed-an-open-source-llm-inference-engine-targeting-tensorrt-llm-level-performance-for-agentic-workloads/).

🔹 Outils et méthodologies pour les agents de code

GitHub Spec-Kit open-source (90k+ étoiles) implémente le Spec-Driven Development (SDD) : le spécification devient la source de vérité, structurée via une CLI Python (specify-cli) et des commandes slash (/speckit.specify, /speckit.plan, /speckit.implement, etc.) pour générer, valider et exécuter le code sans ambiguïté [29](https://www.marktechpost.com/2026/05/08/meet-github-spec-kit-an-open-source-toolkit-for-spec-driven-development-with-ai-coding-agents/).
L'extension Chrome Codex d'OpenAI permet aux agents d'utiliser l'état connecté de Chrome pour des tâches web (Salesforce, LinkedIn, outils internes) via des groupes d'onglets isolés, avec une gestion fine des permissions par domaine et des garde-fous contre l'injection de prompt [31](https://www.marktechpost.com/2026/05/08/openai-adds-chrome-extension-to-codex-letting-its-ai-agent-access-linkedin-salesforce-gmail-and-internal-tools-via-signed-in-sessions/).
Les agents utilisent désormais trois niveaux d'outils : plugins dédiés, navigateur connecté (Chrome), ou navigateur sandboxé (in-app), sélectionnés automatiquement selon le contexte de la tâche [31](https://www.marktechpost.com/2026/05/08/openai-adds-chrome-extension-to-codex-letting-its-ai-agent-access-linkedin-salesforce-gmail-and-internal-tools-via-signed-in-sessions/).

🔹 Veille informationnelle et ressources pédagogiques

Plusieurs outils gratuits facilitent la veille digitale : Feedly (agrégateur RSS, 100 sources en gratuit), Google Alertes (mots-clés par email), X/TweetDeck (veille temps réel, limité aux abonnés Premium), Flipboard (magazines personnalisés), Google Actualités, Swello (curation + planification, fonctionnalités avancées payantes), Instapaper (sauvegarde/annotation) et Mention (social listening) [34](https://www.leptidigital.fr/productivite/outils-de-veille-informationnelle-gratuits-26202/).
L'URFIST de Rennes propose un cours en ligne gratuit structuré en trois parties : définition de la veille, conception d'une stratégie personnelle, et panorama des outils de collecte, gestion et diffusion [35](https://www.francenum.gouv.fr/formations/demarche-et-outils-pour-developper-une-veille-numerique-personnelle).
Des ressources pratiques (PDF, tutoriels) insistent sur l'importance de la veille pour le suivi de réputation, l'analyse concurrentielle et l'anticipation des innovations sectorielles [36](https://lesbases.anct.gouv.fr/ressources/mettre-en-place-une-veille-efficace-sur-le-web).

🔹 Programmes académiques et bourses

Le NVIDIA Graduate Fellowship Program, en sa 25e année, attribue jusqu'à 60 000 $ par étudiant doctorant travaillant sur l'IA, le HPC, la robotique ou les véhicules autonomes [25](https://blogs.nvidia.com/blog/applications-open-graduate-fellowship-awards-2025/).
Les candidatures pour l'année académique 2026-2027 sont ouvertes jusqu'au 15 septembre 2025, avec un stage obligatoire en été 2026 dans un centre de recherche NVIDIA [25](https://blogs.nvidia.com/blog/applications-open-graduate-fellowship-awards-2025/).
Depuis 2002, le programme a financé plus de 200 boursiers pour un total dépassant 7,3 millions de dollars [25](https://blogs.nvidia.com/blog/applications-open-graduate-fellowship-awards-2025/).

Les références [n] correspondent aux blocs de source fournis. Pour accéder aux contenus originaux, reportez-vous aux numéros de source entre crochets.