IA 2026 05 03 | News Makertronic

Le projet UK-LLM, dirigé par l’University College London en collaboration avec Bangor University et NVIDIA, développe un modèle IA bilingue anglais/gallois basé sur la famille open-source NVIDIA Nemotron.
Entraîné sur le supercalculateur Isambard-AI (Bristol), il vise à désenclaver les services publics (santé, éducation, justice) en gallois et à soutenir l’objectif gouvernemental Cymraeg 2050 d’atteindre un million de locuteurs actifs.
Pour pallier le manque de données d’entraînement, l’équipe a utilisé des microservices NVIDIA NIM pour traduire plus de 30 millions d’entrées Nemotron en gallois, en s’appuyant sur des centaines de superchips GH200.
Le modèle, les données d’entraînement et les jeux d’évaluation seront rendus ouverts pour permettre à la recherche, aux entreprises et au secteur public de les réutiliser.

Jensen Huang a dévoilé la plateforme Rubin, successeur de Blackwell et première architecture AI à 6 puces codésignées, conçue pour réduire le coût de génération des tokens d’un facteur 10 28.
Rubin intègre des GPU Rubin (50 petaflops NVFP4), des CPU Vera, du réseau NVLink 6, Spectrum-X, des SuperNICs ConnectX-9, des DPUs BlueField-4 et un stockage KV-cache dédié pour l’inférence long-contexte 28.
NVIDIA poursuit sa stratégie de modèles ouverts par domaine : Clara (santé), Earth-2 (climat), Nemotron (raisonnement/multimodal), Cosmos (robotique), GR00T (intelligence incarnée) et Alpamayo (conduite autonome) 28.
Alpamayo R1, premier modèle VLA ouvert pour véhicules autonomes de niveau 4, sera intégré prochainement à la Mercedes-Benz CLA, tandis que DRIVE Hyperion gagne en adoption auprès des constructeurs 28.
La DGX Spark et les agents IA locaux (ex. Reachy Mini) sont mis en avant pour démocratiser l’IA sur poste de travail et dans l’industrie manufacturière 28.

Qwen-Scope propose des autoencodeurs sparses (SAE) entraînés sur les familles Qwen3 et Qwen3.5, permettant de décomposer les activations en caractéristiques interprétables sans modifier les poids du modèle.
Ces SAE permettent : un steering à l’inférence (suppression du code-switching, style littéraire), une analyse de benchmark sans exécution du modèle, la classification de toxicité multilingue, et la synthèse ciblée de données de sécurité.
Pour le fine-tuning et le RL, Qwen-Scope introduit SASFT (réduction >50 % du code-switching) et utilise le steering SAE pour générer des rollouts répétitifs rarement rencontrés, améliorant la stabilité du RL.
NVIDIA a intégré le décodage spéculatif (via EAGLE-3) dans NeMo RL v0.6.0, accélérant la génération de rollouts en RL sans altérer la distribution de sortie du modèle cible.
Sur 8B parameters, les gains atteignent 1,41× (RL-Zero) et 1,35× (RL-Think) par étape ; des simulations projettent jusqu’à 2,5× d’accélération end-to-end sur 235B parameters.
La qualité de l’initialisation du draft et la longueur optimale (k=3) s’avèrent critiques ; le décodage spéculatif et l’exécution asynchrone sont complémentaires.

Moonshot AI a publié FlashKDA, un kernel CUDA open-source (licence MIT) basé sur CUTLASS pour le mécanisme Kimi Delta Attention (KDA) 30.
Il offre une accélération de préfill de 1,72× à 2,22× sur GPU NVIDIA H20 par rapport à flash-linear-attention, tout en réduisant l’usage du cache KV de 75 % et en augmentant le débit de décodage jusqu’à 6× sur un contexte d’1M tokens 30.
Le kernel prend nativement en charge le variable-length batching via cu_seqlens, cible l’architecture Hopper (SM90+) et s’intègre automatiquement comme backend amélioré sans modification du code existant 30.

Mistral AI lance les agents distants dans Vibe : les sessions de codage s’exécutent désormais dans le cloud de manière asynchrone, isolées, avec possibilité de téléporter une session locale sans perdre l’historique 31.
Le modèle par défaut devient Mistral Medium 3.5 : un modèle dense de 128B parameters, fenêtre de contexte de 256k, encodeur visuel entraîné de zéro, et effort de raisonnement configurable par requête API 31.
Il atteint 77,6 % sur SWE-Bench Verified, surpassant Devstral 2 et Qwen3.5 397B A17B, et est disponible en poids ouverts sur Hugging Face 31.
Le Chat introduit le mode Work : un agent multi-étapes avec connecteurs activés par défaut, transparence totale des appels d’outils et validation explicite avant les actions sensibles 31.

L’automatisation de la veille via IA permet de centraliser, synthétiser et archiver l’information, réduisant le temps de traitement de plusieurs heures à 30–45 minutes tout en conservant une validation humaine finale 34.
Les workflows recommandés combinent un automate (Make.com, Zapier, n8n), une API d’IA (Mistral, OpenAI, Anthropic, etc.) et une base de données structurée (Google Sheets, Notion, Airtable) 34.
Les outils gratuits ou freemium privilégiés incluent des agrégateurs RSS (Feedly, Inoreader), des alertes mots-clés (Google Alerts, Mention, Talkwalker), des réseaux sociaux (X/TweetDeck, LinkedIn), des newsletters ciblées et des solutions de curation/sauvegarde (Flipboard, Instapaper, Swello) 35, 36.
La diversification des sources, l’automatisation des flux et l’analyse critique restent les piliers d’une veille pertinente et résiliente à l’infobésité 35, 36.