IA 2026 06 26 | News Makertronic

NVIDIA Rubin & Écosystème Open AI : Révolution des coûts et de l'IA physique (CES 2026)

Date : 10/01/2026
Catégorie : outil / tendance
Résumé technique : Lors de la keynote CES 2026, NVIDIA a dévoilé Rubin, première plateforme IA à 6 puces co-conçues (GPU Rubin, CPU Vera, NVLink 6, Spectrum-X, BlueField-4 DPU) visant à diviser par dix le coût d'inférence des tokens. Parallèlement, Jensen Huang a présenté Alpamayo (famille de modèles VLA open-source pour véhicules autonomes niveau 4), ainsi que l'expansion de son portefeuille de modèles ouverts formés sur supercalculateurs (Clara, Earth-2, Nemotron, Cosmos, GR00T). L'écosystème est complété par DGX Spark pour l'exécution locale d'agents physiques et la mise en avant d'une stratégie "full-stack open".
Pourquoi c’est intéressant : Réduction drastique des coûts d'inférence rendant les déploiements industriels et souverains accessibles. L'approche open-source combinée à une hardware optimisée casse le modèle des API fermées, offrant aux entreprises et développeurs un contrôle total sur l'entraînement, l'évaluation et le déploiement. Idéal pour la robotique, l'autonomie et l'edge computing.
Angle possible pour une vidéo YouTube : "NVIDIA change les règles du jeu : Rubin, Alpamayo et la fin des API fermées en 2026 ?"
Source originale : NVIDIA / CES 2026 Keynote
URL directe :

Date : 11/01/2026
Catégorie : agent IA / LLM
Résumé technique : DeepReinforce a publié Ornith-1.0, une famille de modèles open-source (9B, 31B, 35B-MoE, 397B-MoE) sous licence MIT, spécialisée dans les agents de codage. Contrairement aux agents traditionnels qui reposent sur un "harness" fixe conçu manuellement, Ornith-1.0 apprend à générer et optimiser son propre scaffold d'orchestration via apprentissage par renforcement (RL) en pipeline asynchrone. Le système intègre trois couches de défense anti-reward hacking (boundaries fixes, moniteur déterministe, juge LLM gelé). Le 397B dépasse Claude Opus 4.7 sur Terminal-Bench 2.1 et SWE-Bench Verified.
Pourquoi c’est intéressant : Élimine l'ingénierie manuelle des frameworks d'agents. Le modèle adapte dynamiquement son orchestration selon la complexité de la tâche, parfait pour le refactoring multi-fichiers, la localisation de bugs et les patches test-driven. Le 9B tourne sur une seule GPU 80 Go, offrant un excellent ratio puissance/coût pour les déploiements edge ou internes.
Angle possible pour une vidéo YouTube : "L'IA qui code SEULE ses propres outils : test de Ornith-1.0, le nouvel agent open-source"
Source originale : DeepReinforce / Hugging Face
URL directe :

Date : 11/01/2026
Catégorie : outil / méthode
Résumé technique : Baidu a lancé Unlimited OCR, un modèle MoE de 3 milliards de paramètres (500M actifs à l'inférence) qui remplace l'attention decodeur standard par une Reference Sliding Window Attention (R-SWA). Cette architecture maintient la taille du cache KV constante quel que soit la longueur du document, permettant d'analyser des dizaines de pages en un seul passage forward sans dégradation de latence ou saturation mémoire. Il s'appuie sur DeepSeek OCR via fine-tuning et utilise un DeepEncoder compressant les images à 256 tokens.
Pourquoi c’est intéressant : Résout le goulot d'étranglement majeur des modèles OCR end-to-end qui ralentissent exponentiellement avec la longueur du texte. Score de 93.23 sur OmniDocBench v1.5, dépassant DeepSeek OCR de +6.22 points. Parfait pour les pipelines de parsing documentaire, la transcription de livres entiers, ou l'extraction de données structurées en haute fréquence sans coût mémoire explosif.
Angle possible pour une vidéo YouTube : "OCR illimité sans lag ? Comment Baidu Unlimited OCR casse la limite du cache KV"
Source originale : Baidu Research / arXiv
URL directe :

Date : 12/01/2026
Catégorie : agent IA / automatisation
Résumé technique : Nous Research a étendu le système de skills de Hermes Agent avec la commande /learn. L'agent peut maintenant ingérer des répertoires locaux, des URLs, des conversations ou des notes collées, et générer automatiquement un fichier SKILL.md structuré et réutilisable. Le système utilise une divulgation progressive (index léger de ~3k tokens, chargement complet uniquement si besoin) pour optimiser l'utilisation du contexte. Les skills sont sauvegardés via skill_manage avec une passerelle d'option write_approval.
Pourquoi c’est intéressant : Élimine l'étape manuelle fastidieuse de rédaction de prompts/skills. Transforme l'agent en système à mémoire procédurale auto-évolutive, capable de cristalliser des workflows internes, des APIs privées ou des runbooks de déploiement en commandes réutilisables. Gain de productivité immédiat pour les équipes Dev/DevOps.
Angle possible pour une vidéo YouTube : "Fini de rédiger vos prompts : comment Hermes Agent génère ses propres skills en 1 clic"
Source originale : Nous Research / Twitter
URL directe :

Date : 12/01/2026
Catégorie : conseil d’usage / automatisation
Résumé technique : Guide pratique détaillant la configuration de tâches récurrentes de veille informationnelle directement dans les interfaces de Gemini (via Google One AI Premium), Grok (fonction Tasks avec DeepSearch) et ChatGPT Plus. Fournit des prompts optimisés pour scanner les tendances sectorielles, analyser la concurrence, collecter des hooks viraux, et générer des idées de contenu à fréquence définie, sans code ni infrastructure externe.
Pourquoi c’est intéressant : Transforme des assistants conversationnels grand public en radars stratégiques personnalisés. Gain de temps massif pour les créateurs, marketeurs et entrepreneurs qui doivent rester à jour sans se noyer dans le flux informationnel. Méthodes immédiatement applicables, avec exemples de prompts prêts à l'emploi pour différents use-cases (veille concurrentielle, repérage de tendances, collecte d'études de cas).
Angle possible pour une vidéo YouTube : "3 méthodes no-code pour automatiser ta veille IA et gagner 10h/semaine"
Source originale : ActuIA / Guide stratégique
URL directe :