IA 2026 06 04 | News Makertronic

IA - 04/06/2026

Gemma 4 12B : Le premier LLM multimodal "sans encodeur" qui tourne sur 16 Go de RAM

Date : 03/06/2026
Catégorie : LLM
Résumé technique : Google DeepMind a publié Gemma 4 12B, un modèle dense de 12 milliards de paramètres sous licence Apache 2.0. Contrairement aux itérations précédentes, il supprime intégralement les encodeurs séparés pour la vision (550M params) et l'audio (300M params). Les flux visuels et audio sont injectés directement dans le backbone LLM via un embedder vision de 35M de paramètres (projection matricielle unique + lookup factorisé X/Y) et une projection linéaire des frames audio brutes. Le modèle gère nativement texte, image, vidéo et audio, avec un drafter MTP dédié pour réduire la latence d'inférence locale.
Pourquoi c’est intéressant : Réduction drastique du footprint mémoire (moitié de la RAM du 26B MoE pour des performances de raisonnement équivalentes) et élimination de la latence en cascade des encodeurs. Permet un fine-tuning unifié (LoRA ou full) sur toutes les modalités en un seul passage. Ouverture stratégique pour les développeurs, créateurs et startups souhaitant déployer des agents multimodaux agissants sur du matériel grand public ou edge sans complexité d'architecture.
Angle possible pour une vidéo YouTube : "Gemma 4 12B : Pourquoi Google a supprimé les encodeurs vision/audio (et comment ça révolutionne l'IA locale)"
Source originale : Google DeepMind / MarkTechPost 30
URL directe :

NVIDIA Cosmos 3 : Modèles unifiés de raisonnement physique et génération d'action

Date : 31/05/2026
Catégorie : Agent IA / Outil
Résumé technique : NVIDIA open-source la famille Cosmos 3, des modèles "omnimodaux" pour l'IA physique combinant raisonnement, génération de monde et planification d'action dans une seule architecture. Conception à deux tours (Mixture-of-Transformers) : une tour "raisonneur" VLM autoregressive interprète le contexte physique, et une tour "générateur" à diffusion produit des vidéos et séquences d'actions conditionnées unidirectionnellement par le raisonneur. Deux checkpoints livrés : Nano (16B, dense 8B) pour les GPU workstation et Super (64B, dense 32B) pour les datacenters. Livré avec 6 datasets SDG, recettes d'entraînement et framework d'évaluation HUE.
Pourquoi c’est intéressant : Unifie enfin la perception, la prédiction physique et la prise de décision pour la robotique, les véhicules autonomes et les entrepôts intelligents. Les weights, scripts et outils de déploiement (NIM, vLLM-Omni) sont 100% open-source (licence OpenMDW-1.1). Performances open-source state-of-the-art sur R-Bench, PAI-Bench et RoboLab. Réduit drastiquement le coût et la complexité des pipelines de simulation et d'entraînement d'agents physiques.
Angle possible pour une vidéo YouTube : "Cosmos 3 de NVIDIA : Le modèle unique qui remplace 3 IA pour la robotique et la simulation physique"
Source originale : NVIDIA AI Blog / MarkTechPost 31
URL directe : https://developer.nvidia.com/blog/develop-physical-ai-reasoning-world-and-action-models-with-nvidia-cosmos-3

BigSet : Pipeline multi-agents open-source pour générer des datasets structurés en une phrase

Date : Juin 2026
Catégorie : Automatisation / Outil
Résumé technique : BigSet est un système multi-agents open-source (AGPL-3.0) qui transforme une requête en langage naturel en un fichier CSV/XLSX structuré et à jour. Architecture à deux niveaux : un agent d'inférence de schéma (Claude Sonnet via OpenRouter) définit dynamiquement les colonnes, types et clés primaires ; un orchestrateur (Qwen) lance des recherches web ciblées ; des sous-agents parallèles récupèrent le contenu des pages, extraient les champs et appliquent une déduplication stricte. Le système gère l'attribution des sources, le quotas d'appels et permet la planification de rafraîchissements automatisés. Déploiement autonome via Docker/Make.
Pourquoi c’est intéressant : Résout un goulot d'étranglement récurrent des data engineers, chercheurs et constructeurs d'agents : la création et la maintenance de datasets propres sans écrire de scrapers. Idéal pour alimenter des agents IA en données fraîches, préparer des jeux de données pour le fine-tuning, ou automatiser la veille structurée. L'architecture à agents spécialisés avec routing dynamique et exécution parallèle constitue un cas d'étude concret de workflow IA production-ready.
Angle possible pour une vidéo YouTube : "BigSet : Comment 3 agents IA génèrent des datasets propres sans écrire une ligne de code"
Source originale : TinyFish / MarkTechPost 29
URL directe :