IA 2026 06 13 | News Makertronic

Kimi K2.7-Code : L’agent de code open-source optimisé pour l’ingénierie long-horizon

Date : 14/01/2026
Catégorie : LLM / Agent IA / Automatisation
Résumé technique : Moonshot AI publie Kimi K2.7-Code, un modèle agentic spécialisé dans le développement logiciel. Architecture Mixture-of-Experts (1T paramètres totaux, 32B actifs par token), fenêtre de contexte de 256K tokens, et quantification native INT4. Le modèle impose un mode de raisonnement obligatoire avec des paramètres d’échantillonnage figés côté serveur (température 1.0, top_p 0.95). Les benchmarks internes indiquent une réduction d’environ 30% des tokens de raisonnement par rapport à sa version précédente, optimisant ainsi le coût d’inférence sur des workflows multi-étapes.
Pourquoi c’est intéressant : Les poids sont ouverts sous licence MIT modifiée, permettant l’auto-hébergement sur infrastructure dédiée. L’efficacité sur les tâches de refactoring à l’échelle du repo, la review de code et les pipelines MCP (Model Context Protocol) en fait un outil stratégique pour les équipes DevOps/DevEx cherchant à automatiser les corrections de test et l’intégration continue sans dépendre de APIs fermés coûteux.
Angle possible pour une vidéo YouTube : "Kimi K2.7-Code : Le modèle open-source qui divise par 3 les tokens de raisonnement et dépasse Claude sur le code ? Test réel sur un repo complexe."
Source originale : MarkTechPost / Moonshot AI
URL directe :

Date : 13/01/2026
Catégorie : Agent IA / Automatisation / Workflow
Résumé technique : Application native macOS/Windows qui exécute l’IA en local (basée sur Kimi K2.6). L’agent accède directement aux fichiers système, contrôle le navigateur réel via l’extension WebBridge (héritage des sessions/cookies), et orchestre un "Agent Swarm" capable de lancer jusqu’à 300 sous-agents simultanés. Intègre un moteur de planification Cron natif pour des tâches récurrentes, l’exécution de scripts Python en arrière-plan et des données financières pré-intégrées (A-shares, HK, US).
Pourquoi c’est intéressant : Rompt avec le paradigme des agents cloud sandboxés. La souveraineté des données reste garantie car rien ne sort de la machine. Idéal pour les knowledge workers et développeurs devant trier des documents sensibles, extraire des données web authentifiées, ou générer des rapports automatisés sans configuration d’API externe.
Angle possible pour une vidéo YouTube : "Kimi Work : L’agent IA LOCAL qui contrôle votre navigateur, lit vos fichiers et lance 300 sous-tâches sans cloud."
Source originale : MarkTechPost / Moonshot AI
URL directe :

Date : 14/01/2026
Catégorie : LLM / Outil / Méthode
Résumé technique : Zyphra déploye Zamba2-VL en trois tailles (1.2B, 2.7B, 7B) sous licence Apache 2.0. L’architecture remplace l’attention dense classique par un backbone hybride couplant des couches récurrentes Mamba2 (temps linéaire, état mémoire fixe) et des blocs Transformer partagés avec LoRA. Couplé à l’encodeur visuel Qwen2.5-VL, le modèle atteint un Time-to-First-Token (TTFT) inférieur d’un ordre de grandeur face aux VLMs équivalents, tout en excellant en comptage visuel et compréhension de documents structurés.
Pourquoi c’est intéressant : Réduit drastiquement la mémoire KV cache et le coût d’inférence préfill, rendant le déploiement edge/device viable. La licence permissive et les poids publics permettent une intégration directe dans des pipelines OCR, inventaire retail ou assistants locaux nécessitant une latence minimale.
Angle possible pour une vidéo YouTube : "Zamba2-VL : Le VLM open-source 10x plus rapide que les Transformers ? Test de déploiement local & benchmark visuel."
Source originale : MarkTechPost / Zyphra
URL directe :

Date : 07/01/2026
Catégorie : Tendance / LLM / Outil
Résumé technique : Présenté à l’ouverture du CES 2026, la plateforme Rubin est la première architecture 6-chips co-conçue (Rubin GPU, Vera CPU, NVLink 6, Spectrum-X, ConnectX-9, BlueField-4) divisant par dix le coût génération des tokens. NVIDIA accompagne le hardware par Alpamayo, une famille de modèles de raisonnement ouverts (VLA) pour véhicules autonomes Level 4, et DGX Spark pour l’IA personnelle sur bureau. L’annonce renforce la stratégie open-source via Nemotron, Cosmos et GR00T.
Pourquoi c’est intéressant : Marque un tournant industriel : l’IA n’est plus cantonnée aux data centers mais s’invite sur les postes de travail et dans les véhicules, avec une baisse radicale des coûts d’inférence. Les modèles ouverts pour la robotique et l’auto permettent aux intégrateurs et startups de construire des pipelines d’entraînement/test sans barrières propriétaires.
Angle possible pour une vidéo YouTube : "CES 2026 : NVIDIA révèle Rubin & Alpamayo. L’IA coûte 10x moins cher et devient physiquement autonome."
Source originale : NVIDIA AI Blog / CES 2026 Keynote
URL directe :