IA 2026 06 22 | News Makertronic

FAPO de Cisco : Optimisation entièrement automatisée des pipelines LLM

Date : 19/01/2026
Catégorie : automatisation / outil / agent IA
Résumé technique : Cisco open-source FAPO (Fully Automated Prompt Optimization), un système piloté par des agents Claude Code qui optimise automatiquement les pipelines multi-étapes de LLM jusqu'à atteindre une précision cible. Le système évalue les sorties, attribue les échecs par étape (récupération, cascade, format, raisonnement), propose des variantes de prompts, ajuste les paramètres, puis modifie la structure des chaînes (ajout de nœuds de self-reflection, passage en ReAct) si nécessaire. Des garde-fous stricts (fichiers immuables, relecteur indépendant, split train/val/test) empêchent le surajustement. 29
Pourquoi c’est intéressant : Élimine le goulot d'étranglement manuel du prompt engineering pour les workflows complexes. Vainc l'état de l'art (GEPA) sur 15/18 benchmarks, avec un gain moyen de +14,1pp et jusqu'à +33,8pp lorsqu'il modifie la topologie du pipeline. Indispensable pour les développeurs et les entreprises qui déployent des agents IA nécessitant une fiabilité élevée sans intervention humaine constante.
Angle possible pour une vidéo YouTube : "Arrêtez de prompter à la main : comment FAPO optimise vos agents IA automatiquement (Test réel vs méthodes manuelles)"
Source originale : Cisco AI Engineering Blog
URL directe :

Date : 19/01/2026
Catégorie : méthode / agent IA / conseil d’usage
Résumé technique : Une synthèse technique cartographie les 7 couches de mémoire nécessaires aux agents IA performants : mémoire de travail (context window), sémantique (faits/préférences persistantes), épisodique (historique des exécutions et post-mortems), procédurale (workflows et règles comportementales), externe/RAG (vector DB), paramétrique (weights du modèle) et prospective (objectifs et intentions à venir). Chaque type répond à une échelle temporelle et un besoin fonctionnel précis, avec des implémentations allant des bases vectorielles aux files d'attente de tâches planifiées. 32
Pourquoi c’est intéressant : Fournit un cadre architectural concret pour passer de simples wrappers LLM à des agents capables d'apprentissage, de planification à long terme et de rétention de contexte. Aide les ingénieurs à choisir la stack technique adaptée (vector DB, prompt engineering, fine-tuning, state management) selon le cas d'usage, évitant le "memory overengineering" ou les oublis critiques qui brisent l'autonomie des agents.
Angle possible pour une vidéo YouTube : "Pourquoi votre agent IA oublie tout : les 7 couches de mémoire qu'il faut implémenter (Architecture complète pas à pas)"
Source originale : arXiv / AI Agent Research Community
URL directe :

Date : 20/01/2026
Catégorie : outil / agent IA / sécurité
Résumé technique : Nous Research intègre un mode "Blank Slate" à son framework open-source Hermes Agent. Au lieu d'initialiser un agent avec toutes les fonctionnalités activées, ce mode démarre avec uniquement le provider, le modèle, les opérations de fichiers et le terminal. Le web, le browser, l'exécution de code, la vision, la mémoire, la délégation, les skills, les plugins et les serveurs MCP restent désactivés. Les choix sont écrits explicitement sur disque (platform_toolsets.cli et agent.disabled_toolsets), garantissant que aucune mise à jour ne peut réactiver silencieusement des outils non sollicités. 30
Pourquoi c’est intéressant : Offre un contrôle granulaire et une surface d'attaque minimale pour les déploiements locaux ou sensibles aux fuites de données. Idéal pour les équipes qui veulent construire des agents "from scratch", auditer chaque capability avant activation, ou standardiser des configurations reproductibles dans des environnements sécurisés. Réduit drastiquement les risques d'appels API non désirés ou d'exécutions arbitraires.
Angle possible pour une vidéo YouTube : "Agents IA locaux : Pourquoi le mode Blank Slate est la prochaine étape obligatoire pour la sécurité (Tutoriel Hermes)"
Source originale : Nous Research / X (Twitter)
URL directe :

Date : 09/01/2026
Catégorie : tendance / LLM / hardware IA / agent IA
Résumé technique : Jensen Huang dévoile la plateforme Rubin (premier design extrême 6-chips NVIDIA) réduisant le coût par token à 1/10 de l'architecture Blackwell, et Alpamayo, une famille open de modèles de raisonnement vision-language-action pour véhicules autonomes. Rubin intègre GPUs, CPUs, NVLink 6, Spectrum-X, BlueField-4 DPUs et un storage KV-cache AI-native optimisés conjointement. Alpamayo permet la simulation haute fidélité, le raisonnement physique et l'autonomie de niveau 4, avec un premier déploiement prévu sur le Mercedes-Benz CLA. 28
Pourquoi c’est intéressant : Marque un tournant industriel vers l'IA "physique" et edge-native. La réduction drastique du coût d'inférence et l'ouverture des modèles de raisonnement pour robots/voitures démocratisent l'accès à l'agent IA avancé. Les entreprises et développeurs peuvent désormais construire des systèmes agencés sans coûts prohibitifs, grâce à une stack matérielle/logicielle unifiée et open-source.
Angle possible pour une vidéo YouTube : "L'IA ne reste plus dans le cloud : comment Rubin et Alpamayo changent tout pour les robots et les voitures autonomes"
Source originale : NVIDIA AI Blog / CES 2026 Press Kit
URL directe :

Date : 18/01/2026
Catégorie : outil / méthode / performance
Résumé technique : Yandex open-source YaFF (Yet another Flat Format), une bibliothèque C++ Apache 2.0 offrant un format de sérialisation zero-copy pour l'écosystème Protobuf. Contrairement à FlatBuffers, YaFF conserve la compatibilité sémantique Protobuf tout en éliminant l'étape de parsing. Il propose 4 layouts (Fixed, Flat, Sparse, Dynamic) et offre une lecture ~3,8× plus rapide que FlatBuffers, se rapprochant des structs C++ brutes. La conversion bidirectionnelle permet une adoption progressive sans migrer l'ensemble du codebase. 31
Pourquoi c’est intéressant : Résout un problème critique d'infrastructure : le parsing Protobuf consomme 10-20% du CPU dans les systèmes de recommandation et les serveurs haute fréquence. YaFF permet une réduction mesurable de la latence et de la charge CPU pour les pipelines de données IA, les index mémoire-mappés et les feature stores, tout en restant transparent pour les développeurs habitués à Protobuf.
Angle possible pour une vidéo YouTube : "Protobuf trop lent ? Comment YaFF de Yandex accélère les backend IA de 3,8x sans refaire tout le code"
Source originale : Yandex Technology Blog / GitHub
URL directe :