IA 2026 05 31 | News Makertronic

SIA : Le premier framework open-source qui fait s'améliorer les agents IA seuls (scaffold + weights)

Date : 27/05/2024
Catégorie : Agent IA / Méthode d’entraînement
Résumé technique : Hexo Labs a publié SIA (Self-Improving AI) sous licence MIT. Ce framework introduit une boucle de rétroaction unifiée où un Feedback-Agent analyse chaque trajectoire d'exécution et décide dynamiquement de modifier soit le scaffold (prompts système, logique de dispatch d'outils, politique de retry), soit les weights du modèle (via LoRA rank 32 sur gpt-oss-120b). L'algorithme d'optimisation (PPO, GRPO, REINFORCE, DPO, etc.) est choisi automatiquement en fonction de la forme du signal de reward observé, sans planification rigide.
Pourquoi c’est intéressant : Brise le paradigme traditionnel qui sépare l'ingénierie de prompts du fine-tuning. Les benchmarks montrent des gains concrets et reproductibles (+20% d'accuracy sur LawBench, -92% de latence sur des kernels CUDA AlphaEvolve, amélioration sur tâches de débruitage scRNA-seq) sans supervision humaine continue. Offre une base prête à l'emploi pour déployer des agents capables d'apprentissage continu en production.
Angle possible pour une vidéo YouTube : "Fini le prompt engineering : cet outil open-source fait s'améliorer les agents IA TOUT SEULS"
Source originale : Hexo Labs / MarkTechPost 31
URL directe :

Date : 27/05/2024
Catégorie : Automatisation IA / Infrastructure d’entraînement
Résumé technique : Développé avec UC Berkeley Sky Lab et Anyscale, ce stack open-source remplace les pipelines RL séquentiels par un moteur d'inférence toujours chaud utilisant vLLM. Chaque expérience mappe un adapter LoRA dédié ; le noyau SGMV fusionne les calculs matrice-vecteur par adapter en un seul lancement GPU. Les poids s'actualisent en place sans geler le scheduler, permettant de multiplier le débit expérimental par N. Le training reste single-adapter, mais l'inférence est multiplexée, éliminant les cold-starts (>30 min/job) et la sous-utilisation des GPUs.
Pourquoi c’est intéressant : Résout un goulot d'étranglement majeur dans les workflows d'agents : le temps mort entre génération, calcul de gradients et synchronisation. Permet de tester des dizaines de variations de politique en parallèle sur un seul noeud H200 avec un gain de débit de 2,81× sans régression des récompenses. Code entier disponible pour reproduire du continual learning sur des agents de code, de support ou de décision.
Angle possible pour une vidéo YouTube : "Multiplier x2,81 la vitesse de training d'agents RL sans ajouter de GPU"
Source originale : Trajectory AI / UC Berkeley Sky Lab / MarkTechPost 29
URL directe :

Date : 27/05/2024
Catégorie : Dataset / Workflow IA
Résumé technique : Tutorial technique exploitant AgentTrove, l'un des plus grands datasets open-source de traces d'interaction agentic. Le pipeline utilise datasets en mode streaming pour éviter le téléchargement complet, détecte dynamiquement les schémas de conversation, normalise les rôles (user/assistant/tool/system), extrait les commandes shell/tools via parsing JSON/regex, et applique un filtre qualité (reward ≥ 1.0 ou statut "resolved/success"). Export final en JSONL ShareGPT prêt pour du Supervised Fine-Tuning, avec visualisation des distributions et métriques de turn-level.
Pourquoi c’est intéressant : Fournit une méthodologie légère, reproductible et peu coûteuse en stockage pour préparer des données de fine-tuning de haute qualité. Idéal pour les développeurs et startups souhaitant entraîner des modèles multi-outils ou améliorer la précision de leurs agents sur des tâches spécifiques sans infra lourde ni nettoyage manuel fastidieux.
Angle possible pour une vidéo YouTube : "Préparer un dataset d'agents IA parfait en 10 min (sans télécharger 500 Go)"
Source originale : Hugging Face / Open-Community Tutorial 30
URL directe :