IA 2026 05 25 | News Makertronic

IA - 25/05/2026

Webwright : Un framework d’agent web natif au terminal qui génère et exécute du code Playwright

Date : 15/05/2026
Catégorie : agent IA / automatisation / outil
Résumé technique : Microsoft Research a publié Webwright, un framework open-source qui abandonne le paradigme classique de prédiction d'action par action (clics, coordonnées x/y, scrolling). Le système provisionne un terminal à l'agent au lieu d'une session browser étatique. L'agent écrit du code Playwright, exécute des commandes bash, inspecte les logs/tracebacks et itère sur ses scripts. L'architecture se résume à une boucle unique (~1000 lignes de code) composée d'un Runner, d'un endpoint modèle et d'un Environnement terminal. Pour contrer l'explosion de contexte, l'historique est compacté toutes les 20 étapes en un résumé. Une porte de "self-reflection" impose à l'agent de générer une validation finale dans un dossier propre avant d'émettre done: true.
Pourquoi c’est intéressant : Change fondamentalement la robustesse des agents web. Avec GPT-5.4, Webwright atteint 86,7% de précision sur Online-Mind2Web et 60,1% sur Odysseys (tâches long-horizon multi-sites), soit +26,6 points absolus sur le baseline. Les scripts produits sont réutilisables, auditables et partageables. Le coût par tâche est optimisé (GPT-5.4 reste plus économique que Claude Opus malgré plus d'étapes). Idéal pour les développeurs qui veulent passer de l'expérimentation fragile à des pipelines d'automatisation web industriels.
Angle possible pour une vidéo YouTube : "Pourquoi l'avenir des agents web n'est pas dans les clics, mais dans le terminal (Test complet de Webwright MS)"
Source originale : Microsoft Research / MarkTechPost
URL directe : https://www.microsoft.com/en-us/research/articles/webwright-a-terminal-is-all-you-need-for-web-agents/ 31

GBrain : Couche de connaissances open-source pour agents IA avec graphe typé sans inférence LLM

Date : 15/05/2026
Catégorie : agent IA / outil / nouvelle méthode
Résumé technique : Développé par Garry Tan (CEO de Y Combinator), GBrain est un système de mémoire agentique open-source (MIT) basé sur PostgreSQL compilé en WASM (PGLite), fonctionnant entièrement en local sans serveur. Il ingère des fichiers Markdown, emails, transcripts et notes, puis extrait automatiquement un graphe de connaissances typé (works_at, founded, invested_in, etc.) via du parsing regex + inférence structurelle, ZÉRO appel LLM pour la construction du graph. La recherche utilise une fusion hybride (HNSW vectoriel + BM25 + Reciprocal Rank Fusion) avec un reranker ZeroEntropy par défaut. Le système expose 74 outils MCP pour connexion directe à Claude Code, Cursor ou Windsurf.
Pourquoi c’est intéressant : Résout le problème d'amnésie des sessions agentiques tout en maîtrisant les coûts et la latence. Sur BrainBench, l'ajout de la couche graph booste la précision P@5 de +31,4 points. L'approche "markdown-first + Postgres local + MCP" offre une stack entièrement auditable, portable et prête pour l'entreprise. Excellent pour les équipes qui construisent des agents de recherche documentaire, de support client ou d'analyse de données structurées.
Angle possible pour une vidéo YouTube : "Donnez une vraie mémoire persistante à vos agents IA (Tutoriel GBrain + MCP + Postgres local)"
Source originale : GitHub / Blog technique (crawlé via MarkTechPost/communité dev)
URL directe :

TencentDB Agent Memory : Architecture de mémoire en 4 couches et compression symbolique pour agents long-horizon

Date : 15/05/2026
Catégorie : agent IA / architecture / outil
Résumé technique : Système de mémoire open-source MIT conçu pour contrer le contexte bloat et les échecs de rappel dans les agents autonomes. Il remplace le vector store plat par une pyramide sémantique à 4 niveaux : L0 (dialogue brut), L1 (faits atomiques), L2 (blocs scénarios), L3 (persona utilisateur). La mémoire court terme est symbolique : les logs verbeux d'outils sont déportés sur disque (refs/*.md), et l'agent raisonne uniquement sur un graphe d'états Mermaid léger contenu dans le contexte. Le rappel utilise une stratégie hybride BM25 + embeddings fusionnés via RRF, avec un timeout de 5s qui skippe l'injection plutôt que de bloquer. Intégration native via plugin OpenClaw et Gateway Docker pour Hermes.
Pourquoi c’est intéressant : Impact mesurable sur les benchmarks long-horizon : +51,5% de pass rate sur WideSearch et +9,9% sur SWE-bench, avec une réduction de 30 à 61% de la consommation de tokens. L'approche "déport de logs + raisonnement sur graphe symbolique" est une rupture architecturale pour les agents qui doivent maintenir l'état sur des dizaines d'interactions. Directement exploitable par les équipes SRE, DevOps et automatisation complexe.
Angle possible pour une vidéo YouTube : "Pourquoi tes agents IA échouent après 50 tours (et comment TencentDB Memory le règle)"
Source originale : MarkTechPost / Tencent Cloud
URL directe :

Langfuse : Pipeline open-source complet pour le tracing, la gestion de prompts et les expériences LLM

Date : 14/05/2026
Catégorie : outil / workflow IA / conseil d’usage
Résumé technique : Langfuse propose une stack open-source pour l'ingénierie LLM couvrant le tracing observabilité, la gestion centralisée de prompts, l'évaluation scoring et les datasets expérimentaux. Le pipeline permet d'instrumenter des fonctions simples ou des architectures RAG complexes via des décorateurs @observe() et propagate_attributes (user_id, session_id, tags). Il intègre la compilation dynamique de prompts avec variables injectées, l'attachement de scores multi-types (numeric, categorical, boolean) directement sur les traces, et la gestion de datasets pour des runs expérimentaux reproductibles. Fonctionne avec OpenAI ou un mock LLM déterministe pour le développement local.
Pourquoi c’est intéressant : Offre une alternative open-source structurée à des outils comme LangSmith ou Arize Phoenix. Permet de versionner les prompts, lier les scores d'évaluation aux traces de génération et organiser des benchmarks dataset-driven sans dépendre d'une API payante. Essentiel pour les équipes qui déploient des applications RAG ou agentic en production et qui doivent auditer, scoringuer et itérer sur les performances modèles de façon reproductible.
Angle possible pour une vidéo YouTube : "Comment tracer, scoringuer et versionner tes applications LLM en open-source (Guide Langfuse)"
Source originale : Langfuse Docs / Blog technique
URL directe :