IA 2026 05 27 | News Makertronic

Quantification INT2 du KV-Cache avec OSCAR (Together AI)

Date : 06/01/2026
Catégorie : méthode / LLM
Résumé technique : Together AI publie OSCAR (Offline Spectral Covariance-Aware Rotation), une méthode de quantification en INT2 (2 bits) du cache KV pour les LLM à long contexte. Contrairement aux rotations génériques (Hadamard) qui lissent uniformément les activations, OSCAR calcule des rotations spectrales basées sur la covariance empirique des requêtes (Q⊤Q) et des scores d'attention (S). Cela aligne le bruit de quantification sur les directions peu sensibles du mécanisme d'attention. Le système utilise un layout mixed-precision compatible PagedAttention : BF16 pour les sink/recent tokens (≈0.24% du contexte à 128K) et INT2 pour l'historique, avec des kernels Triton fusionnés pour l'écriture et la lecture.
Pourquoi c’est intéressant : Contourne les deux goulets d'INT2 : les outliers canalaires quiécrasent la précision et l'incompatibilité avec les layouts de serving standard. Réduit la mémoire KV de 8x et accélère le decoding de 3x (jusqu'à 7.8× en batch 32) avec un gap de précision <1.5% vs BF16 sur Qwen3/GLM. Gain direct pour le scaling économique d'inférences 100k+ tokens.
Angle possible pour une vidéo YouTube : "Servir des LLM 100k tokens en 2 bits : comment OSCAR révolutionne le KV-Cache et divise par 3 les coûts GPU"
Source originale : Together AI Research / arXiv
URL directe : https://arxiv.org/pdf/2605.17757v1

Date : 06/01/2026
Catégorie : agent IA / automatisation
Résumé technique : WorkOS propose auth.md, un protocole ouvert en Markdown pour l'enregistrement et l'authentification machine-to-machine des agents IA. Il remplace les API keys brutes par deux flux : (1) Agent Verified (ID-JAG attesté par OpenAI/Anthropic/Cursor avec vérification JWT/JWKS, sans refresh token, révocable par (iss, sub, aud)) et (2) User Claimed (OTP avec upgrade in-place des scopes). La découverte se fait via des métadonnées PRM/OAuth bien connues et un header WWW-Authenticate sur les 401.
Pourquoi c’est intéressant : Resout un problème critique de gouvernance agentique : comment un agent autonome s'identifie, obtient des accès strictement scopés, reste auditable par session et révoquable sélectivement. Standardise l'interopérabilité entre providers d'agents et applications tierces, indispensable pour les workflows autonomes en production.
Angle possible pour une vidéo YouTube : "Fini les API Keys brutes : comment auth.md sécurise l'authentification et le revamping des agents IA"
Source originale : WorkOS / MarkTechPost Visual Explainer
URL directe : https://workos.com/auth-md 30

Date : 06/01/2026
Catégorie : outil / automatisation
Résumé technique : Application desktop open-source (FSL-1.1-ALv2) regroupant clone vocal zero-shot (3s), design vocal paramétrique, doublage vidéo (WhisperX + traduction + TTS + Demucs), dictation temps réel (WebSocket overlay) et diarisation (Pyannote). Architecture React/Tauri + FastAPI avec 97 endpoints. Backend TTS pluggable (OmniVoice 600+ langues, CosyVoice 3, VoxCPM2, etc.). Intègre AudioSeal (watermarking neural Meta) pour la provenance IA et expose un serveur MCP natif pour l'orchestration agentique.
Pourquoi c’est intéressant : Offre une stack vocale complète, souveraine et sans abonnement, fonctionnant sur CPU/GPU avec offload automatique. L'intégration MCP + watermarking + multi-moteurs en un seul binaire desktop est un pas en avant pour les créateurs et les équipes souhaitant automatiser les flux média sans dépendre d'API cloud fermées.
Angle possible pour une vidéo YouTube : "Clone vocal, doublage et dictation 100% locaux : test d'OmniVoice Studio, l'alternative open source à ElevenLabs"
Source originale : GitHub / OmniVoice Studio
URL directe :

Date : 06/01/2026
Catégorie : outil / infrastructure IA
Résumé technique : Annoncé à CES 2026, le supercalculateur Rubin intègre des CPUs Vera optimisés pour le mouvement de données agentic, un réseau scale-up NVLink 6 & scale-out Spectrum-X, des SuperNICs ConnectX-9 et des DPUs BlueField-4. L'innovation centrale est la plateforme de stockage AI-Native Context Memory : une couche dédiée au KV-cache qui booste l'inférence long-contexte de 5x en tokens/sec, 5x en performance/$TCO et 5x en efficacité énergétique, visant un coût/token divisé par 10.
Pourquoi c’est intéressant : Démontre le pivot industriel vers l'extreme codesign : optimiser matériel, réseau, mémoire contextuelle et software en bloc pour éliminer les goulots d'inférence. Impact direct sur le ROI du déploiement LLMs et la viabilité des agents autonomes nécessitant des contextes persistants à grande échelle.
Angle possible pour une vidéo YouTube : "NVIDIA Rubin : comment le stockage KV-Cache dédié va diviser par 10 le coût de l'inférence IA"
Source originale : NVIDIA AI Blog / CES 2026 Keynote
URL directe :