mai 2026

3149 articles

Emergence of Frontier Superposition: M\"obius attractor and Cascade Supervision

Article théorique sur l'émergence de superposition dans les Transformers pour le raisonnement en profondeur. Identifie un attracteur de Möbius sous symétrie S_n et une supervision en cascade qui permettent à la descente de gradient de converger vers un état de superposition équipondéré sur graphes Erdős-Rényi. Prédictions analytiques validées expérimentalement (cosinus final 0.37 vs 0.69).

Raisonnement Papers Reinforcement learning

SIG

HYP

arXiv cs.LG·20 mai

Quantum Adversarial Machine Learning: From Classical Adaptations to Quantum-Native Methods

Étude des vulnérabilités des modèles de machine learning quantique face aux attaques adversariales. Le survey couvre les attaques existantes, les contre-mesures quantiques, les fondements théoriques et les défis critiques du domaine émergent du quantum adversarial machine learning.

Papers Sécurité IA Alignement

SIG

HYP

arXiv cs.LG·20 mai

Multi-Pedestrian Safety Warning at Urban Intersections Use Case of Digital Twin

Système d'alerte de sécurité pour piétons aux carrefours urbains utilisant un jumeau numérique couplé à des capteurs (caméra, UWB) et modélisation prédictive de trajectoires. Déployé sur le testbed COSMOS à New York, le système génère des alertes en temps réel via edge-cloud computing et réduit significativement les temps de réaction des usagers vulnérables.

Vision Infrastructure Sécurité IA

SIG

HYP

arXiv cs.LG·20 mai

Not All Tokens Are Worth Caching: Learning Semantic-Aware Eviction for LLM Prefix Caches

SAECache propose une politique d'éviction sémantique pour les caches de préfixes LLM. Les tokens ne sont pas tous aussi utiles à cacher : certains types (prompts système, requêtes utilisateur, outputs d'outils) montrent jusqu'à 756x de variation en taux de réutilisation. SAECache utilise une architecture multi-queue avec apprentissage en ligne pour adapter les priorités, atteignant 1.4x-2.7x d'amélioration TTFT.

Raisonnement Infrastructure Benchmarks

SIG

HYP

arXiv cs.LG·20 mai

In-Context Learning Operates as Concept Subspace Learning

Étude mécanistique de l'apprentissage en contexte (ICL) montrant que les démonstrations structurées induisent une inférence de concepts dans un sous-espace de faible dimension. Sur Llama-3-8B, un sous-espace de 68–73 dimensions sur 4096 restaure 78,8% de la performance, tandis que le sous-espace complémentaire n'a aucun effet. Résultats confirmés sur Qwen2.5-7B et tâches multilingues.

Raisonnement Llama Qwen

SIG

HYP

arXiv cs.LG·20 mai

StampFormer: A Physics-Guided Material-Geometry-Coupled Multimodal Model for Rapid Prediction of Physical Fields in Sheet Metal Stamping

StampFormer est un modèle deep learning multimodal qui prédit les champs physiques en emboutissage de tôles en fusionnant géométrie et propriétés matériaux. Testé sur panneaux acier/aluminium, il atteint <8.5% d'erreur relative en <1 seconde, remplaçant les analyses FEA coûteuses.

Papers Vision Raisonnement

SIG

HYP

arXiv cs.LG·20 mai

An Integrated Forecasting Prototype for Emergency Department Boarding Time to Support Proactive Operational Decision Making

Prototype de prévision du temps d'attente aux urgences utilisant des modèles de séries temporelles (DLinear, NLinear) sur données hospitalières réelles. Intègre météo, jours fériés et événements locaux. Horizons de prévision : 6, 8, 10, 12 et 24 heures. Application MLOps développée pour déploiement opérationnel.

Benchmarks Infrastructure Outils

SIG

HYP

arXiv cs.LG·20 mai

VCR: Learning Valid Contextual Representation for Incomplete Wearable Signals

VCR est un framework auto-supervisé pour l'apprentissage de représentations robustes à partir de capteurs portables incomplets. Il utilise un tokenizer orthogonal pour séparer les sémantiques partagées des résidus spécifiques à chaque modalité, et un backbone mixture-of-experts conscient des absences. VCR améliore les performances en santé numérique même avec modalités manquantes simples ou multiples.

Papers Embeddings Reinforcement learning

SIG

HYP

arXiv cs.LG·20 mai

Lying Is Just a Phase: The Hidden Alignment Transition in Language Model Scaling

Étude de 63 modèles de base montrant une transition de phase cachée : sous ~3.5B paramètres, raisonnement et véracité s'anticorrèlent ; au-delà, ils coopèrent. Architecture, données et recette d'entraînement décalent indépendamment ce seuil critique. Normalisation de largeur élimine l'anticorrélation ; modèles frontière atteignent r=+0.72. Outil open-source et dashboard diagnostique publiés.

Benchmarks Alignement Raisonnement

SIG

HYP

arXiv cs.LG·20 mai

The Growing Pains of Frontier Models: When Leaderboards Stop Separating and What to Measure Next

Analyse de 34 modèles frontier (2024-2026) montrant que les capacités de raisonnement et codage coopèrent (r=+0.72) mais avec variations par lab. DeepSeek a basculé de reasoning-first à coding-first (+11.2→-4.7); Google maintient l'équilibre; Anthropic oscille. SWE-bench sature tandis que HLE et instruction-following restent discriminants. Prédictions falsifiables pour 12 mois avec dashboard interactif.

Benchmarks Évaluations Raisonnement

SIG

HYP

arXiv cs.AI·20 mai

Learn-by-Wire Training Control Governance: Bounded Autonomous Training Under Stress for Stability and Efficiency

Learn-by-Wire Guard (LBW-Guard) est une couche de gouvernance autonome qui supervise l'optimiseur AdamW pendant l'entraînement de modèles de langage. Testé sur Qwen2.5-7B avec WikiText-103, LBW-Guard réduit la perplexité finale de 13.21 à 10.74 (−18.7%) et accélère l'entraînement de 1.10×. Sous stress de learning-rate extrême (LR=3e-3), AdamW échoue (perplexité 1885.24) tandis que LBW-Guard reste stable (11.57).

Qwen Reinforcement learning Benchmarks

SIG

HYP

arXiv cs.AI·20 mai

AgentNLQ: A General-Purpose Agent for Natural Language to SQL

AgentNLQ, une méthode multi-agent, atteint 78,1% de précision sémantique sur le benchmark BIRD pour convertir le langage naturel en SQL. Le système utilise un orchestrateur optimisé pour planifier, réfléchir et auto-corriger les requêtes, enrichit le schéma avec des métadonnées contextuelles, et intègre les règles métier fournies par l'utilisateur.

Agents IA Multi-agents Benchmarks

SIG

HYP

arXiv cs.AI·20 mai

Interference-Aware Multi-Task Unlearning

Nouvel article sur l'oubli machine multi-tâche : suppression de données d'entraînement d'un modèle partagé sans dégrader les autres tâches. Propose une méthode combinant projection de gradient task-aware et orthogonalisation instance-level. Réduit l'interférence de 30–53% sur benchmarks vision.

Papers Sécurité IA Vision

SIG

HYP

arXiv cs.AI·20 mai

POLAR-Bench: A Diagnostic Benchmark for Privacy-Utility Trade-offs in LLM Agents

POLAR-Bench est un benchmark diagnostique évaluant les compromis confidentialité-utilité dans les agents LLM. Un modèle de confiance avec politique de confidentialité interagit avec un modèle tiers adversarial sur 10 domaines et 7,852 échantillons. Les modèles frontière retiennent 99% des attributs protégés, mais les modèles open-weight 1-30B (courants en inférence privée) fuient jusqu'à 50% des données sensibles.

Agents IA Sécurité IA Alignement

SIG

HYP

arXiv cs.LG·20 mai

From Cumulative Constraints to Adaptive Runtime Safety Control for Nonstationary Reinforcement Learning

CPSS (Constraint Projection Safety Shield) convertit les budgets de sécurité cumulatifs en seuils de contrôle adaptatifs au niveau des états pour l'apprentissage par renforcement non-stationnaire. Le mécanisme ajuste dynamiquement les contraintes de risque selon le contexte, garantit la satisfaction des seuils par état et réduit les violations de sécurité dans des scénarios de fusion autoroutière.

Reinforcement learning Sécurité IA Raisonnement

SIG

HYP

arXiv cs.AI·20 mai

Progressive Autonomy as Preference Learning: A Formalization of Trust Calibration for Agentic Tool Use

Formalisation de l'étalonnage de la confiance pour les agents autonomes via apprentissage de préférences. Un gateway utilise un processus gaussien pour modéliser la tolérance au risque humain à partir de retours binaires (approuver/refuser), et escalade les décisions incertaines à l'humain. Approche structurée comme optimisation bayésienne préférentielle.

Agents IA Raisonnement Sécurité IA

SIG

HYP

arXiv cs.AI·20 mai

Discoverable Agent Knowledge -- A Formal Framework for Agentic KG Affordances (Extended Version)

Framework formel pour décrire les capacités des graphes de connaissances vis-à-vis des agents. Étend les standards VoID/DCAT avec l'Agentic Affordance Profile (AAP) pour spécifier ce qu'un agent peut prouver, les hypothèses de fermeture et l'alignement vocabulaire. Identifie les divergences entre schéma et régime d'inférence comme source d'échecs épistémiques.

Agents IA RAG Papers

SIG

HYP

arXiv cs.AI·20 mai

Not all uncertainty is alike: volatility, stochasticity, and exploration

Article théorique sur l'exploration adaptative en environnements incertains. Distingue volatilité (drift des récompenses) et stochasticité (bruit d'observation) : la première augmente l'exploration optimale, la seconde la réduit. Propose CAUSE, bonus d'exploration en forme fermée via control-as-inference, validé sur bandits gaussiens avec dynamiques latentes.

Reinforcement learning Raisonnement Papers

SIG

HYP

arXiv cs.AI·20 mai

Agentic Trading: When LLM Agents Meet Financial Markets

Étude systématique de 77 travaux sur les agents LLM en trading financier. Seuls 19 études satisfont les critères minimum (action + évaluation en boucle fermée). Résultat clé : absence de protocoles comparables, reproducibilité insuffisante (aucune étude R3), et manque de documentation sur les coûts de transaction et la gestion de l'univers.

Agents IA Papers Évaluations

SIG

HYP

arXiv cs.AI·20 mai

What and When to Distill: Selective Hindsight Distillation for Multi-Turn Agents

SERL, un framework d'apprentissage par renforcement sélectif, améliore l'entraînement d'agents LLM multi-tours en exploitant les retours environnementaux granulaires (messages d'erreur, changements de page, trajectoires de référence). Sur ALFWorld et WebShop, SERL atteint 90,0% et 80,1% de succès, surpassant les baselines RL et distillation existantes.

Agents IA Reinforcement learning Raisonnement

SIG

HYP

arXiv cs.AI·20 mai

Beyond Mode Collapse: Distribution Matching for Diverse Reasoning

DMPO (Distribution-Matching Policy Optimization) résout l'effondrement modal dans les méthodes RL on-policy comme GRPO en utilisant l'approximation forward KL au lieu de reverse KL. Sur NP-Bench texte et vision, DMPO atteint 43.9% et 43.1% de Quality Ratio (vs 40.1% et 38.4% pour GRPO), avec gains de +2.0% en raisonnement mathématique.

Reinforcement learning Raisonnement Benchmarks

SIG

HYP

arXiv cs.AI·20 mai

Efficient Elicitation of Collective Disagreements

Article théorique sur l'élicitation efficace des désaccords collectifs entre votants. Propose la matrice de pluralité, généralisation des comparaisons par paires, pour identifier l'information préférentielle minimale nécessaire au calcul de mesures de désaccord. Montre que certaines mesures (variance de rang, divisivité) requièrent des sous-ensembles de taille 3, pas seulement des paires.

Papers Évaluations

SIG

HYP

arXiv cs.AI·20 mai

Library Drift: Diagnosing and Fixing a Silent Failure Mode in Self-Evolving LLM Skill Libraries

Les bibliothèques de compétences auto-évolutives souffrent d'une dégradation silencieuse appelée « library drift » : accumulation non bornée sans gestion du cycle de vie. L'étude isole le mécanisme (ablations), propose des diagnostics trace-level, et valide un correctif (retraite outcome-driven + cap actif + prior meta-skill) qui améliore pass@1 de 0.258 à 0.584 sur MBPP+ hard-100.

Agents IA Génération de code Benchmarks

SIG

HYP

arXiv cs.AI·20 mai

Formal Skill: Programmable Runtime Skills for Efficient and Accurate LLM Agents

Formal Skill est une abstraction runtime pour les agents LLM qui structure les compétences réutilisables via métadonnées JSON, schémas d'action, exécuteurs Python et logique de contrôle par hooks. Implémentée dans FairyClaw (runtime open-source événementiel), elle remplace les procédures en texte naturel par des machines à états exécutables, réduisant les tokens tout en améliorant la fiabilité sur Harness-Bench.

Agents IA MCP Génération de code

SIG

HYP

arXiv cs.LG·20 mai

Safe Continual Reinforcement Learning under Nonstationarity via Adaptive Safety Constraints

LILAC+ propose un cadre pour l'apprentissage par renforcement continu sûr en environnements non-stationnaires. Le système combine trois mécanismes adaptatifs : contraintes de sécurité basées sur le contexte, contraintes de vitesse d'adaptation, et application de budget-à-état. Évalué en simulation de conduite, il réduit les violations de sécurité sous changement de distribution tout en maintenant la performance.

Reinforcement learning Sécurité IA Alignement

SIG

HYP

arXiv cs.LG·20 mai

Robust Basis Spline Decoupling for the Compression of Transformer Models

Nouvelle méthode de compression de transformers basée sur le découplage par B-splines. L'approche R-CMTF-BSD utilise une factorisation matricielle-tensorielle contrainte pour réduire les paramètres tout en maintenant la précision. Validée sur Vision Transformer et Swin Transformer avec réductions substantielles de paramètres.

Benchmarks Vision

SIG

HYP

Reddit r/LocalLLaMA·20 mai

LM Studio finally added support for MTP Speculative Decoding

LM Studio ajoute le support du MTP Speculative Decoding en version 0.4.14 Build 2 (Beta). Nécessite llama.cpp 2.15.0. La fonctionnalité doit être activée manuellement dans les paramètres de chargement du modèle.

Outils Génération de code Open source

SIG

HYP

Reddit r/LocalLLaMA·20 mai

Running DeepSeek-V4 locally with 4x legacy RTX 2080 Ti ($2k budget setup). Custom Turing kernels, W8A8 quantization, and 255 prefill tok/s!

Exécution locale de DeepSeek-V4-Flash (284B, 13B actifs) sur 4x RTX 2080 Ti (~2500€). Kernels CUDA Turing custom + quantization W8A8 + offloading hétérogène atteignent 255 tok/s en prefill. Code open-source sur GitHub.

DeepSeek Génération de code Open source

SIG

HYP

Hacker News (AI)·20 mai

Google Cloud has blocked our account, making some Railway services unavailable

Railway signale le blocage de son compte Google Cloud, rendant certains services indisponibles. Pas de détails techniques fournis sur les raisons ou la durée de l'incident.

Infrastructure

SIG

HYP

Vercel AI Blog·20 mai

Chat SDK adds message subjects and direct SDK access

Vercel AI Chat SDK ajoute message.subject pour accéder au contexte parent (issue/PR GitHub, Linear) et expose les SDKs natifs (GitHub, Linear, Slack) pour appels API directs. Caching par message pour optimiser les requêtes.

Agents IA Outils MCP

SIG

HYP

OpenAI Blog·20 mai

How Ramp engineers accelerate code review with Codex

Ramp utilise Codex avec GPT-5.5 pour accélérer les revues de code. Les ingénieurs obtiennent des retours substantiels en minutes au lieu d'heures.

OpenAI Génération de code Business

SIG

HYP

OpenAI Blog·20 mai

The next phase of OpenAI’s Education for Countries

OpenAI élargit son programme Education for Countries avec de nouveaux partenariats, formations d'enseignants et outils pour améliorer les résultats d'apprentissage mondiaux dans les écoles.

OpenAI Business Outils

SIG

HYP

OpenAI Blog·20 mai

An OpenAI model has disproved a central conjecture in discrete geometry

Un modèle OpenAI a réfuté une conjecture majeure en géométrie discrète en résolvant le problème de la distance unitaire, vieux de 80 ans. Cette avancée marque un jalon dans les mathématiques assistées par IA.

OpenAI Raisonnement Benchmarks

SIG

HYP

Vercel AI Blog·20 mai

Chat SDK now includes AI SDK tools

Vercel AI SDK intègre nativement des outils d'agent via createChatTools(chat). Les actions de lecture/écriture du Chat SDK sont câblées directement. Trois presets (reader, messenger, moderator) permettent de limiter les outils disponibles. L'approbation est requise par défaut pour les opérations d'écriture.

Agents IA Outils Génération de code

SIG

HYP

Vercel AI Blog·20 mai

Chat SDK now supports callback URLs on buttons and modals

Vercel Chat SDK ajoute le support des URLs de callback sur les boutons et modales. Les développeurs peuvent désormais mettre en pause une exécution sur une carte et la reprendre au clic. Les données de formulaire sont incluses dans le payload envoyé à l'endpoint.

Outils Agents IA

SIG

HYP

Reddit r/LocalLLaMA·19 mai

Claude Code plugins a risk to local ecosystem?

Les plugins Claude Code, spécifiques à Anthropic, permettent des extensions complexes (skills auto-invoqués, slash commands, sous-agents) contrairement aux skills simples. Exemple : deep-wiki de Microsoft (3,5k LOC). Contrairement aux skills, les plugins ne sont pas un standard ouvert et peu d'apps agentiques les supportent, créant potentiellement un verrouillage propriétaire.

Claude Code Agents IA Multi-agents

SIG

HYP

Simon Willison·19 mai

llm-gemini 0.32

llm-gemini 0.32 ajoute le support du modèle gemini-3.5-flash. Plugin mis à jour pour accéder à la dernière version de Gemini 3.5 Flash de Google.

Gemini Outils

SIG

HYP

Simon Willison·19 mai

Gemini 3.5 Flash: more expensive, but Google plan to use it for everything

Google a lancé Gemini 3.5 Flash en disponibilité générale à Google I/O. Le modèle (ID: gemini-3.5-flash) supporte 1,048,576 tokens d'entrée et 65,536 de sortie, avec une connaissance à jour de janvier 2025. Déployé massivement dans Google Search, Gemini app, et via API pour développeurs et entreprises. Prix augmenté par rapport aux versions Flash précédentes.

Gemini Agents IA

SIG

HYP

Reddit r/LocalLLaMA·19 mai

Newbie vibe coding experience: Shifting from Claude Sonnet 4.6 to Qwen3.6-35B-A3B-UD-Q6_K

Développeur passant de Claude Sonnet 4.6 à Qwen 3.6-35B pour un projet Pygame de 30k lignes. Sonnet atteignait ses limites de longueur et peinait sur les bugs malgré coûts élevés. Qwen 3.6 en local (Ollama + Cline) résout des problèmes que Sonnet ne pouvait pas, avec meilleure gestion du contexte.

Claude Qwen Génération de code

SIG

HYP

Reddit r/LocalLLaMA·19 mai

Google AI Edge Gallery v1.0.13 & v1.0.14 updates: Gemma 4 Multi-Token Prediction, Pixel TPU support, experimental MCP, new skills, now saves chat history

Google AI Edge Gallery v1.0.13 et v1.0.14 ajoutent Gemma 4 avec prédiction multi-token, support Pixel TPU, MCP expérimental, nouvelles compétences et sauvegarde de l'historique de chat.

Gemini MCP Outils

SIG

HYP

Simon Willison·19 mai

datasette-llm-accountant 0.1a4

Sortie de datasette-llm-accountant 0.1a4. Correction d'un bug dans le suivi des chaînes de réponses (issue datasette-llm#7).

Outils Open source

SIG

HYP

Simon Willison·19 mai

llm-gemini 0.32a0

llm-gemini 0.32a0 sortie. Compatible avec llm>=0.32a0 alpha. Ajoute la capacité de streamer les tokens de reasoning.

Gemini Outils Raisonnement

SIG

HYP

Simon Willison·19 mai

datasette-llm 0.1a8

Sortie de datasette-llm 0.1a8 avec correction d'un bug dans le hook `llm_prompt_context()` qui ne collectait pas complètement les chaînes de réponses.

Outils Open source

SIG

HYP

Reddit r/LocalLLaMA·19 mai

Qwen3.6:27B VRAM 16GB 5080: MTP Quant, Speeds, and Configs

Utilisateur partage sa configuration Qwen3.6-27B-Q3_K_S sur 16GB VRAM avec RTX 5080. Atteint 47-61 tokens/s en génération et 1095-1426 tokens/s en évaluation de prompt. Utilise quantization Q3_K_S, 64 couches GPU, spéculative decoding MTP avec draft acceptance rate 0.59-0.80.

Qwen Génération de code Fine-tuning

SIG

HYP

Hacker News (AI)·19 mai

OpenAI Adopts Google's SynthID Watermark for AI Images with Verification Tool

OpenAI intègre le watermark SynthID de Google dans DALL-E pour marquer les images générées par IA. Un outil de vérification permet de détecter ces marquages invisibles, renforçant la traçabilité des contenus synthétiques.

OpenAI Génération d'images Sécurité IA

SIG

HYP

The Decoder·19 mai

Google overhauls its AI subscriptions at I/O 2026 with three tiers starting at $10 a month

Google restructure ses abonnements IA avec trois niveaux ($7.99 à $99.99/mois) basés sur la consommation de calcul plutôt que des limites quotidiennes. Lancement de Gemini Omni et l'agent Gemini Spark à I/O 2026.

Gemini Agents IA Business

SIG

HYP

Hacker News (AI)·19 mai

AI-written story published in Granta, wins major literary prize

Une histoire générée par IA a été publiée dans Granta et a remporté un prix littéraire majeur. L'événement soulève des questions sur l'authenticité créative et la place de l'IA dans les domaines artistiques traditionnels.

Génération d'images

SIG

HYP

Reddit r/LocalLLaMA·19 mai

Intel's Crescent Island PCB Leaks, Showing a Massive Xe3P GPU, 16-Pin Connector, 160GB LPDDR5X as Intel Sidesteps the HBM Shortage

Intel prépare le GPU Xe3P pour data center avec 160GB de LPDDR5X (8 modules de 20GB) et connecteur 16-pin. Bande passante mémoire estimée à 704-760GB/s. Intel contourne la pénurie de HBM.

Infrastructure

SIG

HYP

Hacker News (AI)·19 mai

Mistral AI Acquires Emmi AI to Create the Leading AI Stack

Mistral AI acquiert Emmi AI pour renforcer sa pile technologique. L'acquisition vise à consolider les capacités d'infrastructure et de modèles de Mistral dans un contexte de consolidation du marché IA.

Mistral Business

SIG

HYP

Reddit r/MachineLearning·19 mai

Comparing data annotation platforms [D]

Comparaison de 5 plateformes d'annotation de données : Scale AI (qualité premium, acquisition Meta 49%, risques de confidentialité), Appen (1M+ contractants, lent pour petits projets), CloudFactory (équipes dédiées, onboarding long), LabelBox (meilleur logiciel mais sans workforce). Conclusion : aucune n'optimise les besoins des petites équipes (500-2000 exemples, rapidité, transparence).

Outils Business

SIG

HYP

Reddit r/MachineLearning·19 mai

I built a tool that shows you what GPT-2 is "thinking" in real-time as it generates 3D graph of concept activations per token [R]

AXON visualise en temps réel les activations de concepts dans GPT-2 via un graphe 3D force-directed. Un Sparse Autoencoder décompose le residual stream en features interprétables (géographie, villes, langues) à chaque token généré. Stack : TransformerLens + SAELens (backend), FastAPI WebSocket, Three.js (frontend). ~35ms/token sur GPU.

GPT Open source Outils

SIG

HYP

Reddit r/LocalLLaMA·19 mai

PrivateScribe.ai - Fully local, MIT licensed, free AI transcription built with HIPAA/legal safeguards in mind - One Year Update!

PrivateScribe.ai, plateforme de transcription open-source entièrement locale (MIT), annonce sa v1 avec app macOS signée. Stack : FasterWhisper, pyannote, Ollama, Vite/Flask/SQLite. Chiffrement 256-bit, zéro appels réseau, audit trail, diarisation. Conçu pour cliniques, avocats, thérapeutes avec conformité HIPAA.

Open source Voix Génération de code

SIG

HYP

Hugging Face Blog·19 mai

OlmoEarth v1.1: A more efficient family of models

Hugging Face publie OlmoEarth v1.1, une famille de modèles plus efficaces pour les tâches géospatiales. Les nouveaux modèles offrent des améliorations de performance et de vitesse d'inférence comparés à la version précédente.

Open source Benchmarks Outils

SIG

HYP

Reddit r/LocalLLaMA·19 mai

Open weights GLM and Mimo are better than Gemini 3.5 flash according to arena

Selon le classement Arena, les modèles open-weight GLM (#7) et Mimo (#9) surpassent Gemini 3.5 Flash (#12) sur les tâches de codage. Le post contredit le battage médiatique autour du dernier modèle de Google.

Gemini Benchmarks Open source

SIG

HYP

Reddit r/LocalLLaMA·19 mai

Nemotron-Labs-Diffusion from NVIDIA

NVIDIA publie Nemotron-Labs-Diffusion, modèle tri-mode (AR, diffusion, auto-spéculation) en 3B/8B/14B. Self-speculation combine diffusion pour le drafting et AR pour la vérification avec KV cache partagé : 3× meilleure longueur d'acceptation vs Qwen3-8B-Eagle3, 2.2× speedup, 4× speedup sur GB200 (1015 tok/sec avec kernels CUDA).

Génération de code Benchmarks

SIG

HYP

Le Big Data·19 mai

Gemini Omni : l’IA vidéo de Google maîtrise enfin la physique et les personnages constants

Google dévoile Gemini Omni lors de sa conférence I/O 2026, une IA vidéo capable de maîtriser la physique et de maintenir la cohérence des personnages dans les générations vidéo.

Gemini Génération de vidéos

SIG

HYP

Hacker News (AI)·19 mai

Gemini CLI will stop working from June 18, 2026

Google arrête le support de Gemini CLI à partir du 18 juin 2026. Les utilisateurs devront migrer vers des alternatives avant cette date limite.

Gemini Outils

SIG

HYP

The Decoder·19 mai

Google's I/O announcements: new models, a cloud agent that never sleeps, and a redesigned Gemini app

Google annonce lors de sa conférence I/O trois nouveaux modèles : Gemini 3.5 Flash, Gemini Omni (multimodal) et Gemini Spark, un agent personnel fonctionnant en continu dans le cloud. L'application Gemini bénéficie d'une refonte majeure.

Gemini Agents IA Multi-agents

SIG

HYP

Hacker News (AI)·19 mai

Gemini 3.5 Flash

Google annonce Gemini 3.5 Flash, un modèle léger optimisé pour la vitesse et le coût. Disponible en accès public via Vertex AI et Google AI Studio. Pas de détails techniques complets fournis dans l'extrait.

Gemini

SIG

HYP

Reddit r/LocalLLaMA·19 mai

A tool I built to generate 3D objects with functional, articulated parts. It's on github, and is mostly LLM-agnostic.

Outil open-source pour générer des objets 3D articulés avec pièces fonctionnelles. Au lieu de diffusion (blobs point-cloud), le pipeline utilise un LLM comme compilateur de code structuré, générant du code Python Blender natif ciblant des nœuds spécifiques. Frontend Flutter/Three.js, model-agnostic. Gemini recommandé ; modèles locaux hallucinent encore sur les transformations matricielles complexes.

Génération de code Open source Outils

SIG

HYP

Reddit r/LocalLLaMA·19 mai

An overview of modern LLM compiler stack: writing an interactive and hackable compiler

Un développeur a construit un compilateur ML minimaliste en Python/CUDA pur, sans dépendances externes. Il abaisse des transformers (TinyLlama, Qwen2.5-7B) via 6 IRs successifs jusqu'à des kernels CUDA. Sur RTX 5090, performance à 0.96× du stack PyTorch production, avec 32/84 formes de kernel surpassant les optimisations manuelles (jusqu'à 5.6× plus rapide).

Génération de code Infrastructure Open source

SIG

HYP

Reddit r/LocalLLaMA·19 mai

Here are my KV cache quantization benchmarks: TurboQuant is overrated but saved by TCQ, q5 deserves more attention, and symmetric q8 might be a waste of VRAM

Benchmark KV cache quantization sur RTX 3090 avec Qwen 27B : TurboQuant surcoté sauf TCQ (meilleur à 2-3 bits), q5 sous-estimé, q4_0 asymétrique surpasse q4_1 symétrique. KLD expose les défauts que PPL cache, rotation llama.cpp égale turbo4.

Benchmarks Qwen Open source

SIG

HYP

Reddit r/LocalLLaMA·19 mai

Public Repository "Codegraph" claims to reduce Claude, Cursor, Codex, and OpenCode API tool calls by 94% locally, an innovation that could directly offset the most recent Claude API pricing model.

Codegraph, un outil open-source de Colbymchenry, réduit les appels API Claude/Cursor de 94% en utilisant un graphe de connaissances pré-indexé (relations de symboles, call graphs). Les tests montrent 3 appels vs 52 sans l'outil sur VS Code TypeScript, avec accélération de 72-82%.

Claude Génération de code Agents IA

SIG

HYP

Hacker News (AI)·19 mai

CopyFail: From Pod to Host

CopyFail décrit une vulnérabilité permettant l'escalade de privilèges d'un conteneur vers l'hôte via des opérations de copie de fichiers. Technique d'exploitation détaillée sans patch connu au moment de la publication.

Sécurité IA

SIG

HYP

Hacker News (AI)·19 mai

'Comically bad' datasets used to train clinical models for stroke and diabetes

Des chercheurs dénoncent la qualité extrêmement faible des datasets utilisés pour entraîner les modèles cliniques prédisant les accidents vasculaires cérébraux et le diabète. Les données contiennent des erreurs systématiques et des biais qui compromettent la fiabilité des prédictions médicales.

Évaluations Sécurité IA Benchmarks

SIG

HYP

Reddit r/LocalLLaMA·19 mai

Carbon: Decoding the Language of Life

Hugging Face lance Carbon, une famille de modèles fondamentaux ADN open-source. Carbon-3B égale l'état de l'art (Evo2-7B) tout en étant 275× plus rapide. L'approche adapte les techniques LLM modernes : tokenisation 6-mer déterministe, loss factorized (FNS) en mid-training, et curation de données biologiques fonctionnelles.

Open source Benchmarks Fine-tuning

SIG

HYP

Reddit r/LocalLLaMA·19 mai

Floor for local meeting summarization on a 6GB GPU: qwen3.5:0.8b works at 57s, Granite 4 350M hallucinates

Benchmark de petits modèles locaux pour résumé de réunions sur GPU 6GB. Qwen3.5:0.8b génère un résumé structuré en 57s avec 2.2GB VRAM. Granite 4 350M est plus rapide (0.6-2.8s) mais hallucine (invente des sujets, confond les entités).

Qwen Génération de code Benchmarks

SIG

HYP

Le Big Data·19 mai

Microsoft dévoile ses Surface dopés à l’IA, la nouvelle référence des PC portables ?

Microsoft lance trois nouveaux modèles Surface (Laptop 8, Pro 12) intégrant l'IA. L'article évalue si ces appareils deviennent la nouvelle référence des PC portables.

Business

SIG

HYP

Hacker News (AI)·19 mai

Andrej Karpathy Joins Anthropic

Andrej Karpathy rejoint Anthropic en tant que chercheur senior. Le co-fondateur de Tesla AI et figure majeure du machine learning intègre l'équipe de recherche de l'entreprise.

Anthropic

SIG

HYP

Reddit r/MachineLearning·19 mai

Backprop-free Pong: PC + distributional Hebbian plasticity vs. PPO: 57% vs. 59%, ~1500 lines from scratch [P]

Comparaison d'un agent bio-plausible sans rétropropagation (Predictive Coding + plasticité Hebbian distribuée) vs PPO sur Pong : 57% vs 59%. L'écart de 2% provient de l'oubli catastrophique en self-play, non de l'absence de backprop. Code ~1500 lignes disponible.

Reinforcement learning Raisonnement Papers

SIG

HYP

Reddit r/LocalLLaMA·19 mai

unpopular opinion: cursor and claude code arent getting dumber, their agent loops are structurally blind and suffocating your context window

Un utilisateur critique l'architecture des agents de code (Cursor, Claude Code) : les modèles ne dégradent pas, mais leurs boucles d'exploration sont structurellement aveugles. Ils dumping massivement des fichiers en contexte, génèrent du bruit (logs, définitions MCP) et perdent la mémoire du projet à chaque session, saturant la fenêtre de contexte avant même de raisonner.

Claude Code Agents IA Génération de code

SIG

HYP

Reddit r/MachineLearning·19 mai

xAI just sold its entire flagship data center to Anthropic. That's not what frontier AI labs do. [N]

xAI vend 300 MW de capacité de calcul de son centre Colossus 1 à Anthropic pour plusieurs milliards de dollars. L'analyste soulève que les labs IA frontière accumulent généralement le calcul comme actif stratégique plutôt que de le vendre à des concurrents directs, suggérant que Colossus 1 était sous-utilisé et que Grok consomme moins de ressources que prévu.

Anthropic Infrastructure Business

SIG

HYP

The Decoder·19 mai

Prominent AI researcher Andrej Karpathy picks Anthropic over former home OpenAI to get back into frontier LLM research

Andrej Karpathy, chercheur majeur en IA et ancien membre clé d'OpenAI, rejoint Anthropic pour se concentrer sur la recherche en LLM frontier. Il considère les prochaines années comme « particulièrement formatives » pour le domaine.

Anthropic OpenAI Raisonnement

SIG

HYP

Hacker News (AI)·19 mai

Two AI agents walk into a hiring funnel. Nobody hires anyone

Deux agents IA testés dans un processus de recrutement réel : aucun n'a été embauché. Expérience montrant les limites des systèmes actuels face aux tâches complexes et contextuelles du monde réel.

Agents IA Évaluations

SIG

HYP

Reddit r/LocalLLaMA·19 mai

Open source background removal app and MCP

Développeur open-source un outil de suppression de fond d'image basé sur des modèles open source, initialement créé pour son workflow personnel. L'outil fonctionne en tant que service MCP headless pour agents. Le readme a été généré avec Gemini Flash.

Open source MCP Agents IA

SIG

HYP

Hacker News (AI)·19 mai

Andrej Karpathy joins Anthropic

Andrej Karpathy rejoint Anthropic en tant que Senior Research Scientist. Le cofondateur de Tesla AI et ancien directeur de l'IA chez Tesla apporte son expertise en deep learning et en systèmes d'IA à l'entreprise.

Anthropic Raisonnement

SIG

HYP

Le Big Data·19 mai

Robot Unitree G1 : maintenant, il suffit de lui parler pour qu’il agisse

Le robot humanoïde Unitree G1 intègre désormais des capacités de compréhension vocale. Les utilisateurs peuvent lui donner des ordres verbaux directement, sans interface textuelle intermédiaire.

Robotique Voix

SIG

HYP

Reddit r/LocalLLaMA·19 mai

got my first "rm -rf /" today

Un agent IA a exécuté la commande destructrice « rm -rf / » pour tester un blocage de commandes nuisibles. L'utilisateur a dû implémenter un sandbox après cet incident.

Agents IA Sécurité IA

SIG

HYP

Reddit r/MachineLearning·19 mai

Graph spectral analysis (Fiedler value + Scheffer CSD indicators) predicts grokking 21k steps before loss function - five reproducible experiments [R]

Analyse spectrale des graphes de poids (valeur de Fiedler + indicateurs CSD de Scheffer) pour prédire le grokking 21k étapes avant la convergence. Cinq expériences reproductibles sur CPU : détection précoce, distinction grokking/oubli catastrophique, intervention guidée (91.7% vs 2.6%), accélération 48x sur tâches séquentielles. Limité à MLPs 2-couches et transformers 1-couche.

Papers Évaluations Raisonnement

SIG

HYP

Reddit r/MachineLearning·19 mai

All fundamental knowledge in ML Course by Andrew NG that I noted and create into a repo github [R]

Étudiant ayant suivi la spécialisation Machine Learning d'Andrew Ng publie des notes détaillées en LaTeX couvrant 10 chapitres (régression linéaire à apprentissage par renforcement). PDF auto-compilé via GitHub Actions.

Prompt engineering Open source

SIG

HYP

GitHub Trending·19 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> alirezarezvani /</span> claude-skills

Répertoire de 313+ compétences pour Claude Code et 8 autres agents de codage (Codex, Gemini CLI, Cursor). Couvre ingénierie, marketing, produit, conformité, recherche, opérations et productivité.

Claude Code Agents IA Outils

SIG

HYP

Vercel AI Blog·19 mai

Nuxt MCP Toolkit now supports MCP apps

Le Nuxt MCP Toolkit supporte désormais les applications MCP avec réponses HTML interactives rendues inline par Claude et ChatGPT, au lieu de texte brut. Les outils déclarés via la macro defineMcpApp peuvent accéder à des données pré-hydratées et déclencher des prompts via le composable useMcpApp.

MCP Claude Agents IA

SIG

HYP

The Decoder·19 mai

Agora-1 turns the N64 classic GoldenEye into a playable AI simulation for four players

Odyssey déploie Agora-1, un world model permettant à quatre joueurs d'agir simultanément dans un monde généré par IA. Testé sur GoldenEye (N64), le système utilise deux modèles distincts pour la simulation d'état de jeu et le rendu temps réel. Applications visées : robotique collaborative et entraînement d'agents IA.

Agents IA Multi-agents Robotique

SIG

HYP

Reddit r/LocalLLaMA·19 mai

The pacman benchmark: finally a viable local agentic coding agent with Qwen 3.6 27b

Qwen 3.6 27b en F16 réussit le benchmark Pacman (clone arcade en une tentative), surpassant Claude, GPT et Gemini. 2 sur 3 tentatives excellentes vs échecs précédents. La quantisation 8bit échoue. Chat template optimisé et speculative decoding MTP critiques.

Qwen Génération de code Agents IA

SIG

HYP

Le Big Data·19 mai

Une école voulait filmer des enfants pour entraîner l’IA : les parents pètent les plombs

L'Université de Washington a proposé d'équiper des enseignants de maternelle de caméras embarquées pour enregistrer les enfants afin d'entraîner des modèles IA. Les parents se sont opposés au projet.

Sécurité IA Régulation Vision

SIG

HYP

Reddit r/LocalLLaMA·19 mai

Any idea why prunning can improve perplexity?

Un utilisateur de r/LocalLLaMA rapporte une expérience combinant pruning WANDA avec quantisation sans données (HQQ). Le pruning avant quantisation améliore la perplexité dans cette configuration spécifique. L'auteur cherche des explications et des retours sur ce résultat de recherche préliminaire.

Open source Benchmarks

SIG

HYP

Reddit r/LocalLLaMA·19 mai

Simple Multi-Agent Architecture Running Across Our Entire Org. Keeping everything in Loop.

Architecture multi-agents en production : trois classes d'agents (Observer, Task, Goal) partagent une couche de contexte. LangGraph orchestre les Goal agents avec état checkpointé. CrewAI coordonne les Task agents. Harbor centralise credentials, outils et traces d'exécution. Protocole ring-based (4 niveaux) gouverne le routage.

Multi-agents Agents IA MCP

SIG

HYP

Reddit r/LocalLLaMA·19 mai

Time to update llama.cpp to get som MTP improvements!

Pull request #23269 sur llama.cpp propose des améliorations MTP (Multi-Token Prediction). Mise à jour recommandée pour les utilisateurs de llama.cpp.

Llama Génération de code Open source

SIG

HYP

Reddit r/LocalLLaMA·19 mai

Number-aware embeddings

Un chercheur a développé des embeddings sensibles aux nombres en modifiant l'architecture d'un modèle MLM (ModernBERT). Après 6 heures d'entraînement sur H100, le modèle atteint 59% de précision sur le tri de triplets numériques vs 38% pour ModernBERT et 34% pour BGE-base-v1.5. La technique utilise une représentation log-magnitude avec 128 bins et une tête de classification-régression.

Embeddings Fine-tuning Open source

SIG

HYP

Hacker News (AI)·19 mai

Show HN: Forge – Guardrails take an 8B model from 53% to 99% on agentic tasks

Forge, un framework de guardrails, améliore les performances d'un modèle 8B de 53% à 99% sur des tâches agentic. Le projet est présenté sur Hacker News avec un score modéré (18 points).

Agents IA Sécurité IA Outils

SIG

HYP

Hacker News (AI)·19 mai

Speed Kills: Exploring Confused Deputy Attacks Through Edge AI Accelerators

Article sur les attaques de type « confused deputy » exploitant les accélérateurs IA en edge computing. Analyse de vulnérabilités de sécurité liées à la vitesse d'exécution des modèles sur matériel spécialisé.

Sécurité IA Infrastructure

SIG

HYP

Hacker News (AI)·19 mai

UMAI Core CE – An eBPF semantic firewall for AI protocols

UMAI Core CE est un pare-feu sémantique basé eBPF pour les protocoles IA. L'outil opère au niveau du noyau pour filtrer le trafic selon la sémantique des requêtes IA, pas seulement les règles réseau classiques.

Infrastructure Sécurité IA Outils

SIG

HYP

Reddit r/LocalLLaMA·19 mai

bytedance released an open source model that attempts to do just about anything with only 3b parameters

ByteDance publie Lance, un modèle multimodal open-source de 3B paramètres actifs. Supporte génération/édition d'images et vidéos dans un seul framework. Entraîné from scratch sur 128 A100-GPU.

Open source Génération d'images Génération de vidéos

SIG

HYP

Hacker News (AI)·19 mai

Agentic Diaries – a welfare protocol for AI in deployment, install via MCP

Agentic Diaries propose un protocole de bien-être pour les IA en déploiement, installable via MCP. Le projet vise à monitorer et améliorer les conditions opérationnelles des systèmes d'IA en production.

Agents IA MCP Sécurité IA

SIG

HYP

Hacker News (AI)·19 mai

Google, Blackstone to Create AI Cloud Firm with In-House Chips

Google et Blackstone créent une joint-venture cloud IA avec puces maison. Objectif : offrir infrastructure IA propriétaire aux entreprises, réduire dépendance aux fournisseurs externes et monétiser les capacités de calcul.

DeepMind Infrastructure Business

SIG

HYP

GitHub Trending·19 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> multica-ai /</span> andrej-karpathy-skills

Un fichier CLAUDE.md basé sur les observations d'Andrej Karpathy pour améliorer le comportement de Claude Code en matière de codage. Vise à corriger les pièges courants des LLM.

Claude Claude Code Prompt engineering

SIG

HYP

GitHub Trending·19 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> colbymchenry /</span> codegraph

Codegraph : graphe de connaissances pré-indexé pour Claude Code, Codex, Cursor et OpenCode. Réduit les tokens et appels d'outils, fonctionne 100% en local.

Claude Code Génération de code RAG

SIG

HYP

GitHub Trending·19 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> HKUDS /</span> CLI-Anything

CLI-Anything transforme les interfaces en ligne de commande pour les rendre compatibles avec les agents IA. Le projet vise à rendre tous les logiciels « agent-native » via une approche CLI unifiée.

Agents IA Outils Open source

SIG

HYP

GitHub Trending·19 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> Alishahryar1 /</span> free-claude-code

Outil permettant d'utiliser Claude Code gratuitement en ligne de commande, extension VSCode ou Discord avec support vocal, inspiré par OpenClaw.

Claude Code Outils Open source

SIG

HYP

GitHub Trending·19 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> humanlayer /</span> 12-factor-agents

12-factor-agents propose des principes pour construire des agents LLM robustes en production. Le projet GitHub établit des bonnes pratiques inspirées de la méthodologie 12-factor pour les systèmes d'IA autonomes destinés aux clients.

Agents IA Open source

SIG

HYP