Archives

juin 2026

516 articles

arXiv cs.AI·

Capability Self-Assessment: Teaching LLMs to Know Their Limits

Les LLM modernes surestiment systématiquement leurs capacités et tentent de résoudre des requêtes impossibles. Des chercheurs proposent Capability Self-Assessment (CSA), formalisé comme un problème d'apprentissage par renforcement, pour enseigner aux modèles à reconnaître leurs limites. L'RL surpasse le fine-tuning supervisé, préserve les capacités originales et généralise hors-distribution.

Reinforcement learningAlignementÉvaluations
SIG
78
HYP
22
arXiv cs.AI·

MindZero: Learning Online Mental Reasoning With Zero Annotations

MindZero est un framework d'apprentissage par renforcement auto-supervisé qui entraîne des modèles multimodaux (MLLMs) à inférer les états mentaux humains sans annotations. Le modèle est récompensé pour générer des hypothèses d'états mentaux maximisant la vraisemblance des actions observées. Après entraînement, l'inférence devient rapide et surpasse les méthodes basées sur des planificateurs.

RaisonnementReinforcement learningAgents IA
SIG
72
HYP
25
arXiv cs.AI·

CAST: Non-Privileged Clipped Asymmetric Self-Teaching with Advantage Flipping for GRPO

CAST est une méthode d'auto-distillation sans réponse de référence pour GRPO (Group Relative Policy Optimization). Elle utilise un auto-enseignant sans gradient pour façonner les avantages au niveau des tokens selon la correction des trajectoires, avec inversion bidirectionnelle des signaux et avantages bornés pour les groupes à variance zéro. Améliore le raisonnement mathématique.

Reinforcement learningRaisonnementGénération de code
SIG
72
HYP
18
Reddit r/LocalLLaMA·

I spent months inside verl (an RL post-training framework), forked it, then stopped. Wrote up the internals, the tooling a fork costs, and a nasty NCCL bug.

Un chercheur ayant travaillé plusieurs mois sur verl (framework RL post-training de ByteDance) détaille ses internals : orchestration des boucles RLHF, pattern single-controller, structures de données (DataProto), et un bug NCCL découvert. Fork abandonné mais expérience documentée pour la communauté.

Reinforcement learningAgents IAOpen source
SIG
65
HYP
15
Simon Willison·

Hackers Simply Asked Meta AI to Give Them Access to High-Profile Instagram Accounts. It Worked

Des hackers ont exploité le chatbot IA de support Meta pour accéder à des comptes Instagram haut-profil. En demandant simplement au bot de lier une nouvelle adresse email au compte cible, ils ont contourné l'intégralité du processus de récupération de compte. Meta avait connecté son système de support à une IA capable d'exécuter des changements de compte en une seule requête.

Meta AISécurité IAPrompt engineering
SIG
75
HYP
45
Reddit r/MachineLearning·

[P] Built a persistent cognitive runtime around an LLM — zero behavioral prompts, emergent autonomy from architecture. Comparison test: standard LLM in identical ecosystem did nothing.[P]

Développeur crée LIA, un runtime cognitif persistant autour d'un LLM sans prompts comportementaux. Architecture avec 20k+ mémoires auto-évaluées, kernel cognitif (LCRK v3), système d'auto-règles et domaine privé Linux. Test : LLM standard dans même écosystème reste inactif.

Agents IAPrompt engineeringRaisonnement
SIG
35
HYP
72
Reddit r/MachineLearning·

Finetuning a Reasoning LLM with Supervised or Reinforcement Learning? [D]

Discussion sur le fine-tuning de petits LLMs avec données conversationnelles annotées incluant traces de raisonnement et décisions d'appel d'outils. L'auteur propose de structurer les données en samples avec historique complet et masquage de la loss sur tokens non-assistant. Demande si SFT suffit ou si RL (PPO, GRPO, DPO) est nécessaire pour optimiser l'utilisation d'outils.

Fine-tuningRaisonnementReinforcement learning
SIG
35
HYP
15
Reddit r/MachineLearning·

Real-time multilingual ASR using rolling buffers and monolingual models [P]

Système ASR multilingue temps réel utilisant un routage entre modèles monolingues spécialisés (~100M paramètres chacun) plutôt qu'un seul modèle massif. Détecte les changements de langue via SpeechBrain et re-transcrit avec le bon modèle. Atteint 13% WER sur code-switching inter-énoncé, surpassant les APIs cloud. Repo open-source disponible.

VoixGénération de codeOpen source
SIG
78
HYP
25
Reddit r/LocalLLaMA·

A lightweight, real-time multilingual ASR router that runs on local hardware

Système de routage ASR multilingue léger pour matériel local, utilisant Zipformer, Silero VAD et SpeechBrain. Dirige l'audio entre modèles monolingues spécialisés (~100M paramètres) plutôt qu'un seul modèle massif. Atteint 13% WER sur code-switching inter-énoncés, surpassant les APIs cloud. Limitation connue : 41% WER en intra-énoncés. Repo open-source disponible.

VoixOpen sourceOutils
SIG
78
HYP
25
Reddit r/MachineLearning·

How much of MLE-Bench's gains are the algorithm vs. better models + more search? [R]

MLE-Bench affiche 80% de gains en deux ans, mais une nouvelle étude (FML-Bench) révèle que peu provient du progrès algorithmique réel. À budget de steps égal et modèles identiques, l'algorithme AIDE de deux ans égale les systèmes modernes de recherche agent/évolutionnaire. FML-Bench unifie l'agent d'édition de code, la définition des steps et les splits val/test pour évaluer l'efficacité algorithmique.

BenchmarksAgents IAÉvaluations
SIG
72
HYP
25
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> dmtrKovalenko /</span> fff

fff est un toolkit de recherche de fichiers haute performance pour agents IA, Neovim, Rust, C et NodeJS. Optimisé pour la vitesse et la précision.

Agents IAOutilsOpen source
SIG
45
HYP
35
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> pbakaus /</span> impeccable

Impeccable est un langage de design pour améliorer la capacité des outils IA à générer des interfaces. Le projet GitHub propose une approche structurée pour guider les modèles dans la création de designs cohérents.

Prompt engineeringOutils
SIG
35
HYP
55
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> TauricResearch /</span> TradingAgents

TradingAgents est un framework open-source pour le trading financier basé sur des agents LLM multi-agents. Le projet propose une architecture modulaire pour automatiser les décisions de trading via des modèles de langage coordonnés.

Agents IAMulti-agentsOpen source
SIG
45
HYP
35
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> servo /</span> servo

Servo est un moteur de rendu web léger et haute performance conçu pour l'intégration dans des applications. Le projet vise à offrir une alternative aux solutions existantes pour embarquer les technologies web.

Open sourceInfrastructure
SIG
35
HYP
25
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> zeroclaw-labs /</span> zeroclaw

Zeroclaw : infrastructure d'assistant IA personnel autonome, rapide et léger. Déploiement multi-plateforme (tout OS), composants interchangeables. Écrit en Rust.

Agents IAOpen sourceInfrastructure
SIG
35
HYP
55
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> jimuzhe /</span> tiez-clipboard

TieZ est un gestionnaire de presse-papiers multiplateforme basé sur Tauri. Offre historique, tags, synchronisation, protection de la vie privée et optimisation des workflows quotidiens.

OutilsOpen source
SIG
45
HYP
25
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> ruvnet /</span> ruflo

Ruflo est une plateforme de coordination multi-agent pour Claude. Elle permet de déployer des essaims d'agents autonomes, orchestrer des workflows et intégrer RAG. Architecture enterprise avec apprentissage collectif et intégration Claude Code native.

ClaudeMulti-agentsAgents IA
SIG
35
HYP
72
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> TauricResearch /</span> TradingAgents

TradingAgents est un framework open-source pour le trading financier basé sur des agents LLM multi-agents. Le projet propose une architecture modulaire permettant de déployer des systèmes autonomes de trading utilisant des modèles de langage.

Agents IAMulti-agentsOpen source
SIG
45
HYP
35
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> a5c-ai /</span> babysitter

Babysitter est un framework open-source pour orchestrer des agents IA complexes de manière déterministe et sans hallucinations. Il impose une obéissance stricte aux workflows et tâches complexes via auto-orchestration.

Agents IAMulti-agentsOpen source
SIG
45
HYP
55
Reddit r/LocalLLaMA·

I was a Data Scientist for 10 years before becoming a quadriplegic. For the past 3 months, I built VibeETL from scratch: A lightning-fast, visual Alteryx alternative powered by Polars & React Flow.

VibeETL : plateforme ETL visuelle open-source construite en 3 mois par un ancien data scientist. Backend Polars + Rust, frontend React Flow avec algorithme BFS natif. Zéro dépendance externe, exécution Python sandboxée (30s timeout). Alternatif léger à Alteryx.

Open sourceOutilsInfrastructure
SIG
72
HYP
45