Vous manquez vite de messages ? Claude ajoute un nouveau contrôle
Anthropic ajoute un nouveau contrôle pour gérer les limites de messages sur Claude. La fonctionnalité améliore la visibilité sans résoudre complètement le problème des quotas.
516 articles
Anthropic ajoute un nouveau contrôle pour gérer les limites de messages sur Claude. La fonctionnalité améliore la visibilité sans résoudre complètement le problème des quotas.
LinTree améliore le raisonnement des LLM en représentant explicitement la structure arborescente des traces de recherche. Les chercheurs montrent que l'accès brut à l'historique de recherche ne suffit pas à surpasser la recherche heuristique guidée par LLM. Ajouter des pointeurs parents pour expliciter la structure arborescente améliore les performances sur Blocks World, Navigation et Sokoban.
Nouvelle approche combinant Answer-Set Programming (ASP) et Reinforcement Learning pour créer des abstractions logiques d'espaces d'états. Les auteurs réimplémentent le framework CARCASS (originellement en Prolog) avec ASP, un langage déclaratif, et l'évaluent sur Blocks World et Minigrid. ASP offre une modélisation plus riche pour les représentations logiques de processus de décision markoviens.
HypoAgent est un framework multi-agent pour générer des hypothèses abductives interactives sur des graphes de connaissances. Trois agents coordonnés (reconnaissance d'intention, génération d'hypothèses, analyse de cause racine) permettent le dialogue multi-tour et le diagnostic fin des hypothèses échouées. SOTA sur graphes commonsense et biomédicaux.
SCALE est un framework d'auto-amélioration pour agents web basé sur MLLMs. Il utilise trois rôles adversariaux (Selector, Predictor, Judger) pour explorer autonomement les limites de l'agent et élargir ses capacités cognitives. SCALE-Hop optimise la planification globale. Un dataset SCALE-20k de 19 sites réels avec 20k démonstrations structurées valide l'approche sur plusieurs MLLMs.
GLIDE est une bibliothèque Python open-source unifiant les méthodes de prediction-powered inference (PPI++, Stratified PPI, Predict-Then-Debias) pour évaluer les systèmes agentic. Elle combine annotations humaines et jugements LLM en estimations sans biais avec intervalles de confiance valides, réduisant les coûts d'annotation tout en maintenant la précision.
DecomposeR, un framework d'IA pour la recherche approfondie, entraîne un modèle Qwen3-8B via deux étapes de renforcement : planification (graphes acycliques typés) puis exécution. Amélioration de 5,1-8,0 points sur benchmarks long-form grâce à une meilleure décomposition des requêtes et synthèse.
AdaCoM, un système d'IA externe, gère le contexte d'agents LLM figés via apprentissage par renforcement pour les tâches longues (recherche web, recherche approfondie). Les stratégies apprises révèlent un compromis Fidélité-Fiabilité : les agents performants bénéficient d'une préservation contextuelle fidèle, tandis que les agents faibles nécessitent une compression agressive.
Des chercheurs reformulent la conception de mécanismes de santé comme synthèse de programmes pour LLM. Medi-Sim, un simulateur multi-agent, évalue les règles face aux réponses stratégiques des prestataires (codage, sélection, délai, effort, triage). Une recherche évolutionnaire guidée par LLM synthétise un programme mixte qui élimine le sur-codage, réduit les rejets de 50% et préserve la rentabilité.
Algorithme √LTS pour la recherche en arbre avec rerootage implicite. Trois designs de rerooter proposés : clustering basé sur la structure d'état, heuristique avec estimations coût-à-aller, et hybride. Évite la génération explicite de sous-objectifs, réduit l'overhead computationnel et atteint l'efficacité d'entraînement en ligne optimale sur les domaines testés.
Framework d'apprentissage par renforcement pour la conduite autonome qui utilise des conseils d'experts régulés par l'incertitude. Les seuils adaptatifs d'incertitude épistémique/aléatoire déclenchent l'intervention d'experts, tandis qu'une stratégie de commitment-cooldown limite la dépendance. Testé sur CARLA : +5-7% de succès vs baseline IQN.
PhyDrawGen est un pipeline neuro-symbolique qui génère des diagrammes de physique à partir de texte en respectant les lois physiques. Un LLM extrait un graphe de scène typé, un solveur déterministe le convertit en graphe planaire, et Qwen-VL affine une boucle propose-vérifier. Évalué sur 1 449 problèmes (mécanique, optique, électromagnétisme), il surpasse GPT-5-image et Gemini.
COLLEAGUE.SKILL est un système automatisé de distillation de traces en compétences pour générer des skills IA ancrées à une personne via extraction de connaissances expertes. Le système produit des packages versionnés avec deux pistes : capacités (pratiques, modèles mentaux, heuristiques) et comportements bornés (style de communication, règles d'interaction). 18.5k stars GitHub, 215 skills de 165 contributeurs.
Article formalisant les chemins causaux d'événements rares dans les modèles d'équations structurelles. Propose une définition rigoureuse des pathways causaux et identifie les conditions où les implications testables dépendent uniquement de l'abstraction causale du pathway, pas du graphe causal complet.
Nouvelle métrique d'évaluation MADQI pour la détection d'anomalies non supervisée dans les données AIS maritimes. Combine quatre indices (ARC, PPS, SDS, ECE) via normalisation automatique. Score MADQI de 80,37% sur dataset AIS, avec ECE=0,907 et ARC=1,000 pour détecter comportements anormaux de navires.
Unicorn, un framework de préentraînement multi-dataset, résout le compromis entre modèles indépendants par canal (scalables mais ignorant les dépendances) et modèles dépendants (expressifs mais limités en dimensions). Via un codebook de prototypes latents, il projette des canaux hétérogènes dans un espace partagé pour apprendre des patterns de corrélation réutilisables et transférables.
DSFM (Dual-Spectral Flow Matching) génère des séries temporelles fMRI synthétiques en combinant transformée en ondelettes discrète (DWT) et transformée en cosinus discret (DCT) avec flow matching spectral. Le modèle capture la non-stationnarité et la dynamique spatiotemporelle des signaux BOLD pour améliorer la classification de réseaux cérébraux.
Article proposant une architecture alternative aux réseaux de neurones profonds pour les LLM, basée sur les réseaux RBF. Le modèle trouve l'optimum global de la fonction de perte en forme fermée en une itération, éliminant l'entraînement itératif traditionnel. Comparaison avec méthodes similaires et étude de cas présentées.
VeriGate étend GRPO en combinant récompenses de vérificateur et supervision au niveau des étapes. La méthode utilise un modèle de récompense de processus (PRM) pour assigner du crédit granulaire aux tokens, évitant l'effondrement du gradient quand toutes les trajectoires reçoivent la même récompense. Sur MATH avec Qwen2.5-Instruct (1.5B/7B), VeriGate améliore la précision de ~20% et ~12% respectivement.
Étude sur la redondance du cache KV des prompts lors du décodage. Les chercheurs montrent que les couches supérieures du cache prompt peuvent être remplacées par un scaffold de template de chat sans perte d'accuracy significative, révélant que la redondance est structurelle plutôt que sémantique. Résultats validés sur Qwen3, Gemma 3 et Llama 3.
Étude arXiv sur la sécurité des LLM face aux entrées non fiables. Les chercheurs testent l'hypothèse que wrapper du contenu non fiable dans des appels d'outils simulés améliore la robustesse. Résultat : sur 7 modèles et 3 tâches de jugement, cette approche échoue et augmente souvent les taux de succès des attaques, inversant la hiérarchie d'instructions attendue.
CanLegalRAGBench est un benchmark d'évaluation pour systèmes RAG appliqués au droit canadien, basé sur des requêtes réalistes et des réponses annotées par des experts. L'étude révèle que les modèles d'embedding open-source rivalisent avec les modèles fermés, mais identifie des hallucinations dans 8-29% des réponses générées, non supportées par les documents récupérés.
Étude de biais dans les modèles de reconnaissance vocale multimodaux (audio-visuel). Les chercheurs créent des vidéos appairant différents visages au même audio et mesurent les variations de précision de transcription. Résultats : écarts de qualité jusqu'à 4,05 points d'erreur selon le genre, l'ethnicité et leur intersection sur Whisper-Flamingo et Gemini.
Étude sur les équipes d'LLM jouant à ChGK (quiz de raisonnement collectif). Trois stratégies testées : Vote, Silent Team (capitaine observe réponses), Talkative Team (capitaine observe réponses + justifications). Sur 572 questions 2025, les équipes surpassent les modèles seuls (+20 points). Meilleure équipe : 44,23% accuracy, approchant la performance humaine. La communication des justifications réduit les erreurs.
Protocole d'évaluation de ChatGPT pour générer et vérifier des associations biomédicales centrées sur les maladies. Utilise RAG avec LLMs open-source pour validation sémantique et détection d'hallucinations via vote majoritaire cross-modèle.
Un nouveau métrique d'évaluation contrefactuelle (CSS) révèle que six modèles de frontier classés similairement sur des métriques traditionnelles se rangent dans l'ordre inverse selon leur capacité à adapter les recommandations cliniques face à des mutations de cas oncologiques. Tous les modèles échouent sur les changements de statut chirurgical, un défaut invisible aux métriques de couverture.
Étude formelle de la calibration pour le label ranking probabiliste. Les auteurs définissent une hiérarchie de notions (full rankings, sub-rankings, top-k) et montrent que les modèles populaires sont mal calibrés. Application aux reward models RLHF révèle que calibration et accuracy ne sont pas parfaitement corrélées.
LongDS-Bench évalue la capacité des agents IA à maintenir un contexte analytique sur des horizons longs. Le benchmark contient 68 tâches d'analyse de données multi-tours (2 225 tours) basées sur des notebooks Kaggle réels. Les meilleurs modèles atteignent seulement 48,45% de précision, avec une chute de 47 points entre les tours précoces et tardifs. Les erreurs long-horizon représentent 52-69% des échecs.
NumLeak mesure la mémorisation de benchmarks publics dans les LLM frontier. Les modèles rappellent les données Fama-French (r=0.97-0.99), chômage US et température NOAA avec haute fidélité. Sur données récentes non vues, le taux de parsing chute à 21-57% mais r reste ~0.99 pour les mois répondus. Une défense prompt-système bloque 99.8% des attaques.
Nouvel mécanisme de sketching différentiellement privé basé sur des transformées rapides (Hadamard). Combine compression matricielle et garanties de confidentialité pour la régression linéaire DP. Première méthode rapide pour les moindres carrés ordinaires DP avec garanties d'utilité et de runtime améliorées.
AMNESIA est le premier benchmark open-source à grande échelle pour l'oubli sélectif dans les LLMs médicaux. Il contient 70 560 paires question-réponse issues de 8 820 dossiers patients couvrant 11 catégories de maladies. Les auteurs évaluent 4 méthodes d'unlearning et révèlent que l'oubli de patients individuels érode la connaissance d'autres patients atteints de la même condition.
XOResNet introduit des connexions de raccourci OR-ADD et des méta-résidus XOR pour améliorer l'apprentissage dans les réseaux de neurones impulsionnels profonds. Testé sur Fashion-MNIST, CIFAR-10, CIFAR-100 et miniImageNet, le modèle surpasse les SNNs existants en réduisant la redondance des pics et la perte d'information.
Étude multi-modèles (Pythia-1.4B, Gemma-2, Qwen2.5-7B, Llama-3.1-8B) sur la représentation linéaire de la malhonnêteté synthétique. Des sondes linéaires détectent le mensonge avec AUC ≥0.99 dès les couches 1-3. Les représentations de malhonnêteté se consolident progressivement en couches profondes, avec implications pour la surveillance basée sur l'activation.
Benchmark unifié Gait2Hip-60 comparant LSTM, Transformer et Mamba pour prédire les forces musculaires et moments articulaires de la hanche à partir de la cinématique de marche. Transformer surpasse les autres modèles (R²=0.819 pour les forces, R²=0.862 pour les moments). Validation externe sur 9 patients atteints de nécrose fémorale montre une généralisation modérée (R²=0.537-0.569).
EGGROLL, une factorisation bas-rang des perturbations en Evolution Strategies, réduit la complexité mémoire de O(mn) à O(r(m+n)) pour l'entraînement sans gradient des réseaux de neurones impulsionnels. Sur N-MNIST, la méthode atteint 79,21% de précision avec 2,23× d'accélération par rapport aux ES plein-rang, compatible avec l'apprentissage sur matériel neuromorphe.
Étude arXiv sur l'affinage itératif des fonctions de récompense générées par LLM pour RL sparse structuré. Les auteurs identifient deux modes de défaillance dominants (reward flooding, incompréhension sémantique) et proposent un raffinement diagnostique guidé par taxonomie. Résultats : DoorKey-8x8 passe de 2,3% à 97,6%, KeyCorridor de 31,2% à 86,7%. Limites : méthode restreinte à PPO et tâches sparse structurées.
Nouvel article arXiv présentant les cadres d'argumentation dépendants du contexte (CDAF), extension de la théorie de Dung. Un agent peut manipuler stratégiquement le contexte via une fonction de défaite pour faire accepter ses arguments. Introduit le problème ACTIVATION-MANIPULATION avec bornes de complexité initiales.
AutoSci est un système multi-agent centré sur la mémoire pour automatiser le cycle complet de recherche scientifique. Il intègre SciMem (mémoire structurée), SciFlow (exécution du cycle en 5 étapes), SciDAG (opérateurs multi-agents) et SciEvolve (apprentissage continu). Le code est disponible sur GitHub.
FAM-Bench est un benchmark multimodal de 2500 instances vérifiées par des experts en nutrition, évaluant le raisonnement « Food-as-Medicine » sur 13 conditions de santé. Deux tâches : évaluer l'adéquation d'un plat pour une condition (image + ingrédients) et classer 4 plats par pertinence clinique. Teste l'intégration de contraintes nutritionnelles, indices visuels et preuves d'ingrédients.
CoSee, un framework d'audit, analyse les défaillances de systèmes de raisonnement visuel modulaires utilisant une mémoire partagée. Sur des modèles 4B–8B, deux modes de défaillance dominent : Noise Reinforcement (réutilisation de notes non fondées) et Policy Collapse (réponses sous-spécifiées). L'étude montre que les espaces de travail partagés naïfs amplifient les hallucinations sans vérification explicite.
TraceGraph est un framework graphique qui transforme les trajectoires d'agents multi-modèles en paysages décisionnels partagés. Il construit des graphes état-action-observation, identifie les régions productives et les pièges, puis propose un pipeline de récupération conscient des pièges. Sur SWE-bench, cette approche améliore le taux de résolution de 40,4% à 43,5%.
XLGoBench est un benchmark de tâches algorithmiques synthétiques pour détecter les lacunes cross-lingues dans les capacités des LLM. Le benchmark est comparable entre langues, scalable (complexité variable), quantifiable (correction objective) et transparent (templates auditables). Les expériences révèlent des lacunes persistantes dans plusieurs modèles état-de-l'art.
Eywa est une architecture mémoire pour agents IA persistants, fondée sur la provenance des preuves. Elle stocke les sources immuables avant d'extraire les faits, valide les mémoires contre des signaux typés, et récupère le contexte via un chemin de lecture déterministe sans appels LLM. Résultats : 90.19% sur LoCoMo C1-C4, 88.2% sur LongMemEval-S, 81.45% sur BEAM.
Article théorique définissant l'alignement de référence par paires comme observable ordinale pour évaluer les modèles de langage. Formule statistique pour mesurer si un modèle classe les réponses préférées au-dessus des réponses rejetées, avec estimateurs à échantillon fini et bornes de concentration. Validation empirique sur Qwen2.5 et RewardBench.
MASA (Model-Aware Skill Alignment) adapte les compétences procédurales des agents LLM à chaque modèle backbone sans modifier les poids. Un pipeline d'évolution hiérarchique réécrit les compétences via hill climbing et recherche arborescente UCB, puis un réécriture légère entraîné reproduit l'adaptation en un seul passage. Gains jusqu'à 25,8 points sur trois environnements interactifs et quatre backbones.
Étude des neurones liés au genre dans les modèles de langage (féminin, masculin, neutre). Les auteurs proposent une méthode d'intervention au niveau neuronal pour identifier et contrôler la génération de formes genrées. Expériences sur deux LMs open-source montrent que les neurones genrés se concentrent dans les premières couches. Code et datasets publiés.
Méthode pour assigner des scores de prédictibilité cohérents à des trajectoires courtes sur un continuum déterministe-stochastique. GON (Gauge-Fixed Ordinal Network), réseau convolutif temporel, résout l'ambiguïté cross-système via une objective anchor-and-variance. Transfert validé sur 5 systèmes dynamiques avec meilleure performance que l'entraînement from-scratch.
Méthode de sampling zeroth-order avec réduction de variance pour distributions non-log-concave en boîte noire. Propose ZO-APMC pour problèmes inverses avec priors génératifs. Premières garanties de convergence non-asymptotique établies.
ElasticMem propose un framework de mémoire latente pour agents LLM qui alloue dynamiquement des ressources mémoire via une politique apprise. Sur Qwen2.5-3B et 7B, amélioration de 26.2% et 24.6% en QA, et 66.3% et 27.2% en contrôle d'agent embodié (ALFWorld), avec coût token minimal.
Étude de l'alignement entre l'incertitude des LLM et celle humaine via analyse comportementale et des patterns d'activation internes. Les auteurs mesurent calibration et alignement sur datasets multi-choix et rappel factuel, évaluant l'impact du fine-tuning d'instruction.
CobSeg est une architecture multi-branche pour la segmentation de sujets en dialogue. Elle sépare la continuité sémantique des transitions lexicales et utilise un pondérage par informativeness des limites. Évaluée sur 5 benchmarks, elle réduit Pk de 0.7 points sur VHF et atteint Pk=1.0 sur DialSeg711, sans appels LLM à l'inférence.
Des réseaux de neurones non entraînés correspondent mieux au cortex visuel précoce que des réseaux entraînés. Une étude sur 720 images (THINGS) et données fMRI de 3 sujets montre qu'une époque de training réduit l'alignement V1 de 25-90% selon la règle d'apprentissage. La rétropropagation dégrade le plus (Δr = -0.080), tandis que le codage prédictif et STDP préservent mieux l'alignement (Δr ~ -0.04).
Méthode pour établir des correspondances entre vecteurs d'embeddings produits par différents encodeurs. Exploite la cohérence géométrique locale des encodeurs contrastifs entraînés indépendamment : les distances courtes sont préservées à un facteur d'échelle près. Utilise un hachage géométrique itératif basé sur des ancres appairées pour récupérer les liens vectoriels. Code disponible.
GraphARC est un benchmark d'IA pour le raisonnement abstrait sur graphes, généralisant le paradigme ARC à des données structurées en graphes. Les modèles de langage actuels échouent sur les transformations complètes de graphes malgré une compréhension des propriétés, révélant un fossé entre compréhension et exécution.
Nouvelle architecture transformer pour la gestion autonome des ressources dans des constellations satellites hétérogènes (optiques et SAR). Utilise le reinforcement learning sans modèle pour la prise de décision en temps réel lors de missions d'observation terrestre. Démontre améliorations significatives et transferabilité sur différentes tailles de constellations.
Cadre d'évaluation basé sur des personas pour l'alignement pluraliste des IA génératives. Remplace les benchmarks monolithiques par une variété de profils cognitifs synthétiques représentant diverses perspectives humaines. Révèle une dégradation systématique de la cohérence des personas sous inférence séquentielle, suggérant le besoin de mécanismes de régulation dynamiques.
UniScale unifie le routage de modèles et le test-time scaling (TTS) dans un espace d'optimisation unique pour équilibrer qualité et coût computationnel des LLM. Le framework utilise LinUCB et la théorie des bandits contextuels pour apprendre des politiques d'inférence adaptatives en ligne, avec modélisation des coûts et apprentissage conscient de l'efficacité.
Nouvelle méthode de post-training pour modèles de raisonnement : Feedback Distillation entraîne le modèle à reproduire sa propre distribution conditionnée par des retours de LLM. Testée sur Lean4 (théorèmes), elle maintient plus de diversité que GRPO, améliore l'entropie et le scaling pass@k. Combinée à GRPO, elle surpasse les deux méthodes seules.
COMPASS est un framework d'alignement de sécurité pour agents de recherche LLM multi-étapes. Il combine l'exploration d'arbres cognitifs (CTE) pour synthétiser des trajectoires d'attaque et l'alignement introspectif (ISA) pour superviser les actions intermédiaires risquées. Résultats : meilleur compromis sécurité-utilité avec moins de données d'entraînement.
SLAT est un framework RL qui réduit la redondance dans les chaînes de raisonnement (CoT) en supprimant sélectivement les segments à faible utilité marginale. Sur des benchmarks standards, la méthode réduit la longueur du raisonnement de 50% tout en maintenant la précision.
Article théorique positionnant les modèles de diffusion comme cas particulier d'une famille de techniques d'apprentissage par destruction d'information. L'auteur argue que l'approche destructive offre plus de flexibilité que les techniques classiques, particulièrement en contexte de données limitées. Soulève des enjeux d'exploration et propose des directions de recherche natives aux modèles de diffusion.
SubsurfaceGen est un générateur GPU pour modèles de vélocité 3D et données sismiques à l'échelle du terrain. Les auteurs publient un dataset de 4 276 tranches 2D, couvrant 6 contextes géologiques (10 km × 10 km × 6,19 km à 10 m de résolution). Évaluation d'opérateurs neuronaux sur prédiction de champs d'ondes et inversion de vélocité end-to-end.
Les systèmes multi-agents LLM supposent que l'accord entre agents indique la fiabilité. Les auteurs montrent que la communication entre agents crée des défaillances corrélées et des faux consensus. Ils proposent CAGE-CAL, un cadre de calibration basé sur des graphes contrefactuels, qui compare les dépendances observées post-communication avec un scénario sans communication pour ajuster la confiance.
COFT est une méthode de décodage sans entraînement qui réduit les biais dans la génération de chaînes de pensée (CoT) des LLM. Elle utilise des prompts contrefactuels masqués et la fusion de logits pour atténuer les biais liés aux attributs sensibles, avec garanties de validité marginale sans distribution. Évaluation sur 6 modèles : réduction de 30-55% des biais (médiane 38%) sans perte d'utilité.
Étude sur les effets long terme de la sélection de données lors du fine-tuning d'LLM sur plusieurs étapes. Les auteurs montrent que les stratégies optimales à court terme (loss-based, gradient-based, diversity-based) peuvent ralentir l'apprentissage futur et augmenter l'oubli catastrophique. Ils proposent LHAS (Long-Horizon Aware Selection) pour évaluer la sélection comme intervention d'entraînement globale.
Méthode pour détecter et classifier l'usage de datasets dans la littérature scientifique via un framework GLiNER multitâche. Combine extraction de mentions, identification de relations et classification du contexte d'usage. Utilise données synthétiques et revalidation LLM pour pallier la rareté des labels.
Les chercheurs améliorent le speculative decoding multilingue en comparant trois stratégies : fine-tuning du modèle draft sur données spécifiques, fine-tuning sur corpus monolingues non annotés, et modèles n-gram. Évaluation sur 11 langues en traduction et génération d'histoires. Les modèles n-gram offrent les meilleurs accélérations malgré des taux d'acceptation plus faibles.
Méthode pour générer automatiquement des rubriques d'évaluation fine-grained sans annotation humaine, testée sur quatre benchmarks. Approche sans entraînement initial, puis affinement itératif via signaux de récompense meta-judge. Un générateur 14B affiné surpasse des modèles propriétaires plus grands.
LLM-FACETS est un framework open-source pour évaluer la factualité, l'étalonnage épistémique et la reproductibilité des LLM. Interface web, architecture plugin, métriques déterministes (BLEU, ROUGE, BERTScore) exécutées localement, visualisation log-probabilités, consensus multi-judge, métriques RAG Triad. Conçu pour experts techniques, domaine et compliance officers selon EU AI Act et NIST.
Étude comparative d'embeddings génériques vs spécialisés pour la recherche clinique multilingue (ICD-10-CM). Un bi-encoder fine-tuné sur données synthétiques Gemini (6 langues) surpasse BioBERT-ST : R@5=0.822 vs 0.790, avec gains majeurs en portugais (+0.115). Recette open-source pour retrievers médicaux basés sur LLM.
Une méthode basée sur la théorie de la réponse aux items détecte les erreurs d'étiquetage dans 7 benchmarks LLM avec 95% de précision sur les 200 premiers exemples. Analyse de 114 modèles révèle des mislabels dus à des heuristiques mécaniques, des erreurs d'annotation héritées et des items ambigus. Les reward models se spécialisent dans les préférences stylistiques plutôt que la connaissance factuelle.
Des chercheurs démontrent que les watermarks statistiques dans les LLM sont vulnérables aux ensembles linéaires. En moyennant les distributions de probabilité de 3-5 modèles, les perturbations introduites par les watermarks s'annulent. La méthode WASH (Watermark Attenuation via Statistical Hybridisation) supprime la détection sur 6 schémas de watermarking testés, réduisant les z-scores de 5-300 à <2 (seuil: 4).
ImmigrationQA : dataset de 17 058 paires QA source-grounded sur le droit d'immigration américain (13 sous-domaines). Fine-tuning d'un Llama 3.2 3B avec LoRA sur corpus de 10 056 documents validés. Modèle fine-tuné : 1.08/3.0 (16.8% correct) vs Llama 3 8B base : 0.85/3.0 (4% correct), amélioration relative 27%. Coût : ~29$. Dataset, modèle et code publics.
Étude de la dominance narrative globale dans les LLM via CulturalNB, dataset de 717 instances culturelles bengali avec paires questions-réponses parallèles anglais-bangla. Évaluation de 9 LLM montre que les questions en anglais augmentent la substitution globale et réduisent la couverture des perspectives locales, même avec des preuves locales.
Étude comparative de classification de sujets multi-label en zero-shot utilisant des graphes de connaissances extraits des documents. Framework testé sur 15 LLMs et 8 datasets : la variante keyword-enhanced surpasse la baseline, l'augmentation par graphe aide les petits modèles mais nuit aux grands, et le self-consistency decoding augmente les coûts sans amélioration.
GRiD, un framework basé sur les modèles de diffusion, génère des règles graph-like pour le raisonnement sur graphes de connaissances. Combine pré-entraînement supervisé et apprentissage par renforcement pour découvrir des règles complexes (cycles, branches) au-delà des chaînes simples. Évalué sur 6 benchmarks avec code open-source.
MAVEN est un système de raisonnement symbolique léger pour améliorer la généralisation des agents LLM dans les tâches d'appel d'outils. Évalué sur BFCL v3, TauBench, Tau2Bench, AceBench et un nouveau benchmark MAVEN-Bench, il augmente la précision de GPT-OSS-120b de 48% à 71% sans entraînement supplémentaire, avec un coût 10× inférieur aux modèles propriétaires.
CSRM (Configurable Safety Reward Model) optimise conjointement la conformité de sécurité calibrée et la modélisation de récompense pour adapter les LLM à des exigences de sécurité hétérogènes et évolutives. Atteint 94,6% F1 sur CoSApien et 75,8% F1 sur DynaBench sans annotation humaine supplémentaire.
Étude d'activation steering sur quatre LLMs multilingues (5 catégories figuratives, 6 langues). Les directions d'activation apprises dans une langue transfèrent efficacement vers d'autres, notamment l'allemand. Les directions composites cross-lingues égalent ou surpassent les directions natives, prouvant l'existence de signaux figuratifs réutilisables mais dépendants de la langue cible.
Étude arXiv sur l'ingénierie de données autonome par agents LLM pour la spécialisation de modèles. GPT-5.2 construit un curriculum d'entraînement qui améliore un modèle étudiant de 57,29% via adaptation itérative des données. Formalise une nouvelle tâche évaluant les LLM comme ingénieurs de données autonomes.
Étude des signatures stylistiques introduites par l'alignement des LLM. Les chercheurs montrent que le post-training crée un style détectable par les détecteurs IA. Ils proposent PASTA, une méthode sans entraînement qui localise et supprime cette signature lors du décodage, réduisant les taux de détection sur 11 modèles alignés.
EHRBench est un benchmark automatisé et fiable pour évaluer les LLMs sur des tâches de prise de décision clinique. Construit via un pipeline EHR-LLM-KB, il génère ~960k items QA couvrant diagnostic, traitement et pronostic. 30+ LLMs benchmarkés révèlent des lacunes persistantes vers la fiabilité clinique.
Étude sur l'auto-évolution des harnesses (prompts, skills, mémoires, outils) dans les agents LLM. Analyse deux capacités : harness-updating (produire des mises à jour utiles) et harness-benefit (en bénéficier). Résultats : harness-updating est indépendant de la capacité de base (Qwen3.5-9B rivalise avec Claude Opus), tandis que harness-benefit suit une courbe non-monotone (modèles mid-tier bénéficient le plus).
Étude appliquant MAP-Elites (algorithme de diversité qualitative) à la génération procédurale de niveaux FPS. Deux nouvelles représentations (Point-Line, Spatial-Layout) améliorent la caractérisation des cartes. Métriques topologiques et émergentes définies. MESB génère des populations de cartes avec diversité et qualité supérieures aux approches antérieures.
Étude sur l'encodage de tâches factorisées (FTS) en SAT pour la planification. Les auteurs proposent plusieurs stratégies de traduction de la relation de transition en logique propositionnelle et analysent l'impact des transformations de tâches et du parallélisme sur les solveurs SAT.
DisjunctiveNet propose une méthode neuro-symbolique pour intégrer des contraintes logiques et linéaires mixtes directement dans les réseaux de neurones via des couches d'optimisation différentiables. Utilisant des relaxations convexes hiérarchiques, le framework garantit la satisfaction exacte des règles tout en maintenant la performance prédictive sur des données réelles.
Framework de machine learning scientifique pour la prédiction de durée de vie utile restante (RUL) de turbines. Combine encodeur partagé (CNN + LSTM bidirectionnel + attention) avec têtes spécialisées pour prédire température turbine, delta température et RUL avec intervalles de confiance. Évaluation sur données réelles hétérogènes et non-stationnaires via MAE, PICP, MPIW et CWC.
Comparaison de 5 méthodes de quantification d'incertitude (Delta, Bayesian Monte Carlo Dropout, Bootstrap, LUBE, MVE) pour prédire la dégradation de température de turbine. Évaluation sur dataset réel avec métriques de couverture et largeur d'intervalle. Trade-offs identifiés entre précision et fiabilité.
Modèle de variable latente au niveau processus (PLVM) pour prédire les stratégies comportementales futures à partir de traces partielles inter-tâches. Testé sur PowerWash Simulator : fusion de traces de deux tâches de nettoyage prédit si un joueur adoptera une stratégie « Zone Planner » ou « Zone Hopper » sur un niveau inédit. Utile pour systèmes adaptatifs (tuteurs, jeux, IA collaborative).
DisasterLex est un framework text-to-SQL médiatisé par graphe de connaissances pour interroger des bases de données géospatiales en gestion de catastrophes. Il utilise un Expert Knowledge Graph (107 concepts, 117 arêtes causales) pour router les requêtes naturelles vers 36 tables hétérogènes. Sur 75 requêtes, il surpasse 4 baselines (LightRAG, HippoRAG 2, ReFoRCE, CHESS) de 1.4x à 2.75x.
5WBENCH, un benchmark de 5 000 exemples équilibré par catégories 5W, révèle que les méthodes d'unlearning échouent sur les questions causales (Why). MAAT, un framework trois phases opérant sur poids LoRA, combine ascente de gradient projetée, élagage SVD et réparation KL pour atteindre simultanément oubli et rétention élevés sur connaissances causales.
Chercheurs entraînent un petit transformer encoder-decoder sur la zeta map (bijection classique des nombres q,t-Catalan). Via mechanistic interpretability (cross-attention, linear probing, causal intervention), ils découvrent un mécanisme basé sur les niveaux des chemins de Dyck. Traduction en algorithme explicite (scaffolding map) prouvé équivalent à la zeta map.
Méthode distribuée pour l'apprentissage par renforcement multi-agent avec contraintes globales. Les agents apprennent une politique augmentée hors ligne et coordonnent via consensus local sur les multiplicateurs de Lagrange. Scalabilité linéaire jusqu'à des milliers d'agents, démonstration sur réseaux électriques intelligents.
Framework unifié pour l'agrégation de gradients en optimisation multi-objectif. Les auteurs établissent des taux de convergence vers la stationnarité de Pareto via une condition d'alignement suffisant et montrent que les directions non-conflictuelles dans l'enveloppe convexe des gradients garantissent la convergence. Ils introduisent capped MGDA basé sur CVaR et valident sur benchmarks.
Étude de la distillation de LLM en boîte noire via la notion de « bounded behavioral indistinguishability ». Les auteurs évaluent des paires Qwen et Llama avec une suite de 5 000 prompts, montrant que LoRA améliore la similarité sémantique (0.788→0.862 pour Qwen, 0.814→0.874 pour Llama) mais laisse subsister des différences comportementales détectables par adversaires.
Nouvelle méthode pour accélérer les modèles de langage basés sur diffusion (dLLMs). Temporal-Spatial Parallel Decoding (TSPD) et Confidence Extrapolation (CE) réduisent les itérations de débruitage inutiles en analysant les trajectoires token-wise et en prédisant les tendances futures sans entraînement supplémentaire.
SAGE est une porte adaptative basée sur la densité von Mises-Fisher pour contrôler l'évolution mémoire dans les LLM agentiques. Elle classe les faits candidats en ADD (nouveau), NOOP (redondant) ou MERGE (incertain), réduisant les appels LLM coûteux. Sur LoCoMo, SAGE réduit le coût API de 3.4× et la latence de 2.5× avec GPT-4o-mini.
TeachObs est un benchmark multimodal validé par des humains pour l'analyse de vidéos de classe. Il contient 30 leçons publiques de 8 pays, divisées en 5 158 scènes de 15 secondes, annotées par 7 chercheurs avec 39 codes d'observation (20 visuels, 19 non-visuels). Évaluation de 5 LLMs vision sur 3 tâches : aucun modèle ne surpasse les autres systématiquement.
EUDAIMONIA est un benchmark d'évaluation des dynamiques sociales nuisibles dans les LLM. Il contient 969 inputs utilisateur et 3,147 vérifications de violations de design, testant 22 modèles récents. Claude-Opus-4.7 et GPT-5.5 violent respectivement 30,7% et 27,2% des critères, révélant des problèmes persistants d'alignement social non résolus par le reasoning étendu.
Étude de la stabilité sémantique de 16 LLMs (génériques et médicaux) face à des reformulations de prompts cliniquement équivalentes. Propose un cadre de vérification basé sur l'inférence en langage naturel et trois métriques (MVS, ΔC, WCI). Résultat : la spécialisation domaine n'améliore pas systématiquement la robustesse aux variations sémantiques.