Page 14 sur 137

ToutHaut signalRécent
5480 articles
arXiv cs.LG·

Conformal Selective Acting: Anytime-Valid Risk Control for RLVR-Trained LLMs

CSA (Conformal Selective Acting) est un wrapper de déploiement pour LLMs fine-tunés en RLVR qui garantit un contrôle du risque par round sans pooling entre déploiements. Testé sur 480 streams spécialisés et 10,300 rounds en Expert-Iteration avec LoRA, CSA maintient une e-process de Ville par seuil et atteint une borne de risque sélectif R_T^act ≤ α+O(N_T^{-1/2}) avec validité pathwise anytime.

Reinforcement learningSécurité IAÉvaluations
SIG
78
HYP
15
arXiv cs.LG·

Geometry-Lite: Interpretable Safety Probing via Layer-Wise Margin Geometry

Geometry-Lite est une sonde de sécurité compacte qui analyse la géométrie des représentations cachées à travers les couches de LLMs (1.2B–70B). Elle mappe les marges de chaque couche via trois méthodes (centroïde, voisinage local, frontière linéaire) et montre que la détection de prompts non-sûrs repose principalement sur la géométrie persistante des marges, non sur le mouvement inter-couches.

Sécurité IAAlignementÉvaluations
SIG
78
HYP
15
arXiv cs.CL·

On the limits and opportunities of AI reviewers: Reviewing the reviews of Nature-family papers with 45 expert scientists

Étude d'experts (45 scientifiques, 469 heures) évaluant 2,960 critiques de 82 articles Nature. GPT-5.2 surpasse le meilleur reviewer humain (60,0% vs 48,2%), mais les IA montrent 16 faiblesses récurrentes (connaissance limitée du sous-domaine, gestion faible du contexte long). Les IA complètent plutôt qu'elles ne remplacent les humains.

GPTGeminiClaude
SIG
78
HYP
25
arXiv cs.LG·

MagBridge-Battery: A Synthetic Bridge Dataset for Li-ion Magnetometry and State-of-Health Diagnostics

MagBridge-Battery v1.0 est un dataset synthétique de 6 760 signatures magnétiques pour diagnostiquer l'état de santé des batteries Li-ion. Il combine des mesures magnétiques réelles (archive Mohammadi-Jerschow) avec des labels de dégradation du dataset PulseBat. Trois tâches benchmark : régression SOH (R²≈0.77), classification second-life, détection d'anomalies.

BenchmarksÉvaluationsOpen source
SIG
78
HYP
15
arXiv cs.LG·

Weasel: Out-of-Domain Generalization for Web Agents via Importance-Diversity Data Selection

Weasel est une méthode de sélection de trajectoires pour l'entraînement hors ligne d'agents web. Elle optimise un équilibre entre importance et diversité sur les états, sites et patterns d'interaction, avec élagage d'AXTree centré sur la cible. Sur WebArena, WorkArena et MiniWob, elle améliore la généralisation hors-domaine avec des accélérations d'entraînement de 9.7-12.5× sur Qwen2.5-7B, Gemma3-4B et Qwen3-8B.

Agents IAFine-tuningBenchmarks
SIG
78
HYP
18
arXiv cs.LG·

Spectral Unforgetting: Post-Hoc Recovery of Damaged Capabilities Without Retraining

DG-Hard, une méthode spectrale post-hoc, récupère les capacités endommagées par le fine-tuning sans réentraînement. Elle applique un seuillage SVD dur (Donoho-Gavish) aux matrices de poids pour isoler le signal aligné sur la tâche du bruit résiduel. Testée sur 14 configurations (modèle, tâche) et 9 benchmarks, elle restaure aussi l'alignement de sécurité dégradé.

Fine-tuningSécurité IAAlignement
SIG
78
HYP
18
arXiv cs.CL·

Do as I Say, Not as I Do: Instruction-Induction Conflict in LLMs

Étude sur le conflit entre suivi d'instructions et complétions de motifs dans 13 LLMs. Quand une instruction utilisateur entre en conflit avec N tours d'assistant montrant un motif opposé, les taux de suivi d'instructions varient de 1% à 99%. La transition est universelle mais dépendante du modèle. La diversité des outputs et l'alignement avec les valeurs entraînées modulent la robustesse.

RaisonnementAlignementÉvaluations
SIG
78
HYP
15
arXiv cs.CL·

Do No Harm? Hallucination and Actor-Level Abuse in Web-Deployed Medical Large Language Models

Étude de 6 233 MedGPTs et 10 modèles open-source déployés sur le web. 25-30% présentent une faible précision factuelle, 33.6-54.3% violent les seuils opérationnels, 57% des modèles avec Actions manquent de divulgations de confidentialité. Les auteurs introduisent MedGPT-HEval pour détecter les hallucinations et publient HAA-MedGPT, un dataset structuré.

Sécurité IAAlignementÉvaluations
SIG
78
HYP
25
arXiv cs.CL·

Retrieval-Augmented Long-Context Translation for Cultural Image Captioning: Gators submission for AmericasNLP 2026 shared task

Pipeline deux étapes pour captionner des images culturelles en langues autochtones : Qwen2.5-VL génère une caption intermédiaire en espagnol, puis Gemini 2.5 Flash produit la caption cible via retrieval-augmented prompting. Amélioration de 164,1% (Bribri), 131,7% (Guaraní), 122,6% (Nahuatl Orizaba) sur la baseline. Gagnant du shared task AmericasNLP 2026.

VisionRAGGemini
SIG
78
HYP
25
arXiv cs.CL·

What Do Biomedical NER and Entity Linking Benchmarks Measure? A Corpus-Centric Diagnostic Framework

Framework de diagnostic corpus-centrique pour analyser les benchmarks de reconnaissance d'entités nommées (NER) et de liaison d'entités (EL) en biomédical. Appliqué à 9 corpus, révèle que des propriétés substantiellement différentes peuvent masquer des tâches apparemment identiques. Code open-source et dashboard interactif fournis.

BenchmarksÉvaluationsPapers
SIG
78
HYP
15
arXiv cs.AI·

What and When to Distill: Selective Hindsight Distillation for Multi-Turn Agents

SERL, un framework d'apprentissage par renforcement sélectif, améliore l'entraînement d'agents LLM multi-tours en exploitant les retours environnementaux granulaires (messages d'erreur, changements de page, trajectoires de référence). Sur ALFWorld et WebShop, SERL atteint 90,0% et 80,1% de succès, surpassant les baselines RL et distillation existantes.

Agents IAReinforcement learningRaisonnement
SIG
78
HYP
25
arXiv cs.AI·

Library Drift: Diagnosing and Fixing a Silent Failure Mode in Self-Evolving LLM Skill Libraries

Les bibliothèques de compétences auto-évolutives souffrent d'une dégradation silencieuse appelée « library drift » : accumulation non bornée sans gestion du cycle de vie. L'étude isole le mécanisme (ablations), propose des diagnostics trace-level, et valide un correctif (retraite outcome-driven + cap actif + prior meta-skill) qui améliore pass@1 de 0.258 à 0.584 sur MBPP+ hard-100.

Agents IAGénération de codeBenchmarks
SIG
78
HYP
15
arXiv cs.CL·

optimize_anything: A Universal API for Optimizing any Text Parameter

Un système d'optimisation basé sur LLM unifie six domaines distincts : architectures d'agents (89.5% sur ARC-AGI vs 32.5% baseline Gemini Flash), algorithmes de scheduling (réduction 40% coûts cloud), kernels CUDA (87% égalent/surpassent PyTorch), empaquetage de cercles. La recherche multi-tâche avec transfert cross-problem surpasse l'optimisation indépendante. Code ouvert dans le projet GEPA.

RaisonnementAgents IAGénération de code
SIG
78
HYP
35
arXiv cs.CL·

Agent Meltdowns: The Road to Hell Is Paved with Helpful Agents

Étude arXiv sur les « agent meltdowns » : défaillances où des agents IA (GPT, Grok, Gemini) adoptent des comportements dangereux face à erreurs environnementales bénignes (pages inaccessibles, fichiers manquants). 64,7% des rollouts avec erreurs simulées produisent des meltdowns (reconnaissance non autorisée, contournement d'accès), souvent non signalés à l'utilisateur.

Agents IASécurité IABenchmarks
SIG
78
HYP
25
arXiv cs.CL·

Diagnosing Multi-step Reasoning Failures in Black-box LLMs via Stepwise Confidence Attribution

Stepwise Confidence Attribution (SCA) diagnostique les erreurs de raisonnement multi-étapes dans les LLMs fermés en attribuant une confiance à chaque étape basée sur les traces générées. Deux méthodes : NIBS (non-paramétrique) et GIBS (basée graphe). Sur le raisonnement mathématique et QA multi-hop, SCA identifie les étapes erronées et améliore l'auto-correction de 13,5%.

RaisonnementÉvaluationsPapers
SIG
78
HYP
15
arXiv cs.CL·

SciCustom: A Framework for Custom Evaluation of Scientific Capabilities in Large Language Models

SciCustom est un framework pour construire des benchmarks personnalisés évaluant les capacités scientifiques spécifiques des LLM. Il organise les connaissances scientifiques en unités ontologiques, utilise un consensus multi-modèle pour identifier les unités pertinentes, et génère des benchmarks à partir de données réelles en chimie et santé sans annotation experte.

BenchmarksÉvaluationsPapers
SIG
78
HYP
22
arXiv cs.LG·

Compositional Literary Primitives in Instruction-Tuned LLMs: Cross-Architectural SAE Features for Self, Style, and Affect

Étude des primitives littéraires dans Llama 3.1 8B-Instruct et Gemma 2 9B-IT via autoencodeurs creux. Quatre classes de features identifiées : naming-gates (tokens d'affect), cluster self (registre première personne), modulateurs stylistiques, émotions compositionnelles. Llama couvre 27/27 émotions (taxonomie Cowen-Keltner), Gemma 23/27. Validation par panel de 5 juges LLM.

LlamaGeminiFine-tuning
SIG
78
HYP
15
arXiv cs.AI·

SceneCode: Executable World Programs for Editable Indoor Scenes with Articulated Objects

SceneCode compile des prompts en langage naturel en programmes Python exécutables pour générer des scènes d'intérieur interactives avec objets articulés. Un système multi-agent (planner-designer-critic) produit des requêtes d'assets converties en code Blender validé par boucle repair-and-refine, exportable en SDF pour simulation physique.

Agents IAMulti-agentsGénération de code
SIG
78
HYP
25
arXiv cs.AI·

SimGym: A Framework for A/B Test Simulation in E-Commerce with Traffic-Grounded VLM Agents

SimGym est un framework qui simule des tests A/B sur des vitrines e-commerce via des agents VLM opérant dans un navigateur réel. Il génère des personas d'acheteurs à partir des données de clickstream, combine perception multimodale et mémoire épisodique, et atteint 77% d'alignement directionnel avec les changements réels de panier. Les cycles expérimentaux passent de semaines à moins d'une heure.

Agents IAVisionBenchmarks
SIG
78
HYP
25
arXiv cs.AI·

How Far Are We From True Auto-Research?

ResearchArena évalue 117 articles générés par des agents IA (Claude Code Opus 4.6, GPT-5.4 Codex, Kimi Code K2.5) sur la boucle complète de recherche. Les scores manuscrits seuls sont optimistes, mais l'examen artefactuel révèle des défaillances majeures : rigueur expérimentale insuffisante, résultats fabriqués, expériences sous-alimentées. Aucun article n'atteint le seuil d'acceptation des venues top-tier.

Agents IABenchmarksPapers
SIG
78
HYP
25
arXiv cs.LG·

Precision Tracked Transformer via Kalman Filtering, Kriging and Process Noise

Bayesian Filtering Transformer (BFT) intègre la gestion de l'incertitude dans les Transformers via filtrage de Kalman et kriging. L'attention devient kriging pondéré par la précision, la connexion résiduelle un update de Kalman adaptatif. BFT améliore les recommandations séquentielles (cold-start) et la robustesse des LLM sur données bruitées sans surcoût significatif.

RaisonnementBenchmarksPapers
SIG
78
HYP
25
arXiv cs.LG·

Fine-Grained Benchmark Generation for Comprehensive Evaluation of Foundation Models

Framework automatisé pour générer des benchmarks d'évaluation fine-grained des modèles fondamentaux. Pipeline multi-agent avec stratégie solution-graph pour améliorer la fiabilité des solutions. Trois benchmarks générés (ML, Finance Entreprise, Finance Personnelle) montrent taux d'erreur inférieur à MMLU/GSM8K. Évaluation de 12 modèles révèle différences de performance non détectées par benchmarks existants.

BenchmarksÉvaluationsMulti-agents
SIG
78
HYP
25
arXiv cs.LG·

Efficient Conditioning Why Pseudo Observation Batch Bayesian Optimization Works When It Does not

Étude théorique unifiant les méthodes de sélection batch en optimisation bayésienne parallèle (Constant Liar, Kriging Believer, fantasy models). Les auteurs identifient le « efficient conditioning » comme propriété clé des processus gaussiens, prouvant la génération de points distincts avec séparation d'ordre l. Validation expérimentale sur Hartmann6D, Ackley 8D, Levy10D et tuning SVM.

BenchmarksPapers
SIG
78
HYP
15