Page 6 sur 137

ToutHaut signalRécent
5462 articles
arXiv cs.AI·

AURA: Action-Gated Memory for Robot Policies at Constant VRAM

AURA-Mem propose une mémoire récurrente de taille constante (4,224 bytes) pour les politiques robotiques, avec une porte apprise qui n'écrit en mémoire que si l'observation change l'action suivante. Sur LIBERO-Long avec OpenVLA-OFT 7B, elle égale la politique de base (0.233 de succès) tout en réduisant les écritures mémoire de 7× et la consommation VRAM de 6,061× vs KV-cache.

RobotiqueAgents IARaisonnement
SIG
78
HYP
25
arXiv cs.AI·

Decomposing how prompting steers behavior

Étude de la géométrie représentationnelle pour comprendre comment les prompts modifient le comportement des LLMs et VLMs. Framework de décomposition imbriquée testant translation, transformation rigide, scaling, transformation affine et non-linéaire sur 3 LLMs, 3 VLMs et 6 datasets. Résultat : le mixing linéaire cross-dimensionnel (transformation affine) est le mécanisme clé de réorganisation représentationnelle.

Prompt engineeringRaisonnementPapers
SIG
78
HYP
15
arXiv cs.AI·

The Shadow Price of Reasoning: Economic Perspective on Optimal Budget Allocation for LLMs

Papier arXiv proposant CLEAR, une méthode d'allocation optimale de budget de calcul pour l'inférence LLM basée sur la théorie économique. Via une fonction d'utilité « shifted-surge » et un prix fantôme global, CLEAR abandonne les requêtes non-solvables et réalloue les ressources. Résultats : 3x d'amélioration en précision globale vs allocation uniforme en régimes de ressources limitées.

RaisonnementBenchmarksInfrastructure
SIG
78
HYP
25
arXiv cs.AI·

SkillDAG: Self-Evolving Typed Skill Graphs for LLM Skill Selection at Scale

SkillDAG modélise les relations entre compétences d'agents LLM comme un graphe typé orienté, permettant une sélection dynamique de compétences à l'inférence. Sur ALFWorld et SkillsBench avec MiniMax-M2.7, le système atteint 67,1% de succès et 27,3% de récompense, surpassant les baselines Graph-of-Skills de +12,8 et +8,6 points. Le graphe s'enrichit pendant l'exécution via un protocole propose-then-commit.

Agents IARaisonnementBenchmarks
SIG
78
HYP
25
arXiv cs.LG·

Spectral Asymptotics of Neural Network Loss Landscapes: An Exact Decomposition of the Curvature Exponent

Étude théorique de la géométrie des paysages de perte des réseaux de neurones. Les auteurs prouvent une décomposition spectrale expliquant pourquoi l'exposant de courbure α varie selon les couches (α≈2 convolutions, α≈1 attention transformer, α<1 MLP). Validation empirique sur 93 couches, 5 architectures, 3 datasets avec erreur médiane ~2%.

PapersRaisonnementBenchmarks
SIG
78
HYP
15
arXiv cs.CL·

AI Rater Discrimination Depends on Scoring Protocol in Complex Clinical Decision-Making

Étude factorial sur 4 LLMs open-source évaluant des décisions cliniques en diabète type 2. Les LLMs utilisés comme évaluateurs donnent des scores 74–78 points en protocole sans rubrique vs 7.69–49.64 points avec rubrique ancrée. La rubrique amplifie la discrimination entre modèles (facteur 1.76–5.10) et révèle variations comportementales masquées sans rubrique.

ÉvaluationsBenchmarksSécurité IA
SIG
78
HYP
15
arXiv cs.LG·

RESCAST-100K: A Comprehensive Dataset for Cross-Domain Residential Load and Indoor Temperature Forecasting

RESCAST-100K est un benchmark de 100 000 foyers américains simulés (EnergyPlus/ResStock) pour évaluer la généralisation cross-domain en prévision de charge énergétique résidentielle et température intérieure. Dataset de séries temporelles 15-min avec 40+ covariables statiques, intégrant 5 datasets réels. Les modèles cross-attention et MLP-mixer surpassent les transformers classiques sous domain shift.

BenchmarksFine-tuningPapers
SIG
78
HYP
15
arXiv cs.CL·

IdiomX A Multilingual Benchmark for Idiom Understanding, Retrieval, and Interpretation

IdiomX est un benchmark multilingue à grande échelle pour la compréhension des expressions idiomatiques, contenant 190K+ exemples contextualisés couvrant 12K+ idiomes en anglais, arabe et français. Le dataset inclut des étiquettes d'usage idiomatique/littéral et des métadonnées linguistiques. Quatre tâches évaluent la détection, la récupération et l'interprétation d'idiomes.

Benchmarks
SIG
78
HYP
15
arXiv cs.AI·

Handoff Debt: The Rediscovery Cost When Coding Agents Take Over Interrupted Tasks

Étude de la « dette de passation » : le coût de redécouverte quand un agent de codage reprend une tâche interrompue. Sur 75 tâches et 724 exécutions, fournir des notes structurées réduit les événements médians de 20–59 % et les tokens de 42–63 % vs. état du dépôt seul. Les benchmarks d'agents doivent évaluer l'efficacité de reprise, pas seulement la résolution.

Agents IAGénération de codeBenchmarks
SIG
78
HYP
15
arXiv cs.CL·

Predicting Inference-Time Scaling Gains from Labeled Validation-Set Output Statistics

Méthode pour prédire les gains de scaling en inférence (best-of-N) sans exécuter la procédure complète. Ridge predictor identifie 3 features stables (accord inter-prompts, position du premier échantillon correct, variance de longueur) + entropie, atteignant ρ=0.90 de corrélation avec les gains réels sur familles de modèles et tâches math/reasoning.

RaisonnementÉvaluationsReinforcement learning
SIG
78
HYP
15
arXiv cs.CL·

EURO-5K: When Does Domain Pretraining Matter? Benchmarking Transformers for EU Reporting Obligation Extraction

EURO-5K est un corpus de 5K phrases annotées pour l'extraction d'obligations de reporting dans la législation EU (136 actes législatifs). Comparaison de modèles BERT fine-tunés et LLMs (QLoRA) : BERT générique et juridique atteignent 0.89 F1 similaire ; le préentraînement juridique aide surtout en tuning efficace en paramètres. Convergence à 3K samples.

BenchmarksFine-tuningPapers
SIG
78
HYP
15
arXiv cs.CL·

Pretraining Language Models on Historical Text

TypewriterLM est un modèle de langage de 7.24B paramètres entraîné exclusivement sur du texte anglais antérieur à 1913. Les auteurs construisent TypewriterCorpus (54B tokens), un corpus historique nettoyé avec procédures anti-fuite, et introduisent lexically grounded instruction tuning pour ancrer les réponses dans des documents historiques. Trois datasets et un benchmark (History-Event) sont publiés.

PapersFine-tuningBenchmarks
SIG
78
HYP
15
arXiv cs.CL·

The Deliberative Illusion: Diagnosing Factual Attrition and Stance Homogenization in Multi-Agent LLM Deliberation

Les systèmes multi-agents LLM perdent jusqu'à 72% des faits critiques lors de la délibération, créant une « illusion délibérative ». DelibTrace mesure cette attrition factuelle et l'homogénéisation des positions. Les agents convergent vers un consensus tout en oubliant les éléments essentiels pour interpréter le problème.

Multi-agentsAgents IAÉvaluations
SIG
78
HYP
25
arXiv cs.AI·

EvoTrainer: Co-Evolving LLM Policies and Training Harnesses for Autonomous Agentic Reinforcement Learning

EvoTrainer co-évolue les politiques LLM et les harnesses d'entraînement via feedback empirique pour l'RL agentic autonome. Testé sur raisonnement mathématique, génération de code compétitif et ingénierie logicielle, le système égale ou surpasse les références RL conçues manuellement, avec gains majeurs sur les tâches SWE longue horizon.

Agents IAReinforcement learningGénération de code
SIG
78
HYP
25
arXiv cs.CL·

Regret Pre-training: Bridging Prior and Posterior Views for Enhanced Knowledge Grounding

Regret Pre-training introduit un cadre d'apprentissage auto-supervisé basé sur LUPI, utilisant une architecture dual-view pour générer distributions Student (causale) et Teacher (future-conditionnée). Sur OLMoE-1B-7B après 4B tokens, GlobalRegret et LocalRegret atteignent 33.9% et 32.2% de précision moyenne vs 30.2% baseline, avec gain de 18.1pp sur BoolQ. Zéro paramètre supplémentaire.

PapersRaisonnementFine-tuning
SIG
78
HYP
15
arXiv cs.LG·

Are we really tilting? The mechanics of reward guidance in flow and diffusion models

Les algorithmes de reward guidance stérisent les processus génératifs vers des mesures favorables aux récompenses. L'étude montre que le reward hacking provient d'une approximation pratique : l'estimation plug-in à particules finies de la fonction h de Doob. Les auteurs proposent un calendrier d'amortissement fermé et valident sur cibles gaussiennes, damier 2D et FLUX.1.

Reinforcement learningRaisonnementPapers
SIG
78
HYP
15
arXiv cs.LG·

ReLoRA: Knowledge-Reusing Adaptation for Fast Rollout of Evolving LLM Services

ReLoRA est un framework de ré-adaptation efficace pour les services LLM en évolution continue. Il utilise l'optimisation bayésienne pour initialiser les adaptateurs LoRA de manière compatible avec les mises à jour du modèle de base, puis affine avec régularisation progressive. Résultats : réduction du temps de déploiement jusqu'à 8,9× et amélioration de précision jusqu'à 4,6%.

Fine-tuningRaisonnementBenchmarks
SIG
78
HYP
15
arXiv cs.CL·

Fast-dLLM++: Fr\'{e}chet Profile Decoding for Faster Diffusion LLM Inference

Fast-dLLM++ améliore l'inférence des modèles de diffusion LLM en remplaçant la sélection de tokens par confiance homogène par un décodage basé sur le profil Fréchet. Sans entraînement supplémentaire, cette méthode exploite les profils de confiance hétérogènes pour paralléliser davantage de tokens, gagnant jusqu'à 37% de débit sur GSM8K, MATH, HumanEval et MBPP avec LLaDA-8B.

LlamaGénération de codeBenchmarks
SIG
78
HYP
15
Reddit r/MachineLearning·

Backpropagation destroys V1 brain alignment in one epoch, tracking RSA alignment to fMRI across training for BP, FA, predictive coding, and STDP [R]

Étude comparative de règles d'apprentissage (backprop, feedback alignment, predictive coding, STDP) via alignement RSA avec fMRI V1 humain. Backprop détruit 90% de l'alignement V1 après 1 epoch (r: 0.102→0.011), tandis que PC et STDP ne perdent que 25-31%. À epoch 40: PC/STDP >> BP/FA. Suggère un trade-off fondamental entre signaux d'erreur globaux (couches hautes) et alignement précoce.

AlignementBenchmarksPapers
SIG
78
HYP
15
Reddit r/MachineLearning·

LLM agents patch security bugs, pass all tests, but still leave the vulnerability open [R]

CVE-Bench évalue 5 modèles frontier sur 20 CVEs réelles (Pillow, GitPython, urllib3, etc.) avec 300 runs. Taux de résolution max 50% (60% en advisory). Les agents corrigent syntaxiquement mais laissent la vulnérabilité ouverte. Écarts significatifs cross-family (OpenAI vs Laguna, p<0.05), bruit intra-famille. Analyse des défaillances : drift de recherche, hallucinations, manque de contextualisation.

Agents IABenchmarksSécurité IA
SIG
78
HYP
15
arXiv cs.CL·

RealityTest: How People Probe AI Identity and Whether Models Disclose It

RealityTest évalue si les systèmes IA divulguent leur identité quand interrogés. Benchmark multilingue et multimodal basé sur 3 152 requêtes collectées auprès de ~750 participants dans 49 pays, 5 langues (texte et voix). Résultats : 31% seulement posent la question directement ; une instruction de suppression réduit la divulgation sous 30% même pour les meilleurs modèles.

Sécurité IAÉvaluationsBenchmarks
SIG
78
HYP
25
arXiv cs.CL·

Model-Based Quality Assessment for Massively Multilingual Parallel Data

Étude de l'évaluation automatique de données bilingues massives : décomposition en deux tâches (évaluation du parallélisme via embeddings multilingues, estimation de qualité sans référence). Benchmark de 4 modèles d'embeddings et 9 évaluateurs sur FLORES-200 couvrant 6 654 paires de langues. Résultat clé : aucun modèle n'est fiable universellement ; une approche direction-aware est nécessaire.

BenchmarksEmbeddingsÉvaluations
SIG
78
HYP
15
arXiv cs.CL·

ProtStructQA: A Denotation Threshold in Protein Structural Reasoning

ProtStructQA est un benchmark exécutable pour la réponse à des questions sur les structures protéiques. 382.2K questions générées depuis un langage spécialisé caché, évaluées sur Qwen3 (0.6B–8B) et Gemma-3. Découverte clé : seuil de capacité entre Qwen3-1.7B et 4B où les modèles passent de l'incapacité à produire des dénotations exécutables à la maîtrise du raisonnement chaîné.

BenchmarksRaisonnementQwen
SIG
78
HYP
15