Archives

juin 2026

503 articles

arXiv cs.LG·

RESCAST-100K: A Comprehensive Dataset for Cross-Domain Residential Load and Indoor Temperature Forecasting

RESCAST-100K est un benchmark de 100 000 foyers américains simulés (EnergyPlus/ResStock) pour évaluer la généralisation cross-domain en prévision de charge énergétique résidentielle et température intérieure. Dataset de séries temporelles 15-min avec 40+ covariables statiques, intégrant 5 datasets réels. Les modèles cross-attention et MLP-mixer surpassent les transformers classiques sous domain shift.

BenchmarksFine-tuningPapers
SIG
78
HYP
15
arXiv cs.LG·

Locality Does Not Imply Reachability: Boundary Repair in Block-Sparse Causal Attention

Article théorique sur les limites de l'attention causale par blocs fixes : deux tokens adjacents peuvent être déconnectés dans le graphe d'attention. Les auteurs formalisent ce problème via les ensembles de dépendance structurelle et proposent Boundary Bridge Attention, une réparation sans paramètres supplémentaires utilisant des arêtes causales auxiliaires aux frontières des blocs.

RaisonnementBenchmarksPapers
SIG
72
HYP
15
arXiv cs.LG·

ReLoRA: Knowledge-Reusing Adaptation for Fast Rollout of Evolving LLM Services

ReLoRA est un framework de ré-adaptation efficace pour les services LLM en évolution continue. Il utilise l'optimisation bayésienne pour initialiser les adaptateurs LoRA de manière compatible avec les mises à jour du modèle de base, puis affine avec régularisation progressive. Résultats : réduction du temps de déploiement jusqu'à 8,9× et amélioration de précision jusqu'à 4,6%.

Fine-tuningRaisonnementBenchmarks
SIG
78
HYP
15
arXiv cs.CL·

Conditional Hypothesis Generation for LLM-Based Text Analysis with Researcher-Specified Covariates

Méthode de génération d'hypothèses conditionnelles pour l'analyse textuelle par LLM, intégrant des covariables spécifiées par les chercheurs. Résout les problèmes de déséquilibre de strates et d'inversion de signe via interactions features-covariables et rééquilibrage inverse-fréquence. Validation sur données synthétiques et réelles en sciences sociales computationnelles.

Prompt engineeringÉvaluationsPapers
SIG
72
HYP
15
arXiv cs.CL·

Economy of Minds: Emerging Multi-Agent Intelligence with Economic Interactions

Des chercheurs proposent une économie d'agents où les IA se coordonnent via des enchères et des échanges de paiements, sans contrôle centralisé. Inspirée par la théorie économique de Hayek, cette approche génère des stratégies de raisonnement multi-étapes émergentes et surpasse les baselines sur cinq tâches (raisonnement mathématique, recherche financière, optimisation de systèmes distribués).

Multi-agentsAgents IARaisonnement
SIG
72
HYP
35
arXiv cs.CL·

Fast-dLLM++: Fr\'{e}chet Profile Decoding for Faster Diffusion LLM Inference

Fast-dLLM++ améliore l'inférence des modèles de diffusion LLM en remplaçant la sélection de tokens par confiance homogène par un décodage basé sur le profil Fréchet. Sans entraînement supplémentaire, cette méthode exploite les profils de confiance hétérogènes pour paralléliser davantage de tokens, gagnant jusqu'à 37% de débit sur GSM8K, MATH, HumanEval et MBPP avec LLaDA-8B.

LlamaGénération de codeBenchmarks
SIG
78
HYP
15
arXiv cs.LG·

Improvise, Adapt, Overcome: An On-The-Fly Multifidelity Algorithm for Efficient Machine Learning

Algorithme multifidélité adaptatif pour l'apprentissage machine en chimie quantique. Détermine dynamiquement la composition du dataset en interrogeant les échantillons à chaque niveau de fidélité. Réduit les coûts de génération de données jusqu'à 30× vs méthode monofidélité et 5× vs MFML standard sur énergies de cluster couplé et énergies d'excitation.

BenchmarksPapersFine-tuning
SIG
72
HYP
18
arXiv cs.CL·

Pretraining Language Models on Historical Text

TypewriterLM est un modèle de langage de 7.24B paramètres entraîné exclusivement sur du texte anglais antérieur à 1913. Les auteurs construisent TypewriterCorpus (54B tokens), un corpus historique nettoyé avec procédures anti-fuite, et introduisent lexically grounded instruction tuning pour ancrer les réponses dans des documents historiques. Trois datasets et un benchmark (History-Event) sont publiés.

PapersFine-tuningBenchmarks
SIG
78
HYP
15
arXiv cs.CL·

Fully Automated Identification of Lexical Alignment and Preference-Stage Shifts in Large Language Models

Deux métriques automatisées évaluent le désalignement lexical des LLM : Lexical Alignment Score détecte la surutilisation de termes ('suggest', 'additionally', 'strategy'), Triangulated Preference Shift quantifie l'impact du RLHF. Testées sur 6 familles (Falcon, Gemma, Llama, Mistral, OLMo, Yi) via abstracts PubMed, sans annotation manuelle.

AlignementÉvaluationsReinforcement learning
SIG
72
HYP
18
arXiv cs.AI·

AURA: Action-Gated Memory for Robot Policies at Constant VRAM

AURA-Mem propose une mémoire récurrente de taille constante (4,224 bytes) pour les politiques robotiques, avec une porte apprise qui n'écrit en mémoire que si l'observation change l'action suivante. Sur LIBERO-Long avec OpenVLA-OFT 7B, elle égale la politique de base (0.233 de succès) tout en réduisant les écritures mémoire de 7× et la consommation VRAM de 6,061× vs KV-cache.

RobotiqueAgents IARaisonnement
SIG
78
HYP
25
arXiv cs.AI·

A Negative Result on Cross-Model Activation Transfer in a Pythia Multi-Hop Setting

Étude sur le transfert d'activations entre modèles de langage (Pythia-160M vers Pythia-410M). Une couche de translation linéaire aligne fortement les états cachés (similarité cosinus 0.97), mais l'injection des activations traduites n'améliore pas les performances en inférence. Résultat négatif : l'alignement représentationnel hors ligne ne suffit pas pour une communication causale utile.

RaisonnementPapersÉvaluations
SIG
72
HYP
15
arXiv cs.LG·

Auditable Climate Risk Intelligence from Fragmented ESG Data: Deterministic Orchestration and Imbalance-Aware Learning for Scope 1-3 Validation

Framework d'orchestration déterministe pour valider les données ESG fragmentées (Scope 1-3) avec détection d'anomalies temporelles, apprentissage d'ensemble imbalancé et traçabilité d'audit. Benchmark synthétique calibré sur GHG Protocol, PCAF, ISSB. Évaluation sur métriques de classification, calibration et complétude de chaîne de provenance.

BenchmarksÉvaluationsReinforcement learning
SIG
72
HYP
15
arXiv cs.LG·

Binary Road Surface Classification Using Machine Learning on Production Vehicle Signals During Cruising

Méthode ML pour classifier en temps réel l'état de la route (grip sec/humide vs glissance neige/glace) à partir de signaux véhicule en croisière. Framework feature-based et end-to-end utilisant vitesses roues, couples, accélération longitudinale, angle braquage, vitesse de lacet. Validation sur données route publique.

Reinforcement learningBenchmarksVision
SIG
72
HYP
15
arXiv cs.LG·

Spectral-Progressive Thought Flow for Lightweight Multimodal Reasoning

SpecFlow propose un cadre léger de raisonnement spatial multimodal utilisant l'espace cosinus discret pour représenter les pensées visuelles intermédiaires. Via guidance sans classificateur, les pensées textuelles autogénératives dirigent les mises à jour visuelles sans expansion de contexte. Résultat : réduction jusqu'à 2,1× des coûts de calcul et cache KV avec performance compétitive.

RaisonnementVisionMulti-agents
SIG
72
HYP
18
arXiv cs.LG·

A Systematic Evaluation of Current Architectures in Wind Power Forecasting

Revue systématique des architectures hybrides pour la prévision d'intervalles de puissance éolienne. Les approches combinant deep learning, décomposition modale (VMD, EEMD) et méthodes statistiques améliorent la précision. Stratégie dominante : deux modèles indépendants (LSTM, ELM) pour bornes inférieure/supérieure. Défis : absence de métriques standardisées, complexité computationnelle, validation réelle limitée.

BenchmarksPapers
SIG
65
HYP
15
arXiv cs.AI·

BehaviorBench: Modeling Real-World User Decisions from Behavioral Traces

BehaviorBench est un benchmark pour évaluer la modélisation des décisions personnalisées à partir de traces comportementales réelles. Construit sur 2 000 portefeuilles avec 141 445 instances de prédiction de croyances et 1 485 972 instances de prédiction de transactions, il teste si les modèles génératifs peuvent adapter leurs prédictions aux utilisateurs individuels sans simulation.

BenchmarksÉvaluationsPapers
SIG
75
HYP
15
arXiv cs.AI·

ChatHealthAI: Aligning Electronic Health Record Representations with Large Language Models for Grounded Clinical Reasoning

ChatHealthAI aligne les représentations structurées des dossiers médicaux électroniques (EHR) avec l'espace sémantique d'un LLM gelé via un resampler task-aware. Le framework multimodal intègre les représentations longitudinales des patients avec des descriptions d'événements cliniques raffinées, améliorant le raisonnement clinique interprétable tout en maintenant la performance prédictive sur le benchmark EHRSHOT.

RAGRaisonnementÉvaluations
SIG
72
HYP
18
arXiv cs.CL·

IdiomX A Multilingual Benchmark for Idiom Understanding, Retrieval, and Interpretation

IdiomX est un benchmark multilingue à grande échelle pour la compréhension des expressions idiomatiques, contenant 190K+ exemples contextualisés couvrant 12K+ idiomes en anglais, arabe et français. Le dataset inclut des étiquettes d'usage idiomatique/littéral et des métadonnées linguistiques. Quatre tâches évaluent la détection, la récupération et l'interprétation d'idiomes.

Benchmarks
SIG
78
HYP
15
arXiv cs.AI·

Handoff Debt: The Rediscovery Cost When Coding Agents Take Over Interrupted Tasks

Étude de la « dette de passation » : le coût de redécouverte quand un agent de codage reprend une tâche interrompue. Sur 75 tâches et 724 exécutions, fournir des notes structurées réduit les événements médians de 20–59 % et les tokens de 42–63 % vs. état du dépôt seul. Les benchmarks d'agents doivent évaluer l'efficacité de reprise, pas seulement la résolution.

Agents IAGénération de codeBenchmarks
SIG
78
HYP
15
arXiv cs.CL·

Topics as Proxies for Sociodemographics: How Conversational Context Affects LLM Answers

Étude arXiv montrant que les LLM ne déduisent pas bien les caractéristiques socio-démographiques des utilisateurs à partir d'un historique conversationnel unique. Les disparités observées dans les conseils (juridique, médical, financier) sont faibles mais présentes. Les sujets de conversation s'avèrent plus prédictifs que les données socio-démographiques et affectent les réponses de manière imprévisible.

PapersSécurité IAAlignement
SIG
72
HYP
15
arXiv cs.CL·

Fixing FOLIO and MALLS: Verified Annotations and an LLM-assisted Framework to Focus Human Relabeling

Audit systématique des benchmarks FOLIO et MALLS révélant 39% et 36% d'erreurs dans les formalisations FOL. Les auteurs publient des annotations corrigées et un framework LLM pour guider la relabélisation manuelle, permettant d'atteindre 90% de précision en révisant <24% des instances. Tests sur Gemma 31B, Qwen3-30B et GPT-4o-mini montrent des gains de +9 à +22 points.

BenchmarksÉvaluationsRaisonnement
SIG
82
HYP
15
arXiv cs.CL·

The Ghost Annotator: a Framework to Explore Human Label Variation in Content Moderation through Conformal Prediction

Framework combinant prédiction conforme et représentation collaborative pour analyser le comportement des LLM face aux annotateurs humains en modération de contenu. Introduit la métrique Ghost Prediction pour quantifier les divergences modèle-humains. Évaluation sur 4 LLM et 4 datasets révèle que les grands modèles sont plus confiants sur textes sans alignement humain, avec biais démographique structurel.

ÉvaluationsSécurité IAAlignement
SIG
72
HYP
18
arXiv cs.CL·

EURO-5K: When Does Domain Pretraining Matter? Benchmarking Transformers for EU Reporting Obligation Extraction

EURO-5K est un corpus de 5K phrases annotées pour l'extraction d'obligations de reporting dans la législation EU (136 actes législatifs). Comparaison de modèles BERT fine-tunés et LLMs (QLoRA) : BERT générique et juridique atteignent 0.89 F1 similaire ; le préentraînement juridique aide surtout en tuning efficace en paramètres. Convergence à 3K samples.

BenchmarksFine-tuningPapers
SIG
78
HYP
15
arXiv cs.CL·

Predicting Inference-Time Scaling Gains from Labeled Validation-Set Output Statistics

Méthode pour prédire les gains de scaling en inférence (best-of-N) sans exécuter la procédure complète. Ridge predictor identifie 3 features stables (accord inter-prompts, position du premier échantillon correct, variance de longueur) + entropie, atteignant ρ=0.90 de corrélation avec les gains réels sur familles de modèles et tâches math/reasoning.

RaisonnementÉvaluationsReinforcement learning
SIG
78
HYP
15
arXiv cs.CL·

Hint-Guided Diversified Policy Optimization for LLM Reasoning

HDPO (Hint-Guided Diversified Policy Optimization) améliore le raisonnement des LLM via renforcement avec récompenses vérifiables. La méthode incite le modèle à générer d'abord plusieurs approches candidates (hints), puis sélectionner la plus fiable. Deux étapes : Cold Start pour structurer le raisonnement, puis RL guidé par hints pour diversifier et fiabiliser les solutions.

RaisonnementReinforcement learningPapers
SIG
72
HYP
28
arXiv cs.AI·

SkillDAG: Self-Evolving Typed Skill Graphs for LLM Skill Selection at Scale

SkillDAG modélise les relations entre compétences d'agents LLM comme un graphe typé orienté, permettant une sélection dynamique de compétences à l'inférence. Sur ALFWorld et SkillsBench avec MiniMax-M2.7, le système atteint 67,1% de succès et 27,3% de récompense, surpassant les baselines Graph-of-Skills de +12,8 et +8,6 points. Le graphe s'enrichit pendant l'exécution via un protocole propose-then-commit.

Agents IARaisonnementBenchmarks
SIG
78
HYP
25
arXiv cs.AI·

DELTAMEM: Incremental Experience Memory for LLM Agents via Residual Trees

DeltaMem organise la mémoire d'expérience des agents LLM en deux arbres résiduels : l'un stocke les tâches comme compétences réutilisables, l'autre les connaissances environnementales. Chaque arbre utilise des nœuds racine pour les expériences généralisées et des nœuds delta pour les variations, éliminant la redondance. Un mécanisme de consolidation autonome distille les chemins fréquents en nouveaux nœuds racine.

Agents IARaisonnementPapers
SIG
75
HYP
25
arXiv cs.AI·

The Shadow Price of Reasoning: Economic Perspective on Optimal Budget Allocation for LLMs

Papier arXiv proposant CLEAR, une méthode d'allocation optimale de budget de calcul pour l'inférence LLM basée sur la théorie économique. Via une fonction d'utilité « shifted-surge » et un prix fantôme global, CLEAR abandonne les requêtes non-solvables et réalloue les ressources. Résultats : 3x d'amélioration en précision globale vs allocation uniforme en régimes de ressources limitées.

RaisonnementBenchmarksInfrastructure
SIG
78
HYP
25
arXiv cs.AI·

Decomposing how prompting steers behavior

Étude de la géométrie représentationnelle pour comprendre comment les prompts modifient le comportement des LLMs et VLMs. Framework de décomposition imbriquée testant translation, transformation rigide, scaling, transformation affine et non-linéaire sur 3 LLMs, 3 VLMs et 6 datasets. Résultat : le mixing linéaire cross-dimensionnel (transformation affine) est le mécanisme clé de réorganisation représentationnelle.

Prompt engineeringRaisonnementPapers
SIG
78
HYP
15
arXiv cs.AI·

From Long News to Accurate Forecast: Importance-Aware Fusion and PRM-Guided Reflection for Time Series Forecasting

Nouvelle méthode pour intégrer les actualités dans la prévision de séries temporelles via compression intelligente et supervision de retrieval. Un modèle de récompense estime l'utilité prédictive de chaque article, tandis qu'un PRM guide la sélection d'articles supplémentaires. Tests sur finance, énergie, trafic et bitcoin montrent amélioration de précision et réduction des itérations.

LlamaRaisonnementRAG
SIG
72
HYP
28
arXiv cs.AI·

DeskCraft: Benchmarking Desktop Agents on Professional Workflows and Human-in-the-Loop Collaboration

DeskCraft est un benchmark pour agents desktop GUI évaluant des workflows professionnels longs (>50 étapes) en design, vidéo, audio et 3D avec collaboration humain-agent. 18 agents testés sur 538 tâches : GPT-5.4 atteint 31,6% en mode standard et 27,6% en mode interactif. Révèle des faiblesses en clarification proactive et exécution long horizon.

Agents IABenchmarksÉvaluations
SIG
82
HYP
18
arXiv cs.AI·

EvoTrainer: Co-Evolving LLM Policies and Training Harnesses for Autonomous Agentic Reinforcement Learning

EvoTrainer co-évolue les politiques LLM et les harnesses d'entraînement via feedback empirique pour l'RL agentic autonome. Testé sur raisonnement mathématique, génération de code compétitif et ingénierie logicielle, le système égale ou surpasse les références RL conçues manuellement, avec gains majeurs sur les tâches SWE longue horizon.

Agents IAReinforcement learningGénération de code
SIG
78
HYP
25
arXiv cs.CL·

The Deliberative Illusion: Diagnosing Factual Attrition and Stance Homogenization in Multi-Agent LLM Deliberation

Les systèmes multi-agents LLM perdent jusqu'à 72% des faits critiques lors de la délibération, créant une « illusion délibérative ». DelibTrace mesure cette attrition factuelle et l'homogénéisation des positions. Les agents convergent vers un consensus tout en oubliant les éléments essentiels pour interpréter le problème.

Multi-agentsAgents IAÉvaluations
SIG
78
HYP
25
arXiv cs.CL·

The Geometry of LLM-as-Judge: Why Inter-LLM Consensus Is Not Human Alignment

Étude géométrique montrant que l'accord inter-LLM sur les évaluations subjectives ne reflète pas l'alignement humain. Sur 41 juges LLM et 8 langues indiennes, les modèles utilisent 30-50% de la plage de scores humains, avec un axe d'évaluation quasi-orthogonal aux humains (87-89° vs 78-81°). L'accord LLM-LLM (r≈0.35) dépasse LLM-humain (r≈0.27-0.32). Seule la calibration post-hoc améliore tous les critères.

ÉvaluationsAlignementBenchmarks
SIG
82
HYP
15
arXiv cs.CL·

G^2C-MT: Graph-Guided Context Selection for Document-Level Machine Translation

G²C-MT propose une sélection de contexte guidée par graphe pour la traduction automatique au niveau du document. Le système modélise les dépendances discursives entre paragraphes via un graphe léger et utilise une marche aléatoire biaisée en profondeur pour extraire des chemins de contexte. Testé sur DeepSeek-V3, Gemini-2.5-Flash-lite et Qwen-2.5/3, l'approche surpasse les baselines sur plusieurs domaines.

PapersBenchmarksDeepSeek
SIG
72
HYP
18
arXiv cs.CL·

Regret Pre-training: Bridging Prior and Posterior Views for Enhanced Knowledge Grounding

Regret Pre-training introduit un cadre d'apprentissage auto-supervisé basé sur LUPI, utilisant une architecture dual-view pour générer distributions Student (causale) et Teacher (future-conditionnée). Sur OLMoE-1B-7B après 4B tokens, GlobalRegret et LocalRegret atteignent 33.9% et 32.2% de précision moyenne vs 30.2% baseline, avec gain de 18.1pp sur BoolQ. Zéro paramètre supplémentaire.

PapersRaisonnementFine-tuning
SIG
78
HYP
15
arXiv cs.CL·

Can Factual Opinions Be Edited (Manipulated) in Large Language Models?

Nouvelle étude arXiv sur l'édition de faits opinionnés dans les LLM. Benchmark FOE avec 261 personnalités publiques, 19 catégories de sujets, 2,178 enregistrements d'opinions. Les méthodes actuelles échouent à préserver la cohérence entre opinion éditée et preuves générées. Proposition d'une méthode Self-Generated Evidence-Aligned pour l'alignement opinion-preuves.

PapersÉvaluationsSécurité IA
SIG
72
HYP
28
arXiv cs.CL·

Coherence Maximization Improves Pluralistic Alignment

Une méthode appelée Internal Coherence Maximization (ICM) génère automatiquement des exemples pour aligner les modèles IA sur des valeurs humaines diverses, sans supervision humaine extensive. Testée sur quatre benchmarks, ICM égale la performance des labels manuels. La cohérence des exemples améliore la généralisation même à précision égale, particulièrement pour les personas sous-représentées.

AlignementPrompt engineeringPapers
SIG
72
HYP
25
arXiv cs.CL·

DMT-CBT: Longitudinal Therapeutic State Modeling for CBT Counseling

DMT-CBT modélise l'évolution longitudinale des états thérapeutiques en TCC sur plusieurs sessions. Le framework maintient des états structurés, intègre des données multimodales et des interventions augmentées par outils. DMTCorpus, un dataset synthétique multimodal, démontre une meilleure fidélité thérapeutique et alliance thérapeutique comparé aux approches post-hoc.

RaisonnementVisionAgents IA
SIG
72
HYP
28
arXiv cs.LG·

Before Fusion, Ask What to Keep: Contextual Calibration of Multimodal Signals

Méthode de calibration des signaux multimodaux avant fusion. Un module compact compare chaque modalité (langage, son, vision) avec les autres, extrait les signaux de support et conflit cross-source, et module les représentations avant leur combinaison. Testé sur 5 benchmarks (sentiment, reconnaissance d'actions, détection d'événements audio-visuels, classification d'émotions) avec améliorations consistantes.

VisionVoixMulti-agents
SIG
72
HYP
15
arXiv cs.CL·

AI Rater Discrimination Depends on Scoring Protocol in Complex Clinical Decision-Making

Étude factorial sur 4 LLMs open-source évaluant des décisions cliniques en diabète type 2. Les LLMs utilisés comme évaluateurs donnent des scores 74–78 points en protocole sans rubrique vs 7.69–49.64 points avec rubrique ancrée. La rubrique amplifie la discrimination entre modèles (facteur 1.76–5.10) et révèle variations comportementales masquées sans rubrique.

ÉvaluationsBenchmarksSécurité IA
SIG
78
HYP
15
arXiv cs.AI·

Perceive Before Reasoning: A Pre-Reasoning Perception Framework for Efficient and Reliable Proactive Mobile Agents

Un framework deux-étapes (PRPF) pour agents mobiles proactifs sépare la perception (décider d'intervenir) du raisonnement (comment aider). Un percepteur léger filtre les faux positifs, activant le reasoner MLLM seulement si nécessaire. Réduit les faux déclenchements et améliore l'efficacité sur le benchmark ProactiveMobile.

Agents IAVisionRaisonnement
SIG
72
HYP
25
arXiv cs.AI·

Do Real-World Datasets Contain Natural Experiments? An Empirical Study Using Causal Feature Selection

Étude empirique sur la détection de « natural experiments » (interventions implicites) dans des datasets réels via découverte causale et sélection de features. Les auteurs valident sur données synthétiques puis évaluent 50+ datasets réels, montrant que traiter les données comme interventionnelles plutôt qu'observationnelles améliore les performances.

BenchmarksPapers
SIG
72
HYP
18
arXiv cs.AI·

Distilling Answer-Set Programming Rules from LLMs for Neurosymbolic Visual Question Answering

Méthode pour extraire des règles Answer-Set Programming (ASP) depuis des LLM afin d'améliorer le Visual Question Answering (VQA). L'approche utilise des exemples de datasets VQA pour guider le LLM à étendre une théorie de raisonnement initiale, avec validation par le solveur ASP. Démontre l'efficacité sur plusieurs datasets avec peu d'exemples.

VisionRaisonnementPapers
SIG
72
HYP
18
arXiv cs.AI·

LEAP: Supercharging LLMs for Formal Mathematics with Agentic Frameworks

LEAP est un framework agentic qui permet aux LLMs de générer des preuves formelles vérifiables en Lean. Le système décompose les problèmes complexes en unités plus petites via interaction itérative avec le compilateur Lean. Sur les 12 problèmes du Putnam 2025, LEAP en résout tous les 12 ; sur Lean-IMO-Bench, il atteint 70% de taux de résolution contre <10% pour les LLMs génériques.

Agents IARaisonnementBenchmarks
SIG
85
HYP
25
arXiv cs.LG·

Representational Capacity: Geometric Limits on Feature Representation in Transformer Language Models

Étude théorique sur les limites géométriques de la représentation de features dans les transformers. Les auteurs établissent un cadre basé sur les hypothèses de représentation linéaire et superposition, montrant que la capacité représentationnelle dépend du ratio vecteurs/dimensions (k/d) plutôt que du nombre brut. Analyse de dizaines de modèles open-source révèle deux classes selon la contrainte d'orthogonalité ε.

PapersRaisonnementBenchmarks
SIG
72
HYP
15
arXiv cs.LG·

Human-in-the-Loop Contextual Bandits for Short-Term Rental Dynamic Pricing: Structural Equivalence of Historical Warm-Up and Approval-Gated Live Learning

Framework HITL-GB pour la tarification dynamique dans les locations courte durée : un algorithme de bandit contextuel génère des recommandations de prix qu'un humain peut accepter, modifier ou rejeter. Les auteurs montrent que les données historiques sont structurellement équivalentes à un warm-up on-policy, réduisant le cold-start de ~150 à ~30 épisodes. Validé sur 1 461 nuits réelles (avril 2022-2026).

Agents IAReinforcement learningBenchmarks
SIG
75
HYP
15
arXiv cs.LG·

Spectral Asymptotics of Neural Network Loss Landscapes: An Exact Decomposition of the Curvature Exponent

Étude théorique de la géométrie des paysages de perte des réseaux de neurones. Les auteurs prouvent une décomposition spectrale expliquant pourquoi l'exposant de courbure α varie selon les couches (α≈2 convolutions, α≈1 attention transformer, α<1 MLP). Validation empirique sur 93 couches, 5 architectures, 3 datasets avec erreur médiane ~2%.

PapersRaisonnementBenchmarks
SIG
78
HYP
15
arXiv cs.LG·

Testing the Test: Score-Direction Instability in Class-Split Anomaly Detection

Les auteurs montrent que l'évaluation class-split (une classe retenue comme anomalie) en détection d'anomalies est instable quand la classe anomale chevauche le mélange normal en espace de représentation. Les scores d'anomalie peuvent s'effondrer ou s'inverser. Un diagnostic simple (neighborhood class leakage) prédit cette instabilité sur Fashion-MNIST, CIFAR-10, Imagenette.

ÉvaluationsBenchmarks
SIG
72
HYP
15