Topic

#Papers

Les papers sont des articles de recherche scientifique publiés par des laboratoires ou universités pour présenter de nouvelles découvertes en IA. Par exemple, le paper "Attention Is All You Need" (Google, 2017) a introduit l'architecture Transformer.

40Articles
5Sources
73Signal moyen
arXiv cs.CL·

Fixing FOLIO and MALLS: Verified Annotations and an LLM-assisted Framework to Focus Human Relabeling

Audit systématique des benchmarks FOLIO et MALLS révélant 39% et 36% d'erreurs dans les formalisations FOL. Les auteurs publient des annotations corrigées et un framework LLM pour guider la relabélisation manuelle, permettant d'atteindre 90% de précision en révisant <24% des instances. Tests sur Gemma 31B, Qwen3-30B et GPT-4o-mini montrent des gains de +9 à +22 points.

BenchmarksÉvaluationsRaisonnement
SIG
82
HYP
00
arXiv cs.CL·

Topics as Proxies for Sociodemographics: How Conversational Context Affects LLM Answers

Étude arXiv montrant que les LLM ne déduisent pas bien les caractéristiques socio-démographiques des utilisateurs à partir d'un historique conversationnel unique. Les disparités observées dans les conseils (juridique, médical, financier) sont faibles mais présentes. Les sujets de conversation s'avèrent plus prédictifs que les données socio-démographiques et affectent les réponses de manière imprévisible.

PapersSécurité IAAlignement
SIG
72
HYP
00
arXiv cs.AI·

BehaviorBench: Modeling Real-World User Decisions from Behavioral Traces

BehaviorBench est un benchmark pour évaluer la modélisation des décisions personnalisées à partir de traces comportementales réelles. Construit sur 2 000 portefeuilles avec 141 445 instances de prédiction de croyances et 1 485 972 instances de prédiction de transactions, il teste si les modèles génératifs peuvent adapter leurs prédictions aux utilisateurs individuels sans simulation.

BenchmarksÉvaluationsPapers
SIG
75
HYP
00
Reddit r/MachineLearning·

Backpropagation destroys V1 brain alignment in one epoch, tracking RSA alignment to fMRI across training for BP, FA, predictive coding, and STDP [R]

Étude comparative de règles d'apprentissage (backprop, feedback alignment, predictive coding, STDP) via alignement RSA avec fMRI V1 humain. Backprop détruit 90% de l'alignement V1 après 1 epoch (r: 0.102→0.011), tandis que PC et STDP ne perdent que 25-31%. À epoch 40: PC/STDP >> BP/FA. Suggère un trade-off fondamental entre signaux d'erreur globaux (couches hautes) et alignement précoce.

AlignementBenchmarksPapers
SIG
78
HYP
00
arXiv cs.LG·

Balancing Learning Rates Across Layers: Exact Two-Step Dynamics and Optimal Scaling in Linear Neural Networks

Étude théorique des taux d'apprentissage optimaux dans les réseaux de neurones linéaires à 2-3 couches. Dérivation de formules fermées exactes pour les gradients et la perte après 1-2 étapes de descente de gradient. Résultat clé : les taux d'apprentissage inégaux minimisent la perte en phase initiale, tandis que les taux égaux deviennent optimaux après. Code disponible.

PapersReinforcement learning
SIG
75
HYP
00
arXiv cs.LG·

InfoAtlas: A Foundation Model for Zero-Shot Statistical Dependence Estimate

InfoAtlas est un modèle fondation capable d'estimer l'information mutuelle entre variables haute-dimensionnelles en une seule passe forward, sans optimisation itérative. Préentraîné sur données synthétiques, il atteint 100× d'accélération par rapport aux estimateurs neuraux classiques tout en maintenant la précision et généralise à des scénarios réels complexes.

PapersBenchmarksRaisonnement
SIG
72
HYP
00
arXiv cs.LG·

Agentic Transformers Provably Learn to Search via Reinforcement Learning

Étude théorique montrant comment les transformers apprennent à implémenter une recherche en arbre (DFS) via RL. Un transformer à deux têtes d'attention émerge naturellement d'un entraînement par gradient de politique sur des arbres stochastiques, sans démonstrations expertes. Le modèle généralise à des profondeurs non vues et adapte sa stratégie selon les distributions d'objectifs.

Agents IAReinforcement learningRaisonnement
SIG
78
HYP
00
arXiv cs.LG·

Accurate Large-sample Uncertainty Quantification using Stochastic Gradient Markov Chain Monte Carlo

Nouvel article arXiv proposant des approximations discrètes pour SG(L)D avec et sans momentum, permettant des prédictions précises de la covariance stationnaire et du temps d'autocorrélation intégré. Bornes d'erreur non-asymptotiques pour l'ajustement pratique et la quantification d'incertitude, validées sur modèles mal spécifiés et grands batch sizes.

Reinforcement learningBenchmarksPapers
SIG
72
HYP
00
arXiv cs.AI·

Probe Before You Edit: Probing-Guided Molecular Optimization for LLM Agents in Structure-Based Drug Design

PROBE, un framework d'optimisation pour agents LLM en conception de médicaments, résout le conflit entre affinité de liaison et druggabilité. Via probing d'édits contrôlés et une site map spécifique à la poche, il guide une boucle multi-agent (affinité, druggabilité, co-optimisation) sur CrossDocked2020 avec résultats SOTA.

Agents IAMulti-agentsRaisonnement
SIG
78
HYP
00
arXiv cs.LG·

Quantized Reasoning Models Think They Need to Think Longer, but They Do Not

La quantification post-entraînement (PTQ) réduit la précision des modèles de raisonnement et augmente la longueur des chaînes de pensée. 52% des erreurs proviennent de réponses correctes trouvées mais non finalisées. Une pénalité logit sans entraînement sur les marqueurs de surréflexion ("wait", "but") réduit la longueur de 12-23% tout en préservant la précision sur 5 modèles (1.5B-32B).

RaisonnementFine-tuningBenchmarks
SIG
78
HYP
00
arXiv cs.CL·

Toward Robust In-Context Learning: Leveraging Out-of-distribution Proxies for Target Inaccessible Demonstration Retrieval

DOPA, un framework de recherche de démonstrations, utilise un proxy OOD pour approximer le domaine cible inaccessible et guide la récupération de démonstrations pertinentes. Une contrainte de diversité basée sur la distance de Mahalanobis assure la variété des exemples sélectionnés. Résultats positifs sur plusieurs LLMs et tâches en contexte de distribution shift sévère.

Prompt engineeringBenchmarksPapers
SIG
72
HYP
00
arXiv cs.CL·

DLLM-JEPA: Joint Embedding Predictive Architectures for Masked Diffusion Language Models

DLLM-JEPA combine les architectures JEPA avec les modèles de langage par diffusion masquée pour l'apprentissage auto-supervisé. Élimine le besoin de paires multi-vues explicites et réduit les FLOPs d'entraînement de 33% vs LLM-JEPA. Améliore les performances de +18.7pp sur GSM8K (LLaDA-8B) et +11.4pp (Dream-7B) tout en préservant les capacités de base.

PapersFine-tuningRaisonnement
SIG
78
HYP
00
arXiv cs.CL·

Agreement Metrics for LLM-as-Judge Evaluation: What to Report and Why

Étude des métriques d'accord pour l'évaluation par LLM-as-Judge. Analyse de 24 papiers récents montrant que pour les critères binaires (MET/UNMET), Pearson r, Spearman ρ, Kendall τ_b et phi sont redondants. Cohen's κ seul ajoute de l'information. Les auteurs proposent une checklist de reporting incluant l'échelle de jugement, la gestion des abstentions et la matrice de confusion.

ÉvaluationsBenchmarksPapers
SIG
78
HYP
00
arXiv cs.CL·

Isolating LLM Lexical Bias: A Curation-Free Triangulated Metric for Preference-Stage Learning

Nouvelle métrique automatisée (Triangulated Preference Shift score) pour mesurer les biais lexicaux introduits lors de l'apprentissage par préférence (RLHF) dans les LLM, sans annotation manuelle. Analyse sur 6 familles de modèles révèle une tendance vers un « langage de prestige » (suremploi de « delve », « furthermore »).

Reinforcement learningAlignementÉvaluations
SIG
72
HYP
00
arXiv cs.CL·

ProtStructQA: A Denotation Threshold in Protein Structural Reasoning

ProtStructQA est un benchmark exécutable pour la réponse à des questions sur les structures protéiques. 382.2K questions générées depuis un langage spécialisé caché, évaluées sur Qwen3 (0.6B–8B) et Gemma-3. Découverte clé : seuil de capacité entre Qwen3-1.7B et 4B où les modèles passent de l'incapacité à produire des dénotations exécutables à la maîtrise du raisonnement chaîné.

BenchmarksRaisonnementQwen
SIG
78
HYP
00
arXiv cs.CL·

Revisiting Parameter-Based Knowledge Editing in Large Language Models: Theoretical Limits and Empirical Evidence

Étude théorique et empirique des limites de l'édition de paramètres dans les LLM. Les auteurs démontrent via l'hypothèse d'effondrement dimensionnel que les modifications localisées propagent des interférences globales dégradant les capacités du modèle. Les méthodes par récupération surpassent systématiquement l'édition paramétrique.

Fine-tuningRaisonnementPapers
SIG
78
HYP
00
arXiv cs.CL·

SPADER: Step-wise Peer Advantage with Diversity-Aware Exploration Rewards for Multi-Answer Question Answering

SPADER est un framework RL pour agents LLM augmentés d'outils en Multi-Answer QA. Il introduit Step-wise Peer Advantage (SPA) pour l'attribution de crédit fine-grained sur trajectoires longues, et une récompense d'exploration sensible à la diversité favorisant la découverte d'entités rares. Évalué sur QAMPARI, Mintaka, WebQSP, QUEST : amélioration du recall et F1 vs prompting et RL supervisé.

Agents IAReinforcement learningRaisonnement
SIG
78
HYP
00
arXiv cs.AI·

Position Paper: Post-Solve Robustness in Decision Engines: Feasible Regions and Smoothness Under Perturbations

Article de position sur la robustesse post-résolution dans les moteurs de décision MILP. Identifie un écart : les solutions optimales nominales deviennent infaisables sous petites perturbations de coûts ou ressources. Propose une couche d'audit formalisée autour de la solution incumbente, combinant approximations certifiées, estimation probabiliste et vérification solver-backed.

BenchmarksPapersSécurité IA
SIG
72
HYP
00
arXiv cs.AI·

A Multi-AI-agent Framework Enabling End-to-end Finite Element Analysis for Solid Mechanics Problems

AbaqusAgent est un framework multi-agents basé sur LLM pour l'analyse par éléments finis (FEA) en mécanique des solides. Composé de six agents (interpréteur, architecte, rédacteur, exécuteur, vérificateur, visualiseur), il convertit des instructions en langage naturel en analyses FEA exécutées avec Abaqus. Validé sur 50 problèmes avec 86% de succès.

Agents IAMulti-agentsGénération de code
SIG
78
HYP
00
arXiv cs.AI·

TIGER: Traceable Inference with Graph-Based Evidence Routing for Mitigating Hallucinations in Multimodal Generation

TIGER est une méthode d'inférence pour réduire les hallucinations dans la génération multimodale. Elle construit un graphe d'observations à partir de l'entrée et un graphe de claims à partir de la sortie, puis assigne des scores de risque basés sur le support et les conflits. Le modèle répare les claims à haut risque sans modifier le backbone. Convergence garantie avec réduction géométrique du risque.

RaisonnementVisionPapers
SIG
78
HYP
00
arXiv cs.LG·

Automatically Differentiable Nonlinear Tensor Networks (ADNTNs) for Exponential Compression of Deep Neural Networks

Les réseaux de tenseurs non-linéaires automatiquement différentiables (ADNTNs) compressent les poids de réseaux de neurones via des tenseurs cœurs entraînés par différenciation automatique. Testés sur AlexNet et VGG-16, ils atteignent des ratios de compression de 2000× à 77000× par couche avec précision préservée ou améliorée.

Fine-tuningPapersBenchmarks
SIG
72
HYP
00
Papers — actualité IA · Signal IA