Page 10 sur 137

ToutHaut signalRécent
5469 articles
arXiv cs.CL·

BioELX: Cross-lingual Biomedical Entity Linking via Alias-based Retrieval and LLM Ranking

BioELX est un système de liaison d'entités biomédicales multilingues en deux étapes sans données d'entraînement annotées. Il enrichit SapBERT avec des alias multilingues Wikidata et utilise un LLM pour la désambiguïsation contextuelle. Sur cinq benchmarks, il atteint +19.2 Recall@1 sur XL-BEL, avec gains majeurs pour langues peu dotées (turc +21.6, coréen +22.1, thaï +30.8).

BenchmarksPapersRAG
SIG
78
HYP
15
arXiv cs.CL·

StoryMI: Steerable Multi-Agent Therapeutic Dialogue Generation

StoryMI est un framework multi-agent LLM pour générer des dialogues thérapeutiques d'entretien motivationnel (MI) contrôlables. Des profils clients basés sur questionnaires sont enrichis en histoires narratives. Des agents thérapeute/client génèrent des énoncés codifiés MI, coordonnés par un agent d'interaction. Évaluation sur 6K dialogues simulés couvrant 12 codes MI et 13 domaines symptomatiques.

Multi-agentsAgents IABenchmarks
SIG
78
HYP
15
arXiv cs.CL·

Verilog-Evolve: Feedback-Driven and Skill-Evolving Verilog Generation

Verilog-Evolve est un framework de raffinement itératif du code Verilog généré par LLM. Le système évalue les candidats via simulation fonctionnelle, synthèse Yosys, timing ABC et métriques GEMM, puis évolue des compétences modulaires entre tâches. Résultats sur VerilogEval : meilleure stabilité fonctionnelle et qualité RTL downstream.

Génération de codeReinforcement learningÉvaluations
SIG
78
HYP
15
arXiv cs.CL·

Probing Minimalist Phase Structure in LLMs: What Universal Dependencies Cannot Represent

Des chercheurs testent si les LLM encodent des structures syntaxiques formelles (phase boundaries du Minimalist Program) invisibles aux Universal Dependencies. Sur 13 modèles (4 familles), 12/13 montrent un gradient lié au nombre de phases, et 13/13 une asymétrie prédite par la cohésion intra-phase. L'activation patching confirme ces représentations sont causalement actives.

PapersRaisonnementÉvaluations
SIG
78
HYP
15
arXiv cs.LG·

Online Learning on Hidden-Convex Losses via Algorithmic Equivalence: Optimal Regret, Geometric Barrier, and Bandit Feedback

Étude de l'apprentissage en ligne adversarial sur pertes cachées-convexes (nonconvexes devenant convexes après reparamétrisation). Les auteurs prouvent que la descente de gradient en ligne (OGD) atteint un regret optimal Θ(√T), améliorant le résultat O(T^2/3) antérieur. Ils caractérisent la condition de compatibilité Hessienne nécessaire-suffisante et étendent l'analyse au feedback bandit avec regret O(T^3/4).

PapersReinforcement learningBenchmarks
SIG
78
HYP
08
arXiv cs.LG·

Curriculum Learning for Safety Alignment

Staged-Competence, un framework de curriculum learning, améliore la robustesse de l'alignement de sécurité basé sur DPO. Sur trois familles de modèles, il réduit les taux de réponses nuisibles hors-distribution de 16% et les taux de succès des attaques jailbreak de 20%, tout en préservant les capacités générales. Le framework atteint la sécurité de base avec 75% des données d'entraînement.

Sécurité IAAlignementReinforcement learning
SIG
78
HYP
25
arXiv cs.LG·

ARBITER: Reasoning Trajectory Basins and Majority Vote Failures in Test-Time Sampling

ARBITER corrige les défaillances du vote majoritaire en test-time sampling. Les trajectoires de raisonnement se concentrent en clusters (bassins) stables mais pas nécessairement corrects. ARBITER utilise les états cachés et preuves du modèle pour ajouter des preuves conservatives au consensus, récupérant ~22% de l'écart oracle sur Llama-3.1-8B MMLU-HS-Math (78%→82%).

RaisonnementÉvaluationsBenchmarks
SIG
78
HYP
25
arXiv cs.LG·

AirCast-SR: A Foundation Model for Kilometer-Scale Atmospheric Super-Resolution via Latent Consistency Diffusion

AirCast-SR est un modèle de super-résolution atmosphérique qui affine les prévisions météorologiques IA globales de 28 km à 1 km de résolution horizontale. Basé sur un U-Net 3D conditionné par diffusion LCM, entraîné sur les prévisions GraphCast et les données NOAA, il produit des prévisions de 67 heures sans biais et démontre une transférabilité zéro-shot sur l'Inde et l'Allemagne.

PapersBenchmarksOpen source
SIG
78
HYP
25
arXiv cs.LG·

The Constraint Tax: Measuring Validity-Correctness Tradeoffs in Structured Outputs for Small Language Models

Étude sur le coût des contraintes de sortie structurées pour petits modèles de langage (< 3B). Tests sur Qwen2.5-0.5B/1.5B et SmolLM2-1.7B montrent que forcer la validité du schéma JSON (61.5% → 100%) réduit la précision des réponses (19.7% → 11.0%) et augmente les sorties invalides sémantiquement (49.5% → 88.9%). Recommandation : rapporter séparément validité schéma, précision réponse et taux d'erreurs sémantiques.

QwenGénération de codeÉvaluations
SIG
78
HYP
15
arXiv cs.AI·

Composition Collapse: Stable Factual Knowledge Does Not Imply Compositional Reasoning

Une étude arXiv montre que les modèles avec des connaissances factuelles stables échouent systématiquement à les assembler en chaînes de raisonnement multi-hop (écart >40 points). Les métriques agrégées masquent ce « composition collapse ». Les auteurs proposent un protocole double-gate pour décomposer les gains post-training en trois canaux : stabilité atomique, composition résiduelle et profondeur critique.

RaisonnementBenchmarksÉvaluations
SIG
78
HYP
15
arXiv cs.AI·

MedGuideX: Internalizing Decision Logic from Executable Guidelines into Large Language Models for Clinical Reasoning

MedGuideX transforme les recommandations des guides de pratique clinique (CPG) en logique décisionnelle exécutable pour générer des données d'entraînement en question-réponse. Post-entraînement d'un LLM médical sur ces données améliore la précision de 10,28% sur quatre benchmarks de raisonnement clinique et produit des justifications préférées par les médecins.

Fine-tuningRaisonnementÉvaluations
SIG
78
HYP
22
arXiv cs.AI·

Is Agent Memory a Database? Rethinking Data Foundations for Long-Term AI Agent Memory

Article formalisant la mémoire d'agent IA comme workload de gestion de données distinct. Propose GEM (Governed Evolving Memory) avec quatre opérateurs au niveau état (ingestion, révision, oubli, récupération) et six conditions de correction. Démontre que les systèmes record-level ne peuvent satisfaire ces conditions. Prototype MemState sur graphe de propriétés.

Agents IAPapersInfrastructure
SIG
78
HYP
15
arXiv cs.CL·

Bounded Path Context: A Controlled Study of Visible Path History in LLM-Based Knowledge Graph Question Answering

Étude contrôlée sur la longueur d'historique de chemin dans le QA sur graphes de connaissances avec LLM. Bounded Path Context (BPC) limite l'historique exposé au modèle (K derniers sauts) tout en conservant le chemin complet en mémoire symbolique. Sur WebQSP et CWQ avec Qwen3.5-9B-AWQ : K=1 atteint 0.487 F1 (vs 0.472 historique complet) avec 9.7% moins de tokens.

RaisonnementBenchmarksPapers
SIG
78
HYP
15
arXiv cs.CL·

FAB-Bench: A Framework for Adaptive RAG Benchmarking in Semiconductor Manufacturing

FAB-Bench est un framework de benchmarking adaptatif pour évaluer les systèmes RAG en fabrication semiconducteurs. Il définit 6 métriques diagnostiques (précision factuelle, utilisation contextuelle, complétude, pertinence de retrieval, profondeur technique, cohérence du raisonnement) sur des fenêtres de contexte 4K-32K tokens. Benchmark de 200 paires query-answer testé sur 4 LLMs et 4 frameworks RAG.

RAGBenchmarksÉvaluations
SIG
78
HYP
15
arXiv cs.CL·

Why LLMs Hallucinate on Structured Knowledge: A Mechanistic Analysis of Reasoning over Linearized Representations

Étude mécanistique des hallucinations dans les LLM sur connaissances structurées linéarisées (graphes, tables). Les hallucinations résultent de dynamiques internes systématiques : attention concentrée sur des indices structurels raccourcis, représentations feed-forward ne grounding pas la connaissance fournie, reversion à la mémoire paramétrée. Patterns généralisent à graphes multi-hop et données tabulaires.

RaisonnementPapersSécurité IA
SIG
78
HYP
15
arXiv cs.LG·

MechRL: Reinforcement Learning Agents Perform Circuit Discovery for Mechanistic Interpretability

MechRL utilise un agent RL (PPO) opérant sur 144 têtes d'attention de GPT-2 small pour découvrir automatiquement les circuits mécanistiques. Entraîné sur induction et IOI, l'agent identifie les têtes causalement pertinentes via ablation zéro et récompense contrastive, généralisant à docstring completion (96% de l'oracle en best-of-five).

Reinforcement learningÉvaluationsPapers
SIG
78
HYP
15
arXiv cs.LG·

QAM-W: Joint 2D Codebook Quantization for LLM Weights via Hadamard Rotation and Activation-Aware Scaling

QAM-W est un codec de quantification 2D pour poids de LLM qui utilise rotation Hadamard et mise à l'échelle consciente de l'activation. Sur 5 modèles (1.1B–13B), la variante activation-aware à ~5.5 bpw maintient ±0.4% de perplexité BF16, égalant SmoothQuant W8A8 avec 32% moins de bits. Le codage 2D surpasse le codage polaire de 2–15 pp.

Fine-tuningBenchmarksPapers
SIG
78
HYP
15
arXiv cs.LG·

Quantized Keys Steal Attention: Bias Correction for KV-Cache Compression in Video Diffusion

Les modèles de diffusion vidéo autorégressifs utilisent un cache KV quantifié pour réduire la mémoire, mais la quantization crée un biais d'attention (Jensen bias) qui dégrade la qualité. Les auteurs proposent une correction per-attention-score calculée à partir des pas de quantization, récupérant la qualité perdue avec INT2 tout en utilisant 50% moins de mémoire qu'INT4.

Génération de vidéosRaisonnementBenchmarks
SIG
78
HYP
15
arXiv cs.LG·

TSFMAudit: Data Contamination Auditing in Forecasting Time Series Foundation Models

TSFMAudit, première méthode d'audit de contamination de données pour modèles de fondation en séries temporelles (TSFMs). Détecte si des datasets d'évaluation ont été exposés lors du préentraînement en analysant la dynamique d'adaptation fine-tuning : les données contaminées montrent une réduction de perte anormalement rapide. Évalué sur 6 TSFMs et 187 datasets.

BenchmarksÉvaluationsPapers
SIG
78
HYP
15
arXiv cs.LG·

Provably Communication-Efficient and Privacy-Preserving Federated Graph Neural Networks

CE-FedGNN est un framework fédéré pour les réseaux de neurones graphiques (GNNs) qui réduit la communication en échangeant rarement des représentations agrégées plutôt que des embeddings à chaque round. Un estimateur de moyenne mobile gère les dépendances cross-client et la staleness. Le framework garantit la confidentialité via metric-DP et converge en O(1/√T) avec complexité de communication O(T^3/4).

SIG
78
HYP
15
arXiv cs.AI·

LiveK12Bench: Have Large Multimodal Models Truly Conquered High School-level Examinations?

LiveK12Bench est un benchmark dynamique multi-disciplinaire évaluant les capacités de raisonnement des modèles multimodaux sur 2K+ questions d'examens réels (Maths, Physique, Chimie, Biologie). Les tests révèlent une dégradation majeure : GPT-5 chute de 79 à 53/100 sous contraintes réalistes d'examen. Le framework inclut un pipeline automatisé anti-contamination et un schéma d'évaluation « Mock Exam » end-to-end.

BenchmarksVisionRaisonnement
SIG
78
HYP
25
arXiv cs.AI·

What Makes Chain-of-Thought Work at Probe Time? Local Co-occurrence Rather Than Global Derivation

Étude sur le mécanisme du chain-of-thought (CoT) au moment de l'inférence. Les auteurs montrent que l'amélioration de performance provient principalement d'une activation lexicale et de co-occurrences de tokens à courte portée (2-3 tokens), plutôt que d'une dérivation logique globale. Même un texte avec mots mélangés surpasse l'absence de rationale.

RaisonnementPrompt engineeringPapers
SIG
78
HYP
15
arXiv cs.AI·

Beyond a Single Direction: Chain-of-Thought Disrupts Simple Steering of Refusal

Les modèles de raisonnement (LRM) encodent le refus conjointement dans les activations résiduelles et la chaîne de pensée (CoT). Sur DeepSeek-R1-Distill-LLaMA-8B, le steering d'activation inverse le refus dans 39% des cas avec CoT fixe, mais 70% sans CoT. Régénérer la CoT sous steering atteint 94% de succès, révélant que le refus est distribué entre activations et CoT.

RaisonnementSécurité IAAlignement
SIG
78
HYP
25
arXiv cs.AI·

It's Not the Capability: Harness Sensitivity Is Non-Monotone Across LLM Agent Tiers

Étude de 432 expériences sur 6 modèles (4 tiers de capacité) testant l'hypothèse que les modèles plus puissants nécessitent moins de structure. Résultats : relation non-monotone. Gemini 2.5 Flash voit ses performances baisser de 29-38pp avec plus de verbosité. Qwen3.5-122B (reasoning) atteint 91.7% VTSR avec harness strict. Taxonomie de 6 défaillances identifiée.

Agents IAÉvaluationsRaisonnement
SIG
78
HYP
15