Page 7 sur 137

ToutHaut signalRécent
5462 articles
arXiv cs.CL·

ProtStructQA: A Denotation Threshold in Protein Structural Reasoning

ProtStructQA est un benchmark exécutable pour la réponse à des questions sur les structures protéiques. 382.2K questions générées depuis un langage spécialisé caché, évaluées sur Qwen3 (0.6B–8B) et Gemma-3. Découverte clé : seuil de capacité entre Qwen3-1.7B et 4B où les modèles passent de l'incapacité à produire des dénotations exécutables à la maîtrise du raisonnement chaîné.

BenchmarksRaisonnementQwen
SIG
78
HYP
15
arXiv cs.CL·

On the Limits of LLM Adaptability: Impact of Model-Internalized Priors on Annotation Task Performance

Étude arXiv sur les limites d'adaptation des LLM pour l'annotation. Expériences sur détection de toxicité montrent que 66% des erreurs zero-shot résistent à la correction par prompting (taux de récupération 34.8%). Les modèles suivent des définitions mal alignées sans perdre confiance. La métrique DSF (Definition-Specific Familiarity) corrélée à la performance (r=+0.41) surpasse les métriques de mémorisation.

Prompt engineeringÉvaluationsBenchmarks
SIG
78
HYP
15
arXiv cs.LG·

KG-Guard: Graph-Based Hallucination Detection for Knowledge Base Question Answering

KG-Guard détecte les hallucinations dans les systèmes de réponse à questions sur bases de connaissances (KBQA) en utilisant un graphe augmenté et un encodeur léger. Le modèle atteint F1 de 82.0–87.4 sur WebQSP/ComplexWebQuestions avec 305× moins de paramètres que les baselines, et améliore les performances KBQA de 13–14.5 points F1 en retour itératif.

RaisonnementÉvaluationsRAG
SIG
78
HYP
15
arXiv cs.CL·

Revisiting Parameter-Based Knowledge Editing in Large Language Models: Theoretical Limits and Empirical Evidence

Étude théorique et empirique des limites de l'édition de paramètres dans les LLM. Les auteurs démontrent via l'hypothèse d'effondrement dimensionnel que les modifications localisées propagent des interférences globales dégradant les capacités du modèle. Les méthodes par récupération surpassent systématiquement l'édition paramétrique.

Fine-tuningRaisonnementPapers
SIG
78
HYP
15
arXiv cs.LG·

On Effectiveness and Efficiency of Agentic Tool-calling and RL Training

Étude de l'efficacité et l'efficience du tool-calling dans les agents LLM. Les auteurs montrent que les pipelines d'évaluation sont sensibles à des choix mineurs (seed, prompt système, templates multi-tours) affectant la fiabilité des classements. Ils identifient deux sources de gaspillage computationnel en RL et proposent deux techniques d'accélération sans dégradation de performance.

Agents IAReinforcement learningÉvaluations
SIG
78
HYP
15
arXiv cs.CL·

SPADER: Step-wise Peer Advantage with Diversity-Aware Exploration Rewards for Multi-Answer Question Answering

SPADER est un framework RL pour agents LLM augmentés d'outils en Multi-Answer QA. Il introduit Step-wise Peer Advantage (SPA) pour l'attribution de crédit fine-grained sur trajectoires longues, et une récompense d'exploration sensible à la diversité favorisant la découverte d'entités rares. Évalué sur QAMPARI, Mintaka, WebQSP, QUEST : amélioration du recall et F1 vs prompting et RL supervisé.

Agents IAReinforcement learningRaisonnement
SIG
78
HYP
18
arXiv cs.AI·

Evaluating Interactive Reasoning in Large Language Models: A Hierarchical Benchmark with Executable Games

Benchmark d'évaluation du raisonnement interactif pour LLM basé sur 474 jeux exécutables. Les modèles reçoivent uniquement les règles, doivent interroger un environnement caché, intégrer observations partielles et décider quand répondre. Évalue robustesse contextuelle, adaptation métacognitive et efficacité d'interaction sur modèles frontier.

RaisonnementÉvaluationsBenchmarks
SIG
78
HYP
15
arXiv cs.CL·

Graph-Augmented Retrieval for Cross-Entity Financial Sentiment Analysis: A Comparative Study

Étude comparative d'une architecture Graph-RAG à deux sauts versus RAG vectoriel standard pour l'analyse de sentiment financier multi-entités. Sur 100 requêtes (30 directes, 70 relationnelles), Graph-RAG améliore le rappel d'entités (+6,4%, p<0,001) et la pertinence des réponses pour requêtes complexes (+11,7%), sans dégradation de qualité, avec latence augmentée de 22,6% mais variance réduite de 80%.

RAGBenchmarksPapers
SIG
78
HYP
15
arXiv cs.AI·

A Multi-AI-agent Framework Enabling End-to-end Finite Element Analysis for Solid Mechanics Problems

AbaqusAgent est un framework multi-agents basé sur LLM pour l'analyse par éléments finis (FEA) en mécanique des solides. Composé de six agents (interpréteur, architecte, rédacteur, exécuteur, vérificateur, visualiseur), il convertit des instructions en langage naturel en analyses FEA exécutées avec Abaqus. Validé sur 50 problèmes avec 86% de succès.

Agents IAMulti-agentsGénération de code
SIG
78
HYP
25
arXiv cs.CL·

Which Institutional Frameworks Do Chatbots Assume? Auditing Jurisdictional Defaults in Multilingual LLMs

Audit de 7 LLMs (US/Chine) sur 2 520 réponses à 60 prompts juridiques en anglais et mandarin. Les modèles sélectionnent par défaut le cadre institutionnel de la langue d'entrée : 74,5% des réponses anglaises adoptent un framework US, 53,3% des réponses chinoises un framework chinois. Risque de mauvaise interprétation juridictionnelle quand la langue préférée diffère de la juridiction pertinente.

BenchmarksSécurité IARégulation
SIG
78
HYP
15
arXiv cs.AI·

TIGER: Traceable Inference with Graph-Based Evidence Routing for Mitigating Hallucinations in Multimodal Generation

TIGER est une méthode d'inférence pour réduire les hallucinations dans la génération multimodale. Elle construit un graphe d'observations à partir de l'entrée et un graphe de claims à partir de la sortie, puis assigne des scores de risque basés sur le support et les conflits. Le modèle répare les claims à haut risque sans modifier le backbone. Convergence garantie avec réduction géométrique du risque.

RaisonnementVisionPapers
SIG
78
HYP
22
arXiv cs.LG·

Quantized Reasoning Models Think They Need to Think Longer, but They Do Not

La quantification post-entraînement (PTQ) réduit la précision des modèles de raisonnement et augmente la longueur des chaînes de pensée. 52% des erreurs proviennent de réponses correctes trouvées mais non finalisées. Une pénalité logit sans entraînement sur les marqueurs de surréflexion ("wait", "but") réduit la longueur de 12-23% tout en préservant la précision sur 5 modèles (1.5B-32B).

RaisonnementFine-tuningBenchmarks
SIG
78
HYP
15
arXiv cs.CL·

Parameter Alignment Mitigates Catastrophic Forgetting in Multilingual Expert Language Models

Étude sur la prévention de l'oubli catastrophique lors de l'entraînement continu de modèles de langage multilingues. Les auteurs proposent cinq stratégies d'alignement des paramètres (gel de couches, régularisation, reversion post-hoc, fusion de modèles) testées sur 32 langues et quatre axes d'évaluation. L'alignement réduit significativement l'oubli des capacités existantes.

Fine-tuningPapersBenchmarks
SIG
78
HYP
15
arXiv cs.AI·

The Deterministic Horizon: When Extended Reasoning Fails and Tool Delegation Becomes Necessary

Les modèles decoder-only atteignent une limite informatique dans les tâches de suivi d'état déterministe au-delà d'un horizon d'~25 étapes. Un théorème borne la capacité d'attention à O(H·log(L/H)·√dh). Sur 12 modèles et 8 domaines (SWE-Bench, WebArena, SQL), la délégation à des outils atteint 86-94% vs 24-42% pour le raisonnement neural pur. Fine-tuning n'améliore que <5%, confirmant un plafond architectural.

RaisonnementAgents IABenchmarks
SIG
78
HYP
25
arXiv cs.AI·

SDR: Set-Distance Rewards for Radiology Report Generation

Nouvelle méthode de récompense basée sur les distances entre ensembles pour l'entraînement par renforcement de modèles vision-langage sur la génération de rapports radiologiques. Testée sur Qwen3-VL, Gemma3 avec GRPO : amélioration de 6,80% (BERTScore), 7,82% (RadGraph F1), 4,45% (CheXbert F1) vs fine-tuning supervisé. Permet aussi sélection test-time et élagage mid-generation réduisant tokens de 50%.

Reinforcement learningVisionGénération de code
SIG
78
HYP
15
arXiv cs.CL·

Do Text Edits Generalize to Visual Generation? Benchmarking Cross-Modal Knowledge Editing in UMMs

UniKE, premier benchmark pour l'édition de connaissances cross-modal dans les modèles multimodaux unifiés (UMMs), révèle un écart critique : l'efficacité textuelle atteint 92% mais la précision VQA en génération d'images chute à 18,5%. Une méthode d'édition paramétrique augmentée par raisonnement améliore les résultats jusqu'à +18,6 points.

BenchmarksVisionFine-tuning
SIG
78
HYP
25
arXiv cs.AI·

Probe Before You Edit: Probing-Guided Molecular Optimization for LLM Agents in Structure-Based Drug Design

PROBE, un framework d'optimisation pour agents LLM en conception de médicaments, résout le conflit entre affinité de liaison et druggabilité. Via probing d'édits contrôlés et une site map spécifique à la poche, il guide une boucle multi-agent (affinité, druggabilité, co-optimisation) sur CrossDocked2020 avec résultats SOTA.

Agents IAMulti-agentsRaisonnement
SIG
78
HYP
15
arXiv cs.LG·

Agentic Transformers Provably Learn to Search via Reinforcement Learning

Étude théorique montrant comment les transformers apprennent à implémenter une recherche en arbre (DFS) via RL. Un transformer à deux têtes d'attention émerge naturellement d'un entraînement par gradient de politique sur des arbres stochastiques, sans démonstrations expertes. Le modèle généralise à des profondeurs non vues et adapte sa stratégie selon les distributions d'objectifs.

Agents IAReinforcement learningRaisonnement
SIG
78
HYP
15
arXiv cs.AI·

TAPS: Target-Aware Prefix Tree Selection for Diffusion-Drafted Speculative Decoding

TAPS propose une méthode de sélection de préfixes consciente de la cible pour le décodage spéculatif avec diffusion. En convertissant les marginales de diffusion en estimations d'acceptation conditionnées au chemin, TAPS sélectionne un sous-arbre compact sous budget de vérification fixe. Résultats : 7.9x speedup sans perte vs décodage autorégressif vanilla, 1.36x et 1.74x vs DFlash et DDTree.

Génération de codeRaisonnementBenchmarks
SIG
78
HYP
15
arXiv cs.LG·

RAFT: Data Refinement and Adaptive Distillation for Domain Fine-Tuning with Alleviated Forgetting

RAFT est une méthode de fine-tuning domaine en deux étapes qui réduit l'oubli catastrophique. Elle raffine les données via réécriture auto-conditionnée et fusion de réponses, puis applique une distillation on-policy où le modèle original fournit des cibles souples sur les trajectoires générées. Sur 5 domaines, RAFT améliore la précision domaine de 23,2% vs SFT standard et récupère 18,2% de dégradation sur MS-Bench.

Fine-tuningReinforcement learningPapers
SIG
78
HYP
15
arXiv cs.AI·

Capability Self-Assessment: Teaching LLMs to Know Their Limits

Les LLM modernes surestiment systématiquement leurs capacités et tentent de résoudre des requêtes impossibles. Des chercheurs proposent Capability Self-Assessment (CSA), formalisé comme un problème d'apprentissage par renforcement, pour enseigner aux modèles à reconnaître leurs limites. L'RL surpasse le fine-tuning supervisé, préserve les capacités originales et généralise hors-distribution.

Reinforcement learningAlignementÉvaluations
SIG
78
HYP
22
arXiv cs.CL·

SENSE: Semantic Embedding Navigation with Soft-gated Evaluation for Retrieval-based Speculative Decoding

SENSE améliore le décodage spéculatif basé sur la récupération en utilisant les états cachés du modèle cible pour l'alignement sémantique. Un module d'évaluation soft-gated valide l'équivalence sémantique plutôt que les formes de surface. Sur LLaMA et Qwen, SENSE atteint 4.09 longueur d'acceptation moyenne et 3.26x d'accélération.

LlamaQwenRaisonnement
SIG
78
HYP
25
arXiv cs.AI·

Threshold-Based Exclusive Batching for LLM Inference

Article arXiv sur l'optimisation du batching pour l'inférence LLM. Les auteurs montrent que le mixed batching (MB) n'est pas toujours optimal : sur GPUs à bande passante limitée (RTX PRO 6000), le batching exclusif (EB) surpasse MB de 41,9% en débit. Ils proposent EB+, un scheduler hybride qui bascule dynamiquement entre EB et MB selon la bande passante GPU et la composition de la charge.

InfrastructureBenchmarksPapers
SIG
78
HYP
15
arXiv cs.AI·

From "Weak" Signals to Strong Models: Preference Delta Aggregation with LoRA Merging

Preference Delta Aggregation (PDA) agrège des signaux de préférence faibles issus de paires de modèles (ex: Qwen3 4B vs 1.7B) via fusion de LoRA. Geometric Alignment Merging (GAM) aligne les sous-espaces d'adaptateurs avant agrégation. Sur benchmarks de raisonnement et recherche agentique, PDA+GAM améliore Qwen3 8B de +6,8 et +7,3 points respectivement.

QwenFine-tuningReinforcement learning
SIG
78
HYP
25
arXiv cs.CL·

DLLM-JEPA: Joint Embedding Predictive Architectures for Masked Diffusion Language Models

DLLM-JEPA combine les architectures JEPA avec les modèles de langage par diffusion masquée pour l'apprentissage auto-supervisé. Élimine le besoin de paires multi-vues explicites et réduit les FLOPs d'entraînement de 33% vs LLM-JEPA. Améliore les performances de +18.7pp sur GSM8K (LLaDA-8B) et +11.4pp (Dream-7B) tout en préservant les capacités de base.

PapersFine-tuningRaisonnement
SIG
78
HYP
25
arXiv cs.CL·

Agreement Metrics for LLM-as-Judge Evaluation: What to Report and Why

Étude des métriques d'accord pour l'évaluation par LLM-as-Judge. Analyse de 24 papiers récents montrant que pour les critères binaires (MET/UNMET), Pearson r, Spearman ρ, Kendall τ_b et phi sont redondants. Cohen's κ seul ajoute de l'information. Les auteurs proposent une checklist de reporting incluant l'échelle de jugement, la gestion des abstentions et la matrice de confusion.

ÉvaluationsBenchmarksPapers
SIG
78
HYP
15
arXiv cs.AI·

KACE: Knowledge-Adaptive Context Engineering for Mathematical Reasoning

KACE sépare stockage et utilisation du contexte pour le raisonnement mathématique. Un arbre épistémique stratifié par difficulté et domaine est construit hors ligne via boucle d'auto-réflexion. À l'évaluation, l'auto-cohérence hiérarchisée classe dynamiquement les problèmes et récupère sélectivement les cartes pertinentes. Sur AIME 2025 : 62,2% de précision (+10,4 points vs Best-of-5).

RaisonnementPrompt engineeringBenchmarks
SIG
78
HYP
15
Reddit r/MachineLearning·

Real-time multilingual ASR using rolling buffers and monolingual models [P]

Système ASR multilingue temps réel utilisant un routage entre modèles monolingues spécialisés (~100M paramètres chacun) plutôt qu'un seul modèle massif. Détecte les changements de langue via SpeechBrain et re-transcrit avec le bon modèle. Atteint 13% WER sur code-switching inter-énoncé, surpassant les APIs cloud. Repo open-source disponible.

VoixGénération de codeOpen source
SIG
78
HYP
25
Reddit r/LocalLLaMA·

A lightweight, real-time multilingual ASR router that runs on local hardware

Système de routage ASR multilingue léger pour matériel local, utilisant Zipformer, Silero VAD et SpeechBrain. Dirige l'audio entre modèles monolingues spécialisés (~100M paramètres) plutôt qu'un seul modèle massif. Atteint 13% WER sur code-switching inter-énoncés, surpassant les APIs cloud. Limitation connue : 41% WER en intra-énoncés. Repo open-source disponible.

VoixOpen sourceOutils
SIG
78
HYP
25
arXiv cs.AI·

TRINE: A Token-Aware, Runtime-Adaptive FPGA Inference Engine for Multimodal AI

TRINE est un accélérateur FPGA et compilateur pour l'inférence multimodale (ViT, CNN, GNN, transformers) sans reconfiguration. Il unifie les couches en opérations matricielles, bascule entre architectures systoliques et SIMD, et applique l'élagage de tokens en flux. Sur Alveo U50 et ZCU104, il réduit la latence de 22,57x vs RTX 4090 et consomme 20-21 W.

VisionGénération de codeInfrastructure
SIG
78
HYP
15
arXiv cs.LG·

DisasterLex: An Expert Concept-to-Schema Knowledge Graph for Geospatial Reasoning in Disaster Analytics

DisasterLex est un framework text-to-SQL médiatisé par graphe de connaissances pour interroger des bases de données géospatiales en gestion de catastrophes. Il utilise un Expert Knowledge Graph (107 concepts, 117 arêtes causales) pour router les requêtes naturelles vers 36 tables hétérogènes. Sur 75 requêtes, il surpasse 4 baselines (LightRAG, HippoRAG 2, ReFoRCE, CHESS) de 1.4x à 2.75x.

RAGRaisonnementBenchmarks
SIG
78
HYP
15
arXiv cs.AI·

HypoAgent: An Agentic Framework for Interactive Abductive Hypothesis Generation over Knowledge Graphs

HypoAgent est un framework multi-agent pour générer des hypothèses abductives interactives sur des graphes de connaissances. Trois agents coordonnés (reconnaissance d'intention, génération d'hypothèses, analyse de cause racine) permettent le dialogue multi-tour et le diagnostic fin des hypothèses échouées. SOTA sur graphes commonsense et biomédicaux.

Agents IAMulti-agentsRaisonnement
SIG
78
HYP
15
arXiv cs.CL·

Same Patient, Different Words, Different Diagnosis? Evaluating Semantic Stability in Clinical LLMs

Étude de la stabilité sémantique de 16 LLMs (génériques et médicaux) face à des reformulations de prompts cliniquement équivalentes. Propose un cadre de vérification basé sur l'inférence en langage naturel et trois métriques (MVS, ΔC, WCI). Résultat : la spécialisation domaine n'améliore pas systématiquement la robustesse aux variations sémantiques.

ÉvaluationsSécurité IARaisonnement
SIG
78
HYP
15
arXiv cs.CL·

TeachObs: A Human-Validated Benchmark for Multimodal Teaching Observation and Model Evaluation

TeachObs est un benchmark multimodal validé par des humains pour l'analyse de vidéos de classe. Il contient 30 leçons publiques de 8 pays, divisées en 5 158 scènes de 15 secondes, annotées par 7 chercheurs avec 39 codes d'observation (20 visuels, 19 non-visuels). Évaluation de 5 LLMs vision sur 3 tâches : aucun modèle ne surpasse les autres systématiquement.

BenchmarksVisionÉvaluations
SIG
78
HYP
15