Page 17 sur 192

ToutHaut signalRécent

7679 articles

TAPS: Target-Aware Prefix Tree Selection for Diffusion-Drafted Speculative Decoding

TAPS propose une méthode de sélection de préfixes consciente de la cible pour le décodage spéculatif avec diffusion. En convertissant les marginales de diffusion en estimations d'acceptation conditionnées au chemin, TAPS sélectionne un sous-arbre compact sous budget de vérification fixe. Résultats : 7.9x speedup sans perte vs décodage autorégressif vanilla, 1.36x et 1.74x vs DFlash et DDTree.

Génération de code Raisonnement Benchmarks

SIG

HYP

arXiv cs.AI·2 juin

SDR: Set-Distance Rewards for Radiology Report Generation

Nouvelle méthode de récompense basée sur les distances entre ensembles pour l'entraînement par renforcement de modèles vision-langage sur la génération de rapports radiologiques. Testée sur Qwen3-VL, Gemma3 avec GRPO : amélioration de 6,80% (BERTScore), 7,82% (RadGraph F1), 4,45% (CheXbert F1) vs fine-tuning supervisé. Permet aussi sélection test-time et élagage mid-generation réduisant tokens de 50%.

Reinforcement learning Vision Génération de code

SIG

HYP

arXiv cs.AI·2 juin

The Deterministic Horizon: When Extended Reasoning Fails and Tool Delegation Becomes Necessary

Les modèles decoder-only atteignent une limite informatique dans les tâches de suivi d'état déterministe au-delà d'un horizon d'~25 étapes. Un théorème borne la capacité d'attention à O(H·log(L/H)·√dh). Sur 12 modèles et 8 domaines (SWE-Bench, WebArena, SQL), la délégation à des outils atteint 86-94% vs 24-42% pour le raisonnement neural pur. Fine-tuning n'améliore que <5%, confirmant un plafond architectural.

Raisonnement Agents IA Benchmarks

SIG

HYP

arXiv cs.CL·2 juin

RealityTest: How People Probe AI Identity and Whether Models Disclose It

RealityTest évalue si les systèmes IA divulguent leur identité quand interrogés. Benchmark multilingue et multimodal basé sur 3 152 requêtes collectées auprès de ~750 participants dans 49 pays, 5 langues (texte et voix). Résultats : 31% seulement posent la question directement ; une instruction de suppression réduit la divulgation sous 30% même pour les meilleurs modèles.

Sécurité IA Évaluations Benchmarks

SIG

HYP

arXiv cs.CL·2 juin

DLLM-JEPA: Joint Embedding Predictive Architectures for Masked Diffusion Language Models

DLLM-JEPA combine les architectures JEPA avec les modèles de langage par diffusion masquée pour l'apprentissage auto-supervisé. Élimine le besoin de paires multi-vues explicites et réduit les FLOPs d'entraînement de 33% vs LLM-JEPA. Améliore les performances de +18.7pp sur GSM8K (LLaDA-8B) et +11.4pp (Dream-7B) tout en préservant les capacités de base.

Papers Fine-tuning Raisonnement

SIG

HYP

arXiv cs.CL·2 juin

Model-Based Quality Assessment for Massively Multilingual Parallel Data

Étude de l'évaluation automatique de données bilingues massives : décomposition en deux tâches (évaluation du parallélisme via embeddings multilingues, estimation de qualité sans référence). Benchmark de 4 modèles d'embeddings et 9 évaluateurs sur FLORES-200 couvrant 6 654 paires de langues. Résultat clé : aucun modèle n'est fiable universellement ; une approche direction-aware est nécessaire.

Benchmarks Embeddings Évaluations

SIG

HYP

arXiv cs.CL·2 juin

SENSE: Semantic Embedding Navigation with Soft-gated Evaluation for Retrieval-based Speculative Decoding

SENSE améliore le décodage spéculatif basé sur la récupération en utilisant les états cachés du modèle cible pour l'alignement sémantique. Un module d'évaluation soft-gated valide l'équivalence sémantique plutôt que les formes de surface. Sur LLaMA et Qwen, SENSE atteint 4.09 longueur d'acceptation moyenne et 3.26x d'accélération.

Llama Qwen Raisonnement

SIG

HYP

arXiv cs.CL·2 juin

ProactiveLLM: Learning Active Interaction for Streaming Large Language Models

ProactiveLLM apprend à décider quand interagir avec des flux d'entrée en temps réel sans signaux externes. Via masquage aléatoire monotone et auto-distillation synchronisée, le modèle perçoit la suffisance sémantique à partir d'entrées partielles. Réduit la latence d'interaction tout en maintenant la qualité sur tâches texte et parole.

Raisonnement Reinforcement learning

SIG

HYP

arXiv cs.CL·2 juin

Bridging Reasoning Trajectories in On-Policy Distillation via Near-Future Guidance

TOPD (Trajectory-aware On-Policy Distillation) améliore l'apprentissage du raisonnement en LLM en utilisant des informations de trajectoire future pour identifier les vrais états divergents. Sur AIME24/25, TOPD atteint 63.3%/53.3% vs 60.0%/46.7% en OPD standard, montrant que 30% des tokens haute-perte sont des faux positifs.

Raisonnement Reinforcement learning Papers

SIG

HYP

arXiv cs.CL·2 juin

ProtStructQA: A Denotation Threshold in Protein Structural Reasoning

ProtStructQA est un benchmark exécutable pour la réponse à des questions sur les structures protéiques. 382.2K questions générées depuis un langage spécialisé caché, évaluées sur Qwen3 (0.6B–8B) et Gemma-3. Découverte clé : seuil de capacité entre Qwen3-1.7B et 4B où les modèles passent de l'incapacité à produire des dénotations exécutables à la maîtrise du raisonnement chaîné.

Benchmarks Raisonnement Qwen

SIG

HYP

arXiv cs.CL·2 juin

On the Limits of LLM Adaptability: Impact of Model-Internalized Priors on Annotation Task Performance

Étude arXiv sur les limites d'adaptation des LLM pour l'annotation. Expériences sur détection de toxicité montrent que 66% des erreurs zero-shot résistent à la correction par prompting (taux de récupération 34.8%). Les modèles suivent des définitions mal alignées sans perdre confiance. La métrique DSF (Definition-Specific Familiarity) corrélée à la performance (r=+0.41) surpasse les métriques de mémorisation.

Prompt engineering Évaluations Benchmarks

SIG

HYP

arXiv cs.AI·2 juin

TIGER: Traceable Inference with Graph-Based Evidence Routing for Mitigating Hallucinations in Multimodal Generation

TIGER est une méthode d'inférence pour réduire les hallucinations dans la génération multimodale. Elle construit un graphe d'observations à partir de l'entrée et un graphe de claims à partir de la sortie, puis assigne des scores de risque basés sur le support et les conflits. Le modèle répare les claims à haut risque sans modifier le backbone. Convergence garantie avec réduction géométrique du risque.

Raisonnement Vision Papers

SIG

HYP

arXiv cs.AI·2 juin

A Multi-AI-agent Framework Enabling End-to-end Finite Element Analysis for Solid Mechanics Problems

AbaqusAgent est un framework multi-agents basé sur LLM pour l'analyse par éléments finis (FEA) en mécanique des solides. Composé de six agents (interpréteur, architecte, rédacteur, exécuteur, vérificateur, visualiseur), il convertit des instructions en langage naturel en analyses FEA exécutées avec Abaqus. Validé sur 50 problèmes avec 86% de succès.

Agents IA Multi-agents Génération de code

SIG

HYP

arXiv cs.AI·2 juin

Evaluating Interactive Reasoning in Large Language Models: A Hierarchical Benchmark with Executable Games

Benchmark d'évaluation du raisonnement interactif pour LLM basé sur 474 jeux exécutables. Les modèles reçoivent uniquement les règles, doivent interroger un environnement caché, intégrer observations partielles et décider quand répondre. Évalue robustesse contextuelle, adaptation métacognitive et efficacité d'interaction sur modèles frontier.

Raisonnement Évaluations Benchmarks

SIG

HYP

arXiv cs.CL·2 juin

Agreement Metrics for LLM-as-Judge Evaluation: What to Report and Why

Étude des métriques d'accord pour l'évaluation par LLM-as-Judge. Analyse de 24 papiers récents montrant que pour les critères binaires (MET/UNMET), Pearson r, Spearman ρ, Kendall τ_b et phi sont redondants. Cohen's κ seul ajoute de l'information. Les auteurs proposent une checklist de reporting incluant l'échelle de jugement, la gestion des abstentions et la matrice de confusion.

Évaluations Benchmarks Papers

SIG

HYP

arXiv cs.CL·2 juin

Revisiting Parameter-Based Knowledge Editing in Large Language Models: Theoretical Limits and Empirical Evidence

Étude théorique et empirique des limites de l'édition de paramètres dans les LLM. Les auteurs démontrent via l'hypothèse d'effondrement dimensionnel que les modifications localisées propagent des interférences globales dégradant les capacités du modèle. Les méthodes par récupération surpassent systématiquement l'édition paramétrique.

Fine-tuning Raisonnement Papers

SIG

HYP

Reddit r/MachineLearning·1 juin

Real-time multilingual ASR using rolling buffers and monolingual models [P]

Système ASR multilingue temps réel utilisant un routage entre modèles monolingues spécialisés (~100M paramètres chacun) plutôt qu'un seul modèle massif. Détecte les changements de langue via SpeechBrain et re-transcrit avec le bon modèle. Atteint 13% WER sur code-switching inter-énoncé, surpassant les APIs cloud. Repo open-source disponible.

Voix Génération de code Open source

SIG

HYP

Reddit r/LocalLLaMA·1 juin

A lightweight, real-time multilingual ASR router that runs on local hardware

Système de routage ASR multilingue léger pour matériel local, utilisant Zipformer, Silero VAD et SpeechBrain. Dirige l'audio entre modèles monolingues spécialisés (~100M paramètres) plutôt qu'un seul modèle massif. Atteint 13% WER sur code-switching inter-énoncés, surpassant les APIs cloud. Limitation connue : 41% WER en intra-énoncés. Repo open-source disponible.

Voix Open source Outils

SIG

HYP

arXiv cs.CL·1 juin

Cross-Lingual Steering for Figurative Language Generation

Étude d'activation steering sur quatre LLMs multilingues (5 catégories figuratives, 6 langues). Les directions d'activation apprises dans une langue transfèrent efficacement vers d'autres, notamment l'allemand. Les directions composites cross-lingues égalent ou surpassent les directions natives, prouvant l'existence de signaux figuratifs réutilisables mais dépendants de la langue cible.

Raisonnement Multi-agents Papers

SIG

HYP

arXiv cs.AI·1 juin

EHRBench: An Automated and Reliable EHR-based Benchmark for Clinical Decision Making with LLMs

EHRBench est un benchmark automatisé et fiable pour évaluer les LLMs sur des tâches de prise de décision clinique. Construit via un pipeline EHR-LLM-KB, il génère ~960k items QA couvrant diagnostic, traitement et pronostic. 30+ LLMs benchmarkés révèlent des lacunes persistantes vers la fiabilité clinique.

Benchmarks Évaluations Raisonnement

SIG

HYP

arXiv cs.AI·1 juin

PhyDrawGen: Physically Grounded Diagram Generation from Natural Language

PhyDrawGen est un pipeline neuro-symbolique qui génère des diagrammes de physique à partir de texte en respectant les lois physiques. Un LLM extrait un graphe de scène typé, un solveur déterministe le convertit en graphe planaire, et Qwen-VL affine une boucle propose-vérifier. Évalué sur 1 449 problèmes (mécanique, optique, électromagnétisme), il surpasse GPT-5-image et Gemini.

Qwen Raisonnement Vision

SIG

HYP

arXiv cs.AI·1 juin

HypoAgent: An Agentic Framework for Interactive Abductive Hypothesis Generation over Knowledge Graphs

HypoAgent est un framework multi-agent pour générer des hypothèses abductives interactives sur des graphes de connaissances. Trois agents coordonnés (reconnaissance d'intention, génération d'hypothèses, analyse de cause racine) permettent le dialogue multi-tour et le diagnostic fin des hypothèses échouées. SOTA sur graphes commonsense et biomédicaux.

Agents IA Multi-agents Raisonnement

SIG

HYP

arXiv cs.AI·1 juin

TRINE: A Token-Aware, Runtime-Adaptive FPGA Inference Engine for Multimodal AI

TRINE est un accélérateur FPGA et compilateur pour l'inférence multimodale (ViT, CNN, GNN, transformers) sans reconfiguration. Il unifie les couches en opérations matricielles, bascule entre architectures systoliques et SIMD, et applique l'élagage de tokens en flux. Sur Alveo U50 et ZCU104, il réduit la latence de 22,57x vs RTX 4090 et consomme 20-21 W.

Vision Génération de code Infrastructure

SIG

HYP

arXiv cs.LG·1 juin

AMNESIA: A Large Scale Medical Unlearning Benchmark Suite with Disease-Informed Analysis

AMNESIA est le premier benchmark open-source à grande échelle pour l'oubli sélectif dans les LLMs médicaux. Il contient 70 560 paires question-réponse issues de 8 820 dossiers patients couvrant 11 catégories de maladies. Les auteurs évaluent 4 méthodes d'unlearning et révèlent que l'oubli de patients individuels érode la connaissance d'autres patients atteints de la même condition.

Benchmarks Papers Sécurité IA

SIG

HYP

arXiv cs.CL·1 juin

CanLegalRAGBench: Evaluating Retrieval-Augmented Generation on Canadian Case Law

CanLegalRAGBench est un benchmark d'évaluation pour systèmes RAG appliqués au droit canadien, basé sur des requêtes réalistes et des réponses annotées par des experts. L'étude révèle que les modèles d'embedding open-source rivalisent avec les modèles fermés, mais identifie des hallucinations dans 8-29% des réponses générées, non supportées par les documents récupérés.

RAG Embeddings Évaluations

SIG

HYP

arXiv cs.LG·1 juin

DisasterLex: An Expert Concept-to-Schema Knowledge Graph for Geospatial Reasoning in Disaster Analytics

DisasterLex est un framework text-to-SQL médiatisé par graphe de connaissances pour interroger des bases de données géospatiales en gestion de catastrophes. Il utilise un Expert Knowledge Graph (107 concepts, 117 arêtes causales) pour router les requêtes naturelles vers 36 tables hétérogènes. Sur 75 requêtes, il surpasse 4 baselines (LightRAG, HippoRAG 2, ReFoRCE, CHESS) de 1.4x à 2.75x.

RAG Raisonnement Benchmarks

SIG

HYP

arXiv cs.LG·1 juin

The Long-Term Effects of Data Selection in LLM Fine-Tuning

Étude sur les effets long terme de la sélection de données lors du fine-tuning d'LLM sur plusieurs étapes. Les auteurs montrent que les stratégies optimales à court terme (loss-based, gradient-based, diversity-based) peuvent ralentir l'apprentissage futur et augmenter l'oubli catastrophique. Ils proposent LHAS (Long-Horizon Aware Selection) pour évaluer la sélection comme intervention d'entraînement globale.

Fine-tuning Benchmarks Papers

SIG

HYP

arXiv cs.LG·1 juin

SubsurfaceGen: Procedural Generation of Field-Scale Earth Models and Seismic Data

SubsurfaceGen est un générateur GPU pour modèles de vélocité 3D et données sismiques à l'échelle du terrain. Les auteurs publient un dataset de 4 276 tranches 2D, couvrant 6 contextes géologiques (10 km × 10 km × 6,19 km à 10 m de résolution). Évaluation d'opérateurs neuronaux sur prédiction de champs d'ondes et inversion de vélocité end-to-end.

Benchmarks Papers Open source

SIG

HYP

arXiv cs.CL·1 juin

SAGE: A Novelty Gate for Efficient Memory Evolution in Agentic LLMs

SAGE est une porte adaptative basée sur la densité von Mises-Fisher pour contrôler l'évolution mémoire dans les LLM agentiques. Elle classe les faits candidats en ADD (nouveau), NOOP (redondant) ou MERGE (incertain), réduisant les appels LLM coûteux. Sur LoCoMo, SAGE réduit le coût API de 3.4× et la latence de 2.5× avec GPT-4o-mini.

Agents IA Raisonnement Benchmarks

SIG

HYP

arXiv cs.LG·1 juin

Scalable Constrained Multi-Agent Reinforcement Learning via State Augmentation and Consensus for Separable Dynamics

Méthode distribuée pour l'apprentissage par renforcement multi-agent avec contraintes globales. Les agents apprennent une politique augmentée hors ligne et coordonnent via consensus local sur les multiplicateurs de Lagrange. Scalabilité linéaire jusqu'à des milliers d'agents, démonstration sur réseaux électriques intelligents.

Multi-agents Reinforcement learning Papers

SIG

HYP

arXiv cs.CL·1 juin

Same Patient, Different Words, Different Diagnosis? Evaluating Semantic Stability in Clinical LLMs

Étude de la stabilité sémantique de 16 LLMs (génériques et médicaux) face à des reformulations de prompts cliniquement équivalentes. Propose un cadre de vérification basé sur l'inférence en langage naturel et trois métriques (MVS, ΔC, WCI). Résultat : la spécialisation domaine n'améliore pas systématiquement la robustesse aux variations sémantiques.

Évaluations Sécurité IA Raisonnement

SIG

HYP

arXiv cs.LG·1 juin

Discovering a Zeta Map Algorithm on Dyck Paths via Mechanistic Interpretability

Chercheurs entraînent un petit transformer encoder-decoder sur la zeta map (bijection classique des nombres q,t-Catalan). Via mechanistic interpretability (cross-attention, linear probing, causal intervention), ils découvrent un mécanisme basé sur les niveaux des chemins de Dyck. Traduction en algorithme explicite (scaffolding map) prouvé équivalent à la zeta map.

Raisonnement Papers

SIG

HYP

arXiv cs.CL·1 juin

Probing the Prompt KV Cache: Where It Becomes Dispensable

Étude sur la redondance du cache KV des prompts lors du décodage. Les chercheurs montrent que les couches supérieures du cache prompt peuvent être remplacées par un scaffold de template de chat sans perte d'accuracy significative, révélant que la redondance est structurelle plutôt que sémantique. Résultats validés sur Qwen3, Gemma 3 et Llama 3.

Raisonnement Benchmarks Papers

SIG

HYP

arXiv cs.LG·1 juin

MAAT: Multi-phase Adapter-Aware Targeted Unlearning

5WBENCH, un benchmark de 5 000 exemples équilibré par catégories 5W, révèle que les méthodes d'unlearning échouent sur les questions causales (Why). MAAT, un framework trois phases opérant sur poids LoRA, combine ascente de gradient projetée, élagage SVD et réparation KL pour atteindre simultanément oubli et rétention élevés sur connaissances causales.

Fine-tuning Sécurité IA Alignement

SIG

HYP

arXiv cs.AI·1 juin

GraphARC: A Comprehensive Benchmark for Graph-Based Abstract Reasoning

GraphARC est un benchmark d'IA pour le raisonnement abstrait sur graphes, généralisant le paradigme ARC à des données structurées en graphes. Les modèles de langage actuels échouent sur les transformations complètes de graphes malgré une compréhension des propriétés, révélant un fossé entre compréhension et exécution.

Benchmarks Raisonnement Papers

SIG

HYP

arXiv cs.CL·1 juin

Skill is Not One-Size-Fits-All: Model-Aware Skill Alignment for LLM Agents

MASA (Model-Aware Skill Alignment) adapte les compétences procédurales des agents LLM à chaque modèle backbone sans modifier les poids. Un pipeline d'évolution hiérarchique réécrit les compétences via hill climbing et recherche arborescente UCB, puis un réécriture légère entraîné reproduit l'adaptation en un seul passage. Gains jusqu'à 25,8 points sur trois environnements interactifs et quatre backbones.

Agents IA Prompt engineering Raisonnement

SIG

HYP

arXiv cs.CL·1 juin

ElasticMem: Latent Memory as a Learnable Resource for LLM Agents

ElasticMem propose un framework de mémoire latente pour agents LLM qui alloue dynamiquement des ressources mémoire via une politique apprise. Sur Qwen2.5-3B et 7B, amélioration de 26.2% et 24.6% en QA, et 66.3% et 27.2% en contrôle d'agent embodié (ALFWorld), avec coût token minimal.

Agents IA Raisonnement Reinforcement learning

SIG

HYP

arXiv cs.AI·1 juin

TraceGraph: Shared Decision Landscapes for Diagnosing and Improving Agent Trajectories

TraceGraph est un framework graphique qui transforme les trajectoires d'agents multi-modèles en paysages décisionnels partagés. Il construit des graphes état-action-observation, identifie les régions productives et les pièges, puis propose un pipeline de récupération conscient des pièges. Sur SWE-bench, cette approche améliore le taux de résolution de 40,4% à 43,5%.

Agents IA Benchmarks Évaluations

SIG

HYP

arXiv cs.LG·1 juin

Measuring, Localizing, and Ablating Alignment Signatures in LLMs

Étude des signatures stylistiques introduites par l'alignement des LLM. Les chercheurs montrent que le post-training crée un style détectable par les détecteurs IA. Ils proposent PASTA, une méthode sans entraînement qui localise et supprime cette signature lors du décodage, réduisant les taux de détection sur 11 modèles alignés.

Alignement Évaluations Sécurité IA

SIG

HYP

arXiv cs.CL·1 juin

Generalistic or Specific Embeddings, Which is Better? An Empirical Study on Search for Clinical Coding in Non-English Languages

Étude comparative d'embeddings génériques vs spécialisés pour la recherche clinique multilingue (ICD-10-CM). Un bi-encoder fine-tuné sur données synthétiques Gemini (6 langues) surpasse BioBERT-ST : R@5=0.822 vs 0.790, avec gains majeurs en portugais (+0.115). Recette open-source pour retrievers médicaux basés sur LLM.

Embeddings RAG Benchmarks

SIG

HYP