Page 15 sur 192

ToutHaut signalRécent

7679 articles

MIRAGE: Mobile Agents with Implicit Reasoning and Generative World Models

MIRAGE est un framework pour agents mobiles qui apprend des représentations de raisonnement latent continu à partir de traces textuelles visibles. Il transfère le raisonnement explicite en états cachés compacts, réduisant la génération de tokens de 3-5x sur AndroidWorld tout en maintenant la performance et améliorant le baseline de 10.2 points.

Agents IA Raisonnement Génération de code

SIG

HYP

arXiv cs.AI·4 juin

SCI-PRM: A Tool Aware Process Reward Model for Scientific Reasoning Verification

SCI-PRM est un modèle de récompense de processus entraîné sur SCIPRM70K, un dataset de 70K trajectoires scientifiques intégrant outils et raisonnement. Il supervise la sélection d'outils, l'exactitude d'exécution et l'interprétation des résultats. Testé sur biologie, chimie, physique : améliore le scaling test-time et fournit un signal dense pour RL.

Raisonnement Évaluations Reinforcement learning

SIG

HYP

arXiv cs.LG·4 juin

dMX: Differentiable Mixed-Precision Assignment for Low-Precision Floating-Point Formats

dMX est un framework de quantification mixte-précision différentiable pour assigner des largeurs de bits flottants apprenables aux couches de LLMs. Testé sur Llama, Qwen3 et SmolLM2 avec le standard MXFP (Open Compute Project), il optimise continu les formats par couche puis les discrétise via annealing, surpassant les heuristiques KL-divergence sur WikiText-2 et benchmarks zero-shot.

Llama Qwen Benchmarks

SIG

HYP

arXiv cs.CL·4 juin

MM-BizRAG: Rethinking Multimodal Retrieval-Augmented Generation for General Purpose Enterprise Q&A

MM-BizRAG améliore la génération augmentée par récupération multimodale pour les documents d'entreprise complexes. Le système extrait explicitement la structure des documents via des pipelines d'ingestion orientés (parsing pour rapports verticaux, représentations page-entière pour présentations), puis assemble les contextes multimodaux à l'inférence. Gains jusqu'à 32% sur SlideVQA et FinRAGBench-V sans fine-tuning.

RAG Vision Benchmarks

SIG

HYP

arXiv cs.CL·4 juin

A Systematic Evaluation of Positional Bias in Multi-Video Summarization with MLLMs

Étude systématique du biais positionnel dans la résumé multi-vidéo avec MLLMs. Benchmark sur ActivityNet et News videos (2-4 vidéos). Évaluation de 9 modèles (open-source et propriétaires) avec 3 métriques : Coverage, Directional Positional Bias, Middle-Edge Gap. Résultat : effets positionnels dépendent du domaine et du modèle ; augmenter le budget visuel ne supprime pas l'imbalance.

Vision Benchmarks Évaluations

SIG

HYP

arXiv cs.CL·4 juin

Parameter-Efficient Fine-Tuning with Learnable Rank

LR-LoRA introduit un rang d'adaptateur appris pendant l'entraînement, remplaçant la contrainte de rang fixe de LoRA. Le rang varie par couche : les couches d'attention et MLP montrent des préférences de rang différentes. Surpasse LoRA et autres baselines PEFT sur benchmarks de compréhension du langage et raisonnement.

Fine-tuning Papers Benchmarks

SIG

HYP

arXiv cs.CL·4 juin

Cartridges at Scale: Training Modular KV Caches over Large Document Collections

Cartridges at Scale (CAS) entraîne des caches KV modulaires et réutilisables pour de grandes collections documentaires, éliminant le prefilling coûteux. Le framework gère dynamiquement des centaines de cartouches par document avec rotation GPU/stockage, scalant à plus d'un million de tokens. Performance : +10-31 points vs cartouche monolithique, -3-4x tokens vs RAG classique.

RAG Raisonnement Papers

SIG

HYP

arXiv cs.LG·4 juin

Do Transformers Need Three Projections? Systematic Study of QKV Variants

Étude systématique des variantes QKV dans les transformers. Les auteurs testent trois contraintes de partage de projections (Q-K=V, Q=K-V, Q=K=V) sur tâches synthétiques, vision et modèles de langage (300M-1.2B). Q-K=V réduit le cache KV de 50% avec dégradation perplexité de 3.1%. Combiné à GQA/MQA, atteint 87.5-96.9% de réduction cache pour inférence edge.

Raisonnement Benchmarks Open source

SIG

HYP

arXiv cs.AI·4 juin

Cascading Hallucination in Agentic RAG: The CHARM Framework for Detection and Mitigation

CHARM détecte et mitigue les hallucinations en cascade dans les pipelines RAG multi-étapes, où les erreurs précoces se propagent et s'amplifient. Framework avec 4 composants (vérification factuelle, cohérence cross-stage, monitoring de confiance, résolution). 89.4% de taux de détection sur HotpotQA/MuSiQue/2WikiMultiHopQA, réduction d'erreurs de 82.1%.

RAG Agents IA Raisonnement

SIG

HYP

arXiv cs.LG·4 juin

LiftQuant: Continuous Bit-Width LLM via Dimensional Lifting and Projection

LiftQuant propose une quantification à bit-width continu pour les LLM via un mécanisme « lift-then-project » qui projette un treillis 1-bit depuis un espace de dimension supérieure. Le bit-width effectif est contrôlé par le ratio des dimensions, permettant un ajustement quasi-continu. Un modèle 70B compressé à 2.4 bits sur 24GB GPU surpasse les modèles 2-bit existants.

Benchmarks Open source

SIG

HYP

arXiv cs.CL·4 juin

GENEB: Why Genomic Models Are Hard to Compare

GENEB est un benchmark diagnostic à grande échelle évaluant 40 modèles fondamentaux génomiques sur 100 tâches dans 13 catégories fonctionnelles sous un protocole unifié. L'analyse révèle que les classements agrégés sont instables : les rangs varient fortement entre catégories, l'échelle offre des gains modestes et inconsistants, et l'alignement architectural surpasse souvent le nombre de paramètres.

Benchmarks Papers Évaluations

SIG

HYP

arXiv cs.LG·4 juin

LLM Compression with Jointly Optimizing Architectural and Quantization choices

Framework NAS différentiable pour compresser les LLM en optimisant conjointement l'architecture et la quantization mixte des couches linéaires. Résultats : inférence 1.4x plus rapide que NAS séquentiel + quantization, ou +6% de précision moyenne sur 7 tâches de reasoning à latence équivalente.

Raisonnement Benchmarks Fine-tuning

SIG

HYP

arXiv cs.LG·4 juin

Edge of Stability Selectively Shapes Learning Across the Data Distribution

L'étude montre que l'edge of stability (EoS) redistribue sélectivement l'apprentissage entre sous-groupes de données. Deux conditions permettent à un groupe de bénéficier : l'alignement de son gradient agrégé avec le vecteur propre dominant de la Hessienne, et le maintien d'une magnitude de gradient non-nulle. Sous cross-entropy loss, la saturation du gradient avantage les outliers en sortie.

Papers Reinforcement learning Évaluations

SIG

HYP

arXiv cs.CL·4 juin

Long Live Fine-Tuning: Task-Specific Transformers Outperform Zero-Shot LLMs for Misinformation Response Classification on Reddit

Fine-tuned RoBERTa surpasse les LLMs zero-shot (Claude Haiku, Gemini Flash) sur la classification de réponses à la désinformation Reddit : 0.62 macro-F1 vs 0.50. L'augmentation de taille (Llama-3-70B vs 8B) n'aide pas. Les alignements de sécurité des modèles commerciaux dégradent la détection de croyances (0.17 pour Claude Sonnet).

Fine-tuning Benchmarks Sécurité IA

SIG

HYP

arXiv cs.CL·4 juin

LazyAttention: Efficient Retrieval-Augmented Generation with Deferred Positional Encoding

LazyAttention est un mécanisme d'attention qui optimise le cache clé-valeur (KV) pour les applications RAG et ICL en reportant l'encodage positionnel. Il permet la réutilisation sans copie du cache KV à des positions arbitraires, réduisant le TTFT de 1.37× et augmentant le débit de 1.40× vs Block-Attention.

RAG Raisonnement Infrastructure

SIG

HYP

arXiv cs.LG·4 juin

Recover-LoRA for Aggressive Quantization: Reclaiming Accuracy in 2-Bit Language Models via Low-Rank Adaptation with Knowledge Distillation on Synthetic Data

Recover-LoRA étend une méthode de récupération d'accuracy sans données aux LLM quantifiés à 2-bit. Une stratégie mixte quantifie sélectivement les couches gate/up du MLP en W2 tandis que les autres restent en W4, gagnant 7.5–23.3% en throughput. Des adaptateurs low-rank entraînés par distillation logit sur données synthétiques récupèrent 80–95% d'accuracy sur Qwen3-4B avec 10k samples.

Fine-tuning Benchmarks

SIG

HYP

arXiv cs.AI·4 juin

Online Skill Learning for Web Agents via State-Grounded Dynamic Retrieval

SGDR, une méthode d'apprentissage de compétences en ligne, permet aux agents web de réutiliser des sous-procédures à chaque étape d'exécution. Contrairement aux approches statiques, SGDR récupère dynamiquement les compétences en fonction de l'état actuel de la page et de l'objectif. Sur WebArena, elle atteint 37,5% de succès avec GPT-4.1 et 24,3% avec Qwen3-4B, surpassant les baselines de 10,6% et 10,0%.

Agents IA Benchmarks Génération de code

SIG

HYP

arXiv cs.AI·4 juin

Can Generalist Agents Automate Data Curation?

Curation-Bench évalue si des agents IA généralistes peuvent automatiser la curation de données d'entraînement. Les agents atteignent des baselines publiées en dix itérations, mais restent limités à des variantes locales. Avec scaffolding (citation et adaptation de méthodes), un agent compose autonomement une politique surpassant les baselines avec 10× moins de données.

Agents IA Benchmarks Génération de code

SIG

HYP

arXiv cs.LG·4 juin

Pseudospectral Bounds for Transient Amplification in Coupled Gradient Descent

Théorie pseudospectrale pour la descente de gradient couplée (bilevel optimization, approximation stochastique deux échelles, entraînement adversarial). Borne Kreiss K(J) ≤ 2/(1-γ) + ‖C‖/(4(1-γ)) pour Jacobiens bloc-triangulaires. Complexité itérative O(K(J)² log(1/δ)) en régime fini. Expériences sur problèmes linéaires-quadratiques et réseaux de neurones.

Reinforcement learning Benchmarks Papers

SIG

HYP

arXiv cs.CL·4 juin

LDARNet: DNA Adaptive Representation Network with Learnable Tokenization for Genomic Modeling

LDARNet, un modèle fondationnel génomique de 120M paramètres, introduit une tokenization adaptative apprise sans supervision pour remplacer les schémas fixes (k-mers, BPE). Combinant BiMamba-2 avec attention locale et routage bidirectionnel, il atteint l'état de l'art sur 5 tâches de modification d'histones et surpasse des modèles 20× plus grands à compute égal.

Papers Benchmarks Fine-tuning

SIG

HYP

arXiv cs.LG·4 juin

When Autoregressive Consistency Hurts Safety Alignment

Des chercheurs montrent que l'alignement de sécurité des LLM est fragile car concentré sur les premiers tokens. Le mécanisme d'autoregressive consistency permet aux attaques d'insérer des séquences nuisibles à n'importe quelle position et de les prolonger. Ils proposent adversarial safety alignment avec random worst-insertion training pour briser cette cohérence.

Sécurité IA Alignement Raisonnement

SIG

HYP

arXiv cs.CL·4 juin

When Retrieval Doesn't Help: A Large-Scale Study of Biomedical RAG

Étude à grande échelle sur 5 modèles (7B-72B paramètres), 10 datasets biomédicaux et 4 méthodes de retrieval. La RAG n'apporte que +1-2 points vs baseline sans retrieval. Le choix du modèle backbone a plus d'impact que le retriever ou le corpus. Le goulot d'étranglement : capacité limitée du modèle à exploiter les preuves récupérées.

RAG Benchmarks Raisonnement

SIG

HYP

arXiv cs.CL·4 juin

POLARIS: Guiding Small Models to Write Long Stories

POLARIS est une méthode d'optimisation par renforcement (GRPO) pour améliorer la génération de textes longs par petits modèles. Appliquée à Qwen3.5-9B avec 1.4K paires prompt-histoire et 4 GPU A100, elle utilise un juge LLM frontier et l'injection de références humaines. POLARIS-9B rivalise avec des modèles 3× plus grands et généralise à des histoires 3× plus longues que l'entraînement.

Qwen Reinforcement learning Fine-tuning

SIG

HYP

arXiv cs.AI·4 juin

AIP: A Graph Representation for Learning and Governing Agent Skills

AIP (Agent Instruction Protocol) modélise les compétences d'agents comme des graphes d'exécution dirigés avec nœuds déterministes et arêtes typées validées par schéma YAML. Sur 27 tâches SkillsBench, Claude Sonnet passe de 0.60 à 0.71 de récompense moyenne et 53% à 67% de taux de réussite. La structure graphique permet diagnostic précis et amélioration itérative des compétences.

Agents IA Claude Anthropic

SIG

HYP

arXiv cs.AI·4 juin

Beyond Objective Equivalence: Constraint Injection for LLM-Based Optimization Modeling on Vehicle Routing Problems

VRPCoder, un modèle 8B, traduit des scénarios de routage de véhicules en langage naturel vers du code Gurobi. Les auteurs proposent « constraint injection » pour vérifier que les contraintes ne sont ni omises ni ajoutées spurieusement. Avec GRPO, VRPCoder atteint 93% Pass@1, surpassant Claude-Sonnet-4.5 de 28 points sur des benchmarks VRP.

Génération de code Reinforcement learning Benchmarks

SIG

HYP

arXiv cs.AI·4 juin

Inference-Time Vulnerability Beyond Shallow Safety: Alignment Along Generation Trajectories

Des chercheurs montrent que les LLM alignés restent vulnérables aux injections de tokens à n'importe quel stade de génération, pas seulement au début. L'alignement sur les états internes ne suffit pas. Entraîner directement sur les trajectoires de génération perturbées améliore la robustesse.

Sécurité IA Alignement Raisonnement

SIG

HYP

arXiv cs.AI·4 juin

FALSIFYBENCH: Evaluating Inductive Reasoning in LLMs with Rule Discovery Games

FALSIFYBENCH évalue le raisonnement inductif de 12 LLMs via des jeux de découverte de règles inspirés de la tâche Wason 2-4-6. Les modèles de raisonnement surpassent les modèles instruction-tuned, mais aucun n'approche la performance optimale. Le succès dépend principalement de la capacité à tester négativement et falsifier les hypothèses.

Benchmarks Raisonnement Évaluations

SIG

HYP

arXiv cs.CL·4 juin

Read the Trace, Steer the Path: Trajectory-Aware Reinforcement Learning for Diffusion Language Models

CAPR est un algorithme de reinforcement learning pour modèles de diffusion (dLLMs) qui exploite la trace de débruitage pour générer des signaux de supervision granulaires sans coût computationnel d'arbre complet. L'approche réduit le coût de rollout à 0.75x des méthodes plates et 0.6x des arbres, atteignant SOTA sur Sudoku 4x4, Countdown, GSM8K et Math500.

Reinforcement learning Raisonnement Benchmarks

SIG

HYP

The Decoder·3 juin

Google Deepmind's Gemma 4 12B squeezes multimodal AI onto a laptop with just 16 GB of RAM

Google DeepMind lance Gemma 4 12B, un modèle open-source multimodal (texte, images, audio) fonctionnant sur laptop avec 16 GB RAM. Performances proches du modèle 26B, licence Apache 2.0 pour usage commercial.

DeepMind Open source Vision

SIG

HYP

arXiv cs.LG·3 juin

Spectral Asymptotics of Neural Network Loss Landscapes: An Exact Decomposition of the Curvature Exponent

Étude théorique de la géométrie des paysages de perte des réseaux de neurones. Les auteurs prouvent une décomposition spectrale expliquant pourquoi l'exposant de courbure α varie selon les couches (α≈2 convolutions, α≈1 attention transformer, α<1 MLP). Validation empirique sur 93 couches, 5 architectures, 3 datasets avec erreur médiane ~2%.

Papers Raisonnement Benchmarks

SIG

HYP

arXiv cs.LG·3 juin

Are we really tilting? The mechanics of reward guidance in flow and diffusion models

Les algorithmes de reward guidance stérisent les processus génératifs vers des mesures favorables aux récompenses. L'étude montre que le reward hacking provient d'une approximation pratique : l'estimation plug-in à particules finies de la fonction h de Doob. Les auteurs proposent un calendrier d'amortissement fermé et valident sur cibles gaussiennes, damier 2D et FLUX.1.

Reinforcement learning Raisonnement Papers

SIG

HYP

arXiv cs.CL·3 juin

AI Rater Discrimination Depends on Scoring Protocol in Complex Clinical Decision-Making

Étude factorial sur 4 LLMs open-source évaluant des décisions cliniques en diabète type 2. Les LLMs utilisés comme évaluateurs donnent des scores 74–78 points en protocole sans rubrique vs 7.69–49.64 points avec rubrique ancrée. La rubrique amplifie la discrimination entre modèles (facteur 1.76–5.10) et révèle variations comportementales masquées sans rubrique.

Évaluations Benchmarks Sécurité IA

SIG

HYP

arXiv cs.CL·3 juin

Experience-Driven Dynamic Exits for LLMs with Reinforcement Learning

LEDE, un framework d'apprentissage par renforcement hors ligne, optimise l'inférence des LLM en sélectionnant dynamiquement la couche de sortie et la longueur de spéculation selon le contexte local. Sur Llama-2 et Llama-3, il atteint 2.0×–2.7× d'accélération vs décodage autorégressif, +17% vs baselines statiques.

Llama Reinforcement learning Génération de code

SIG

HYP

arXiv cs.CL·3 juin

The Deliberative Illusion: Diagnosing Factual Attrition and Stance Homogenization in Multi-Agent LLM Deliberation

Les systèmes multi-agents LLM perdent jusqu'à 72% des faits critiques lors de la délibération, créant une « illusion délibérative ». DelibTrace mesure cette attrition factuelle et l'homogénéisation des positions. Les agents convergent vers un consensus tout en oubliant les éléments essentiels pour interpréter le problème.

Multi-agents Agents IA Évaluations

SIG

HYP

arXiv cs.CL·3 juin

Regret Pre-training: Bridging Prior and Posterior Views for Enhanced Knowledge Grounding

Regret Pre-training introduit un cadre d'apprentissage auto-supervisé basé sur LUPI, utilisant une architecture dual-view pour générer distributions Student (causale) et Teacher (future-conditionnée). Sur OLMoE-1B-7B après 4B tokens, GlobalRegret et LocalRegret atteignent 33.9% et 32.2% de précision moyenne vs 30.2% baseline, avec gain de 18.1pp sur BoolQ. Zéro paramètre supplémentaire.

Papers Raisonnement Fine-tuning

SIG

HYP

arXiv cs.LG·3 juin

ReLoRA: Knowledge-Reusing Adaptation for Fast Rollout of Evolving LLM Services

ReLoRA est un framework de ré-adaptation efficace pour les services LLM en évolution continue. Il utilise l'optimisation bayésienne pour initialiser les adaptateurs LoRA de manière compatible avec les mises à jour du modèle de base, puis affine avec régularisation progressive. Résultats : réduction du temps de déploiement jusqu'à 8,9× et amélioration de précision jusqu'à 4,6%.

Fine-tuning Raisonnement Benchmarks

SIG

HYP

arXiv cs.AI·3 juin

SkillDAG: Self-Evolving Typed Skill Graphs for LLM Skill Selection at Scale

SkillDAG modélise les relations entre compétences d'agents LLM comme un graphe typé orienté, permettant une sélection dynamique de compétences à l'inférence. Sur ALFWorld et SkillsBench avec MiniMax-M2.7, le système atteint 67,1% de succès et 27,3% de récompense, surpassant les baselines Graph-of-Skills de +12,8 et +8,6 points. Le graphe s'enrichit pendant l'exécution via un protocole propose-then-commit.

Agents IA Raisonnement Benchmarks

SIG

HYP

arXiv cs.AI·3 juin

The Shadow Price of Reasoning: Economic Perspective on Optimal Budget Allocation for LLMs

Papier arXiv proposant CLEAR, une méthode d'allocation optimale de budget de calcul pour l'inférence LLM basée sur la théorie économique. Via une fonction d'utilité « shifted-surge » et un prix fantôme global, CLEAR abandonne les requêtes non-solvables et réalloue les ressources. Résultats : 3x d'amélioration en précision globale vs allocation uniforme en régimes de ressources limitées.

Raisonnement Benchmarks Infrastructure

SIG

HYP

arXiv cs.CL·3 juin

SEA-Embedding: Open and Reproducible Text Embeddings for Southeast Asia

SEA-Embedding est un pipeline d'embeddings textuels open-source et reproductible pour les langues d'Asie du Sud-Est, entraîné uniquement sur données publiques. L'étude analyse trois facteurs clés : composition des données, objectif d'entraînement et initialisation de l'encodeur. Résultats SOTA sur SEA-BED.

Embeddings Open source Papers

SIG

HYP

arXiv cs.AI·3 juin

Decomposing how prompting steers behavior

Étude de la géométrie représentationnelle pour comprendre comment les prompts modifient le comportement des LLMs et VLMs. Framework de décomposition imbriquée testant translation, transformation rigide, scaling, transformation affine et non-linéaire sur 3 LLMs, 3 VLMs et 6 datasets. Résultat : le mixing linéaire cross-dimensionnel (transformation affine) est le mécanisme clé de réorganisation représentationnelle.

Prompt engineering Raisonnement Papers

SIG

HYP