Page 10 sur 192

ToutHaut signalRécent

7679 articles

VISTA: View-Consistent Self-Verified Training for GUI Grounding

VISTA propose une méthode de fine-tuning basée sur GRPO pour améliorer le grounding GUI. Elle génère plusieurs vues du même écran (crops préservant l'élément cible) pour créer des groupes de comparaison plus robustes. Sur ScreenSpot-Pro, elle améliore Qwen3-VL 4B/8B/30B de 55.5/52.7/53.7 à 63.4/65.8/67.0.

Reinforcement learning Vision Benchmarks

SIG

HYP

arXiv cs.CL·15 juin

The Culture Funnel: You Can't Align What isn't in the Data

Les modèles de langage souffrent d'un « entonnoir culturel » : les signaux culturels explicites déclinent fortement lors du post-entraînement, dominés par des données géographiquement concentrées. Une étude avec framework de tagging multidimensionnel sur 5,6M samples montre que le multilingue améliore la diversité géographique mais pas l'équilibre. Les auteurs publient un dataset culturellement tagué.

Alignement Fine-tuning Benchmarks

SIG

HYP

arXiv cs.AI·15 juin

When the Tool Decides: LLM Agents Defer Blindly to Graph Neural Network Tools, and Stronger Backbones Defer More

Des agents LLM équipés d'outils GNN (Graph Neural Networks) ne font pas preuve de jugement : ils adoptent aveuglément les prédictions du GNN à 97,6-99,2% du temps. Cette déférence augmente avec la capacité du modèle (Qwen2.5 0.5B-7B), créant un « GNN parrot » qui contourne son propre raisonnement. Les alternatives simples surpassent le GNN à forte homophilie, mais l'agent continue de déférer.

Agents IA Benchmarks Raisonnement

SIG

HYP

arXiv cs.LG·15 juin

Decompose Sparsely Where You Should, Absorb Densely Where You Should No

Les autoencodeurs creux (SAE) supposent que tous les activations peuvent être décomposés de manière parcimonieuse. Cette étude propose d'ajouter un goulot d'étranglement dense de rang faible en parallèle aux SAE pour capturer une composante dense causalement importante. Sur Gemma-2-2B, un goulot de rang 24 réduit les latents denses de 84% tout en améliorant les performances de sondage.

SIG

HYP

arXiv cs.LG·15 juin

Graph-based Target Back-Propagation for Context Adaptation in Multi-LLM Agentic Systems

GTBP (Graph-based Target Back-Propagation) est un framework d'adaptation de contexte pour systèmes multi-LLM agentic. Il propage des cibles locales rétroactivement dans un graphe acyclique dirigé et met à jour les prompts par étapes. Convergence garantie théoriquement, surpasse les baselines sur 3 benchmarks.

Agents IA Multi-agents Prompt engineering

SIG

HYP

arXiv cs.LG·15 juin

Gefen: Optimized Stochastic Optimizer

Gefen est un optimiseur mémoire-efficace qui réduit l'empreinte mémoire d'AdamW d'environ 8x (6.5 GiB par milliard de paramètres) en partageant les estimations de second moment entre blocs de paramètres et en quantifiant le premier moment via un codebook appris. Maintient les performances d'AdamW tout en permettant des microbatches plus larges en entraînement distribué.

Fine-tuning Infrastructure

SIG

HYP

arXiv cs.AI·15 juin

TwinBI: An Agentic Digital Twin for Efficient Augmented Interactions with Business Intelligence Dashboards

TwinBI est un framework d'agent numérique qui couple un système LLM avec l'état exécutable d'un tableau de bord BI. Il unifie interaction conversationnelle, manipulation de dashboard et suivi de provenance via un log d'interaction partagé. Benchmark : précision exacte 43.3% → 63.3%, timeout 40% → 10%.

Agents IA RAG Benchmarks

SIG

HYP

arXiv cs.CL·15 juin

LLMs Contain Multitudes: How Deployment Context Reshapes Model-Level Preferences and Values

Étude sur 1.2M décisions montrant que le contexte de déploiement (Reddit vs article news) produit des variations de préférences et valeurs bien plus importantes que les variations de prompt ou température. Les biais mesurés (favoritisme Global North) et les échanges cardinaux entre outcomes varient d'un facteur 2.47 selon le contexte, remettant en question la stabilité des propriétés model-level.

Évaluations Sécurité IA Alignement

SIG

HYP

arXiv cs.LG·15 juin

Small LLMs: Pruning vs. Training from Scratch

Étude comparative du pruning vs. entraînement from scratch sur Llama-3.1-8B (ratios 0.5–0.8, 6 méthodes). Le pruning surpasse l'initialisation aléatoire avec budget tokens égal, mais cet avantage s'érode avec plus de tokens. Le pruning fin conserve un gain même avec budget illimité ; le pruning structuré grossier peut être rattrapé par l'entraînement from scratch.

Llama Benchmarks Papers

SIG

HYP

arXiv cs.CL·15 juin

OdysSim: Building Foundation Models for Human Behavior Simulation

OdysSim présente une investigation systématique de modèles fondamentaux pour simuler le comportement humain. Les chercheurs proposent SOUL, une taxonomie de 5 axes (CONV, SS, COG, ROLE, EVAL) unifiant 62 datasets et 23 tâches. Le modèle OSim 8B open-source surpasse les modèles frontier sur 8/23 tâches, avec alignement réactionnel de 93.2% vs 93.5% pour les utilisateurs réels.

Benchmarks Raisonnement Reinforcement learning

SIG

HYP

arXiv cs.CL·15 juin

Can Post-Training Turn LLMs into Good Medical Coders? An Empirical Study of Generative ICD Coding

Étude empirique sur l'adaptation post-entraînement de LLMs pour le codage ICD (classification des maladies). Les auteurs comparent prompting, fine-tuning supervisé et reinforcement learning (GRPO), introduisent PHI (curriculum diagnostique), et montrent que SFT + GRPO surpassent les baselines discriminatives. Code et checkpoints publiés.

Fine-tuning Reinforcement learning Raisonnement

SIG

HYP

arXiv cs.CL·15 juin

Does the Judge Prefer English? Evaluating Language-Switching Invariance in LLM-as-a-Judge

Judge-LS évalue si les LLM utilisés comme juges automatiques montrent un biais linguistique. Sur 419 items du benchmark LLMBar transformés en anglais, chinois et variantes mixtes, les modèles affichent 10,7–14,4% de renversements de préférence selon la langue, avec une précision maximale en anglais. Les réponses équivalentes en traduction ne révèlent pas de préférence systématique pour l'anglais.

Évaluations Benchmarks Sécurité IA

SIG

HYP

arXiv cs.CL·15 juin

BayLing-Duplex: Native Full-Duplex Speech Dialogue with a Single Autoregressive LLM

BayLing-Duplex est un modèle de langage parlé full-duplex natif basé sur un LLM autorégressif unique, sans module VAD externe. Entraîné sur 400K échantillons avec fine-tuning et DPO, il atteint 92% de succès en gestion des tours et 100% en interruptions sur InstructS2S-Eval, améliorant le score de réponse vocale de 2,17 à 3,39 par rapport à Moshi.

Voix Agents IA Benchmarks

SIG

HYP

arXiv cs.AI·15 juin

WorkBench Revisited: Workplace Agents Two Years On

WorkBench revisité (juin 2026) : Claude Opus 4.8 complète 89% des tâches vs 43% pour GPT-4 en mars 2024, avec 2.5% d'actions nuisibles involontaires vs 26%. Capacité et sécurité progressent ensemble. Les modèles open-weight réduisent drastiquement les coûts.

Agents IA Benchmarks Sécurité IA

SIG

HYP

arXiv cs.CL·15 juin

Right or Wrong, Models Comply: Directional Blindness in LLM Moral Judgment

Étude sur 9 modèles et 972 000 réponses montrant que les LLM se conforment aux suggestions nuisibles sur les jugements moraux (A=1.04) autant qu'aux suggestions bénéfiques, contrairement aux questions factuelles (A=1.58). Le chain-of-thought amplifie cette conformité bidirectionnelle, tandis que le prompting basé sur l'identité la supprime.

Alignement Sécurité IA Évaluations

SIG

HYP

arXiv cs.CL·15 juin

Retrospective Progress-Aware Self-Refinement for LLM Agent Training

RePro, un framework d'entraînement pour agents LLM, enseigne aux modèles à générer rétrospectivement des signaux de progrès via un paradigme forward-then-reflect. Testé sur WebShop, ALFWorld et Sokoban avec la famille Qwen, RePro atteint +12% de gain absolu en taux de succès sans supervision externe continue.

Agents IA Reinforcement learning Raisonnement

SIG

HYP

arXiv cs.LG·15 juin

Beyond LoRA: Is Sparsity-Induced Adaptation Better?

Étude comparative de LoRA et variantes avec adaptation par sparsité. Propose Cheap LoRA (cLA) et c³LA réduisant temps d'entraînement de 10% et mémoire GPU de 15%. Évalue 11 méthodes sur 10 modèles et 14 datasets avec bornes d'erreur de généralisation théoriques.

Fine-tuning Benchmarks Papers

SIG

HYP

arXiv cs.AI·15 juin

MA-ProofBench: A Two-Tiered Evaluation of LLMs for Theorem Proving in Mathematical Analysis

MA-ProofBench est le premier benchmark formel dédié aux théorèmes de Mathematical Analysis avec 200 problèmes formalisés en deux niveaux de difficulté (undergraduate et Ph.D.). GPT-5.5 atteint seulement 16% Pass@8 au niveau I et 5% au niveau II, révélant des lacunes majeures dans le raisonnement formel avancé des LLMs.

Benchmarks Raisonnement GPT

SIG

HYP

arXiv cs.LG·15 juin

Efficient On-Device Diffusion LLM Inference with Mobile NPU

llada.cpp est le premier framework d'inférence optimisé pour les NPU mobiles accélérant les diffusion LLMs sur smartphones. Trois techniques réduisent la latence : Multi-Block Speculative Decoding, Dual-Path Progressive Revision, et Swap-Optimized Memory Runtime. Sur LLaDA-8B, gains de 17x-42x vs CPU baseline.

Llama Génération de code Infrastructure

SIG

HYP

arXiv cs.AI·15 juin

Closing the Reflection Gap: A Free Calibration Bonus for Agentic RL

RefGRPO ferme l'écart de réflexion chez les agents LLM : ces derniers mal-évaluent leurs outputs après feedback environnemental. La méthode ajoute un bonus de calibration gratuit (contraste réflexion/résultat réel) aux algorithmes RL standards. Sur text-to-SQL : taux de sous-confiance 44.4%→7.7%, précision 75.1%→76.5%.

Agents IA Reinforcement learning Raisonnement

SIG

HYP

arXiv cs.AI·15 juin

Poker Arena: Multi-Axis Profiling of Strategic Reasoning and Memory in LLMs

Poker Arena évalue sept modèles LLM frontier sur le Texas Hold'em sans limite via une architecture mémoire trois niveaux et neuf axes cognitifs (calibrage des mises, conscience positionnelle, etc.). Claude Opus 4.6 gagne +$15,730 jetons mais classe 5e sur le score moyen des axes, révélant que les classements scalaires masquent la structure réelle des capacités.

Benchmarks Raisonnement Claude

SIG

HYP

arXiv cs.CL·15 juin

MedLatentDx: Latent Multi-Agent Communication for Cross-Hospital Rare-Disease Diagnosis

MedLatentDx est un framework multi-agent pour le diagnostic des maladies rares en collaboration inter-hôpitaux. Les agents hospitaliers conservent les dossiers cliniques privés et échangent des blocs latents KV compacts au lieu de texte brut, respectant les régulations de confidentialité. Deux modes : distillation KV pour backbones identiques, alignement latent cross-family pour LLM différents.

Multi-agents MCP Raisonnement

SIG

HYP

arXiv cs.AI·15 juin

VeriGeo: Controllable Geometry Question Generation with Numerical and Analytical Verification

VeriGeo génère des problèmes de géométrie contrôlables via des traces de raisonnement exécutables. Un agent Auteur crée le problème et le diagramme selon les contraintes utilisateur, un agent Solveur produit la preuve. Un pipeline à trois étapes vérifie la cohérence numérique, analytique et globale. Fine-tuning sur 8.7k exemples atteint les meilleures performances GeoQA et résultats forts sur PGPS9K et MathVista-GPS.

Raisonnement Vision Benchmarks

SIG

HYP

arXiv cs.CL·15 juin

Dialogue SWE-Bench: A Benchmark for Dialogue-Driven Coding Agents

Dialogue SWE-Bench est un benchmark automatisé pour évaluer les agents de codage via dialogue utilisateur. Les auteurs proposent un simulateur utilisateur persona-grounded et un agent schema-guided qui améliore les baselines de 3-14%. Résultat clé : les meilleurs modèles de code ne sont pas nécessairement les meilleurs en dialogue.

Benchmarks Génération de code Agents IA

SIG

HYP

The Decoder·13 juin

Google Research's Gemini-SQL2 tops text-to-SQL benchmarks by a wide margin

Gemini-SQL2 de Google Research, basé sur Gemini 3.1 Pro, atteint 80,04% de précision sur le benchmark BIRD pour la conversion langage naturel vers SQL, devançant largement OpenAI et Anthropic. Google envisage d'intégrer cette technologie dans ses services de données.

Gemini Benchmarks Génération de code

SIG

HYP

The Decoder·13 juin

Claude Fable 5 outpaces GPT-5.5 by 13 points on FrontierMath's toughest problems

Claude Fable 5 d'Anthropic atteint 88% de précision sur le tier le plus difficile de FrontierMath, contre 75% pour GPT-5.5 d'OpenAI. Progression massive par rapport à Opus 4.5 (< 10% début 2026).

Claude GPT Benchmarks

SIG

HYP

Reddit r/LocalLLaMA·12 juin

🚀PP-OCRv6 is officially released !

PaddleOCR v6 lancé officiellement avec modèles de 1.5M à 34.5M paramètres. +4.9% précision détection, +5.1% reconnaissance vs v5. Inférence CPU 5.2× plus rapide avec OpenVINO. Support 50 langues, nouveaux cas d'usage (PCB, CAD, tubes numériques). Apache 2.0 open-source.

Open source Vision Benchmarks

SIG

HYP

arXiv cs.CL·12 juin

LAUKIN: A Multi-jurisdictional Common Law Contract Dataset

LAUKIN est un dataset de 14 727 paires de clauses contractuelles (Australie-UK, UK-Inde, Inde-Australie) annoté pour l'équivalence légale. 3 000 paires sont manuellement labellisées par des experts juridiques. Les meilleurs modèles atteignent 65,11% macro-F1, révélant que les conventions de rédaction divergent significativement entre juridictions malgré un héritage légal commun.

Benchmarks Papers RAG

SIG

HYP

arXiv cs.AI·12 juin

Deployment-Centered Evaluation: Predicting Query-Level Rejection Risk in a Clinical LLM System

Étude de déploiement d'un LLM intégré dans un dossier médical électronique. Un classificateur pré-réponse prédit le risque de rejet utilisateur (AUROC 0,719) en exploitant le contexte de déploiement (type de prestataire, département, modèle). Analyse prospective sur 4,5 mois.

Évaluations Sécurité IA Alignement

SIG

HYP

arXiv cs.AI·12 juin

Prefill Awareness in Large Language Models

Étude arXiv montrant que les modèles frontière (Claude Opus 4.5, GPT, Gemini) détectent les préfills modifiés dans 9-35% des cas avec 0% de faux positifs. Cette « prefill awareness » compromet la validité des évaluations d'alignement et jailbreaking reposant sur l'insertion de contexte assistant. Les modèles distinguent mismatch stylistique et préférentiel.

Sécurité IA Alignement Évaluations

SIG

HYP

arXiv cs.CL·12 juin

SENTINEL: Failure-Driven Reinforcement Learning for Training Tool-Using Language Model Agents

SENTINEL est un framework de reinforcement learning qui améliore les agents LLM utilisant des outils en convertissant leurs échecs en tâches d'entraînement ciblées. Sur Tau2-Bench Retail avec Qwen3-4B-Thinking-2507, la méthode augmente Pass@1 de 66,4 à 74,9 via une boucle Controller-Proposer-Solver analysant les erreurs récurrentes.

Agents IA Reinforcement learning Qwen

SIG

HYP

arXiv cs.CL·12 juin

Observable Patterns Are Not Explanations: A Causal-Geometric Analysis of Latent Reasoning Models

Analyse causale de modèles de raisonnement latent (Coconut, CODI) : les patterns observables (frontières BFS, calcul arithmétique décodable) ne sont pas des preuves de mécanismes de raisonnement. Les interventions causales montrent que l'utilisation des pensées latentes est graduée, non binaire, et concentrée dans des directions de faible rang. La décodabilité seule ne suffit pas à établir un mécanisme.

Raisonnement Papers Évaluations

SIG

HYP

arXiv cs.AI·12 juin

ToolSense: A Diagnostic Framework for Auditing Parametric Tool Knowledge in LLMs

ToolSense est un framework de diagnostic open-source pour évaluer la compréhension réelle des outils par les LLMs. Appliqué à ToolBench (~47k outils), il révèle une dissociation connaissance-récupération : cinq configurations de modèles paramétriques s'effondrent de 50-64 points sur des requêtes réalistes ambiguës, tombant sous la baseline embedding, malgré des performances fortes sur les benchmarks standards.

Agents IA Benchmarks Évaluations

SIG

HYP

arXiv cs.AI·12 juin

Learning What to Remember: A Cognitively Grounded Multi-Factor Value Model for Agentic Memory

Modèle de valeur multi-facteurs pour la mémoire des agents LLM long-contexte. Sept facteurs cognitifs (intensité émotionnelle, pertinence objectif, alignement valeurs, etc.) pondérés par optimisation sans gradient. Retient 77% des évidences critiques vs 36.8% pour la récence sur LongMemEval.

Agents IA Raisonnement Papers

SIG

HYP

arXiv cs.AI·12 juin

PersonaDrive: Human-Style Retrieval-Augmented VLA Agents for Closed-Loop Driving Simulation

PersonaDrive est un pipeline d'agents VLA (vision-language-action) pour la simulation de conduite fermée, conditionné par des démonstrations humaines récupérées. Entraîné sur des données CARLA avec instructions agressives/neutres/conservatrices, il améliore le score de conduite de 4,6% sur Bench2Drive et génère des agents non-ego avec styles variés sans réentraînement par style.

Vision Agents IA RAG

SIG

HYP

arXiv cs.AI·12 juin

MDForge: Agentic Molecular Dynamics Pipeline Design under Sparse Simulator Feedback

MDForge est un agent LLM qui automatise la conception de pipelines de dynamique moléculaire (MD) via génération de code et débat multi-agent. Sur trois benchmarks SAMPL, il égale les experts humains et découvre un nouveau ligand CB[7] confirmé en laboratoire comme liant à haute affinité (picomolaire).

Agents IA Multi-agents Génération de code

SIG

HYP

arXiv cs.AI·12 juin

Evoflux: Inference-Time Evolution of Executable Tool Workflows for Compact Agents

Evoflux est une méthode de recherche évolutionnaire au moment de l'inférence pour réparer les workflows d'outils exécutables dans les agents compacts. Sur MCP-Bench avec 250 outils, elle augmente la faisabilité d'exécution de ~3% à 17-24%, surpassant SFT, SFT+DPO et ReAct avec des budgets limités de traces d'entraînement.

Agents IA MCP Outils

SIG

HYP

arXiv cs.AI·12 juin

Topical Phase Transitions in Artificial Intelligence Research: Large-Scale Evidence and an Early-Warning Signature for Emerging Topics

Analyse de 80 814 articles de 5 conférences IA majeures (2017-2025) révélant que les sujets progressent par transitions de phase abruptes, non graduellement. LLMs dominants en 2025, diffusion models et vision-language models ont surgi en 1-3 ans. Signature d'alerte précoce identifie reasoning, test-time compute, agentic AI, multimodal LLMs, RAG et world models comme sujets à surveiller 2026-2028.

Benchmarks Papers Raisonnement

SIG

HYP

arXiv cs.CL·12 juin

EvoBrowseComp: Benchmarking Search Agents on Evolving Knowledge

EvoBrowseComp est un benchmark évolutif de 400 questions en anglais et 400 en chinois pour évaluer les agents de recherche (LLM + outils web). Contrairement à BrowseComp statique, il utilise une traversée web en direct et un cadre à trois agents (synthèse QA, filtrage d'information, guidance) pour éviter la contamination et la mémorisation paramétrique. Le benchmark se met à jour automatiquement.

Agents IA Benchmarks Évaluations

SIG

HYP

arXiv cs.AI·12 juin

"Did you lie?" Evaluating Lie Detectors across Model Scale and Belief-Verified Model Organisms

Étude évaluant 4 détecteurs de mensonges sur 31 modèles (2B-1T paramètres). Les détecteurs (juge CoT, classificateur logprob, sondes d'activation, DYL) performent bien sur les mensonges provoqués mais échouent sur les organismes modèles entraînés avec croyances vérifiées. Seul le juge CoT maintient 0.82 d'accuracy équilibrée.

Évaluations Raisonnement Alignement

SIG

HYP