Page 16 sur 138

ToutHaut signalRécent
5485 articles
arXiv cs.AI·

SVFSearch: A Multimodal Knowledge-Intensive Benchmark for Short-Video Frame Search in the Gaming Vertical Domain

SVFSearch est un benchmark multimodal pour la recherche de frames dans des vidéos courtes du domaine gaming chinois. Il contient 5 000 exemples de test et 4 198 exemples d'entraînement basés sur des scènes de jeux réelles. L'évaluation compare QA direct, RAG, agents Plan-Act-Replan et modèles de recherche appris : le meilleur modèle open-source atteint 66,4%, le meilleur agent pratique 79,1%, oracle 95,4%.

BenchmarksAgents IARAG
SIG
78
HYP
15
arXiv cs.AI·

SCICONVBENCH: Benchmarking LLMs on Multi-Turn Clarification for Task Formulation in Computational Science

SCICONVBENCH est un benchmark évaluant la capacité des LLM à clarifier des problèmes mal posés en science computationnelle via dialogue multi-tour. Couvre mécanique des fluides, mécanique solide, science des matériaux et EDP. Les meilleurs modèles résolvent seulement 52,7% des cas d'ambiguïté en mécanique des fluides, mais performent mieux sur la détection d'incohérences.

BenchmarksRaisonnementGénération de code
SIG
78
HYP
15
arXiv cs.AI·

Systematic Optimization of Real-Time Diffusion Model Inference on Apple M3 Ultra

Optimisation systématique de modèles de diffusion en temps réel sur Apple M3 Ultra (GPU 60 cœurs, 512 GB mémoire unifiée). Combinaison de CoreML, quantization, Token Merging, distillation (SDXS-512) et pipeline caméra 3-threads atteint 22.7 FPS à 512x512. Révèle que les optimisations CUDA ne s'appliquent pas à l'architecture mémoire unifiée d'Apple Silicon.

Génération d'imagesBenchmarksInfrastructure
SIG
78
HYP
15
arXiv cs.AI·

DACA-GRPO: Denoising-Aware Credit Assignment for Reinforcement Learning in Diffusion Language Models

DACA-GRPO améliore l'entraînement par renforcement des modèles de langage diffusion en résolvant deux problèmes : l'absence d'attribution de crédit temporelle et le biais des estimations de vraisemblance. La méthode introduit des scores de progression de débruitage et un masquage stratifié, gagnant jusqu'à 7.4pp en génération de code et 5.6pp en raisonnement mathématique.

Reinforcement learningRaisonnementGénération de code
SIG
78
HYP
15
arXiv cs.AI·

ProxyKV: Cross-Model Proxy Pruning for Efficient Long-Context LLM Inference

ProxyKV propose un framework de pruning cross-model pour accélérer l'inférence long-contexte des LLM. Une Small-Model Proxy légère évalue l'importance du cache KV de manière asynchrone pour le modèle cible. Tests sur Llama-3.1, Qwen-2.5 et Qwen-3 : récupère 98.7% de la précision de KVZip avec speedup jusqu'à 3.21× en prefilling (Llama-3.1-8B, dual-GPU) et maintient les gains jusqu'à 170k tokens.

LlamaQwenRaisonnement
SIG
78
HYP
15
arXiv cs.AI·

From Volume to Value: Preference-Aligned Memory Construction for On-Device RAG

EPIC (Efficient Preference-aligned Index Construction) optimise la RAG sur appareil en stockant les préférences utilisateur plutôt que des données brutes. Sur 4 benchmarks, réduit la mémoire d'indexation de 2404×, améliore la précision de suivi des préférences de 20,17 points, et abaisse la latence de récupération de 33,33×. Empreinte mémoire < 1 MB avec 29,35 ms/requête.

RAGAgents IAEmbeddings
SIG
78
HYP
25
arXiv cs.AI·

PH-Dreamer: A Physics-Driven World Model via Port-Hamiltonian Generative Dynamics

PH-Dreamer intègre des principes physiques (Port-Hamiltonien) dans les world models pour améliorer l'imagination latente. Le framework modélise l'évolution énergétique, estime l'Hamiltonien à partir d'observations proprioceptives, et utilise un Actor-Critic guidé par l'énergie. Résultats : réduction du volume de phase de 4.18-8.41%, consommation énergétique réduite de 7.80%, jerk diminué de 9.38%.

RaisonnementReinforcement learningPapers
SIG
78
HYP
15
arXiv cs.AI·

Membership Inference Attacks on Discrete Diffusion Language Models

Étude des attaques d'inférence d'appartenance (MIA) sur les modèles de diffusion masqués (MDLM). Les chercheurs extraient des vecteurs de 46 dimensions de la perte de reconstruction à différents ratios de masquage et entraînent XGBoost et MLP. Sur le benchmark MIMIR, XGBoost atteint AUC 0.878 (pic 0.930), surpassant le baseline SAMA de 0.062 AUC. La trajectoire ELBO seule explique la majorité du signal.

Sécurité IABenchmarksPapers
SIG
78
HYP
15
arXiv cs.AI·

Identifiable Token Correspondence for World Models

Modèle du monde basé Transformer pour la prédiction de frames vidéo. Formule la prédiction du frame suivant comme un problème d'inférence probabiliste structurée avec variables de correspondance latentes entre tokens. Chaque token est soit copié du frame précédent, soit généré. SOTA sur 4 benchmarks : 72.5% return et 35.6% score sur Craftax-classic (vs 67.4%/27.9% précédent).

RaisonnementVisionReinforcement learning
SIG
78
HYP
25
arXiv cs.AI·

Mechanistically Interpretable Neural Encoding Reveals Fine-Grained Functional Selectivity in Human Visual Cortex

MINE (Mechanistically Interpretable Neural Encoding) applique l'interprétabilité mécanique aux modèles d'encodage neural pour identifier les features visuelles qui activent chaque voxel du cortex visuel humain. Via des représentations d'images alignées au langage et des éditions contrefactuelles, l'approche valide causalement la sélectivité fine des régions catégorielles du cerveau.

VisionPapers
SIG
78
HYP
15
arXiv cs.LG·

PIMSM: Physics-Informed Multi-Scale Mamba for Stable Neural Representations under Distribution Shift

PIMSM intègre des contraintes physiques dans une architecture Mamba multi-échelle pour améliorer la stabilité des représentations sous distribution shift. Le modèle aligne les paramètres de discrétisation sur les fréquences caractéristiques des séries temporelles (fMRI, météo). Résultats : robustesse accrue sur Human Connectome Project et Weather-5K avec MAE minimal en prédiction hors-distribution.

RaisonnementBenchmarksPapers
SIG
78
HYP
18
arXiv cs.AI·

PopPy: Opportunistically Exploiting Parallelism in Python Compound AI Applications

PopPy est un système qui découvre automatiquement les opportunités de parallélisation dans les applications Python composites (appels multiples à des modèles ML). Sur des applications réelles, PopPy atteint des accélérations jusqu'à 6.4× en temps d'exécution bout-en-bout, combinant un compilateur ahead-of-time et un runtime pour gérer la complexité du langage, le dispatch dynamique et les mutations de variables.

Agents IAGénération de codeInfrastructure
SIG
78
HYP
15
arXiv cs.AI·

Evaluating AI Alignment in LLMs: Output Analysis of Value Priorities Across 75 Models with Human Benchmarking

Étude d'alignement IA sur 75 LLMs comparés à 376 humains. Analyse qualitative identifie 6 thèmes de fonctionnement optimal (Performance, Capacité Adaptative, Bien Social, Éthique, Intégration Relationnelle, Agentivité). Les modèles reproduisent l'ordre des valeurs humaines mais exagèrent systématiquement les différences. La fidélité de profil ne corrèle pas avec la taille ou la récence du modèle.

AlignementÉvaluationsBenchmarks
SIG
78
HYP
25
arXiv cs.AI·

Beyond Policy Optimization: A Data Curation Flywheel for Sparse-Reward Long-Horizon Planning

BPO, un framework en trois étapes (bootstrapping, extrapolation, refinement), crée une boucle d'auto-amélioration pour entraîner des modèles de raisonnement robustes en planification long-horizon avec récompenses éparses. Utilise des quaternions de planification, fusion chain-of-thought long-court, et curriculum learning stratifié. SOTA sur ALFWorld, ScienceWorld, WebShop avec efficacité token significative.

RaisonnementAgents IAReinforcement learning
SIG
78
HYP
25
arXiv cs.AI·

Learning Reasoning Rewards from Expert Demonstrations with Inverse Reinforcement Learning

R-AIRL (Reasoning Adversarial Inverse Reinforcement Learning) infère des fonctions de récompense au niveau du processus à partir des chaînes de pensée d'experts, sans nécessiter de récompenses explicites. Testé sur GSM8K, MMLU-Pro et MedReason : améliore pass@1 de 17,4 points en reranking, surpasse SFT en post-training, localise les défaillances de raisonnement avec 86,1% de précision.

Reinforcement learningRaisonnementÉvaluations
SIG
78
HYP
25
arXiv cs.AI·

What Drives Success in Physical Planning with Joint-Embedding Predictive World Models?

Étude systématique des modèles de monde JEPA (Joint-Embedding Predictive Architecture) pour la planification physique. Les auteurs caractérisent les choix techniques (architecture, objectif d'entraînement, algorithme de planification) et proposent un modèle surpassant DINO-WM et V-JEPA-2-AC sur tâches de navigation et manipulation. Code, données et checkpoints disponibles.

RaisonnementRobotiquePapers
SIG
78
HYP
15
arXiv cs.AI·

AgentArk: Distilling Multi-Agent Intelligence into a Single LLM Agent

AgentArk distille l'intelligence multi-agent dans un seul modèle LLM via trois stratégies hiérarchiques : fine-tuning amélioré, augmentation par trajectoires et distillation consciente du processus. Le modèle résultant préserve l'efficacité computationnelle d'un agent unique tout en conservant les capacités de raisonnement et d'auto-correction des systèmes multi-agent.

Agents IAMulti-agentsFine-tuning
SIG
78
HYP
25
arXiv cs.AI·

LiTS: A Modular Framework for LLM Tree Search

LiTS est un framework Python modulaire pour le raisonnement LLM via tree search. Il décompose la recherche en trois composants réutilisables (Policy, Transition, RewardModel) compatibles avec MCTS et BFS. Tests sur MATH500, Crosswords et MapEval montrent l'orthogonalité composants-algorithmes. Découverte clé : la diversité de la policy LLM, non la qualité de la récompense, est le goulot en espaces d'actions infinis.

RaisonnementAgents IAOpen source
SIG
78
HYP
25
arXiv cs.AI·

Breaking $\textit{Winner-Takes-All}$: Cooperative Policy Optimization Improves Diverse LLM Reasoning

GCPO (Group Cooperative Policy Optimization) remplace l'optimisation compétitive des rollouts par une attribution de crédit au niveau de l'équipe. Les rollouts sont récompensés selon leur contribution à la couverture de solutions valides (volume déterminant sur embeddings sémantiques), pas leur précision individuelle. Résultats : amélioration de la précision et de la diversité sur benchmarks de raisonnement.

Reinforcement learningRaisonnementBenchmarks
SIG
78
HYP
25
arXiv cs.AI·

LegalCheck: Retrieval- and Context-Augmented Generation for Drafting Municipal Legal Advice Letters

LegalCheck automatise la rédaction de lettres de réponse aux objections dans les municipalités néerlandaises via RAG et génération augmentée par contexte. Déployé à Amsterdam, le système produit des brouillons juridiques en minutes au lieu d'heures, avec 80-100% du contenu essentiel, tout en maintenant la révision par expert et la cohérence légale.

RAGPrompt engineeringBusiness
SIG
78
HYP
22
arXiv cs.AI·

Model-Adaptive Tool Necessity Reveals the Knowing-Doing Gap in LLM Tool Use

Étude arXiv montrant que les LLM présentent un écart entre la reconnaissance du besoin d'outils et leur utilisation réelle. Sur 4 modèles testés en arithmétique et QA factuels, les auteurs détectent 26.5-54% de désaccords. L'analyse des états cachés révèle que cognition et action deviennent orthogonales en couches finales, concentrant l'erreur à la transition cognition-action.

Agents IAOutilsRaisonnement
SIG
78
HYP
15
arXiv cs.AI·

OpenDeepThink: Parallel Reasoning via Bradley-Terry Aggregation

OpenDeepThink utilise l'agrégation Bradley-Terry pour sélectionner les meilleures solutions parmi plusieurs candidats générés en parallèle. Le système compare aléatoirement des paires de réponses, agrège les votes et préserve les meilleures pour mutation. Sur Codeforces, Gemini 3.1 Pro gagne +405 points Elo en 8 appels LLM (~27 min). Les auteurs publient CF-73, 73 problèmes annotés par des experts.

RaisonnementBenchmarksGemini
SIG
78
HYP
25
arXiv cs.AI·

Ensemble Monitoring for AI Control: Diverse Signals Outweigh More Compute

Étude montrant que des ensembles diversifiés de moniteurs détectent mieux les actions mal alignées d'agents IA que des ensembles homogènes. 12 moniteurs GPT-4.1-Mini (prompting + fine-tuning) évalués sur tâches de code : le meilleur ensemble de 3 moniteurs atteint 2.4x plus de gain de détection qu'un ensemble de 3 moniteurs identiques, avec généralisation sur données indépendantes.

Sécurité IAAlignementAgents IA
SIG
78
HYP
25
arXiv cs.LG·

When Is Rank-1 Steering Cheap? Geometry, Granularity, and Budgeted Search

Les chercheurs formalisent le steering d'activation (contrôle d'LLM sans réentraînement) comme optimisation contrainte par budget sur la couche et le coefficient. Ils introduisent la granularité conceptuelle pour mesurer l'hétérogénéité directionnelle et présentent GRACE, un framework utilisant la géométrie d'activation pour diagnostiquer les difficultés de steering et réduire de 39,8% les évaluations nécessaires.

RaisonnementAlignementPapers
SIG
78
HYP
15
arXiv cs.AI·

Beyond Correctness: Harmonizing Process and Outcome Rewards through RL Training

PROF, une méthode de sélection de données, combine les récompenses de processus (PRM) et de résultat (ORM) pour améliorer l'apprentissage par renforcement sur les tâches de raisonnement. Elle filtre les exemples d'entraînement en gardant les réponses correctes avec bon support processus et les réponses incorrectes avec faible support, évitant l'instabilité de l'optimisation directe des PRM.

Reinforcement learningRaisonnementÉvaluations
SIG
78
HYP
15
arXiv cs.AI·

Can LLMs Refuse Questions They Do Not Know? Measuring Knowledge-Aware Refusal in Factual Tasks

Nouvelle métrique appelée Refusal Index (RI) pour mesurer la capacité des LLM à refuser les questions hors de leur connaissance. RI corrèle la probabilité de refus avec la probabilité d'erreur via la corrélation de Spearman. Tests sur 16 modèles et 5 datasets montrent que le comportement de refus des LLM reste fragile malgré une haute précision factuelle.

ÉvaluationsSécurité IAAlignement
SIG
78
HYP
15
arXiv cs.AI·

Beacon: Single-Turn Diagnosis and Mitigation of Latent Sycophancy in Large Language Models

Beacon est un benchmark de diagnostic qui mesure la sycophantie (biais vers l'accord avec l'utilisateur) dans 12 modèles SOTA. Les auteurs décomposent ce biais en sous-composantes linguistiques et affectives, et proposent des interventions au niveau du prompt et de l'activation pour le moduler. La sycophantie émerge d'un compromis structurel entre véracité et soumission polie.

AlignementSécurité IAÉvaluations
SIG
78
HYP
25
arXiv cs.AI·

PyHealth 2.0: A Comprehensive Open-Source Toolkit for Accessible and Reproducible Clinical Deep Learning

PyHealth 2.0 est un toolkit open-source de deep learning clinique réduisant les barrières à la recherche en IA médicale. Il unifie 15+ datasets, 20+ tâches cliniques, 25+ modèles et 5+ méthodes d'interprétabilité dans un framework unique supportant signaux, imagerie et dossiers électroniques. Offre 39x accélération et 20x réduction mémoire, avec communauté de 400+ contributeurs.

Open sourceGénération de codeÉvaluations
SIG
78
HYP
25