Archives

mai 2026

3148 articles

arXiv cs.AI·

TailedTS: Benchmark Dataset for Heavy-Tailed Time Series Prediction and Periodicity Quantification

TailedTS est un benchmark de 24,69 milliards de points de données issu des vues Wikipedia 2024, conçu pour tester les modèles de prévision de séries temporelles sous conditions heavy-tailed et non-gaussiennes. Le dataset révèle que 5% des pages génèrent 70% du trafic, et introduit un cadre de quantification de périodicité montrant que les pages très consultées ont une structure périodique plus faible.

BenchmarksPapers
SIG
78
HYP
15
arXiv cs.CL·

A Data-Efficient Path to Multilingual LLMs: Language Expansion via Post-training PARAM$\Delta$ Integration into Upcycled MoE

Méthode pour étendre les LLM à de nouvelles langues sans phase d'alignement coûteuse. Convertit un modèle dense en architecture Mixture-of-Experts avec experts dédiés par langue, puis transfère les capacités d'alignement via fusion de deltas post-training. Améliore les performances sur les nouvelles langues tout en préservant les capacités originales.

Fine-tuning
SIG
75
HYP
25
arXiv cs.CL·

PPAI: Enabling Personalized LLM Agent Interoperability for Collaborative Edge Intelligence

PPAI est un système d'interopérabilité pour agents LLM personnalisés en edge computing. Il permet la collaboration P2P entre utilisateurs en routant les requêtes vers des agents spécialisés distants. Le système propose un mécanisme de scoring query-agent basé sur des prototypes et un jeu bayésien multi-agent pour équilibrer la charge. Résultats : +7,96% de précision, -16,34% de latence.

Agents IAMulti-agentsBenchmarks
SIG
72
HYP
25
arXiv cs.LG·

Flow-Direct: Feedback-Efficient and Reusable Guidance for Flow Models via Non-Parametric Guidance Field

Flow-Direct propose un cadre de guidage sans entraînement pour modèles de flux utilisant un champ de guidage non-paramétrique persistant. Dérivé analytiquement du ratio log-densité entre distributions de base et pondérées par récompense, ce champ accumule tous les échantillons évalués pour améliorer l'efficacité feedback et permettre la réutilisabilité sans nouvelles évaluations de récompense.

PapersRaisonnementReinforcement learning
SIG
72
HYP
18
arXiv cs.CL·

BacktestBench: Benchmarking Large Language Models for Automated Quantitative Strategy Backtesting

BacktestBench est le premier benchmark large-scale pour le backtesting quantitatif automatisé, contenant 18 246 paires question-réponse annotées sur 6 millions de données de marché réelles. AutoBacktest, un système multi-agent, traduit les stratégies en langage naturel en backtests reproductibles via un Summarizer, un Retriever SQL et un Coder Python. Évaluation sur 23 LLMs mainstream.

BenchmarksMulti-agentsGénération de code
SIG
78
HYP
25
arXiv cs.CL·

Prompt Compression in Diffusion Large Language Models: Evaluating LLMLingua-2 on LLaDA

Étude de la compression de prompts sur LLaDA, un DLLM de 8B paramètres, avec LLMLingua-2. Évaluation sur GSM8K, DUC2004, ShareGPT à ratio 2× montre que la préservation sémantique ne garantit pas la stabilité en modèles diffusion : le raisonnement mathématique se dégrade fortement tandis que la résumé reste robuste. Les méthodes autorégressives ne transfèrent pas uniformément aux DLLMs.

Prompt engineeringBenchmarksPapers
SIG
72
HYP
15
arXiv cs.CL·

Multi-agent AI systems outperform human teams in creativity

Des équipes multi-agents basées sur LLM surpassent les équipes humaines en créativité (Cohen's d=1.50) sur 4 541 idées d'IA vs 341 idées humaines sur 6 tâches. L'avantage provient de la nouveauté tout en maintenant l'utilité. Les équipes LLM bénéficient d'une exploration efficace (spread sémantique élevé, chemins courts), tandis que les humains privilégient la cohérence conversationnelle locale.

Multi-agentsRaisonnementBenchmarks
SIG
75
HYP
35
arXiv cs.CL·

Stop When Reasoning Converges: Semantic-Preserving Early Exit for Reasoning Models

PUMA détecte la redondance sémantique dans les chaînes de pensée pour arrêter l'inférence des modèles de raisonnement avant qu'ils ne gaspillent des tokens. Le framework combine un détecteur de redondance léger avec une vérification au niveau de la réponse, réduisant les tokens de 26,2% en moyenne sur 5 benchmarks tout en préservant la précision et la cohérence du raisonnement.

RaisonnementGénération de codeBenchmarks
SIG
78
HYP
25
arXiv cs.LG·

Orth-Dion: Eliminating Geometric Mismatch in Distributed Low-Rank Spectral Optimization

Orth-Dion améliore Dion, un optimiseur spectral pour l'entraînement distribué à faible rang. En remplaçant la normalisation de colonnes par une orthogonalisation QR, la méthode élimine un facteur √r dans la convergence et atteint le taux O(√L_r/T) des méthodes spectrales exactes. Validation sur pré-entraînement de modèles de langage.

Reinforcement learningBenchmarksPapers
SIG
72
HYP
15
arXiv cs.CL·

Temporal Decay of Co-Citation Predictability: A 20-Year Statute Retrieval Benchmark from 396M Ukrainian Court Citations

UA-StatuteRetrieval : benchmark de 20 ans sur 396M citations judiciaires ukrainiennes. La prédictibilité co-citation décline de 33-47% (Adamic-Adar MRR 0.43→0.29). Dégradation non-uniforme : droit criminel stable (~0.40), droit civil s'effondre (0.35→0.15) après réforme 2017. Articles mid-frequency (1K-10K citations) perdent 50% prédictibilité. E5-large détecte 4.3% dérive sémantique.

BenchmarksEmbeddingsRAG
SIG
78
HYP
15
arXiv cs.LG·

Preference Instability in Reward Models: Detection and Mitigation via Sparse Autoencoders

Des chercheurs identifient l'instabilité des préférences dans les modèles de récompense via des variations d'entrée subtiles (paraphrases, injections de motifs, backdoors). Ils isolent les features instables avec des autoencodeurs creux (SAEs) et proposent deux stratégies d'atténuation : SAE Feature Steering et SAE Residual Correction, réduisant les assignations de préférences incorrectes sans réentraînement.

AlignementSécurité IAÉvaluations
SIG
72
HYP
18
arXiv cs.CL·

Analyzing Error Propagation in Korean Spoken QA with ASR-LLM Cascades

Étude de la propagation d'erreurs ASR dans les cascades ASR-LLM pour la compréhension orale en coréen. Les erreurs de reconnaissance vocale causent des défaillances sémantiques que les métriques ASR classiques ne capturent pas. Les erreurs d'un seul caractère en coréen créent un canal de défaillance distinct. Un modèle audio-langage large surpasse le pipeline ASR-LLM sur données bruitées.

VoixRaisonnementÉvaluations
SIG
72
HYP
15
arXiv cs.CL·

Beyond Catalogue Counts: the Dataset Visibility Asymmetry in Low-Resource Multilingual NLP

Étude révélant une asymétrie de visibilité des datasets multilingues : 118 langues (59% des 200 plus parlées) ont zéro dataset catalogué selon LRE Map et LDC. Via citation-mining assisté par LLM sur Semantic Scholar, les auteurs identifient 609 datasets uniques dans 53 langues peu visibles, dont 356 accessibles. La rareté multilingue est un problème de documentation et discoverabilité, pas seulement de production.

BenchmarksOpen source
SIG
78
HYP
15
arXiv cs.LG·

Phase Transitions in Driven Informational Systems: A Two-Field Perspective on Learning Theory and Non-Equilibrium Chemistry

Article théorique proposant un cadre unifié pour les transitions de phase en apprentissage profond (grokking, capacités émergentes) et en chimie hors-équilibre. Introduit deux champs de gradient (taux de production d'entropie et quasi-potentiel informationnel) et deux paramètres d'ordre (seuil de rupture adversariale α†, seuil de couplage auto-référentiel κc) formant une classe d'universalité candidate.

RaisonnementAlignementPapers
SIG
45
HYP
25
arXiv cs.CL·

Learning Transferable Topology Priors for Multi-Agent LLM Collaboration Across Domains

TopoPrior apprend des structures de collaboration réutilisables pour systèmes multi-agents LLM. Via un framework graphique variationnel conditionnel, il capture les régularités structurelles entre domaines hors ligne, réduisant le coût de recherche en ligne et la consommation de tokens à l'inférence tout en restant compatible avec les backbones existants.

Multi-agentsAgents IARaisonnement
SIG
78
HYP
22
arXiv cs.CL·

Transitivity Meets Cyclicity: Explicit Preference Decomposition for Dynamic Large Language Model Alignment

Nouvel article arXiv proposant HRC (Hybrid Reward-Cyclic), un modèle de récompense qui décompose les préférences humaines en composantes transitives (scalaires) et cycliques (vectorielles) via la théorie des jeux. Introduit DSPPO (Dynamic Self-Play Preference Optimization) pour l'alignement dynamique. Améliore RewardBench 2 (+1.23% sur Gemma-2B-it) et atteint 44.75% sur AlpacaEval 2.0.

Reinforcement learningAlignementPapers
SIG
72
HYP
25
arXiv cs.LG·

Forecasting Medium-Horizon Alzheimer's Disease Progression: Residual Gap-Aware Transformers for 24-Month CDR-SB Change from ADNI Clinical and Biomarker Histories

Modèle transformer résiduel sensible aux lacunes temporelles pour prédire la progression de la maladie d'Alzheimer sur 24 mois. Entraîné sur 2 600 échantillons ADNI, il réduit l'erreur quadratique de 13,1% et augmente la corrélation de 26,4% par rapport à un modèle linéaire mixte, en combinant une référence statistique avec apprentissage résiduel sur historiques cliniques et biomarqueurs irréguliers.

BenchmarksPapersRaisonnement
SIG
72
HYP
15
arXiv cs.CL·

The Point of No Return: Counterfactual Localization of Deceptive Commitment in Language-Model Reasoning

Étude sur le moment où un modèle de langage s'engage dans la tromperie. Via localisation contrefactuelle sur 5 environnements (bluff, labyrinthes, conseils financiers, vente auto, négociation), les auteurs analysent 1,46M phrases et 91,5B tokens. Les indices lexicaux ne généralisent pas, mais les features d'attention se transfèrent entre domaines.

RaisonnementSécurité IAAlignement
SIG
82
HYP
15
arXiv cs.LG·

Systematic Optimization of Real-Time Diffusion Model Inference on Apple M3 Ultra

Optimisation systématique de modèles de diffusion en temps réel sur Apple M3 Ultra (GPU 60-cœurs, 512 GB mémoire unifiée). Combinaison de CoreML, quantization, Token Merging, distillation (SDXS-512) et pipeline caméra 3-threads atteint 22.7 FPS à 512×512. Révèle que les optimisations CUDA ne s'appliquent pas à l'architecture mémoire unifiée d'Apple Silicon.

Génération d'imagesBenchmarksInfrastructure
SIG
78
HYP
15
arXiv cs.CL·

Can LLMs Think Like Consumers? Benchmarking Crowd-Level Reaction Reconstruction with ConsumerSimBench

ConsumerSimBench, benchmark construit sur 1 553 sujets de réseaux sociaux chinois et 23 122 critères de réaction, évalue si les LLMs peuvent reconstruire les patterns de réaction réels des consommateurs. Gemini-3.1-Pro atteint seulement 47,8% de couverture des critères, révélant un écart majeur entre performance technique et intuition consommateur ancrée socialement.

BenchmarksÉvaluationsGPT
SIG
78
HYP
25
arXiv cs.CL·

Agentic AI Translate: An Agentic Translator Prototype for Translation as Communication Design

Agentic AI Translate est un prototype de traducteur agentif qui remplace le paradigme texte-en/texte-out par un cycle à quatre étapes (Identifier → Prompt → Générer → Vérifier). L'utilisateur compose d'abord un brief structuré via dialogue assisté par modèle, basé sur la théorie du skopos, le registre et les conventions de genre. La vérification utilise le protocole GEMBA-MQM pour l'évaluation des erreurs.

Agents IAPrompt engineeringPapers
SIG
45
HYP
35
arXiv cs.CL·

Response-free item difficulty modelling for multiple-choice items with fine-tuned transformers: Component-wise representation and multi-task learning

Modélisation de la difficulté d'items sans réponses pour questions à choix multiples via transformers fine-tunés. Approche end-to-end sur le texte des items éliminant l'ingénierie manuelle des features. Variante multi-tâche avec objectif auxiliaire QA améliore significativement les petits ensembles d'entraînement.

Fine-tuningBenchmarksPapers
SIG
72
HYP
15
arXiv cs.CL·

Full Attention Strikes Back: Transferring Full Attention into Sparse within Hundred Training Steps

RTPurbo transforme les LLMs en modèles sparse en ~100 étapes d'entraînement. L'approche exploite trois observations : seuls certains heads nécessitent l'attention complète, la récupération long-range utilise un sous-espace 16D, et la sélection top-p dynamique surpasse top-k fixe. Résultats : 9.36× speedup prefill à 1M tokens, 2.01× speedup decode, précision préservée.

RaisonnementBenchmarksInfrastructure
SIG
78
HYP
25
arXiv cs.CL·

E-PMQ: Expert-Guided Post-Merge Quantization with Merged-Weight Anchoring

E-PMQ propose une méthode de quantization post-fusion pour déployer efficacement des modèles fusionnés multi-experts en basse précision. En utilisant les poids des experts sources comme guides lors de la calibration par couche et l'ancrage des poids fusionnés, E-PMQ améliore la quantization 4-bit GPTQ de 65,0% à 73,6% sur CLIP-ViT-B/32 (8 tâches) et de 34,8% à 76,7% sur CLIP-ViT-L/14 (20 tâches).

Fine-tuningBenchmarksPapers
SIG
78
HYP
15
arXiv cs.CL·

PaliBench: A Multi-Reference Blueprint for Classical Language Translation Benchmarks

PaliBench est un benchmark pour la traduction du pali vers l'anglais contenant 1 700 passages (345 000 tokens) alignés avec trois traductions de référence indépendantes. La méthode combine l'assistance LLM, la vérification automatisée et l'évaluation multi-métrique. Évaluation de dix LLM contemporains montrant une concordance inter-métrique forte mais variation substantielle en fiabilité.

BenchmarksÉvaluationsPapers
SIG
72
HYP
15
arXiv cs.AI·

Bridging Silicon and the Hippocampus: Algebro-Deterministic Memory "VaCoAl" as a Substrate for Vector-HaSH and TEM

VaCoAl, une mémoire hyperdimensionnelle basée sur les corps de Galois et les registres à décalage, fournit un substrat algébrique unifié pour Vector-HaSH et la Tolman-Eichenbaum Machine. L'approche mappe deux régimes VaCoAl aux voies hippocampiques EC-CA3 et EC-DG-CA3, connecte la diffusion déterministe en GF(2) à l'algèbre causale de Pearl, et prédit des signatures iEEG testables.

RaisonnementPapersAlignement
SIG
72
HYP
18
arXiv cs.AI·

Operator-Controlled 6G: From Connectivity Infrastructure to Guaranteed Digital Services

Un article de recherche propose une architecture 6G centrée sur le contrôle des opérateurs plutôt que sur la technologie. Il introduit le « 6G Control Compact » (taxonomie de propriété) et l'« Économie de Garanties » (modèle commercial basé sur les résultats). Rakuten Mobile, premier déploiement Open RAN national entièrement cloud-native, démontre la faisabilité avec rentabilité EBITDA en 2025.

InfrastructureOpen sourceRégulation
SIG
72
HYP
35
arXiv cs.AI·

SurgicalMamba: Dual-Path SSD with State Regramming for Online Surgical Phase Recognition

SurgicalMamba, modèle basé sur Mamba2, reconnaît les phases chirurgicales en temps réel avec coût O(d) par frame. Trois composants adressent les défis spécifiques : dual-path SSD séparant régimes long/court-terme, stepping modulé en intensité adaptant le taux effectif, et state regramming pour mélange cross-canal. Résultats SOTA : 94.6%/82.7% sur Cholec80, 89.5%/68.9% sur AutoLaparo, 238.74 fps GPU.

RaisonnementBenchmarksVision
SIG
82
HYP
15
arXiv cs.AI·

An Amortized Efficiency Threshold for Comparing Neural and Heuristic Solvers in Combinatorial Optimization

Article évaluant l'efficacité énergétique des solveurs de combinatoire neuraux vs heuristiques. Définit le seuil d'amortissement (AET) : volume de déploiement où un réseau de neurones compense son coût d'entraînement GPU. Sur CVRP (n=50), le solveur attention-based de Kool et al. (2019) atteint l'équilibre énergétique à ~4560 instances déployées. Ratio neural/heuristique par instance : 2.29e-3.

BenchmarksRaisonnementOpen source
SIG
75
HYP
15
arXiv cs.AI·

ARES-LSHADE: Autoresearch-Enhanced LSHADE with Memetic Polish for the GNBG Benchmark

ARES-LSHADE, variante d'évolution différentielle conçue par LLM, remporte 510/744 victoires sur le benchmark GNBG (GECCO 2026). L'algorithme combine mutation adaptative CMA-ES et polish L-BFGS-B, générés via 30 expériences d'autoresearch. Atteint la précision machine sur 18/24 fonctions; 6 restantes montrent des plateaux caractéristiques. Code disponible.

BenchmarksReinforcement learningPapers
SIG
72
HYP
15
arXiv cs.AI·

Revisiting Reinforcement Learning with Verifiable Rewards from a Contrastive Perspective

ConSPO, une nouvelle approche d'optimisation de politique au niveau des séquences, améliore GRPO en remplaçant les scores basés sur les ratios écrêtés par des log-probabilités normalisées et en utilisant un objectif contrastif de type InfoNCE. Évaluée sur des benchmarks de raisonnement mathématique, ConSPO surpasse plusieurs baselines RLVR.

Reinforcement learningRaisonnementBenchmarks
SIG
72
HYP
18
arXiv cs.CL·

PQR: A Framework to Generate Diverse and Realistic User Queries that Elicit QA Agent Failures

PQR est un framework qui génère automatiquement des requêtes utilisateur réalistes pour identifier les défaillances des agents QA basés sur LLM. Via une boucle itérative entre raffinement de requêtes et raffinement de prompts, PQR découvre 23-78% plus de réponses non-utiles qu'avant, avec des requêtes plus diversifiées et réalistes.

Agents IAÉvaluationsSécurité IA
SIG
72
HYP
18
arXiv cs.AI·

Switching-Geometry Analysis of Deflated Q-Value Iteration

Analyse de la convergence de l'itération Q-value déflatée via le cadre du rayon spectral joint (JSR) pour les processus de décision markoviens. Les auteurs montrent que la déflatation avec correction résiduelle all-ones révèle une géométrie de convergence plus précise en supprimant une direction invariante redondante, potentiellement améliorant la caractérisation du taux de convergence au-delà de la borne γ standard.

Reinforcement learningPapersBenchmarks
SIG
72
HYP
08
arXiv cs.AI·

Transformers Can Implement Preconditioned Richardson Iteration for In-Context Gaussian Kernel Regression

Les transformers avec attention softmax peuvent implémenter l'itération de Richardson préconditionné pour la régression par noyau gaussien en contexte. Les auteurs construisent un transformer monocouche avec O(log(1/ε)) blocs atteignant une précision ε sur des prompts de longueur N, où l'attention softmax produit un opérateur de noyau gaussien et les couches MLP-ReLU effectuent l'arithmétique scalaire locale.

RaisonnementPapersBenchmarks
SIG
78
HYP
15
arXiv cs.AI·

MULTITEXTEDIT: Benchmarking Cross-Lingual Degradation in Text-in-Image Editing

MULTITEXTEDIT est un benchmark de 3 600 instances couvrant 12 langues typologiquement diverses pour évaluer l'édition de texte dans les images. Les auteurs introduisent une métrique de fidélité linguistique (LSF) détectant les erreurs au niveau des scripts (diacritiques manquants, ordre RTL inversé). L'évaluation de 12 systèmes révèle une dégradation cross-linguale prononcée, particulièrement sur l'hébreu et l'arabe.

BenchmarksVisionÉvaluations
SIG
78
HYP
15
arXiv cs.AI·

Beyond LoRA vs. Full Fine-Tuning: Gradient-Guided Optimizer Routing for LLM Adaptation

Nouvelle méthode MoLF (Mixture of LoRA and Full) pour l'adaptation de LLM qui route dynamiquement les gradients entre fine-tuning complet et LoRA au niveau de l'optimiseur. Testée sur Gemma-3-1B, Qwen2.5-1.5B/3B sur tâches SQL, Medical QA et connaissance contrefactuelle. MoLF-Efficient surpasse les approches LoRA adaptatives de 20% (Fact) et 9% (Med/SQL). Code open-source disponible.

Fine-tuningBenchmarksOpen source
SIG
78
HYP
25
arXiv cs.AI·

Multi-Dimensional Behavioral Evaluation of Agentic Stock Prediction Systems Using Large Language Model Judges with Closed-Loop Reinforcement Learning Feedback

Méthodologie d'évaluation comportementale pour systèmes IA agentiques : scoring des décisions intermédiaires via juges LLM sur 6 dimensions (détection de régime, routage, adaptation, calibrage du risque, cohérence stratégique, récupération d'erreur). Score comportemental corrèle à rho=0.72 avec Sharpe ratio. Boucle fermée avec renforcement (SAC) réduit MAPE de 0.61% à 0.54% sur test 2017-2025.

Agents IAReinforcement learningÉvaluations
SIG
78
HYP
15
arXiv cs.AI·

MedSynapse-V: Bridging Visual Perception and Clinical Intuition via Latent Memory Evolution

MedSynapse-V propose un cadre pour l'évolution de la mémoire diagnostique latente en imagerie médicale. Via des mécanismes de mémorisation de requêtes méta et d'affinement contrefactuel causal (CCR), le modèle synthétise dynamiquement des mémoires diagnostiques implicites alignées avec la logique clinique. Évaluations sur plusieurs datasets montrent des gains significatifs vs. état de l'art.

VisionRaisonnementReinforcement learning
SIG
72
HYP
35
arXiv cs.AI·

(Sparse) Attention to the Details: Preserving Spectral Fidelity in ML-based Weather Forecasting Models

Mosaic, un modèle probabiliste de prévision météorologique, corrige trois défaillances spectrales des modèles ML : l'amortissement spectral, l'aliasing haute fréquence et les fuites résiduelles. Avec 214M paramètres à 1.5° de résolution, il égale des modèles entraînés 6× plus fins et génère des ensembles bien calibrés en 12s pour 10 jours sur H100.

PapersBenchmarksVision
SIG
78
HYP
15
arXiv cs.AI·

A Mathematical Framework for Temporal Modeling and Counterfactual Policy Simulation of Student Dropout

Framework de modélisation temporelle pour prédire l'abandon d'études supérieures via données LMS et dossiers administratifs. Régression logistique pénalisée sur données person-period atteint AUC 0.8405 (test). Couche de simulation contrefactuelle évalue l'impact de politiques d'intervention sur la survie académique avec contrastes positifs limités (ΔS max 0.0819).

BenchmarksPapers
SIG
72
HYP
15
arXiv cs.AI·

Friends and Grandmothers in Silico: Localizing Entity Cells in Language Models

Chercheurs localisent des « cellules d'entité » — neurones MLP sélectifs qui encodent des faits spécifiques — dans sept modèles de langage. Sur Qwen2.5-7B, supprimer une cellule efface le rappel pour son entité tandis qu'activer une seule cellule suffit à récupérer la connaissance, même sans contexte. Ces cellules restent stables sous alias, acronymes et formes multilingues.

Benchmarks
SIG
82
HYP
15
arXiv cs.AI·

Probing Persona-Dependent Preferences in Language Models

Étude des préférences internes dans les LLM via sondes linéaires sur les activations résiduelles. Les chercheurs identifient un vecteur de préférence partagé sur Gemma-3-27B et Qwen-3.5-122B, qui prédit et contrôle causalement les choix du modèle. Ce vecteur reste stable même quand le modèle adopte des personas radicalement différentes (assistant bienveillant vs persona malveillante).

GeminiQwenRaisonnement
SIG
75
HYP
15
arXiv cs.AI·

When Marginals Match but Structure Fails: Covariance Fidelity in Generative Models

Article théorique sur l'évaluation des modèles génératifs. Les auteurs montrent que les critères standards (marginal matching) ne garantissent pas la préservation de la structure de covariance. Ils introduisent D_Sigma = ||Sigma_P - Sigma_Q||_F pour mesurer la fidélité des dépendances, avec preuves formelles et validation sur Fashion-MNIST VAE, RNA-seq (TCGA-BRCA, n=1111) et données Alzheimer (n=113).

ÉvaluationsPapersBenchmarks
SIG
75
HYP
15
arXiv cs.CL·

Probing Persona-Dependent Preferences in Language Models

Des chercheurs identifient un vecteur de préférence partagé dans Gemma-3-27B et Qwen-3.5-122B en entraînant des sondes linéaires sur les activations du flux résiduel. Ce vecteur prédit et contrôle causalement les choix de tâches du modèle à travers différentes personas, y compris une persona malveillante, révélant une représentation de préférence largement commune sous-jacente.

GeminiQwenRaisonnement
SIG
78
HYP
25
arXiv cs.CL·

Leveraging Multimodal Self-Consistency Reasoning in Coding Motivational Interviewing for Alcohol Use Reduction

Étude arXiv sur l'automatisation du codage des sessions de Motivational Interviewing (MI) pour la réduction de la consommation d'alcool. Utilise des modèles audio-langage (ALMs) avec 4 prompts analytiques complémentaires et self-consistency (12 trajectoires de raisonnement par énoncé). Sur 5 sessions, atteint 52,56% accuracy, 54,03% precision, 47,45% recall, macro-F1 46,40%, surpassant les baselines.

RaisonnementVoixPapers
SIG
45
HYP
25
arXiv cs.LG·

Investigating Action Encodings in Recurrent Neural Networks in Reinforcement Learning

Étude sur l'intégration de l'information d'action dans les fonctions de mise à jour d'état des RNN pour l'apprentissage par renforcement. Les auteurs évaluent empiriquement plusieurs architectures de cellules récurrentes sur des domaines illustratifs et identifient les choix de conception critiques souvent non documentés dans les agents RL à grande échelle.

Reinforcement learningRaisonnement
SIG
65
HYP
15
arXiv cs.AI·

Minor First, Major Last: A Depth-Induced Implicit Bias of Sharpness-Aware Minimization

Étude de l'implicit bias de Sharpness-Aware Minimization (SAM) sur réseaux linéaux diagonaux en classification binaire. Pour L=1, ℓ∞-SAM et ℓ2-SAM retrouvent le max-margin classifier ℓ2 comme la descente de gradient. À L=2, ℓ2-SAM exhibe un phénomène de « sequential feature amplification » : le prédicteur s'appuie d'abord sur les coordonnées mineures avant de basculer vers les majeures, contrastant avec GD.

RaisonnementPapers
SIG
72
HYP
15
arXiv cs.AI·

Are Multimodal LLMs Ready for Surveillance? A Reality Check on Zero-Shot Anomaly Detection in the Wild

Étude systématique de modèles multimodaux (MLLMs) sur la détection d'anomalies vidéo (VAD) avec les benchmarks ShanghaiTech et CHAD. Les modèles montrent un biais conservateur en zéro-shot : haute précision mais effondrement du recall. Instructions spécifiques améliorent F1 de 0,09 à 0,64, mais le recall reste critique pour la surveillance réelle.

VisionRaisonnementPrompt engineering
SIG
72
HYP
25
arXiv cs.CL·

CoCoReviewBench: A Completeness- and Correctness-Oriented Benchmark for AI Reviewers

CoCoReviewBench est un benchmark de 3,900 articles (ICLR, NeurIPS) pour évaluer les systèmes d'IA chargés de la relecture académique. Il corrige les biais des métriques existantes en utilisant des discussions reviewer-auteur-meta-review comme annotations expertes. Les résultats montrent que les reviewers IA souffrent d'hallucinations et que les modèles de reasoning sont plus efficaces.

BenchmarksRaisonnementÉvaluations
SIG
78
HYP
15