Archives

mai 2026

3147 articles

arXiv cs.CL·

Psy-Chronicle:A Structured Pipeline for Synthesizing Long-Horizon Campus Psychological Counseling Dialogues

Psy-Chronicle est un framework de génération de données pour synthétiser des dialogues de conseil psychologique sur long horizon. Les auteurs créent CPCD, un dataset chinois de 90 000 dialogues couvrant 100 profils d'étudiants sur un semestre, avec un benchmark évaluant la mémoire long-horizon et le raisonnement causal. Code et données open-sourcés.

PapersBenchmarksOpen source
SIG
75
HYP
25
arXiv cs.LG·

Equilibrium Propagation and Hamiltonian Inference in the Diffusive Fitzhugh-Nagumo Model

Extension du framework Equilibrium Propagation aux systèmes skew-gradient avec équivalence démontrée entre Energy-Based Models profonds et réseaux Hamiltoniens. Application à des réseaux de neurones Fitzhugh-Nagumo couplés diffusivement, montrant que les solutions stationnaires admettent une structure Hamiltonienne spatiale et permettent l'application de Hamiltonian Echo Backpropagation.

PapersRaisonnementReinforcement learning
SIG
72
HYP
15
arXiv cs.CL·

Audience Engagement with Arabic Women's Social Empowerment and Wellbeing: A Decadal Corpus

Corpus de 252 487 posts Facebook arabes (2013-2024) collectés sur 51 660 pages dans 77 pays, couvrant l'autonomisation des femmes et le bien-être social. 267 millions d'interactions utilisateur analysées avec métriques d'engagement (partages, commentaires, réactions). Pipeline automatisé pour identification linguistique, normalisation et nettoyage des métadonnées.

BenchmarksPapers
SIG
72
HYP
15
arXiv cs.LG·

Leveraging Self-Paced Curriculum Learning for Enhanced Modality Balance in Multimodal Conversational Emotion Recognition

Cadre Self-Paced Curriculum Learning (SPCL) pour la reconnaissance d'émotions multimodales en conversations. Mesureur de difficulté dual (niveau énoncé et conversation) guide l'apprentissage des cas faciles aux difficiles. Tests sur IEMOCAP (+1.2% à +6.6% F1) et MELD (+10.4%) montrent amélioration de l'équilibre modalité.

RaisonnementBenchmarks
SIG
72
HYP
18
arXiv cs.CL·

LatentOmni: Rethinking Omni-Modal Understanding via Unified Audio-Visual Latent Reasoning

LatentOmni propose un cadre de raisonnement audio-visuel utilisant un espace latent unifié au lieu de chaînes de pensée textuelles explicites. Le modèle intercale le raisonnement textuel avec des états latents audio-visuels, introduit OSPE pour la cohérence temporelle, et s'appuie sur LatentOmni-Instruct-35K (35K trajectoires annotées). Surpasse les baselines textuelles sur les benchmarks audio-visuels.

RaisonnementPapers
SIG
72
HYP
28
arXiv cs.CL·

Claim-Selective Certification for High-Risk Medical Retrieval-Augmented Generation

Système de certification sélective par réclamation pour RAG médical haute-risque. Chaque réponse est décomposée en affirmations vérifiables, évaluées contre les preuves récupérées et mappées à {complet, partiel, conflit, abstention}. Sur le protocole de certification faible-label, UCCR=0.0000, PAU=1.0000, précision PAU=0.9901, précision action=0.9204 (dev, n=314) et 0.8997 (test, n=319).

RAGÉvaluationsSécurité IA
SIG
72
HYP
15
arXiv cs.CL·

Does Slightly Mean Somewhat? Measuring Vague Intensity Words in LLM Numeric Actions

Étude sur 6,620 exécutions montrant que Claude Haiku compresse 10 modifieurs d'intensité anglais en 5 sorties distinctes. Le contexte d'état système domine l'effet lexical (variance expliquée : 0,782 vs 0,079). Près des limites opérationnelles, le modèle adopte trois modes : petits ajustements pour mots faibles, abstention pour mots forts, plafonnement pour « drastically ».

ClaudeÉvaluationsRaisonnement
SIG
78
HYP
15
arXiv cs.CL·

RankJudge: A Multi-Turn LLM-as-a-Judge Synthetic Benchmark Generator

RankJudge est un générateur de benchmark pour évaluer les LLM utilisés comme juges sur des conversations multi-tours ancrées dans des documents de référence. Le système crée des paires de conversations avec une faille injectée dans un tour, permettant un étiquetage sans ambiguïté. Évaluation de 21 juges LLM frontier avec classement via le modèle Bradley-Terry sur ML, biomédecine et finance.

ÉvaluationsBenchmarksMulti-agents
SIG
78
HYP
15
arXiv cs.CL·

PromptNCE: Pointwise Mutual Information Predictions Using Only LLMs and Contrastive Estimation Prompts

PromptNCE estime l'information mutuelle ponctuelle via LLM sans entraînement, en utilisant uniquement des prompts et probabilités élicitées. La méthode encadre l'estimation de probabilité conditionnelle comme tâche contrastive avec catégorie OTHER explicite. Corrélation Spearman jusqu'à 0.82 sur trois datasets avec vérité terrain humaine.

Prompt engineeringPapersBenchmarks
SIG
72
HYP
18
arXiv cs.CL·

Sem-Detect: Semantic Level Detection of AI Generated Peer-Reviews

Sem-Detect détecte les avis de relecture générés par IA en analysant les caractéristiques textuelles et sémantiques au niveau des affirmations. La méthode compare un avis cible à plusieurs avis générés par IA du même article, exploitant la convergence des modèles IA versus la diversité des reviewers humains. Sur 20 000+ avis ICLR/NeurIPS, Sem-Detect améliore la baseline de 25,5% en TPR@0.1% FPR.

ÉvaluationsSécurité IAPapers
SIG
78
HYP
15
arXiv cs.AI·

Data Scaling as Progressive Coverage of a Predictive Contribution Spectrum

Étude arXiv sur les lois de scaling des données : la couverture progressive d'un spectre latent de contributions prédictives (via automate de suffixes) corrèle fortement avec l'exposant de scaling empirique. Sur 12 corpus réels, log K(N) suit une relation quasi-linéaire avec log N (R²≈0.96), suggérant que l'entraînement avance une frontière effective à travers un spectre d'états prédictifs.

BenchmarksPapersRaisonnement
SIG
78
HYP
15
arXiv cs.CL·

Faithful-MR1: Faithful Multimodal Reasoning via Anchoring and Reinforcing Visual Attention

Faithful-MR1 est un framework d'entraînement pour MLLMs qui améliore le raisonnement multimodal via apprentissage par renforcement. Il ancre l'attention visuelle directement sur les régions d'image (pas via descriptions textuelles) et renforce l'utilisation fidèle de cette attention par intervention contrefactuelle. Résultats sur Qwen2.5-VL-Instruct 3B/7B avec moins de données.

Reinforcement learningVisionRaisonnement
SIG
75
HYP
25
arXiv cs.AI·

Mind the Sim-to-Real Gap & Think Like a Scientist

Article théorique sur l'équilibre entre simulateurs pré-entraînés et expériences réelles en planification séquentielle. Décompose l'erreur du simulateur en décalage calibration-déploiement et résidu paramétrique. Propose Fisher-SEP, une politique expérimentale qui minimise la variance prédictive. Cas d'étude : chaîne logistique de distributeurs et dépistage du VIH.

Reinforcement learningRaisonnementPapers
SIG
72
HYP
15
arXiv cs.AI·

DeepWeb-Bench: A Deep Research Benchmark Demanding Massive Cross-Source Evidence and Long-Horizon Derivation

DeepWeb-Bench est un benchmark de recherche profonde évaluant 9 modèles frontière sur des tâches exigeant collecte massive d'evidence, réconciliation cross-source et dérivation multi-étapes longue. Les erreurs proviennent surtout de la dérivation et calibration (>70%), pas de la retrieval (12-14%). Les modèles forts et faibles échouent différemment : dérivation incomplète vs hallucination de précision.

BenchmarksRaisonnementAgents IA
SIG
78
HYP
25
arXiv cs.AI·

ScenePilot: Controllable Boundary-Driven Critical Scenario Generation for Autonomous Driving

ScenePilot génère des scénarios critiques pour tester les systèmes de conduite autonome via apprentissage par renforcement multi-objectif. Le framework combine une mesure de faisabilité physique (RSS) avec un prédicteur de risque pour cibler les scénarios à la limite : physiquement possibles mais causant des défaillances. Résultats : +6,2 points de collision sur SafeBench tout en préservant la validité physique.

Reinforcement learningSécurité IAÉvaluations
SIG
78
HYP
15
arXiv cs.AI·

Towards Resilient and Autonomous Networks: A BlueSky Vision on AI-Native 6G

Vision BlueSky pour l'intégration native de l'IA en 6G : passage du paradigme « Réseau pour l'IA » à « IA pour le Réseau ». Propose un modèle fondation unifié orchestré par systèmes multi-agents pour gérer les réseaux comme problème d'optimisation multi-modal multi-tâche, avec distillation de connaissances pour déploiements edge et diagnostic/maintenance autonome.

Multi-agentsAgents IARaisonnement
SIG
45
HYP
55
arXiv cs.AI·

PlanningBench: Generating Scalable and Verifiable Planning Data for Evaluating and Training Large Language Models

PlanningBench est un framework pour générer des données de planification scalables et vérifiables. Il abstrait 30+ types de tâches et facteurs de difficulté à partir de scénarios réels, puis synthétise des problèmes avec contrôle adaptatif et vérification automatique. L'entraînement par RL sur ces données améliore les performances sur des benchmarks non vus.

BenchmarksRaisonnementReinforcement learning
SIG
78
HYP
22
arXiv cs.AI·

Teaching AI Through Benchmark Construction: QuestBench as a Course-Based Practice for Accountable Knowledge Work

Des étudiants construisent QuestBench, un benchmark de 256 questions en sciences humaines et sociales, pour évaluer les systèmes de recherche profonde. Les tests révèlent que GPT-4.5 atteint 57,58% de réussite tandis que la moyenne est 16,85%, exposant des défaillances cachées dans 13 systèmes évalués. Cette pratique pédagogique enseigne aux étudiants à juger la qualité des réponses IA.

BenchmarksÉvaluationsGPT
SIG
72
HYP
25
arXiv cs.AI·

Declarative Data Services: Structured Agentic Discovery for Composing Data Systems

DDS (Declarative Data Services) est une architecture pour la découverte agentic structurée de compositions de systèmes de données. Face à l'échec de la découverte agentic non bornée, le framework décompose la recherche en sous-recherches typées via quatre contrats (intent, DAG d'opérateurs, skills, attribution runtime). Testé sur une charge de trading-backend, DDS converge où les approches non bornées échouent.

Agents IAMulti-agentsPapers
SIG
72
HYP
18
arXiv cs.AI·

Personality Engineering with AI Agents: A New Methodology for Negotiation Research

Des chercheurs proposent une méthodologie appelée « personality engineering » utilisant des agents IA pour tester rigoureusement les théories de négociation. Les agents IA paramètrent précisément les personnalités des négociateurs selon deux dimensions (chaleur et dominance) du circumplex interpersonnel, permettant des expériences contrôlées impossibles avec des humains.

Agents IAPapersRaisonnement
SIG
72
HYP
25
arXiv cs.AI·

GraphDiffMed: Knowledge-Constrained Differential Attention with Pharmacological Graph Priors for Medication Recommendation

GraphDiffMed propose un cadre de recommandation médicamenteuse basé sur l'attention différentielle dual-scale et des contraintes pharmacologiques. Testé sur MIMIC-III, le modèle filtre le bruit intra-visite et inter-visite tout en intégrant les interactions médicamenteuses, surpassant les baselines existantes en qualité et sécurité.

BenchmarksPapersSécurité IA
SIG
72
HYP
18
arXiv cs.LG·

I-SAFE: Wasserstein Coherence Metrics for Structural Auditing of Scientific AI Models

I-SAFE est un framework d'audit post-hoc pour modèles IA scientifiques basé sur la métrique de cohérence Wasserstein (WCM). Il évalue si les prédictions d'un modèle reflètent la structure du domaine ou exploitent des raccourcis statistiques. Testé sur la prédiction d'interactions drogue-cible (DeepConvDTI, DeepDTA, TAPB), il révèle des profils de réponse distribués distincts invisibles aux métriques de précision.

ÉvaluationsSécurité IAAlignement
SIG
72
HYP
15
arXiv cs.LG·

Correcting Class Imbalance in Prior-Data Fitted Networks for Tabular Classification

Les réseaux pré-entraînés sur données (PFN) excellent sur la classification tabulaire mais souffrent du déséquilibre de classes. Cette étude adapte des techniques classiques (thresholding, downsampling) aux PFN, montrant que le thresholding surperforme grâce à la calibration des PFN, tandis que le downsampling offre un bon compromis avec coût computationnel réduit.

BenchmarksÉvaluations
SIG
72
HYP
15
arXiv cs.AI·

SOLAR: A Self-Optimizing Open-Ended Autonomous Agent for Lifelong Learning and Continual Adaptation

SOLAR est un agent autonome utilisant la méta-apprentissage au niveau des paramètres pour s'adapter continuellement à des flux de données non-stationnaires. Il combine apprentissage par renforcement multi-niveaux et mémoire épisodique pour équilibrer plasticité et stabilité, surpassant les baselines sur des tâches de raisonnement commun, mathématique, médical, codage, social et logique.

Agents IAReinforcement learningRaisonnement
SIG
72
HYP
35
arXiv cs.LG·

Amplifying, Not Learning: Fine-Tuned AI Text Detectors Amplify a Pretrained Direction

Les détecteurs de texte IA amplifient un axe de typicalité préexistant plutôt que de construire une frontière IA-vs-humain. Sur RoBERTa-base, la projection brute sur centroid(AI)-centroid(HC3) atteint AUROC 0.806-0.944, égalant ou surpassant le fine-tuning. Un prédicteur Jacobien en forme fermée transfère à 16/16 détecteurs tiers avec équivalence oracle, réduisant FPR de 57% sur le détecteur OpenAI.

ÉvaluationsBenchmarksSécurité IA
SIG
82
HYP
15
arXiv cs.LG·

Alike Parts: A Feature-Informed Approach to Local and Global Prototype Explanations

Nouvelle méthode de prototypes explicables intégrant l'importance des features à deux niveaux : « alike parts » pour les explications locales (met en avant les features partagées entre instance et prototype) et sélection globale augmentée pour promouvoir la diversité des attributions. Tests sur 6 benchmarks montrent maintien ou amélioration de la fidélité du modèle.

ÉvaluationsPapers
SIG
72
HYP
15
arXiv cs.LG·

When Are Teacher Tokens Reliable? Position-Weighted On-Policy Self-Distillation for Reasoning

Les auteurs identifient que la fiabilité des tokens du teacher en auto-distillation dépend de leur position dans la trajectoire de raisonnement, pas de l'entropie locale. Ils proposent PW-OPSD, qui pondère les tokens par position croissante. Sur Qwen3-4B, AIME 2024/2025 gagnent +1.0/+1.1 points; validation sur DeepSeek-R1-Distill-Llama-8B et Olmo-3-7B-Think confirme les gains.

RaisonnementFine-tuningBenchmarks
SIG
78
HYP
15
arXiv cs.LG·

AgForce Enables Antigen-conditioned Generative Antibody Design

AgForce, une architecture encoder-decoder avec GNN, résout trois défaillances des méthodes de design d'anticorps : cécité antigénique, effondrement du vocabulaire, et incapacité à générer des séquences spécifiques à l'antigène. Utilise dropout du framework, gated bottlenecks, attention hyperbolic, et Mixture Density Network. Améliore la récupération d'acides aminés de 8% sur CHIMERA-Bench.

PapersBenchmarksGénération de code
SIG
82
HYP
15
arXiv cs.AI·

Interaction Locality in Hierarchical Recursive Reasoning

Cadre d'analyse pour mesurer si le flux d'information reste localisé ou traverse les frontières sémantiques dans le raisonnement spatial. Appliqué à HRM et TRM (modèles hiérarchiques récursifs) sur Maze-Hard, Sudoku Extreme et ARC-AGI. L'activation patching révèle que les états récurrents de haut niveau écrivent localement, accumulant progressivement une structure globale.

RaisonnementÉvaluationsPapers
SIG
72
HYP
15
arXiv cs.AI·

Parallel LLM Reasoning for Bias-Resilient, Robust Conceptual Abstraction

Étude proposant un cadre de traitement parallèle par chunks pour analyser les longs documents avec les LLM. Le texte est divisé en segments sémantiques traités indépendamment, puis consolidés avec ancrage explicite aux preuves. Résultats : réduction de 84% des erreurs d'omission, augmentation de 130% de la traçabilité, réduction de 91% des affirmations non fondées.

RaisonnementÉvaluationsPrompt engineering
SIG
72
HYP
25
arXiv cs.LG·

From Parameters to Data: A Task-Parameter-Guided Fine-Tuning Pipeline for Efficient LLM Alignment

P2D, un framework d'alignement LLM, couple sélection de données et fine-tuning efficace en paramètres. En identifiant les têtes d'attention critiques pour chaque tâche, P2D mine des données pertinentes et élaguer 90% des paramètres. Résultat : +8.3pp de performance et 7.0x d'accélération avec seulement 10% des données et 10% des têtes.

Fine-tuningRaisonnementAlignement
SIG
78
HYP
25
arXiv cs.LG·

DualOptim+: Bridging Shared and Decoupled Optimizer States for Better Machine Unlearning in Large Language Models

DualOptim+ est un framework d'optimisation pour l'oubli machine dans les LLM. Il utilise des états de base partagés et des états delta découplés pour équilibrer les objectifs d'oubli et de rétention. Une variante 8bit réduit la mémoire. Tests sur l'oubli fictif/réel, l'alignement de sécurité et l'apprentissage multi-tâche.

Fine-tuningSécurité IAAlignement
SIG
72
HYP
18
arXiv cs.LG·

A Reproducible Log-Driven AutoML Framework for Interpretable Pipeline Optimization in Healthcare Risk Prediction

yvsoucom-iterkit, un framework AutoML déterministe et log-driven, optimise les pipelines de prédiction de risque médical via 18 000+ configurations. Sur Pima et Stroke, l'augmentation (0.454), le choix du modèle (0.198) et la gestion du déséquilibre (0.101-0.406) sont les drivers clés. Ensembles atteignent F1 0.89-0.94 avec robustesse cross-seed (variabilité 0.023-0.026).

BenchmarksÉvaluationsFine-tuning
SIG
72
HYP
18
arXiv cs.LG·

Double descent for least-squares interpolation on contaminated data: A simulation study

Étude de simulation sur le phénomène de double descent en régression linéaire avec données contaminées. Les auteurs comparent l'interpolation par moindres carrés (non-robuste) avec des alternatives robustes. Résultat : la surparamétrisation permet une double descent, l'estimateur des moindres carrés surpassant les méthodes robustes malgré la présence d'outliers.

BenchmarksPapers
SIG
65
HYP
15
arXiv cs.LG·

The Attribution Impossibility: No Feature Ranking Is Faithful, Stable, and Complete Under Collinearity

Théorème d'impossibilité : aucun classement de features ne peut être simultanément fidèle, stable et complet sous colinéarité. Les auteurs quantifient ce résultat pour 4 classes de modèles, proposent DASH (agrégation d'ensembles SHAP) comme solution, et vérifient formellement 305 théorèmes Lean 4. Conséquence : 68% des datasets publics montrent une instabilité d'attribution.

ÉvaluationsPapersSécurité IA
SIG
85
HYP
15
arXiv cs.LG·

Discovering Entity-Conditioned Lag Heterogeneity: A Lag-Gated Neural Audit Framework for Panel Time Series

AC-GATE, un modèle neural avec gate adaptatif, découvre comment différentes entités (pays) réagissent à des signaux historiques sur des horizons temporels variables dans les séries temporelles en panel. Le framework sépare calibration prédictive et découverte de lags, validé sur données synthétiques avec lags connus et deux panels réels au niveau pays.

BenchmarksPapers
SIG
72
HYP
15
Reddit r/MachineLearning·

Can liveness detection models generalise to synthetic media generation techniques they were never trained on? [D]

Les systèmes de détection de vivacité en production reposent sur des menaces obsolètes (images statiques, vidéos simples). La qualité des médias synthétiques actuels dépasse largement les données d'entraînement historiques. Question critique : un modèle entraîné sur des deepfakes anciens peut-il généraliser à des techniques de génération qui n'existaient pas lors de l'assemblage des données ?

Sécurité IAÉvaluationsBenchmarks
SIG
65
HYP
25
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> ChromeDevTools /</span> chrome-devtools-mcp

Chrome DevTools MCP : un protocole Model Context Protocol permettant aux agents IA d'interagir directement avec Chrome DevTools pour déboguer et inspecter des applications web en temps réel.

Agents IAMCPOutils
SIG
65
HYP
25
Reddit r/MachineLearning·

I created an LLM post-training method called RPS. Preliminary results show that it improved Qwen3-8b's program synthesis reliability. [R]

RPS est une méthode de post-entraînement en deux étapes inspirée de la neuroplasticité : données faciles avec taux d'apprentissage élevé, puis données difficiles avec taux réduit de 90%. Sur Qwen3-8b, RPS atteint 4% sur ARC-AGI 1 et 1145/1200 exécutions sans erreur en synthèse de programmes, contre 2.4% et 870/1200 pour EPS (taux égal).

QwenFine-tuningGénération de code
SIG
62
HYP
35
Reddit r/LocalLLaMA·

Agent Execution Tax: new procurement metric for browser agent benchmarks?

Benchmark WebVoyager sur 720 tâches d'agents navigateur : MiniMax M2.5 coûte 2,3× moins cher par tâche réussie que Gemini 2.5 Flash. GLM-5 atteint 57,1% d'accuracy, Kimi K2.5 affiche 0% d'erreurs de parsing. Les modèles open-weight surpassent Gemini non par intelligence mais par fiabilité. Le coût réel dépasse le prix au token une fois les retries comptabilisés.

Agents IABenchmarksOpen source
SIG
78
HYP
25