mai 2026

3149 articles

Calibration, Uncertainty Communication, and Deployment Readiness in CKD Risk Prediction: A Framework Evaluation Study

Étude comparative de 5 classifieurs (régression logistique, random forest, XGBoost, SVM, naive Bayes) sur prédiction du risque de maladie rénale chronique. Tous atteignent AUROC 1.00 en interne (UCI, 400 patients), mais s'effondrent sur MIMIC-IV externe (AUROC 0.48-0.58). Calibration et couverture conforme dégradées drastiquement. Aucun modèle ne satisfait les critères de déploiement clinique.

Évaluations Sécurité IA

SIG

HYP

arXiv cs.CL·22 mai

Psy-Chronicle:A Structured Pipeline for Synthesizing Long-Horizon Campus Psychological Counseling Dialogues

Psy-Chronicle est un framework de génération de données pour synthétiser des dialogues de conseil psychologique sur long horizon. Les auteurs créent CPCD, un dataset chinois de 90 000 dialogues couvrant 100 profils d'étudiants sur un semestre, avec un benchmark évaluant la mémoire long-horizon et le raisonnement causal. Code et données open-sourcés.

Papers Benchmarks Open source

SIG

HYP

arXiv cs.CL·22 mai

Cross-Lingual Consensus: Aligning Multilingual Cultural Knowledge via Multilingual Self-Consistency

Méthode d'auto-supervision pour aligner les connaissances culturelles multilingues dans les LLM. Utilise la cohérence multilingue pour identifier les réponses culturelles fiables et les transférer aux langues faibles. Améliore les performances sur BLEnD de 5,03% en moyenne sans données externes.

Prompt engineering Raisonnement Benchmarks

SIG

HYP

arXiv cs.CL·22 mai

Do Factual Recall Mechanisms Carry over from Text to Speech in Multimodal Language Models?

Étude des mécanismes de rappel factuel dans les modèles de langage multimodaux (texte + parole). Via analyse de médiation causale sur SpiritLM, les chercheurs montrent que les mécanismes de stockage et récupération de connaissances factuelles ne se transfèrent que partiellement du texte à la parole.

Papers Raisonnement Voix

SIG

HYP

arXiv cs.LG·22 mai

Equilibrium Propagation and Hamiltonian Inference in the Diffusive Fitzhugh-Nagumo Model

Extension du framework Equilibrium Propagation aux systèmes skew-gradient avec équivalence démontrée entre Energy-Based Models profonds et réseaux Hamiltoniens. Application à des réseaux de neurones Fitzhugh-Nagumo couplés diffusivement, montrant que les solutions stationnaires admettent une structure Hamiltonienne spatiale et permettent l'application de Hamiltonian Echo Backpropagation.

Papers Raisonnement Reinforcement learning

SIG

HYP

arXiv cs.CL·22 mai

Audience Engagement with Arabic Women's Social Empowerment and Wellbeing: A Decadal Corpus

Corpus de 252 487 posts Facebook arabes (2013-2024) collectés sur 51 660 pages dans 77 pays, couvrant l'autonomisation des femmes et le bien-être social. 267 millions d'interactions utilisateur analysées avec métriques d'engagement (partages, commentaires, réactions). Pipeline automatisé pour identification linguistique, normalisation et nettoyage des métadonnées.

Benchmarks Papers

SIG

HYP

arXiv cs.CL·22 mai

ArabDiscrim: A Decade-Long Arabic Facebook Corpus on Racism and Discrimination

ArabDiscrim est un corpus de 293K posts Facebook arabes (2014-2024) sur le racisme et la discrimination. Il inclut 200 termes curatés avec familles morphologiques (13+ inflexions), 20 axes de discrimination, et signaux d'engagement natifs (réactions, partages, commentaires). Licence recherche restreinte pour conformité éthique.

Benchmarks Sécurité IA Alignement

SIG

HYP

arXiv cs.LG·22 mai

Leveraging Self-Paced Curriculum Learning for Enhanced Modality Balance in Multimodal Conversational Emotion Recognition

Cadre Self-Paced Curriculum Learning (SPCL) pour la reconnaissance d'émotions multimodales en conversations. Mesureur de difficulté dual (niveau énoncé et conversation) guide l'apprentissage des cas faciles aux difficiles. Tests sur IEMOCAP (+1.2% à +6.6% F1) et MELD (+10.4%) montrent amélioration de l'équilibre modalité.

Raisonnement Benchmarks

SIG

HYP

arXiv cs.CL·22 mai

From TF-IDF to Transformers: A Comparative and Ensemble Approach to Sentiment Classification

Étude comparative de modèles de classification de sentiments sur IMDb : Naive Bayes, Logistic Regression, SVM, LightGBM, LSTM, RoBERTa et DistilBERT. RoBERTa atteint 93,02% d'accuracy. Un ensemble par soft voting améliore les performances.

Benchmarks

SIG

HYP

arXiv cs.CL·22 mai

LatentOmni: Rethinking Omni-Modal Understanding via Unified Audio-Visual Latent Reasoning

LatentOmni propose un cadre de raisonnement audio-visuel utilisant un espace latent unifié au lieu de chaînes de pensée textuelles explicites. Le modèle intercale le raisonnement textuel avec des états latents audio-visuels, introduit OSPE pour la cohérence temporelle, et s'appuie sur LatentOmni-Instruct-35K (35K trajectoires annotées). Surpasse les baselines textuelles sur les benchmarks audio-visuels.

Raisonnement Papers

SIG

HYP

arXiv cs.CL·22 mai

Token-weighted Direct Preference Optimization with Attention

Token-weighted DPO (TwDPO) et AttentionPO proposent une optimisation des préférences qui pondère les tokens selon leur importance. AttentionPO utilise l'attention du modèle lui-même pour estimer les poids, sans modèle de récompense séparé. Résultats : amélioration sur AlpacaEval, MT-Bench, ArenaHard.

Reinforcement learning Alignement Benchmarks

SIG

HYP

arXiv cs.CL·22 mai

Claim-Selective Certification for High-Risk Medical Retrieval-Augmented Generation

Système de certification sélective par réclamation pour RAG médical haute-risque. Chaque réponse est décomposée en affirmations vérifiables, évaluées contre les preuves récupérées et mappées à {complet, partiel, conflit, abstention}. Sur le protocole de certification faible-label, UCCR=0.0000, PAU=1.0000, précision PAU=0.9901, précision action=0.9204 (dev, n=314) et 0.8997 (test, n=319).

RAG Évaluations Sécurité IA

SIG

HYP

arXiv cs.CL·22 mai

ACC: Compiling Agent Trajectories for Long-Context Training

ACC convertit les trajectoires d'agents (recherche, ingénierie logicielle, requêtes BD) en paires QA long-contexte pour l'entraînement SFT. Élimine le masquage des réponses d'outils et crée une supervision explicite sur les dépendances distantes. Qwen3-30B-A3B atteint +18.1 sur MRCR et +7.6 sur GraphWalks, comparable à Qwen3-235B.

Agents IA Raisonnement Fine-tuning

SIG

HYP

arXiv cs.CL·22 mai

Hy-MT2: A Family of Fast, Efficient and Powerful Multilingual Translation Models in the Wild

Hy-MT2 est une famille de modèles de traduction multilingue (1.8B, 7B, 30B-MoE) supportant 33 langues. Le modèle 1.8B quantifié à 1.25-bit pèse 440 MB et accélère l'inférence de 1.5x. Les modèles 7B et 30B surpassent DeepSeek-V4-Pro et Kimi K2.6 en mode fast-thinking; le 1.8B dépasse les APIs commerciales Microsoft et Doubao.

Benchmarks Génération de code DeepSeek

SIG

HYP

arXiv cs.CL·22 mai

When Cases Get Rare: A Retrieval Benchmark for Off-Guideline Clinical Question Answering

OGCaReBench est un benchmark de retrieval pour évaluer les LLMs sur des questions cliniques hors-guideline, extraites de cas médicaux publiés. GPT-5.2 atteint 56% sans retrieval, 82% avec articles médicaux récupérés. Les modèles spécialisés plafonnent à 42%.

Benchmarks RAG Raisonnement

SIG

HYP

arXiv cs.CL·22 mai

Does Slightly Mean Somewhat? Measuring Vague Intensity Words in LLM Numeric Actions

Étude sur 6,620 exécutions montrant que Claude Haiku compresse 10 modifieurs d'intensité anglais en 5 sorties distinctes. Le contexte d'état système domine l'effet lexical (variance expliquée : 0,782 vs 0,079). Près des limites opérationnelles, le modèle adopte trois modes : petits ajustements pour mots faibles, abstention pour mots forts, plafonnement pour « drastically ».

Claude Évaluations Raisonnement

SIG

HYP

arXiv cs.CL·22 mai

RankJudge: A Multi-Turn LLM-as-a-Judge Synthetic Benchmark Generator

RankJudge est un générateur de benchmark pour évaluer les LLM utilisés comme juges sur des conversations multi-tours ancrées dans des documents de référence. Le système crée des paires de conversations avec une faille injectée dans un tour, permettant un étiquetage sans ambiguïté. Évaluation de 21 juges LLM frontier avec classement via le modèle Bradley-Terry sur ML, biomédecine et finance.

Évaluations Benchmarks Multi-agents

SIG

HYP

arXiv cs.CL·22 mai

Probabilistic Attribution For Large Language Models

Nouvelle méthode probabiliste pour attribuer l'importance des tokens dans les LLM. Utilise les probabilités conditionnelles et la règle de Bayes pour inverser les log-probabilités et capturer la distribution interne du modèle. Évalue 8 modèles sur 7 prompts pour analyser sensibilité, stabilité et convergence.

Papers Raisonnement Évaluations

SIG

HYP

arXiv cs.CL·22 mai

PromptNCE: Pointwise Mutual Information Predictions Using Only LLMs and Contrastive Estimation Prompts

PromptNCE estime l'information mutuelle ponctuelle via LLM sans entraînement, en utilisant uniquement des prompts et probabilités élicitées. La méthode encadre l'estimation de probabilité conditionnelle comme tâche contrastive avec catégorie OTHER explicite. Corrélation Spearman jusqu'à 0.82 sur trois datasets avec vérité terrain humaine.

Prompt engineering Papers Benchmarks

SIG

HYP

arXiv cs.CL·22 mai

CR4T: Rewrite-Based Guardrails for Adolescent LLM Safety

CR4T est un framework de sécurité pour LLM destinés aux adolescents. Au lieu de refuser les requêtes problématiques, il réécrit les réponses non-sûres en guidance développementalement appropriée. Combinant détection de risque légère et réécriture conditionnée par domaine, CR4T réduit les refus inutiles tout en préservant les intentions bienveillantes.

Sécurité IA Alignement Papers

SIG

HYP

arXiv cs.CL·22 mai

Sem-Detect: Semantic Level Detection of AI Generated Peer-Reviews

Sem-Detect détecte les avis de relecture générés par IA en analysant les caractéristiques textuelles et sémantiques au niveau des affirmations. La méthode compare un avis cible à plusieurs avis générés par IA du même article, exploitant la convergence des modèles IA versus la diversité des reviewers humains. Sur 20 000+ avis ICLR/NeurIPS, Sem-Detect améliore la baseline de 25,5% en TPR@0.1% FPR.

Évaluations Sécurité IA Papers

SIG

HYP

arXiv cs.AI·22 mai

FlowLM: Few-Step Language Modeling via Diffusion-to-Flow Adaptation

FlowLM transforme des modèles de langage par diffusion pré-entraînés en modèles de flux via fine-tuning efficace. En réalignant les trajectoires courbes en lignes droites, FlowLM génère du texte de haute qualité en quelques étapes, rivalisant avec 2000 étapes de diffusion. La saturation des performances est atteinte en moitié moins d'epochs.

Génération de code Raisonnement Papers

SIG

HYP

arXiv cs.AI·22 mai

Evaluating multimodal emotion recognition in proactive conversational agents: A user study

Étude empirique (20 utilisateurs) d'un agent conversationnel multimodal avec reconnaissance d'émotions. Vision par ordinateur et analyse linguistique intégrées. Résultat clé : l'analyse textuelle surpasse la reconnaissance faciale (effet « poker face »). La proactivité mal calibrée réduit l'engagement utilisateur.

Agents IA Vision Évaluations

SIG

HYP

arXiv cs.AI·22 mai

Data Scaling as Progressive Coverage of a Predictive Contribution Spectrum

Étude arXiv sur les lois de scaling des données : la couverture progressive d'un spectre latent de contributions prédictives (via automate de suffixes) corrèle fortement avec l'exposant de scaling empirique. Sur 12 corpus réels, log K(N) suit une relation quasi-linéaire avec log N (R²≈0.96), suggérant que l'entraînement avance une frontière effective à travers un spectre d'états prédictifs.

Benchmarks Papers Raisonnement

SIG

HYP

arXiv cs.CL·22 mai

Faithful-MR1: Faithful Multimodal Reasoning via Anchoring and Reinforcing Visual Attention

Faithful-MR1 est un framework d'entraînement pour MLLMs qui améliore le raisonnement multimodal via apprentissage par renforcement. Il ancre l'attention visuelle directement sur les régions d'image (pas via descriptions textuelles) et renforce l'utilisation fidèle de cette attention par intervention contrefactuelle. Résultats sur Qwen2.5-VL-Instruct 3B/7B avec moins de données.

Reinforcement learning Vision Raisonnement

SIG

HYP

arXiv cs.AI·22 mai

Mind the Sim-to-Real Gap & Think Like a Scientist

Article théorique sur l'équilibre entre simulateurs pré-entraînés et expériences réelles en planification séquentielle. Décompose l'erreur du simulateur en décalage calibration-déploiement et résidu paramétrique. Propose Fisher-SEP, une politique expérimentale qui minimise la variance prédictive. Cas d'étude : chaîne logistique de distributeurs et dépistage du VIH.

Reinforcement learning Raisonnement Papers

SIG

HYP

arXiv cs.AI·22 mai

DeepWeb-Bench: A Deep Research Benchmark Demanding Massive Cross-Source Evidence and Long-Horizon Derivation

DeepWeb-Bench est un benchmark de recherche profonde évaluant 9 modèles frontière sur des tâches exigeant collecte massive d'evidence, réconciliation cross-source et dérivation multi-étapes longue. Les erreurs proviennent surtout de la dérivation et calibration (>70%), pas de la retrieval (12-14%). Les modèles forts et faibles échouent différemment : dérivation incomplète vs hallucination de précision.

Benchmarks Raisonnement Agents IA

SIG

HYP

arXiv cs.AI·22 mai

ScenePilot: Controllable Boundary-Driven Critical Scenario Generation for Autonomous Driving

ScenePilot génère des scénarios critiques pour tester les systèmes de conduite autonome via apprentissage par renforcement multi-objectif. Le framework combine une mesure de faisabilité physique (RSS) avec un prédicteur de risque pour cibler les scénarios à la limite : physiquement possibles mais causant des défaillances. Résultats : +6,2 points de collision sur SafeBench tout en préservant la validité physique.

Reinforcement learning Sécurité IA Évaluations

SIG

HYP

arXiv cs.AI·22 mai

Diverge to Induce Prompting: Multi-Rationale Induction for Zero-Shot Reasoning

DIP (Diverge-to-Induce Prompting) génère plusieurs rationales diversifiées pour chaque question, les élabore en plans détaillés, puis les induit en plan final. Améliore la précision du raisonnement zero-shot sans surcoût computationnel vs prompting mono-stratégie.

Prompt engineering Raisonnement Papers

SIG

HYP

arXiv cs.AI·22 mai

Towards Resilient and Autonomous Networks: A BlueSky Vision on AI-Native 6G

Vision BlueSky pour l'intégration native de l'IA en 6G : passage du paradigme « Réseau pour l'IA » à « IA pour le Réseau ». Propose un modèle fondation unifié orchestré par systèmes multi-agents pour gérer les réseaux comme problème d'optimisation multi-modal multi-tâche, avec distillation de connaissances pour déploiements edge et diagnostic/maintenance autonome.

Multi-agents Agents IA Raisonnement

SIG

HYP

arXiv cs.AI·22 mai

Governance by Construction for Generalist Agents

CUGA présente un système de gouvernance modulaire pour agents IA généralists en entreprise. Via cinq points de contrôle (Intent Guard, Playbook, Tool Guide, Tool Approvals, Output Formatter), la plateforme applique des politiques sans fine-tuning du modèle, garantissant conformité et auditabilité dans des workflows complexes.

Agents IA Sécurité IA Alignement

SIG

HYP

arXiv cs.AI·22 mai

PlanningBench: Generating Scalable and Verifiable Planning Data for Evaluating and Training Large Language Models

PlanningBench est un framework pour générer des données de planification scalables et vérifiables. Il abstrait 30+ types de tâches et facteurs de difficulté à partir de scénarios réels, puis synthétise des problèmes avec contrôle adaptatif et vérification automatique. L'entraînement par RL sur ces données améliore les performances sur des benchmarks non vus.

Benchmarks Raisonnement Reinforcement learning

SIG

HYP

arXiv cs.AI·22 mai

For How Long Should We Be Punching? Learning Action Duration in Fighting Games

Étude RL sur les jeux de combat (Street Fighter II). Les agents apprennent à prédire à la fois l'action ET sa durée d'exécution, au lieu de décider à intervalle fixe. Expériences sur FightLadder : timing appris égale performance des frame skips fixes, mais favorise répétition d'actions exploitables.

Reinforcement learning Agents IA Papers

SIG

HYP

arXiv cs.AI·22 mai

Teaching AI Through Benchmark Construction: QuestBench as a Course-Based Practice for Accountable Knowledge Work

Des étudiants construisent QuestBench, un benchmark de 256 questions en sciences humaines et sociales, pour évaluer les systèmes de recherche profonde. Les tests révèlent que GPT-4.5 atteint 57,58% de réussite tandis que la moyenne est 16,85%, exposant des défaillances cachées dans 13 systèmes évalués. Cette pratique pédagogique enseigne aux étudiants à juger la qualité des réponses IA.

Benchmarks Évaluations GPT

SIG

HYP

arXiv cs.AI·22 mai

Declarative Data Services: Structured Agentic Discovery for Composing Data Systems

DDS (Declarative Data Services) est une architecture pour la découverte agentic structurée de compositions de systèmes de données. Face à l'échec de la découverte agentic non bornée, le framework décompose la recherche en sous-recherches typées via quatre contrats (intent, DAG d'opérateurs, skills, attribution runtime). Testé sur une charge de trading-backend, DDS converge où les approches non bornées échouent.

Agents IA Multi-agents Papers

SIG

HYP

arXiv cs.AI·22 mai

From Automated to Autonomous: Hierarchical Agent-native Network Architecture (HANA)

Architecture réseau autonome multi-agents hiérarchique (HANA) pour passer de l'automatisation statique à l'intelligence autonome en réseaux 5G. Orchestrateur dual coordonne des agents spécialisés avec mémoire partagée et auto-conscience. Validation en environnement 5G Core : réduction MTTR de 86%, maintien du débit en congestion.

Agents IA Multi-agents Raisonnement

SIG

HYP

arXiv cs.AI·22 mai

Personality Engineering with AI Agents: A New Methodology for Negotiation Research

Des chercheurs proposent une méthodologie appelée « personality engineering » utilisant des agents IA pour tester rigoureusement les théories de négociation. Les agents IA paramètrent précisément les personnalités des négociateurs selon deux dimensions (chaleur et dominance) du circumplex interpersonnel, permettant des expériences contrôlées impossibles avec des humains.

Agents IA Papers Raisonnement

SIG

HYP

arXiv cs.AI·22 mai

Conflict-Aware Additive Guidance for Flow Models under Compositional Rewards

Nouvelle méthode d'inférence pour modèles de flux : Conflict-Aware Additive Guidance (CAR) corrige la dérive hors-variété lors de la composition de multiples contraintes. Détecte et résout les conflits de gradients en temps réel. Validée sur édition d'image, planification et contrôle.

Raisonnement Évaluations Génération de code

SIG

HYP

arXiv cs.AI·22 mai

Open-World Evaluations for Measuring Frontier AI Capabilities

Nouvelle approche d'évaluation des IA frontière : les « open-world evaluations » complètent les benchmarks en testant des tâches réelles complexes sur long terme. Le projet CRUX teste un agent IA capable de développer et publier une app iOS sur l'App Store avec une seule intervention manuelle, révélant des capacités émergentes.

Évaluations Agents IA Benchmarks

SIG

HYP

arXiv cs.AI·22 mai

High Quality Embeddings for Horn Logic Reasoning

Méthode pour créer des embeddings de haute qualité pour le raisonnement en logique de Horn. Les auteurs utilisent la triplet loss avec trois innovations : ancres contenant des termes répétés, équilibre entre exemples faciles/moyens/difficiles, et emphasis périodique des cas difficiles. Évaluation sur plusieurs bases de connaissances.

Embeddings Raisonnement Papers

SIG

HYP

arXiv cs.AI·22 mai

GraphDiffMed: Knowledge-Constrained Differential Attention with Pharmacological Graph Priors for Medication Recommendation

GraphDiffMed propose un cadre de recommandation médicamenteuse basé sur l'attention différentielle dual-scale et des contraintes pharmacologiques. Testé sur MIMIC-III, le modèle filtre le bruit intra-visite et inter-visite tout en intégrant les interactions médicamenteuses, surpassant les baselines existantes en qualité et sécurité.

Benchmarks Papers Sécurité IA

SIG

HYP

arXiv cs.LG·22 mai

I-SAFE: Wasserstein Coherence Metrics for Structural Auditing of Scientific AI Models

I-SAFE est un framework d'audit post-hoc pour modèles IA scientifiques basé sur la métrique de cohérence Wasserstein (WCM). Il évalue si les prédictions d'un modèle reflètent la structure du domaine ou exploitent des raccourcis statistiques. Testé sur la prédiction d'interactions drogue-cible (DeepConvDTI, DeepDTA, TAPB), il révèle des profils de réponse distribués distincts invisibles aux métriques de précision.

Évaluations Sécurité IA Alignement

SIG

HYP

arXiv cs.LG·22 mai

X-Token: Projection-Guided Cross-Tokenizer Knowledge Distillation

X-Token propose une distillation de connaissance cross-tokenizer via deux formulations de perte complémentaires (P-KL et H-KL) utilisant une matrice de projection W. Sur Llama-3.2-1B, la méthode surpasse GOLD de +3.82 points avec Qwen3-4B et +0.5 avec Phi-4-Mini; deux enseignants (Phi-4-mini + Llama-3B) gagnent +1.3 points.

Fine-tuning Benchmarks Llama

SIG

HYP

arXiv cs.LG·22 mai

Correcting Class Imbalance in Prior-Data Fitted Networks for Tabular Classification

Les réseaux pré-entraînés sur données (PFN) excellent sur la classification tabulaire mais souffrent du déséquilibre de classes. Cette étude adapte des techniques classiques (thresholding, downsampling) aux PFN, montrant que le thresholding surperforme grâce à la calibration des PFN, tandis que le downsampling offre un bon compromis avec coût computationnel réduit.

Benchmarks Évaluations

SIG

HYP

arXiv cs.AI·22 mai

SOLAR: A Self-Optimizing Open-Ended Autonomous Agent for Lifelong Learning and Continual Adaptation

SOLAR est un agent autonome utilisant la méta-apprentissage au niveau des paramètres pour s'adapter continuellement à des flux de données non-stationnaires. Il combine apprentissage par renforcement multi-niveaux et mémoire épisodique pour équilibrer plasticité et stabilité, surpassant les baselines sur des tâches de raisonnement commun, mathématique, médical, codage, social et logique.

Agents IA Reinforcement learning Raisonnement

SIG

HYP

arXiv cs.LG·22 mai

Hierarchical Variational Policies for Reward-Guided Diffusion

Cadre variationnel hiérarchique pour adapter les modèles de diffusion prétrained à des objectifs de récompense. Formule l'adaptation en temps de test comme une politique stochastique légère qui amortit le contrôle par étape. Sur super-résolution 4x : qualité perceptuelle supérieure avec inférence 5x plus rapide que les baselines.

Reinforcement learning Génération d'images

SIG

HYP

arXiv cs.LG·22 mai

EntmaxKV: Support-Aware Decoding for Entmax Attention

EntmaxKV propose un framework de décodage sparse pour l'attention entmax, exploitant les zéros exacts produits par entmax versus les queues denses du softmax. Combine scoring de pages, sélection de candidats et attention entmax sparse. Atteint 3.36× speedup (softmax) et 5.43× (entmax) sur contexte 1M avec fraction réduite du KV cache.

Raisonnement Benchmarks Infrastructure

SIG

HYP

arXiv cs.LG·22 mai

Amplifying, Not Learning: Fine-Tuned AI Text Detectors Amplify a Pretrained Direction

Les détecteurs de texte IA amplifient un axe de typicalité préexistant plutôt que de construire une frontière IA-vs-humain. Sur RoBERTa-base, la projection brute sur centroid(AI)-centroid(HC3) atteint AUROC 0.806-0.944, égalant ou surpassant le fine-tuning. Un prédicteur Jacobien en forme fermée transfère à 16/16 détecteurs tiers avec équivalence oracle, réduisant FPR de 57% sur le détecteur OpenAI.

Évaluations Benchmarks Sécurité IA

SIG

HYP

arXiv cs.AI·22 mai

OSCToM: RL-Guided Adversarial Generation for High-Order Theory of Mind

OSCToM combine RL et modèles de substitution pour générer des conflits observateur-agent dans les tâches de théorie de l'esprit. Sur FANToM (benchmark asymétrique en information), OSCToM-8B atteint 76% de précision vs 0,2% pour ExploreToM. La synthèse de données est 6x plus efficace.

Raisonnement Reinforcement learning Benchmarks

SIG

HYP

arXiv cs.LG·22 mai

Alike Parts: A Feature-Informed Approach to Local and Global Prototype Explanations

Nouvelle méthode de prototypes explicables intégrant l'importance des features à deux niveaux : « alike parts » pour les explications locales (met en avant les features partagées entre instance et prototype) et sélection globale augmentée pour promouvoir la diversité des attributions. Tests sur 6 benchmarks montrent maintien ou amélioration de la fidélité du modèle.

Évaluations Papers

SIG

HYP

arXiv cs.LG·22 mai

When Are Teacher Tokens Reliable? Position-Weighted On-Policy Self-Distillation for Reasoning

Les auteurs identifient que la fiabilité des tokens du teacher en auto-distillation dépend de leur position dans la trajectoire de raisonnement, pas de l'entropie locale. Ils proposent PW-OPSD, qui pondère les tokens par position croissante. Sur Qwen3-4B, AIME 2024/2025 gagnent +1.0/+1.1 points; validation sur DeepSeek-R1-Distill-Llama-8B et Olmo-3-7B-Think confirme les gains.

Raisonnement Fine-tuning Benchmarks

SIG

HYP

arXiv cs.LG·22 mai

AgForce Enables Antigen-conditioned Generative Antibody Design

AgForce, une architecture encoder-decoder avec GNN, résout trois défaillances des méthodes de design d'anticorps : cécité antigénique, effondrement du vocabulaire, et incapacité à générer des séquences spécifiques à l'antigène. Utilise dropout du framework, gated bottlenecks, attention hyperbolic, et Mixture Density Network. Améliore la récupération d'acides aminés de 8% sur CHIMERA-Bench.

Papers Benchmarks Génération de code

SIG

HYP

arXiv cs.AI·22 mai

Interaction Locality in Hierarchical Recursive Reasoning

Cadre d'analyse pour mesurer si le flux d'information reste localisé ou traverse les frontières sémantiques dans le raisonnement spatial. Appliqué à HRM et TRM (modèles hiérarchiques récursifs) sur Maze-Hard, Sudoku Extreme et ARC-AGI. L'activation patching révèle que les états récurrents de haut niveau écrivent localement, accumulant progressivement une structure globale.

Raisonnement Évaluations Papers

SIG

HYP

arXiv cs.LG·22 mai

Beyond Single Slot: Joint Optimization for Multi-Slot Guaranteed Display Advertising

Framework d'optimisation conjointe pour l'allocation publicitaire multi-slot garantie. Formule le problème comme un appariement bipartite hors ligne avec mécanisme de roulette contrats et contraintes de Page View. Tests en ligne sur Meituan : +28,99% ARPU à 70% du trafic, stabilité contrats améliorée.

Business Benchmarks

SIG

HYP

arXiv cs.AI·22 mai

Parallel LLM Reasoning for Bias-Resilient, Robust Conceptual Abstraction

Étude proposant un cadre de traitement parallèle par chunks pour analyser les longs documents avec les LLM. Le texte est divisé en segments sémantiques traités indépendamment, puis consolidés avec ancrage explicite aux preuves. Résultats : réduction de 84% des erreurs d'omission, augmentation de 130% de la traçabilité, réduction de 91% des affirmations non fondées.

Raisonnement Évaluations Prompt engineering

SIG

HYP

arXiv cs.LG·22 mai

From Parameters to Data: A Task-Parameter-Guided Fine-Tuning Pipeline for Efficient LLM Alignment

P2D, un framework d'alignement LLM, couple sélection de données et fine-tuning efficace en paramètres. En identifiant les têtes d'attention critiques pour chaque tâche, P2D mine des données pertinentes et élaguer 90% des paramètres. Résultat : +8.3pp de performance et 7.0x d'accélération avec seulement 10% des données et 10% des têtes.

Fine-tuning Raisonnement Alignement

SIG

HYP

arXiv cs.LG·22 mai

DualOptim+: Bridging Shared and Decoupled Optimizer States for Better Machine Unlearning in Large Language Models

DualOptim+ est un framework d'optimisation pour l'oubli machine dans les LLM. Il utilise des états de base partagés et des états delta découplés pour équilibrer les objectifs d'oubli et de rétention. Une variante 8bit réduit la mémoire. Tests sur l'oubli fictif/réel, l'alignement de sécurité et l'apprentissage multi-tâche.

Fine-tuning Sécurité IA Alignement

SIG

HYP

arXiv cs.LG·22 mai

A Reproducible Log-Driven AutoML Framework for Interpretable Pipeline Optimization in Healthcare Risk Prediction

yvsoucom-iterkit, un framework AutoML déterministe et log-driven, optimise les pipelines de prédiction de risque médical via 18 000+ configurations. Sur Pima et Stroke, l'augmentation (0.454), le choix du modèle (0.198) et la gestion du déséquilibre (0.101-0.406) sont les drivers clés. Ensembles atteignent F1 0.89-0.94 avec robustesse cross-seed (variabilité 0.023-0.026).

Benchmarks Évaluations Fine-tuning

SIG

HYP

arXiv cs.CL·22 mai

Structure Retention in Embedding Spaces as a Predictor of Benchmark Performance

Étude de 25 modèles d'embedding sur 5 tâches MTEB montrant que le chevauchement des plus proches voisins et les différences de magnitude en ICA corrèlent fortement (jusqu'à 0.97) avec la performance. Les tâches d'embedding affichent des degrés variables de linéarité et de rétention d'information locale.

Embeddings Benchmarks Évaluations

SIG

HYP

arXiv cs.LG·22 mai

Double descent for least-squares interpolation on contaminated data: A simulation study

Étude de simulation sur le phénomène de double descent en régression linéaire avec données contaminées. Les auteurs comparent l'interpolation par moindres carrés (non-robuste) avec des alternatives robustes. Résultat : la surparamétrisation permet une double descent, l'estimateur des moindres carrés surpassant les méthodes robustes malgré la présence d'outliers.

Benchmarks Papers

SIG

HYP

arXiv cs.LG·22 mai

The Attribution Impossibility: No Feature Ranking Is Faithful, Stable, and Complete Under Collinearity

Théorème d'impossibilité : aucun classement de features ne peut être simultanément fidèle, stable et complet sous colinéarité. Les auteurs quantifient ce résultat pour 4 classes de modèles, proposent DASH (agrégation d'ensembles SHAP) comme solution, et vérifient formellement 305 théorèmes Lean 4. Conséquence : 68% des datasets publics montrent une instabilité d'attribution.

Évaluations Papers Sécurité IA

SIG

HYP

arXiv cs.LG·22 mai

Discovering Entity-Conditioned Lag Heterogeneity: A Lag-Gated Neural Audit Framework for Panel Time Series

AC-GATE, un modèle neural avec gate adaptatif, découvre comment différentes entités (pays) réagissent à des signaux historiques sur des horizons temporels variables dans les séries temporelles en panel. Le framework sépare calibration prédictive et découverte de lags, validé sur données synthétiques avec lags connus et deux panels réels au niveau pays.

Benchmarks Papers

SIG

HYP

arXiv cs.LG·22 mai

Tabular foundation models for robust calibration of near-infrared chemical sensing data

Étude comparative de TabPFN (modèle fondation tabulaire) sur 66 datasets NIR (54 régression, 12 classification). TabPFN optimisé surpasse PLS, CatBoost et CNN-1D en régression; en classification, il égale Ridge. Avantage réduit sur outliers spectraux et extrapolation.

Benchmarks Papers Outils

SIG

HYP

OpenAI Blog·22 mai

How Virgin Atlantic ships faster with Codex

Virgin Atlantic a utilisé Codex pour livrer son application mobile rénovée dans les délais fixes des vacances, atteignant une couverture de tests unitaires quasi-totale et zéro défaut P1.

Génération de code OpenAI

SIG

HYP

OpenAI Blog·22 mai

OpenAI named a Leader in enterprise coding agents by Gartner

OpenAI classée leader dans le Magic Quadrant Gartner 2026 pour les agents de codage IA d'entreprise. Codex reconnu pour son innovation et son déploiement à l'échelle entreprise.

OpenAI Génération de code Agents IA

SIG

HYP

Hacker News (AI)·21 mai

Google API keys can remain usable for up to 23 minutes after deletion

Les clés API Google restent actives jusqu'à 23 minutes après leur suppression. Cette latence de propagation crée une fenêtre de vulnérabilité où les clés supprimées peuvent toujours être exploitées.

Sécurité IA Infrastructure

SIG

HYP

Reddit r/LocalLLaMA·21 mai

Comparison of Qwen 3.6 and Gemma4 (MoE and Dense models, Q4_K_M), generating a moderately complex MySQL query, only one produced acceptable results

Comparaison de Qwen 3.6 (35B MoE, 27B Dense) et Gemma4 (26B MoE, 31B Dense) en Q4_K_M pour générer une requête MySQL complexe. Seul Gemma4 31B Dense a produit une requête fonctionnelle exacte. Gemma4 31B a aussi été considérablement plus rapide que Qwen 3.6 27B, même en Q6_K.

Qwen Gemini Génération de code

SIG

HYP

Reddit r/LocalLLaMA·21 mai

Latest b9274 Addresses MTP VRAM leak

Le commit b9274 corrige une fuite VRAM dans les modèles MTP (Multi-Token Prediction). La fonction destroy() ne libérait pas les ressources du décodeur spéculatif, du contexte draft et du modèle draft, causant une accumulation mémoire à chaque cycle sleep/resume. Le fix réinitialise explicitement ces composants avant llama_init.

Llama Génération de code Infrastructure

SIG

HYP

Latent Space·21 mai

Giving Agents Computers — Ivan Burazin, Daytona

Daytona, plateforme d'exécution d'agents, affiche 74% de croissance mensuelle et 850K exécutions quotidiennes. La startup propose des sandboxes bare metal et des évaluations par reinforcement learning pour les agents autonomes.

Agents IA Reinforcement learning Évaluations

SIG

HYP

Reddit r/LocalLLaMA·21 mai

Your repo is a preference dataset: extracting taste from merge history

Une technique d'extraction de préférences à partir de l'historique de fusions (merge history) d'un dépôt Git. En supposant que les révisions acceptées améliorent progressivement le code, on peut distiller ces signaux de préférence pour aligner les agents IA sur les pratiques institutionnelles sans coûteux processus d'annotation manuelle.

Agents IA Fine-tuning Reinforcement learning

SIG

HYP

Reddit r/LocalLLaMA·21 mai

Qwen3.6 35Ba3 has changed my workflows and even how I use my computer

Un utilisateur de Qwen 3.6 35B décrit comment ce modèle local a transformé son workflow : automatisation de tâches DevOps, génération de code, interaction en langage naturel avec l'OS. Il a créé un site web complet à partir d'audios WhatsApp transcrits, utilisant des agents locaux pour exécuter des tickets de modification en parallèle.

Qwen Agents IA Génération de code

SIG

HYP

Hacker News (AI)·21 mai

Show HN: ANML – A machine-first markup language for the agentic web (IETF Draft)

ANML est un langage de balisage conçu pour les agents IA, proposé en brouillon IETF. Il vise à structurer le contenu web de manière lisible par les machines pour faciliter l'interaction des agents autonomes avec les pages web.

Agents IA Outils Infrastructure

SIG

HYP

ActuIA·21 mai

Anthropic loue Colossus 1 à 1,25 Md$/mois sur un parc xAI qui plafonne à 11% de capacité

Anthropic loue Colossus 1, le supercalculateur de xAI, pour 1,25 Md$/mois jusqu'en mai 2029 (40+ Md$ total). Le contrat plafonne à 11% de la capacité du cluster, limitant l'accès d'Anthropic à une fraction des ressources disponibles.

Anthropic Infrastructure

SIG

HYP

Reddit r/LocalLLaMA·21 mai

Waiting for Qwen 3.7 open weight... The new King has arrived...

Annonce de Qwen 3.7, un nouveau modèle open-weight. Le post Reddit génère de l'enthousiasme autour de cette release, sans détails techniques spécifiques fournis.

Qwen Open source

SIG

HYP

Simon Willison·21 mai

Datasette Agent

Datasette Agent, un assistant IA conversationnel pour Datasette, a été lancé. Il permet de poser des questions sur les données stockées dans Datasette et génère des graphiques via le plugin datasette-agent-charts. La démo utilise Gemini 3.1 Flash-Lite.

Agents IA RAG Gemini

SIG

HYP

Google DeepMind·21 mai

We’re launching the Google DeepMind Accelerator program in Asia Pacific to tackle environmental risks

Google DeepMind lance un programme d'accélération en Asie-Pacifique pour développer des solutions IA contre les risques environnementaux. Le programme soutient des startups et chercheurs locaux via financement, expertise technique et accès aux outils Google Cloud.

DeepMind Business Sécurité IA

SIG

HYP

Reddit r/LocalLLaMA·21 mai

Interesting paper advocates for quantized prefilling and precise decoding

Un paper propose Mix-Quant : utiliser W4A4 quantisé pour le prefilling (gain théorique 4x) mais conserver la haute précision pour le decoding. Le prefilling tolère les erreurs de quantization car elles ne s'accumulent pas, contrairement au decoding autorégressif où chaque token affecte la génération suivante.

Benchmarks

SIG

HYP

Hacker News (AI)·21 mai

Multi-Stream LLMs: new paper on parallelizing/separating prompts, thinking, I/O

Un article sur une nouvelle approche de parallélisation dans les LLM : séparation des flux de prompts, de raisonnement et d'I/O. Permet d'optimiser l'utilisation des ressources en traitant simultanément plusieurs opérations.

Papers Raisonnement Infrastructure

SIG

HYP

Le Big Data·21 mai

Honor Magic V6 : comment l’IA agentique et l’ingénierie de rupture réinventent le smartphone pliable

Honor présente le Magic V6 au MWC 2026 avec intégration d'IA agentique. Le constructeur positionne le smartphone pliable comme innovation de rupture plutôt que gadget.

Agents IA Business

SIG

HYP

Reddit r/MachineLearning·21 mai

Can liveness detection models generalise to synthetic media generation techniques they were never trained on? [D]

Les systèmes de détection de vivacité en production reposent sur des menaces obsolètes (images statiques, vidéos simples). La qualité des médias synthétiques actuels dépasse largement les données d'entraînement historiques. Question critique : un modèle entraîné sur des deepfakes anciens peut-il généraliser à des techniques de génération qui n'existaient pas lors de l'assemblage des données ?

Sécurité IA Évaluations Benchmarks

SIG

HYP

The Decoder·21 mai

Google checks websites for llms.txt in new agentic browsing audit

Google teste la capacité des sites web à gérer les agents IA via une nouvelle catégorie « Agentic Browsing » dans son outil Lighthouse. Le test inclut la vérification de la présence du fichier llms.txt.

Agents IA DeepMind Outils

SIG

HYP

Hacker News (AI)·21 mai

Starbucks scraps AI inventory tool across North America

Starbucks abandonne son outil d'inventaire basé sur l'IA dans toute l'Amérique du Nord. Le système, déployé pour optimiser la gestion des stocks, n'a pas atteint les résultats escomptés et a été retiré des opérations.

Business Outils

SIG

HYP

Le Big Data·21 mai

Warp : comment le terminal open source réinvente le code à l’ère de l’IA agentique

Warp, terminal open source, se positionne comme outil de développement réinventé pour l'ère des agents IA. Les développeurs adoptent des assistants capables d'autonomie et d'exécution de tâches complexes, au-delà de simples complétions de code.

Agents IA Génération de code Open source

SIG

HYP

Reddit r/LocalLLaMA·21 mai

LatitudeGames/Equinox-31B · Hugging Face

LatitudeGames publie Equinox-31B, un fine-tune de Gemma 31B optimisé pour la narration interactive. Le modèle combine données de jeux d'aventure sombres et de storytelling contemplatif. Disponible sur Hugging Face en GGUF, accessible via aidungeon.com avec abonnement.

Fine-tuning Open source Outils

SIG

HYP

GitHub Trending·21 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> ChromeDevTools /</span> chrome-devtools-mcp

Chrome DevTools MCP : un protocole Model Context Protocol permettant aux agents IA d'interagir directement avec Chrome DevTools pour déboguer et inspecter des applications web en temps réel.

Agents IA MCP Outils

SIG

HYP

Simon Willison·21 mai

datasette-agent-sprites 0.1a0

Sortie de datasette-agent-sprites 0.1a0, un plugin Datasette Agent permettant d'exécuter des commandes dans un sandbox Fly Sprites.

Agents IA Outils Open source

SIG

HYP

Le Big Data·21 mai

Utilisateurs d’iPhone, vous pouvez maintenant précommander l’application Google AI Studio

Google AI Studio est disponible en précommande sur l'App Store pour iPhone. L'application permet aux utilisateurs iOS d'accéder aux outils d'IA de Google.

DeepMind Outils

SIG

HYP

Reddit r/MachineLearning·21 mai

I created an LLM post-training method called RPS. Preliminary results show that it improved Qwen3-8b's program synthesis reliability. [R]

RPS est une méthode de post-entraînement en deux étapes inspirée de la neuroplasticité : données faciles avec taux d'apprentissage élevé, puis données difficiles avec taux réduit de 90%. Sur Qwen3-8b, RPS atteint 4% sur ARC-AGI 1 et 1145/1200 exécutions sans erreur en synthèse de programmes, contre 2.4% et 870/1200 pour EPS (taux égal).

Qwen Fine-tuning Génération de code

SIG

HYP

The Decoder·21 mai

OpenAI shifts the boundary of automated reasoning with a "milestone in AI mathematics" that experts are now unpacking

Un modèle de raisonnement d'OpenAI a réfuté une conjecture d'Erdős en géométrie des distances unitaires (ouverte depuis 1946) en utilisant des outils de théorie algébrique des nombres inattendus. Tim Gowers (médaillé Fields) qualifie cela de « jalon en mathématiques IA ».

OpenAI Raisonnement Benchmarks

SIG

HYP

Hacker News (AI)·21 mai

Launch HN: Runtime (YC P26) – Sandboxed coding agents for everyone on a team

Runtime (YC P26) lance une plateforme d'agents de codage sandboxés pour les équipes. Permet l'exécution sécurisée de code collaboratif sans infrastructure complexe.

Agents IA Génération de code Outils

SIG

HYP

Le Big Data·21 mai

Après avoir viré 8 000 personnes, Meta promet d’arrêter (pour l’instant)

Meta a supprimé environ 8 000 emplois (10% de ses effectifs) et annonce un arrêt temporaire des licenciements. L'entreprise poursuit sa restructuration tout en promettant une stabilité relative à court terme.

Business

SIG

HYP

Reddit r/LocalLLaMA·21 mai

For everyone that uses OpenCode / Pi - Heres your promptprocessing fix!

Un PR sur llama.cpp corrige le traitement répété des prompts lors de l'utilisation d'OpenCode ou Pi. Le correctif adresse un problème de performance identifié dans l'intégration avec ces outils.

Open source Génération de code Infrastructure

SIG

HYP

Reddit r/MachineLearning·21 mai

Does this idea sound fun? [R]

Chercheur propose une PoC d'apprentissage à l'inférence via experts spécialisés pour mettre à jour les poids d'experts pairs dans une architecture MoE. Composants existants réutilisés, résultats préliminaires positifs.

Agents IA Fine-tuning

SIG

HYP

The Decoder·21 mai

Cohere open-sources its strongest model yet

Cohere publie Command A+, son modèle de langage le plus puissant à ce jour, en open source sous licence Apache 2.0.

Open source

SIG

HYP

Simon Willison·21 mai

datasette-agent-charts 0.1a2

Sortie de datasette-agent-charts 0.1a2. Ajout de boutons « View SQL query » sous les graphiques rendus pour inspecter les requêtes SQL générées.

Agents IA Outils Open source

SIG

HYP

The Decoder·21 mai

Anthropic is about to become the first profitable AI lab

Anthropic approche sa première trimestre rentable avec un bénéfice d'exploitation projeté de 559 millions $ sur 10,9 milliards $ de revenus au Q2. La rentabilité est accélérée par les outils de codage et l'utilisation d'agents Claude, qui ont parfois dépassé la capacité de calcul disponible.

Claude Agents IA Génération de code

SIG

HYP

The Decoder·21 mai

OpenAI could file confidential IPO paperwork within days

OpenAI préparerait un IPO et pourrait déposer des documents confidentiels auprès de la SEC dans les jours à venir, selon le Wall Street Journal.

OpenAI Business

SIG

HYP

The Decoder·21 mai

SpaceX IPO filing shows billions in AI losses, a $2 trillion valuation target, and turbine spending that signals more data center conflicts ahead

Le dossier IPO de SpaceX révèle des pertes xAI de 6,36 milliards $ en 2025, un accord de calcul Anthropic de 15 milliards $/an, et une valorisation cible de 2 billions $. Musk conserve 85,1% du pouvoir de vote via des actions à double classe.

Anthropic Business Infrastructure

SIG

HYP

Reddit r/LocalLLaMA·21 mai

Agent Execution Tax: new procurement metric for browser agent benchmarks?

Benchmark WebVoyager sur 720 tâches d'agents navigateur : MiniMax M2.5 coûte 2,3× moins cher par tâche réussie que Gemini 2.5 Flash. GLM-5 atteint 57,1% d'accuracy, Kimi K2.5 affiche 0% d'erreurs de parsing. Les modèles open-weight surpassent Gemini non par intelligence mais par fiabilité. Le coût réel dépasse le prix au token une fois les retries comptabilisés.

Agents IA Benchmarks Open source

SIG

HYP

Simon Willison·21 mai

datasette-agent 0.1a3

Sortie de datasette-agent 0.1a3, assistant IA extensible pour Datasette. Version alpha permettant l'interaction avec des bases de données via des agents IA.

Agents IA Outils Open source

SIG

HYP