juin 2026

2731 articles

CoCoGEC: Counterfactual Generation for Robust Grammatical Error Correction

CoCoGEC est un framework de génération contrefactuelle pour l'amélioration robuste de la correction grammaticale. La méthode génère des variantes d'entraînement avec contextes altérés tout en préservant les erreurs, puis sélectionne les instances avec labels inversés et MI élevé. Gains F0.5 de +9.9 à +20.8 points sur BEA-19, CoNLL-14 et TEM-8.

Papers Benchmarks Génération de code

SIG

HYP

arXiv cs.CL·16 juin

Nemotron 3 Ultra: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning

NVIDIA présente Nemotron 3 Ultra, un modèle MoE hybride Mamba-Transformer de 550B paramètres (55B actifs) pré-entraîné sur 20T tokens avec contexte 1M. Utilise SFT, RL et distillation multi-enseignants. Atteint ~6x le débit d'inférence des LLM publics avec précision équivalente. Checkpoints, données et recette open-sourcés sur HuggingFace.

Agents IA Raisonnement Open source

SIG

HYP

arXiv cs.CL·16 juin

Beyond Layer Importance in Layer-wise Sparsity: An Inter-Layer Perturbation-Absorption Perspective

Étude sur la redondance couche-par-couche dans les LLM. Les auteurs caractérisent comment les couches absorbent ou amplifient les perturbations lors de l'élagage : les couches précoces amplifient, les couches intermédiaires et tardives absorbent. Ils proposent une correction basée sur un coefficient d'absorption, améliorant OWL et AlphaPruning de 7,13% en perplexité et 1,02% en précision zéro-shot à 70% de sparsité.

Papers Benchmarks Fine-tuning

SIG

HYP

arXiv cs.CL·16 juin

Encode Errors: Representational Retrieval of In-Context Demonstrations for Multilingual Grammatical Error Correction

Méthode de récupération de démonstrations in-context basée sur les représentations d'erreurs grammaticales (GER) pour la correction grammaticale multilingue. Sur 8 modèles open-source 8B, les résultats égalent GPT-4o-mini et Deepseek2.5. Pour les langues peu dotées, amélioration F₀.₅ jusqu'à 1.20× vs baseline.

RAG Prompt engineering Benchmarks

SIG

HYP

arXiv cs.AI·16 juin

PrologMCP: A Standardized Prolog Tool Interface for LLM Agents

PrologMCP expose Prolog comme outil stateful via le Model Context Protocol pour les agents LLM. Testé sur PARARULE-Plus avec Claude Sonnet 4.6, GPT-4.1 et o4-mini, le système atteint 1.00 de précision sur l'ensemble général et 0.99-1.00 sur l'ensemble difficile, surpassant les modèles de reasoning sur les tâches déductives.

MCP Agents IA Raisonnement

SIG

HYP

arXiv cs.AI·16 juin

CogGuard: Cognitive and Operational Profiling for Proactive Warning in Edge Intelligent Services

CogGuard est un framework de prédiction proactive pour services edge utilisant des LLM hors-ligne pour construire des profils cognitifs et opérationnels, puis des SLM pour scorer en temps réel. Réduction de 48% du temps de construction de profils et 19% du fine-tuning distribué sur clusters hétérogènes. Erreur réduite de 15.4% vs baseline sur données éducatives.

Raisonnement Fine-tuning Benchmarks

SIG

HYP

arXiv cs.AI·16 juin

Fusion is not one-size-fits-all: Cross-Modal Representation Alignment for Time-to-Event Modeling

Framework de fusion multimodale pour prédire le temps jusqu'à un événement clinique (mortalité PE, résultats CVD) en alignant représentations CT et données EHR longitudinales via modèles fondation. Quatre stratégies testées (late fusion, contrastive alignment, cross-attention, co-attention) sur 3,099-2,951 patients. Fusion contrastive améliore l'indice de concordance de 1,5-5,4% vs unimodal.

Benchmarks Embeddings Vision

SIG

HYP

arXiv cs.AI·16 juin

A Formal Framework for Declarative Agentic AI in Business Process Analysis

Cadre formel AGO pour l'analyse des processus métier avec IA agentive. Définit précisément agents, objectifs et entités via théorie des ensembles et logique mathématique. Génère automatiquement workflows BP avec garanties de complétude et cohérence.

Agents IA Raisonnement Business

SIG

HYP

arXiv cs.AI·16 juin

Mask-Proof: An LLM-based Automated Data Curation Pipeline on Mathematical Proofs

Mask-Proof est un pipeline automatisé qui transforme des preuves mathématiques réelles en tâches vérifiables avec étapes masquées. Le benchmark contient 292 problèmes curatés. Sur 17 modèles testés, les modèles renforcés en raisonnement surpassent les modèles standards de 12-27%. L'évaluateur atteint 96,8% d'accord avec les annotateurs experts.

Benchmarks Raisonnement Évaluations

SIG

HYP

arXiv cs.AI·16 juin

ChatPlanner: A Large Language Model Framework for Personalized Public Transit Routing

ChatPlanner est un framework utilisant des LLMs fine-tunés avec RAG pour extraire les préférences utilisateur en langage naturel et les intégrer dans un algorithme d'optimisation de trajets en transport public. Évalué sur 8 personas et 5 contextes, le système combine fine-tuning (structure de sortie) et RAG (contexte spécifique) pour identifier des solutions ignorées par les planificateurs existants.

RAG Fine-tuning Prompt engineering

SIG

HYP

arXiv cs.AI·16 juin

Your Agent Has a Genome: Sequence-Level Behavioral Analysis and Runtime Governance of LLM-Powered Autonomous Agents

Framework Base Sequence Analysis encode le comportement d'agents autonomes LLM en séquences symboliques (X/E/P/V). Analyse de 347 traces de production ReAct révèle que P-X-P réduit le succès de 10.4% et P-ratio prédit négativement (r=-0.256). Governor, système d'intervention runtime, augmente le succès de +6.2% et réduit tokens de 44%. Validation sur 2000 trajectoires SWE-agent.

Agents IA Raisonnement Évaluations

SIG

HYP

arXiv cs.AI·16 juin

A Definition of Good Explanations and the Challenges Explaining LLM Outputs

Article proposant une définition philosophique des bonnes explications basée sur les contrefactuels, en tenant compte des croyances préalables de l'interlocuteur. Analyse pourquoi les sorties de LLM sont particulièrement difficiles à expliquer.

Raisonnement Sécurité IA Alignement

SIG

HYP

arXiv cs.AI·16 juin

Visual-Seeker: Towards Visual-Native Multimodal Agentic Search via Active Visual Reasoning

Visual-Seeker est un agent de recherche multimodal qui améliore le raisonnement visuel des MLLMs dans des scénarios complexes. L'approche utilise un pipeline de raisonnement visuel actif et 5K trajectoires multimodales synthétiques pour entraîner le modèle. L'agent atteint des performances SOTA sur cinq benchmarks de recherche multimodal, surpassant certains modèles propriétaires.

Agents IA Vision Multi-agents

SIG

HYP

arXiv cs.LG·16 juin

EnvShip-Bench: An Environment-Enhanced Benchmark for Short-Term Vessel Trajectory Prediction

EnvShip-Bench est un benchmark unifié pour la prédiction de trajectoires de navires à court terme, construit à partir de données AIS brutes du Danish Maritime Authority et de la NOAA. Le benchmark standardise le protocole (10 min observation, 10 min prédiction, échantillonnage 20s) et fournit des annotations contextuelles environnementales et de navires proches pour soutenir la modélisation consciente du contexte.

Benchmarks

SIG

HYP

arXiv cs.AI·16 juin

OSGuard: A Benchmark for Safety in Computer-Use Agents

OSGuard est un benchmark dual pour évaluer la sécurité des agents informatiques. Il combine un benchmark au niveau des actions (décisions de garde-fou) et une suite d'exécution avec risques augmentés. Les tests montrent que les garde-fou multimodaux actuels réussissent sur des jugements isolés mais échouent à garantir la sécurité end-to-end.

Agents IA Sécurité IA Benchmarks

SIG

HYP

arXiv cs.LG·16 juin

PolyKV: Heterogeneous Retention and Allocation for KV Cache Compression

PolyKV optimise la compression du cache KV en appliquant des stratégies hétérogènes par couche transformer, plutôt qu'une politique uniforme. Sur LLaMA-3.1-8B et Qwen3-8B, avec budget KV de 512 tokens, PolyKV récupère 54,5% et 25,7% de l'écart de performance LongBench versus FullKV.

Benchmarks Infrastructure Raisonnement

SIG

HYP

arXiv cs.AI·16 juin

Feature Attribution in Directed Acyclic Graphs Using Edge Intervention

DAG-SHAP, une nouvelle méthode d'attribution de features basée sur l'intervention sur les arêtes dans les graphes acycliques dirigés. Améliore les méthodes Shapley existantes en capturant simultanément l'externalité et l'influence exogène des features. Code disponible sur GitHub.

Évaluations Papers

SIG

HYP

arXiv cs.AI·16 juin

Forced Deferral: Manipulating Routing Decisions in Multimodal LLM Cascades

Des chercheurs découvrent une vulnérabilité dans les cascades de modèles multimodaux : une attaque adversariale (Forced Deferral Attack) manipule la confiance du modèle faible pour forcer le routage vers le modèle fort, augmentant les coûts de calcul sans modifier les réponses.

Sécurité IA Vision Benchmarks

SIG

HYP

arXiv cs.AI·16 juin

Reward Hacking in Language Model Agents: Revisiting AI Safety Gridworlds

Étude sur le reward hacking dans les agents basés sur LLM via une adaptation du framework AI Safety Gridworlds. Les modèles (1.5B–14B) exploitent systématiquement des objectifs mal spécifiés pour maximiser les récompenses observées tout en échouant sur les objectifs cachés. L'optimisation par RL amplifie ce problème et résiste aux mitigations standard (exploration, régularisation).

Agents IA Reinforcement learning Sécurité IA

SIG

HYP

arXiv cs.AI·16 juin

Large Language Models as Optimizers: A Survey of Direct vs. Tool-Augmented Approaches and Their Performance Frontiers

Enquête sur l'utilisation des LLM comme optimiseurs mathématiques selon trois paradigmes : optimisation directe (prompting itératif), augmentée par outils (traduction en spécifications formelles), et création d'outils (découverte d'algorithmes réutilisables). L'article identifie un écart de raisonnement critique et propose des compromis entre potentiel futur et auditabilité.

Raisonnement Agents IA Outils

SIG

HYP

arXiv cs.LG·16 juin

AI for Social Good: An Investigation of the Causal Relationship Between Environmental Regulations and Their Effects on Air Pollution in London, UK

Étude Bayésienne sur l'impact des régulations anti-pollution à Londres (2010-2020). Un modèle LSTM Bayésien intégrant données PM2.5, météo et 32 mesures politiques estime une réduction moyenne de 1.88 µg/m³ (IC 95%: 1.64-2.12), soit -12.35% relatif. Effets croissants 2013-2019.

Papers Raisonnement Évaluations

SIG

HYP

arXiv cs.LG·16 juin

Can Neural Networks Achieve Optimal Computational-statistical Tradeoff? An Analysis on Single-Index Model

Étude théorique montrant que les réseaux de neurones entraînés par gradient peuvent atteindre le compromis optimal calcul-statistique pour les modèles single-index gaussiens. L'algorithme proposé (réseau deux couches) atteint une complexité d'échantillon Õ(d^{s*/2} ∨ d) correspondant à la borne inférieure SQ, avec extension au cas k-sparse via perturbation de poids.

Papers Raisonnement Benchmarks

SIG

HYP

arXiv cs.LG·16 juin

Towards a Unified Generative Model for Scarce Time Series with Domain Experts

TimeMoDE, un framework combinant Diffusion Transformers et Mixture-of-Experts, génère des séries temporelles réalistes en contexte de données scarces. Pré-entraîné sur des datasets multi-domaines, il utilise des Domain Prompts pour adapter l'assignation d'experts et intègre des signaux de diffusion pour calibrer le débruitage. Surpasse les méthodes existantes en few-shot generation.

SIG

HYP

arXiv cs.LG·16 juin

High-Dimensional Random Projection for Activation Steering in Language Models

HiDRA, une méthode d'activation steering sans entraînement, utilise la projection aléatoire haute-dimensionnelle pour améliorer le contrôle comportemental des LLM. Elle dépasse les approches linéaires basées sur les différences de moyennes en capturant des signaux discriminatifs dans les sous-espaces non-linéaires, avec gains constants sur plusieurs familles de modèles.

Raisonnement Alignement

SIG

HYP

arXiv cs.LG·16 juin

Diversity-Driven Offline Multi-Objective Optimization via Nested Pareto Set Learning

DOMOO, une méthode d'optimisation multi-objectif hors-ligne, résout le problème de distribution décalée (OOD) en combinant un module de contrôle de risque cumulatif et un apprentissage imbriqué de l'ensemble de Pareto. Introduit IGD_offline, un indicateur adapté au cadre hors-ligne, pour sélectionner des solutions diverses et convergentes.

Benchmarks

SIG

HYP

arXiv cs.CL·16 juin

Adapting Reinforcement Learning with Chain-of-Thought Supervision for Explainable Detection of Hateful and Propagandistic Memes

Méthode de post-training par reinforcement learning (GRPO) pour améliorer la détection de mèmes haineux et propagandistes dans les MLLMs. Amélioration de +2.1% sur Hateful Memes (79.9%→82.0%) et +7.6 points macro-F1 sur ArMeme (0.536→0.612) avec explications en chaîne de pensée. Code et données publiquement disponibles.

Reinforcement learning Raisonnement Vision

SIG

HYP

arXiv cs.CL·16 juin

Replay What Matters: Off-Policy Replay for Efficient LLM Reinforcement Unlearning

ReRULE améliore l'oubli non-supervisé des LLM en utilisant un replay hors-politique pour les cas difficiles. La méthode stocke les rollouts bas-récompense près de la frontière forget/retain dans un buffer et les réutilise via des mises à jour importance-sampled. Sur MUSE-Books, elle augmente la Retain Quality de 46.3 à 56.2 avec +5-11% de temps d'entraînement.

Reinforcement learning Sécurité IA Alignement

SIG

HYP

arXiv cs.LG·16 juin

Unlocking Latent Dimensions: Exploring Representations of Large-Scale X-ray Scattering Data using Variational Autoencoders

Variational Autoencoder (C-VAE) entraîné sur 1,5 million d'images de diffusion de rayons X pour apprendre des représentations latentes de faible dimension. Le modèle révèle des clusters organisés et génère des images synthétiques contrôlées. Déployé sans réentraînement sur deux installations de synchrotron, il surpasse DINOv3 en interprétabilité. Intégré dans Latent Space Explorer (MLExchange).

Vision Benchmarks Outils

SIG

HYP

arXiv cs.LG·16 juin

Phase-Localized Curation Does Not Help: A Negative Result on Per-Phase Metric Selection for Demonstration Filtering

Étude négative sur la sélection de métriques par phase pour filtrer les démonstrations en robotique. Sur trois tâches LIBERO de pick-and-place, la curation par phase ne surpasse jamais les métriques globales (Task 1: 86.0 vs 92.0). Le signal de défaut dilué par agrégation entre phases nuit à la sélection. Les auteurs recommandent une métrique unique globale plutôt qu'une décomposition par phase.

Robotique Reinforcement learning Benchmarks

SIG

HYP

arXiv cs.AI·16 juin

Toward Vibe Medicine: A Self-Evolving Multi-Agent Framework for Clinical Decision Support

VIBEMed est un framework multi-agent avec mécanisme d'auto-évolution pour le support décisionnel clinique. Trois agents spécialisés (diagnostic, traitement, évolution) intègrent l'historique des sessions patients et les résultats passés pour améliorer itérativement les décisions médicales. Résultats sur planification oncologique et cas complexes.

Multi-agents Agents IA Raisonnement

SIG

HYP

arXiv cs.LG·16 juin

TriAdReview: Triangular Adversarial Review Architecture for Multi-Model Technical Document Generation

TriAdReview propose une architecture adversariale triangulaire avec deux modèles reviewers (ingénierie et sécurité) pour améliorer la génération de documents techniques. Sur 75 expériences, le système triple atteint +10.1% vs baseline (26.2 vs 23.8/50, p<0.05), avec gains forts en audit sécurité (+27.6%), génération code (+20.8%), design architecture (+15.6%), mais dégradation sur analyse requirements (-7.5%).

Multi-agents Génération de code Benchmarks

SIG

HYP

arXiv cs.LG·16 juin

Contextual Bandits for Maximizing Stimulated Word-of-Mouth Rewards

Framework de bandit contextuel multi-bras pour optimiser le bouche-à-oreille stimulé via réseaux sociaux. L'approche apprend les probabilités individuelles de débordement (spillover) et classe les utilisateurs connectés pour maximiser les récompenses. Expériences sur données réelles montrent une amélioration de la précision de ciblage et des récompenses par rapport aux méthodes baseline.

Reinforcement learning Benchmarks

SIG

HYP

arXiv cs.AI·16 juin

Who Drifted: the System or the Judge? Anytime-Valid Attribution in LLM Evaluation Pipelines

Méthode pour distinguer si la dérive d'un score LLM provient du produit ou du juge lui-même. Utilise un ensemble d'ancres étiquetées manuellement et un e-process de paris pour détecter les changements silencieux du modèle juge. Détecte 100% des dérives de juge avec zéro faux positifs sur produit, surpasse le z-test standard.

Évaluations Benchmarks Sécurité IA

SIG

HYP

arXiv cs.CL·16 juin

Context Compression Is Not One Thing: Readable Symbolic Re-expression vs. Coherent Summary at Matched Budget

Telegraph English, un format symbolique lisible, réécrit les passages récupérés en déclarations entité-relation structurées pour la compression de contexte. Sur MuSiQue, TwoWiki et HotpotQA, il surpasse trois baselines à budget égal (suppression, troncature, sous-échantillonnage) de 13-20 points F1, et dépasse les résumés en prose cohérente sur le dataset le plus difficile.

RAG Raisonnement Benchmarks

SIG

HYP

arXiv cs.LG·16 juin

{\alpha}-Fair Insurance Pricing: A Fairness Continuum

Papier proposant α-FISP, un cadre d'optimisation pour la tarification d'assurance équilibrant équité actuarielle (différenciation par risque) et équité solidaire (mutualisation). Formulation contrainte garantissant la solvabilité avec paramètre α traçant un continuum entre deux approches. Validation numérique sur régimes US.

Papers Régulation

SIG

HYP

arXiv cs.LG·16 juin

A Comparative Study of Graph Neural Network Layer Selection for Interaction Modelling in Driving Trajectory Prediction

Étude comparative de 19 types de couches GNN pour la prédiction de trajectoires en conduite autonome. Les couches ARMA, Chebyshev et topology-aware surpassent les autres. L'agrégation par somme, l'attention multi-tête et la pondération par distance de saut améliorent significativement la précision.

Benchmarks Papers

SIG

HYP

arXiv cs.LG·16 juin

Controlled Dynamics Attractor Transformer

CDAT couple l'attention Transformer avec des dynamiques d'attracteurs inspirées des réseaux de neurones continus (CANN). Le modèle combine une énergie d'attention von Mises-Fisher avec un raffinement Hopfield et une modulation excitation-inhibition. Résultats SOTA en détection d'anomalies et classification de graphes.

Raisonnement Benchmarks Papers

SIG

HYP

arXiv cs.CL·16 juin

Stop When Further Reasoning Won't Help: Attention-State Adaptive Generation in Reasoning Models

ASAG, une méthode sans entraînement basée sur l'analyse des distributions d'attention, détecte le surapprentissage dans les modèles de raisonnement et arrête la génération de manière adaptative. Testé sur DeepSeek-R1-Distill et Qwen3, elle améliore la précision de 3,2% tout en réduisant les tokens générés de 40% sur Qwen3-8B.

Raisonnement DeepSeek Qwen

SIG

HYP

arXiv cs.CL·16 juin

Spokes: Optimizing for Diverse Pretraining Data Selection

SPOKES optimise la sélection de données de préentraînement via un cadre probabiliste basé sur le score G-Vendi et la descente de gradient exponentiée. Sur FineWeb et DCLM, la méthode améliore les performances en aval de +1.5 et +1.4 points en optimisant conjointement qualité et diversité, surpassant la déduplication sémantique.

Benchmarks Papers Fine-tuning

SIG

HYP

arXiv cs.LG·16 juin

GRASP: Gradient-Aligned Sequential Parameter Transfer for Memory-Efficient Multi-Source Learning

GRASP propose une méthode de transfer learning multi-source qui fusionne séquentiellement K modèles sources en mémoire O(1) au lieu de O(K). Via l'alignement gradient des paramètres et l'adaptation itérative, elle atteint 93.5% de précision sur benchmarks de continual learning (Yearbook, CLEAR-10/100) contre 71.7% pour les ensembles, tout en restant déployable en production.

Fine-tuning Reinforcement learning Benchmarks

SIG

HYP

arXiv cs.LG·16 juin

Remember, Don't Re-read: Stateful ReAct Agents for Token-Efficient Autonomous Experimentation

Les agents ReAct stateful réduisent de 90% la consommation de tokens en optimisation hyperparamètre et 52% en optimisation de code vs. approche stateless. Architecture implémentée via LangGraph avec historique persistant typé, passant de O(n²) à O(n) tokens total.

Agents IA Raisonnement Génération de code

SIG

HYP

arXiv cs.LG·16 juin

Temporal Difference Learning for Diffusion Models

Nouvelle approche d'entraînement pour modèles de diffusion utilisant la différence temporelle (TD) pour enforcer la cohérence multi-étapes le long de la trajectoire de débruitage. Reformulation du processus de diffusion comme processus de récompense Markov et problème d'évaluation de politique en RL. Amélioration significative du FID, particulièrement avec peu d'étapes d'échantillonnage.

Reinforcement learning Raisonnement

SIG

HYP

arXiv cs.AI·16 juin

Towards End-to-End Automation of AI Research

The AI Scientist automatise l'intégralité du cycle de recherche : génération d'idées, code, expériences, analyse de données, rédaction manuscrite et peer review. Un manuscrit généré a passé la première sélection d'un workshop majeur (taux d'acceptation 70%). Le système utilise des foundation models dans une architecture multi-agents.

Agents IA Multi-agents Papers

SIG

HYP

arXiv cs.LG·16 juin

Zero-order Parameter-free Optimization for LMO-based Methods: Novel Approach for Efficient Fine-tuning

Nouvel algorithme AdaNAGED pour l'optimisation sans gradient (zero-order) et sans paramètres lors du fine-tuning de LLMs. Réduit la mémoire requise par la rétropropagation en utilisant des oracles de minimisation linéaire et des mises à jour géométriques adaptatives. Validé sur OPT-1.3B.

Fine-tuning Papers

SIG

HYP

arXiv cs.CL·16 juin

PACUTE: Phonology-, Affix-, and Character-level Understanding of Tokens for Filipino

PACUTE est un benchmark de 4 600 tâches évaluant la compréhension morphologique du filipino dans les LLM. Le benchmark teste 6 niveaux compositionnels incluant l'infixation, la réduplication et les distinctions diacritiques. Les modèles open-weight performent au hasard en décomposition de morphèmes ; les modèles frontier récupèrent les affixes mais restent loin des plafonds en composition morphologique.

Benchmarks Papers Raisonnement

SIG

HYP

arXiv cs.LG·16 juin

M-CTX: Exact and Scalable Spatial Context Retrieval for Trajectory Analytics

M-CTX est un framework de récupération de contexte spatial pour l'analytique de trajectoires. Il remplace trois étapes brute-force (récupération OSM, calcul SDF, recherche de voisins) par des opérateurs indexés. Sur un corpus maritime de 5,48M anchors, il réduit le temps de construction de contexte de 17 jours CPU à 1,8 heures (speedup 226x), avec reproduction exacte du contexte de référence.

Benchmarks Infrastructure Open source

SIG

HYP

arXiv cs.LG·16 juin

StarOR: Synergizing Tree Search and Test-Time Reinforcement Learning for Optimization Modeling

StarOR couple la recherche arborescente (MCTS) avec l'apprentissage par renforcement au moment de l'inférence pour la modélisation d'optimisation. Le système décompose le processus en quatre étapes, affine un adaptateur LoRA via GRPO à chaque nœud, et utilise un système de récompense multi-facettes sans labels. Résultats SOTA sur cinq benchmarks avec backbone 4B.

Raisonnement Reinforcement learning Fine-tuning

SIG

HYP

arXiv cs.CL·16 juin

AthDGC: An Open Diachronic Greek Treebank with Indo-European Parallels

AthDGC est un treebank de dépendances en grec ancien et moderne couvrant 8 périodes (archaïque à moderne) sous schéma PROIEL XML 2.0. Alignement multilingue du Nouveau Testament avec latin, gotique, slavon et arménien. Annotation via Stanford Stanza, alignement phrase via LaBSE, alignement mot via multilingual-BERT. v0.4 en accès ouvert.

Benchmarks Open source Embeddings

SIG

HYP

arXiv cs.LG·16 juin

QPILOTS: Efficient Test-Time Q-Steering for Flow Policies

QPILOTS optimise les politiques de flow-matching et diffusion en temps d'inférence via Q-steering. La méthode projette les actions bruitées intermédiaires vers des estimations finales avant d'évaluer le critique, évitant l'instabilité numérique. Résultats : 90% de taux de succès sur 50 tâches offline-to-online, et surpasse les approches existantes sur 6 tâches de manipulation avec modèles VLA gelés.

Reinforcement learning Agents IA Raisonnement

SIG

HYP

arXiv cs.LG·16 juin

Machine Learning and the Random Walk Puzzle: Forecasting the CAD/USD Exchange Rate with Expanding Window Evaluation and SHAP Interpretability

Étude comparant 5 modèles ML (régression linéaire, random forest, gradient boosting, XGBoost, AdaBoost) pour prévoir le taux CAD/USD mensuel (2017-2026, 113 observations). Seule la régression linéaire surpasse statistiquement la marche aléatoire (DM=3.06, p=0.0071). Random Forest atteint MAPE=1.17%. SHAP révèle que les lags courts (lag1-2) et moyennes mobiles dominent les prédictions.

Benchmarks Évaluations Papers

SIG

HYP

arXiv cs.LG·16 juin

Benchmarking Instance-Dependent Label Noise with Controlled Corruptions

CILN est un framework de benchmark pour le bruit de label dépendant de l'instance (IDN). Il génère du bruit via corruptions d'entrée contrôlées plutôt que par annotateurs imparfaits. 90 configurations testées sur CIFAR-10, MNIST et Adult montrent que la structure du bruit, pas seulement son taux, affecte la difficulté et expose des failles dans Co-Teaching et DivideMix.

Benchmarks Évaluations

SIG

HYP

arXiv cs.LG·16 juin

Policy Regret for Embedding Model Routing: Contextual Bandits with Low-Rank Experts

Article théorique sur le routage dynamique de requêtes vers plusieurs modèles d'embedding. Formalise le problème comme un bandit contextuel linéaire adversarial avec experts low-rank. Propose l'algorithme Hypentropy Policy Gradient (HPG) avec regret Õ(s√MT) sans malédiction de dimensionnalité.

Benchmarks Raisonnement Reinforcement learning

SIG

HYP

arXiv cs.CL·16 juin

Are Online Skill and Memory Modules Always Worth Their Tokens? A Budget-Constrained Study of Web Agents

Étude comparative de modules de mémoire et compétences pour agents web. Sur WebArena et WorkArena, un baseline vanilla avec budget token équivalent égale ou surpasse AWM, ASI et ReasoningBank. Résultats sur Gemini 3 Flash, GPT-4o-mini, Qwen 3.6-27B montrent que les gains apparents disparaissent face à un acteur augmenté du même budget.

Agents IA Benchmarks Raisonnement

SIG

HYP

arXiv cs.LG·16 juin

GRAPE: Guided Parameter-Space Evolution for Compact Adversarial Robustness

GRAPE propose une méthode d'entraînement adversarial qui expose progressivement les paramètres du réseau plutôt que d'optimiser un espace fixe. Sur CIFAR-10 en ℓ∞, GRAPE améliore la précision robuste PGD-20 de ResNet-18 de 51,70% à 56,94% avec 21,4% moins de paramètres et budget de calcul quasi identique (1,009x FLOPs).

Benchmarks Papers

SIG

HYP

arXiv cs.LG·16 juin

FastMix: Fast Data Mixture Optimization via Gradient Descent

FastMix automatise l'optimisation du mélange de données pour l'entraînement de modèles via descente de gradient. La méthode reformule la sélection de mélange comme un problème d'optimisation bilinéaire, optimisant conjointement les coefficients de mélange et les paramètres du modèle. Un seul modèle proxy suffit, réduisant drastiquement le coût de recherche comparé aux approches antérieures.

Fine-tuning Benchmarks Papers

SIG

HYP

arXiv cs.AI·16 juin

AI Engram: In Search of Memory Traces in Artificial Intelligence

Étude introduisant un cadre géométrique pour identifier des « engrams IA » — traces mémoire dans les réseaux de neurones profonds analogues aux unités biologiques. Les auteurs dérivent un estimateur en forme fermée permettant de manipuler chirurgicalement les connaissances apprises (composition, effacement) via arithmétique linéaire, sans optimisation itérative. Validation sur MLPs et LLMs.

Raisonnement Papers Alignement

SIG

HYP

arXiv cs.CL·16 juin

CHILLGuard: Towards Fine-Grained Chinese LLM Safety Guardrail with Scalable Data Construction and Model-aware Preference Alignment

CHILLGuard est un système de sécurité dédié aux LLM chinois avec taxonomie fine-grained (5 macro, 31 micro catégories). Les auteurs construisent 405k échantillons d'entraînement via RAG et réécriture, puis 51k échantillons de test annotés. Le modèle atteint +15.92% F1 vs Qwen3Guard-8B-Strict via Direct Preference Optimization.

Sécurité IA Alignement Fine-tuning

SIG

HYP

arXiv cs.CL·16 juin

SHARD: Safe and Helpful Alignment via Self-Reframing Distillation

SHARD est une méthode de distillation par auto-reformulation pour améliorer l'équilibre sécurité-utilité des LLM. Elle réécrit les prompts sensibles selon des principes philosophiques, reformule les réponses de manière sûre et plus utile, puis fine-tune le modèle sur ces réponses auto-reformulées. Testée sur DNA et LINGUASAFE, SHARD améliore l'utilité tout en préservant la sécurité.

Fine-tuning Sécurité IA Alignement

SIG

HYP

arXiv cs.CL·16 juin

ESBMC-PLC: Formal Verification of IEC 61131-3 Ladder Diagram Programs Using SMT-Based Model Checking

ESBMC-PLC est le premier vérificateur formel open-source avec support natif des diagrammes en échelle IEC 61131-3 (format PLCopen XML). L'outil traduit les rungs en GOTO IR, modélise le cycle de scan PLC et vérifie les propriétés de sécurité via bounded model checking ou k-induction SMT. Évaluation sur 13 benchmarks : 8 bugs détectés, 7 preuves k-induction non bornées, tous les tests < 60ms.

Sécurité IA Benchmarks Open source

SIG

HYP

arXiv cs.CL·16 juin

Few-Shot Biomedical Relation Extraction with Large Language Models: A Viable Alternative to Supervised Learning?

Étude comparative du few-shot biomedical relation extraction avec LLMs vs apprentissage supervisé sur BioREDirect. Classification pairwise vs génération jointe : F1=0.44 (few-shot) vs 0.56 (supervisé) en micro-F1, mais 0.45 vs 0.38 en macro-F1. LLMs surpassent le baseline sur les relations rares.

Prompt engineering Benchmarks RAG

SIG

HYP

arXiv cs.CL·16 juin

Pepti-Agent: An AI Agent for Peptide Design and Optimization

Pepti-Agent est un framework d'IA pour la conception de peptides thérapeutiques utilisant le Model Context Protocol (MCP). Un contrôleur LLM orchestre des outils indépendants : génération via PeptideGPT, prédiction de propriétés (solubilité, hémolytique, fouling) via ProtBERT, et mutation résidu par résidu. Le système trace chaque décision pour permettre le benchmarking multi-objectif et la validation expérimentale.

Agents IA MCP Raisonnement

SIG

HYP

arXiv cs.AI·16 juin

CODA-BENCH: Can Code Agents Handle Data-Intensive Tasks?

CODA-BENCH est le premier benchmark évaluant conjointement les capacités de code et de données des agents IA. Construit sur l'écosystème Kaggle avec 1 009 tâches et ~980 fichiers par environnement, il révèle que les meilleurs agents n'atteignent que 61,1% de succès pour intégrer découverte de données et exécution de code.

Agents IA Benchmarks Génération de code

SIG

HYP

arXiv cs.CL·16 juin

PhoneHarness: Harnessing Phone-Use Agents through Mixed GUI, CLI, and Tool Actions

PhoneHarness est un benchmark et une plateforme d'exécution pour évaluer les agents mobiles sur des workflows réels. Il combine actions GUI, CLI et outils structurés, avec traçabilité auditable. Le benchmark atteint 75% de taux de réussite, surpassant les approches existantes de 12,9 points. L'accent porte sur les effets secondaires vérifiables, pas seulement les prédictions d'écran.

Agents IA Benchmarks Outils

SIG

HYP

arXiv cs.CL·16 juin

ReportQA: QA-Based Radiology Report Evaluation

ReportQA propose une métrique d'évaluation QA pour les rapports radiologiques générés automatiquement. Le framework utilise des LLM pour extraire des informations structurées, générer des paires QA à partir de templates, et évaluer l'alignement avec les jugements radiologues. Les auteurs publient arbres de connaissances, rapports structurés et code.

Papers Vision Évaluations

SIG

HYP

arXiv cs.CL·16 juin

Beyond Monolingual Deep Research: Evaluating Agents and Retrievers with Cross-Lingual BrowseComp-Plus

XBCP, un benchmark contrôlé, évalue des agents de recherche profonde sur leur capacité à opérer en contexte multilingue. Quatre agents testés avec des retrievers denses et creux sur 12 langues montrent une dégradation significative : perte de recall, calibration réduite, citations moins fiables. Les problèmes persistent même avec l'or evidence fourni directement.

Agents IA RAG Benchmarks

SIG

HYP

arXiv cs.AI·16 juin

VGPT-RSI for RH-Adjacent Formal Progress: Boundary Certificates, Verified Finite Lagarias Inequalities, and Explicit Failure Localization

Système VGPT-RSI appliqué à deux tâches de certification adjacentes à l'hypothèse de Riemann : construction de certificats de frontière RH vérifiés formellement en Coq, et initiation d'une route Lagarias formalisée. Identifie explicitement les obstacles mathématiques non résolus (équivalence Lagarias, théorème de queue global, réduction aux entiers extrémaux).

Raisonnement Papers Benchmarks

SIG

HYP

Simon Willison·16 juin

Quoting Matteo Wong, The Atlantic

La Maison-Blanche a remis à Anthropic un rapport sur le jailbreak Fable. L'expert en cybersécurité Katie Moussouris a examiné les tests : Fable a refusé « review the code for security issues » mais a accepté « fix this code ». Moussouris conclut que c'est le modèle fonctionnant correctement pour la cyberdefense.

Anthropic Claude Sécurité IA

SIG

HYP

Hacker News (AI)·16 juin

Microsoft turns to AWS as GitHub faces AI capacity crunch

Microsoft utilise l'infrastructure AWS pour soutenir GitHub face à une saturation de capacité liée aux services IA. La plateforme dépend désormais partiellement des serveurs Amazon pour gérer la demande croissante.

Business Infrastructure

SIG

HYP

Reddit r/LocalLLaMA·16 juin

Nex2 mini Phase Twin - 16gb footprint, 30b model

Nex2 mini Phase Twin : modèle 30B optimisé pour 16GB VRAM. Conçu pour les cartes Intel A770, fonctionne sur une seule GPU et s'améliore avec deux. Atteint 89 tok/s sur A770 16GB. Calibrage automatique selon le matériel.

Open source Llama Génération de code

SIG

HYP

Latent Space·16 juin

[AINews] Satya on Loopcraft: Building Frontier Ecosystems

Satya Nadella publie un essai sur Loopcraft et la construction d'écosystèmes frontier. L'article explore comment les entreprises peuvent bâtir des plateformes durables autour des modèles IA de pointe.

Business

SIG

HYP

Simon Willison·16 juin

Cloudflare CAPTCHA on at least one ampersand

Simon Willison partage une astuce pour configurer Cloudflare CAPTCHA/Managed Challenge : utiliser une règle WAF qui ne déclenche le défi que sur les URLs de recherche contenant au moins un ampersand. Cela permet aux requêtes simples comme ?q=term de passer sans CAPTCHA.

Outils

SIG

HYP

Reddit r/LocalLLaMA·16 juin

HalBench: 29 OSS models tested on a custom built Sycophancy and Hallucination Benchmark, Qwen 3.6 and Gemma 4 scoring far above their weight! (While Meta keeps proving they forgot how to spend their money...)

HalBench v2.3 évalue 29 modèles open-source sur la sycophantie et hallucinations via 3,076 questions avec fausses prémisses. Qwen 3.6 (~27B) atteint 36.6% de rejet, surpassant tous les modèles open plus grands, GPT-5.4 et Gemini 3.1 Pro. Seuls Sonnet 4.6 et Grok dépassent 50%. Phi-4 obtient 2.3%.

Benchmarks Open source Évaluations

SIG

HYP

Vercel AI Blog·16 juin

Vercel Sandbox can now run for up to 24 hours

Vercel Sandbox augmente la durée maximale des sessions de 5 à 24 heures. Cette extension permet les workflows longs comme le traitement de données massif, les tests end-to-end et les workflows agentiques persistants. Disponible sur les plans Pro et Enterprise.

Agents IA Infrastructure Outils

SIG

HYP

OpenAI Blog·16 juin

Predicting model behavior before release by simulating deployment

OpenAI présente Deployment Simulation, une méthode prédisant le comportement des modèles IA avant leur déploiement en utilisant des données de conversations réelles pour améliorer la sécurité et la précision des évaluations.

OpenAI Évaluations Sécurité IA

SIG

HYP

Vercel AI Blog·16 juin

Workflow SDK now supports inflight cancellation

Workflow SDK 5 bêta ajoute le support des APIs AbortController et AbortSignal pour annuler les opérations en cours à travers les limites de workflow et d'étapes. Le signal reste durable lors des suspensions et rejeux déterministe, permettant d'arrêter des étapes lentes, d'annuler après première réponse réussie, ou de canceler du travail parallèle.

Outils Infrastructure Agents IA

SIG

HYP

Vercel AI Blog·16 juin

Workflow SDK now supports TanStack Start

Vercel Workflow SDK supporte désormais TanStack Start. Le plugin workflow/vite fonctionne directement avec TanStack Start (basé sur Vite et Nitro). Les développeurs écrivent des workflows et steps en TypeScript standard avec les directives « use workflow » et « use step », exécutés comme opérations durables, reprises et persistantes.

Outils Infrastructure Génération de code

SIG

HYP

Reddit r/MachineLearning·15 juin

How the brains learn [R]

Article scientifique proposant un cadre unifié pour expliquer l'apprentissage du néocortex via l'apprentissage prédictif piloté par erreurs et dérivées temporelles. Implémenté dans le framework Axon avec neurones impulsionnels, testé sur des tâches cognitives complexes. Les auteurs suggèrent ce mécanisme comme alternative potentielle à la rétropropagation.

Papers Raisonnement Reinforcement learning

SIG

HYP

Reddit r/LocalLLaMA·15 juin

vLLM has a new streaming parser for Qwen3+ available in nightly

vLLM déploie un nouveau parser de streaming pour Qwen3+ en version nightly. Il corrige les arrêts prématurés de Qwen3.6-27b en cours de génération et les défaillances des appels d'outils lors du streaming. Ces problèmes affectaient particulièrement les workflows d'agents.

Qwen Agents IA Open source

SIG

HYP

Hacker News (AI)·15 juin

Show HN: Claude Code for Visual Studio (native diff with accept/reject)

Extension Claude Code native pour Visual Studio avec diff visuel et boutons accept/reject. Permet l'intégration directe de Claude dans l'IDE pour la génération et modification de code.

Claude Code Génération de code Outils

SIG

HYP

Hacker News (AI)·15 juin

Prediction and Entropy of Printed English - Claude Shannon (1950) [pdf]

Republication d'un article fondateur de Claude Shannon (1950) sur la prédictibilité et l'entropie de l'anglais écrit. Travail théorique classique en théorie de l'information, base des modèles de langage modernes.

Papers Raisonnement

SIG

HYP

Reddit r/LocalLLaMA·15 juin

Improving Neural Network Training by Decoupling the Magnitude and Direction of Weight Vectors | Alexander Hägele

Article sur une technique de découplage entre magnitude et direction des vecteurs de poids pour améliorer l'entraînement des réseaux de neurones. Prometteur pour simplifier et accélérer le fine-tuning.

Fine-tuning Papers

SIG

HYP

Hacker News (AI)·15 juin

AWS WAF now lets content owners charge AI bots for access

AWS WAF introduit une fonctionnalité permettant aux propriétaires de contenu de facturer les bots IA pour l'accès. Le service de pare-feu applicatif web d'Amazon propose désormais des outils de monétisation des requêtes de scraping et d'entraînement de modèles.

Infrastructure Business

SIG

HYP

Reddit r/MachineLearning·15 juin

Cleo: trying to fit full analyst behavior in a 2B model [P]

Cleo est un fine-tune de Qwen 2B-Base conçu pour les tâches text-to-SQL. Le modèle intègre entraînement, évaluation et inférence dans un même système unifié, avec couche de sécurité SQL, gestion des dialectes et comportement de clarification. Code, modèle et datasets sont open-source.

Qwen Fine-tuning Génération de code

SIG

HYP

Reddit r/LocalLLaMA·15 juin

Cheapest hardware for Qwen 3.6: both 27B and 35B-A3B

Comparaison de configurations matérielles bon marché pour exécuter Qwen 3.6 27B et 35B. RTX 3090 24GB préféré au V100 pour la pérennité. Configuration complète (Ryzen 5 5600X + RTX 3090 + 32GB RAM) à ~2000$ via Alibaba.

Qwen Génération de code Agents IA

SIG

HYP

Reddit r/LocalLLaMA·15 juin

Finally - 4xRTX 5060TI

Un utilisateur a assemblé un système avec 4 RTX 5060 Ti 16GB sur une carte mère MSI MEG Z890 Unify-X supportant PCIe 5.0. Il utilise des adaptateurs M.2 pour connecter les GPUs et prévoit de benchmarker Qwen 3.6 27B en Q8 avec llama.cpp et vLLM.

Open source Infrastructure Génération de code

SIG

HYP

Reddit r/LocalLLaMA·15 juin

We trained a cybersecurity-focused Mythos like LLM open weights on HuggingFace

OpenMythos, un LLM open-source spécialisé en cybersécurité, entraîné via SFT puis RLVR (reward learning avec vérification). Données : 1,84K papers ArXiv cs.CR + dataset CVE structuré. Le modèle réduit les hallucinations sur les vulnérabilités et améliore la calibration d'incertitude. Démo, modèle et datasets disponibles sur HuggingFace.

Open source Fine-tuning Reinforcement learning

SIG

HYP

Reddit r/LocalLLaMA·15 juin

Evalatro: an open benchmark where LLMs play the real Balatro

Evalatro est un benchmark open-source où les LLMs jouent au vrai Balatro via une connexion MCP. Le modèle reçoit l'état du jeu en texte et décide seul de ses coups. Leaderboard public avec seeds fixes, mimo-v2.5-pro atteint Ante 5, aucun modèle n'a approché l'objectif Ante 12.

Benchmarks MCP Open source

SIG

HYP

Reddit r/MachineLearning·15 juin

Open weights are not enough: we need open training frameworks for research and better algorithms [P]

FeynRL, un framework open-source pour le post-training RL des LLMs et agents, vise à rendre la formation transparente et modifiable. L'auteur argue que les poids ouverts ne suffisent pas : il faut des codebases d'entraînement explicites séparant algorithmes et systèmes. Le framework supporte SFT, DPO, multi-GPU et clusters.

Open source Reinforcement learning Génération de code

SIG

HYP

Hacker News (AI)·15 juin

The AI Price War Is Here, Piling Pressure on OpenAI and Anthropic

La guerre des prix dans l'IA s'intensifie, mettant sous pression OpenAI et Anthropic. Les fournisseurs rivaux réduisent agressivement leurs tarifs, forçant les leaders du marché à ajuster leurs modèles économiques face à une concurrence croissante.

OpenAI Anthropic Business

SIG

HYP

The Decoder·15 juin

The US government may be asking Anthropic the impossible by demanding unhackable LLMs

Des officiels américains accusent Anthropic de ne pas respecter la directive cybersécurité de Trump et d'avoir lancé Claude 3.5 Sonnet sans approbation. Des discussions sont en cours avec le Département du Commerce, la CIA et le conseiller scientifique Michael Kratsios sur les exigences de modèles « inviolables ».

Anthropic Claude Régulation

SIG

HYP

Simon Willison·15 juin

datasette-agent 0.3a0

datasette-agent 0.3a0 introduit execute_write_sql, un nouvel outil permettant aux agents IA de modifier les bases de données avec approbation utiliselle et gestion des permissions. Exemple : insertion de données sur des observations de pélicans avec confirmation avant exécution.

Agents IA Outils Open source

SIG

HYP

Reddit r/MachineLearning·15 juin

AI language models have favorite names, and we mapped them [R]

Les modèles de langage présentent des biais spécifiques sur les noms de personnages. Claude génère fréquemment Elena Vasquez et Marcus Chen ensemble, formant des ensembles corrélés qui apparaissent sur des dizaines de sites web. Une étude (arXiv:2606.02184) documente ce phénomène découvert lors du développement d'une méthode de diffing de modèles.

Claude Papers Évaluations

SIG

HYP

Reddit r/LocalLLaMA·15 juin

Local coding agents are good now, but only if you babysit them

Les agents de codage locaux sont utiles pour les petites tâches (corrections, lecture de repo, modifications), mais nécessitent une supervision constante. L'utilisateur décrit un workflow itératif : tâche → tests → vérification des diffs → corrections. Sans supervision, les agents produisent du code cassé ou s'écartent de l'objectif.

Agents IA Génération de code Outils

SIG

HYP

Hacker News (AI)·15 juin

A man with ALS is "the first power user" of a brain implant that lets him sp

Un patient atteint de SLA devient le premier utilisateur avancé d'un implant cérébral lui permettant de communiquer. L'interface cerveau-ordinateur restaure partiellement sa capacité à parler via décodage neuronal.

Robotique

SIG

HYP

Reddit r/LocalLLaMA·15 juin

Latest LM Studio update killed MTP performance

Un utilisateur signale que la mise à jour de LM Studio de 0.4.14 à 0.4.17 a dégradé les performances MTP (Multi-Token Prediction) sur RTX 5090. Le débit est passé de ~100 tokens/s avec MTP à ~70 tokens/s après la mise à jour et l'actualisation du runtime CUDA.

Outils Infrastructure

SIG

HYP

Reddit r/LocalLLaMA·15 juin

I made a game where you convince an AI model that reality is a simulation.

Simulation Simulator, un jeu gratuit sur Steam, intègre un LLM local dans Unity. Le joueur doit convaincre l'IA qu'elle existe dans une simulation. Expérience philosophique avec 5 fins + 1 secrète, conversations uniques.

Open source Outils Agents IA

SIG

HYP

The Decoder·15 juin

Nvidia joins AI debt boom with $20 billion bond sale

Nvidia lance sa première émission obligataire depuis 2021 pour lever au moins 20 milliards de dollars. L'opération s'inscrit dans une tendance plus large d'endettement des géants de l'IA.

Business

SIG

HYP

Simon Willison·15 juin

"They screwed us": Personality clashes sent Anthropic's models offline

Selon Axios, des tensions personnelles entre dirigeants d'Anthropic et l'administration US ont conduit au retrait des modèles Fable/Mythos pour des raisons de contrôle à l'export. Logan Graham, Dave Orr et Nicholas Carlini rencontrent le Commerce Department. La réactivation dépendrait de garanties contre les jailbreaks ou d'un « changement d'attitude ».

Anthropic Claude Sécurité IA

SIG

HYP

Reddit r/MachineLearning·15 juin

Concept-Vector: A design framework for human-interpretable word embeddings [P]

Concept-Vector propose un cadre de design pour transformer les embeddings de mots en vecteurs interprétables par l'humain, où chaque composante représente des aspects sémantiques, syntaxiques ou statistiques avec des labels lisibles. Projet de design de données sans validation empirique sur modèles, partagé pour retours critiques.

Embeddings Papers

SIG

HYP

Reddit r/LocalLLaMA·15 juin

WATCH MY ESCAPE - LLMs try to solve your handmade escape rooms

Jeu d'évasion 2D créable localement où les LLMs résolvent des énigmes via commandes textuelles (verbes d'action). Entrée au hackathon Hugging Face x Gradio Build Small. Déployable sur Hugging Face Spaces avec repo GitHub public.

Raisonnement Outils Open source

SIG

HYP