juin 2026

2731 articles

Quick thoughts on GLM-5.2 (Bonus: Censorship question answers)

GLM-5.2 démontre une excellente cohérence sur très long contexte et un raisonnement adaptatif sans verbosité excessive. L'utilisateur rapporte des performances proches de GPT-4.5 sur analyse lourde et recherche approfondie, avec une vitesse d'inférence supérieure à GLM-5.1. Le modèle possède sa propre signature conversationnelle distincte.

Qwen Raisonnement Open source

SIG

HYP

Vercel AI Blog·18 juin

The Agent Stack

Vercel présente « The Agent Stack », une pile complète pour construire des agents IA en production. Elle intègre AI SDK (interface unifiée multi-modèles), AI Gateway (routage et facturation centralisée) et permet d'appeler Claude, GPT et autres sans vendor lock-in.

Agents IA Claude GPT

SIG

HYP

Latent Space·18 juin

[AINews] Midjourney Medical: scan your organs like you step on a scale

Midjourney lance son deuxième produit : une application médicale permettant de scanner les organes via smartphone, sans nécessiter d'équipement médical spécialisé. Le modèle d'IA analyse les images capturées pour fournir des diagnostics préliminaires.

Génération d'images Vision Business

SIG

HYP

Le Big Data·18 juin

ChatGPT met de l’ordre dans vos tâches planifiées avec cette nouvelle interface

OpenAI déploie une nouvelle interface pour les tâches planifiées de ChatGPT, améliorant la découverte et l'organisation des rappels utilisateur.

GPT Outils

SIG

HYP

Le Big Data·18 juin

Noam Shazeer : le cerveau de Gemini lâche Google pour OpenAI

Noam Shazeer, chercheur clé du développement de Gemini chez Google, quitte l'entreprise pour rejoindre OpenAI. Ce départ marque un changement significatif dans la compétition entre les deux géants de l'IA.

Gemini OpenAI Business

SIG

HYP

arXiv cs.CL·18 juin

Beyond Scalar Scores: Exploring LLM-based Metrics for Clinical Significance Evaluation in Radiology Reports

Étude sur l'évaluation des rapports radiologiques générés par IA. Les chercheurs montrent que les LLM existants pénalisent excessivement les reformulations inoffensives tout en détectant les erreurs cliniques. Ils entraînent des métriques légères sur Qwen3-8B et MedGemma-4B surpassant des modèles médicaux 32B, avec publication du dataset et de la métrique.

Benchmarks Évaluations Papers

SIG

HYP

arXiv cs.AI·18 juin

Skill-Guided Continuation Distillation for GUI Agents

SGCD, un framework d'auto-amélioration itérative, résout le problème des états hors-trajectoire en GUI agents. Le système exécute d'abord une politique simple, puis utilise une politique guidée par des skills pour générer des continuations réussies. Sur OSWorld-Verified, SGCD améliore le taux de succès de trois modèles de base de 30% à plus de 50%.

Agents IA Reinforcement learning Papers

SIG

HYP

arXiv cs.AI·18 juin

Decoupling Search from Reasoning: A Vendor-Agnostic Grounding Architecture for LLM Agents

Decoupled Search Grounding (DSG) découple la recherche du raisonnement via une passerelle compatible MCP. Sur SimpleQA, FreshQA et HotpotQA, DSG atteint 86,1% de précision (vs 87,7% natif) avec 91% de coût réduit et 68% de latence inférieure. En production e-commerce, DSG réduit le coût de recherche de 98% tout en maintenant la précision.

Agents IA MCP RAG

SIG

HYP

arXiv cs.LG·18 juin

A Link between Shock-wave Theory and Symmetry-reduced Stochastic Gradient Descent for Artificial Neural Networks

Lien mathématique établi entre la théorie des ondes de choc et la dynamique de descente de gradient stochastique symétrique pour réseaux de neurones. Après quotient des symétries et coarse-graining entropique, la dynamique effective satisfait une équation Hamilton-Jacobi visqueuse. Appliqué à MLPs, CNNs, Transformers et réseaux mean-field.

Papers Raisonnement Reinforcement learning

SIG

HYP

arXiv cs.CL·18 juin

Aligning Implied Statements for Implicit Hate Speech Generalizability with Context-Bounded Semi-hard Negative Mining

ImpSH, un framework basé sur les triplets, améliore la détection de discours haineux implicite en alignant les posts avec leurs énoncés implicites et en utilisant des négatifs semi-durs bornés par le contexte. Évalué sur IHC, SBIC et DynaHate avec BERT et HateBERT, il améliore la performance cross-domain et offre une représentation plus stable que les approches contrastives supervisées standard.

Benchmarks Sécurité IA Papers

SIG

HYP

arXiv cs.LG·18 juin

Beyond AHI: An Interpretable Causal-Discovery-Guided Framework for Sleep Recovery in Connected Health

Framework causal pour scorer la récupération du sommeil à partir de polysomnographie multimodale. Utilise DAG learning sur deux cohortes (MESA n=1540, MrOS n=825) pour identifier 5 domaines physiologiques (charge respiratoire, hypoxie, fragmentation, architecture, régulation autonome). Le Sleep Recovery Score (SRS) obtient 2.5× meilleure corrélation avec la récupération perçue que l'AHI classique.

Papers Raisonnement Évaluations

SIG

HYP

arXiv cs.AI·18 juin

Externalizing Research Synthesis and Validation in AI Scientists through a Research Harness

Xcientist est un système qui externalise la synthèse de recherche et la validation expérimentale des scientifiques IA en processus inspectables et gouvernés par contrats. Il organise les preuves littéraires, états d'idées, plans d'implémentation et traces de réparation comme artefacts persistants, éliminant la dérive de réclamation où les artefacts exécutables ne soutiennent plus le mécanisme initialement revendiqué.

Agents IA Raisonnement Évaluations

SIG

HYP

arXiv cs.CL·18 juin

RedactionBench

RedactionBench est un benchmark de 200 documents annotés manuellement couvrant 11 domaines pour évaluer la redaction d'informations personnelles (PII) en contexte. Introduit avec R-Score, une métrique au niveau caractère, il montre que 35 modèles (NER, SLM, frontier models) échouent sur les redactions contextuelles : consensus humain à 89,4% pour redactions obligatoires, 47,7% pour redactions contextuelles.

Benchmarks Sécurité IA Évaluations

SIG

HYP

arXiv cs.CL·18 juin

Output Vector Editing for Memorization Mitigation in Large Language Models

Méthode de suppression de mémorisation dans les LLM par édition des vecteurs de sortie des neurones MLP. Testée sur 4 modèles (360M-7B paramètres), atteint 87,9% de suppression sur OLMo-7B avec 6831 séquences mémorisées. Approche complémentaire aux méthodes d'ablation neuronale existantes.

Sécurité IA Alignement Papers

SIG

HYP

arXiv cs.LG·18 juin

Neural Network Implementation of the Renormalization Group for Fault Diagnosis with Class Imbalance

RGNet, une architecture neuronale basée sur le groupe de renormalisation, traite le déséquilibre de classes et le bruit multidimensionnel pour le diagnostic de défauts. Le modèle compresse hiérarchiquement l'espace des features et capture détails locaux et patterns globaux. Tests sur dataset AI4I imbalancé.

Papers Évaluations Benchmarks

SIG

HYP

arXiv cs.AI·18 juin

DeFAb: A Verifiable Benchmark for Defeasible Abduction in Foundation Models

DeFAb est un benchmark de 372 648+ instances pour évaluer le raisonnement abductif défaisable dans les modèles de langage. Les meilleurs modèles frontier atteignent 65% en conditions standard mais chutent à 23,5% en évaluation robuste au rendu, contre 100% pour un solveur logique symbolique. Le benchmark inclut trois niveaux de difficulté avec vérification polynomiale des hypothèses.

Benchmarks Raisonnement Évaluations

SIG

HYP

arXiv cs.AI·18 juin

Optimizing Lithium Production Decisions under Geological, Demand, and Pricing Uncertainties: A POMDP Framework for Multi-Objective Decision Making

Un cadre POMDP optimise les décisions de production de lithium en intégrant incertitudes géologiques, de prix et de demande. Les solveurs POMDP surpassent les heuristiques humaines en s'adaptant dynamiquement aux régimes de prix (statique, linéaire, exponentiel, stochastique) et en séquençant optimalement exploration, production et choix technologique.

Raisonnement Reinforcement learning

SIG

HYP

arXiv cs.LG·18 juin

LLMZero: Discovering Adaptive Training Strategies for RL Post-Training via LLM Agents

LLMZero utilise des agents LLM avec recherche arborescente pour découvrir des stratégies d'entraînement RL adaptatif. Le système identifie que les paramètres de capacité augmentent monotoniquement tandis que les paramètres de régularisation oscillent. Sur 4 tâches GRPO, les stratégies découvertes surpassent le modèle de base de 9-140% et la recherche en grille de 6-15%.

Reinforcement learning Agents IA Raisonnement

SIG

HYP

arXiv cs.AI·18 juin

Towards an Agent-First Web: Redesigning the Web for AI Agents

Papier proposant une refonte du web pour intégrer les agents IA comme citoyens de première classe. Trois couches : accès (headers HTTP, contenu dual human/agent), économie (modèle token-based, intent-based tiers), contenu (ATML, chaîne cryptographique de provenance contre la récursion épistémique). Dix principes de design pour un internet agent-first.

Agents IA Infrastructure Régulation

SIG

HYP

arXiv cs.AI·18 juin

NeSyCat Torch: A Differentiable Tensor Implementation of Categorical Semantics for Neurosymbolic Learning

NeSyCat Torch unifie les sémantiques neurosymboliques (classique, floue, probabiliste, neurale) sous une définition unique de la vérité paramétrée par des monades. Implémenté en PyTorch, JAX et HaskTorch, le framework interprète les symboles computationnels via réseaux de neurones. Sur MNIST addition, surpasse LTN et DeepProbLog en vitesse/précision.

Raisonnement Reinforcement learning Papers

SIG

HYP

arXiv cs.CL·18 juin

Beyond Reward Engineering: A Data Recipe for Long-Context Reinforcement Learning

Étude arXiv sur l'amélioration du raisonnement long-contexte via une approche data-centric plutôt que l'ingénierie des récompenses. Recette de données ciblant retrieval, synthèse multi-preuves et raisonnement (~14K exemples). Tests sur Qwen3 (4B/8B/30B) : +7.2/+3.2/+6.4 points sur 7 benchmarks long-contexte, transfert aux tâches agentic (+4.8 GAIA, +7.0 BrowseComp).

Reinforcement learning Raisonnement Agents IA

SIG

HYP

arXiv cs.CL·18 juin

LLMs Struggle to Measure What Distinguishes Students of Different Proficiency Levels: A Study of Item Discrimination in Reading Comprehension Assessment

Étude évaluant 42 LLMs (propriétaires et open-source) sur leur capacité à mesurer la discrimination d'items en compréhension de lecture. Les modèles échouent : corrélation de Spearman de 0,152 en prédiction directe, 0,241 en calibration CTT. Les LLMs ne capturent pas fiablement comment les items distinguent les étudiants de niveaux différents.

Benchmarks Évaluations Papers

SIG

HYP

arXiv cs.LG·18 juin

The Illusion of Improvement: Reject Inference Strategies in Credit Scoring

Les méthodes de reject inference utilisées en scoring crédit pour corriger le biais de survie masquent un problème structurel : l'accuracy peut s'améliorer tandis que la capacité à rejeter les défaillants s'effondre. Les auteurs proposent une stratégie d'exploration contrôlée (approuver 2-5% des candidats rejetés) pour diagnostiquer cette dégradation sans hypothèses statistiques fortes.

Benchmarks Sécurité IA Évaluations

SIG

HYP

arXiv cs.LG·18 juin

Task-Restricted Symmetries in Recurrent Weight Space

Étude des redondances fonctionnelles dans les RNNs à une couche via décomposition de Schur. Les auteurs identifient des couplages non-normaux supprimables sans perte majeure sur certaines tâches (copie, flip-flop, génération sinusoïdale), révélant des invariances fonctionnelles approximatives spécifiques à chaque tâche plutôt que des symétries universelles.

Papers Raisonnement

SIG

HYP

arXiv cs.AI·18 juin

CaVe-VLM-CoT: An Interpretable Vision-Language Model Framework

CaVe-VLM-CoT est un framework agentic-RAG modulaire qui réduit les hallucinations des VLMs via une pipeline fermée à 5 étapes (Extractor, Retriever, Solver, Citation Injector, Verifier). Les réclamations non fondées déclenchent une re-retrieval ciblée. 23 métriques composantes et CaVeScore mesurent la fidélité des citations et l'ancrage multimodal. Résultats : 87,1% accuracy sur ScienceQA, 55,2% sur MMMU.

Vision RAG Agents IA

SIG

HYP

arXiv cs.CL·18 juin

Redact or Keep? A Fully Local AI Cascade for Educational Dialogue De-Identification

Framework local de dé-identification pour dialogues éducatifs. Cascade à deux étages : proposeur union (encodeurs légers + règles déterministes) génère candidats PII, puis reviewer binaire Redact/Keep utilise contexte et rôle du locuteur. Atteint 0.958 F1 macro sur transcriptions tutoriel math, surpasse LLM commercial (0.706) et baseline locale (0.767), s'exécute sur laptop unique.

RAG Sécurité IA Papers

SIG

HYP

arXiv cs.CL·18 juin

PreUnlearn: Auditing Collateral Knowledge Damage Before Large Language Model Unlearning

Étude de l'impact collatéral du machine unlearning sur les LLM. Les auteurs montrent que les dégâts s'étendent au-delà du forget set selon un gradient de distance sémantique, et proposent PreUnlearn, une méthode de prédiction pré-unlearning pour auditer les risques avant exécution.

Sécurité IA Alignement Papers

SIG

HYP

arXiv cs.CL·18 juin

Dual Dimensionality for Local and Global Attention

Les chercheurs proposent Distance-Adaptive Representation (DAR) : réduire la dimensionnalité des clés/valeurs au-delà d'une fenêtre locale dans les Transformers décodeur-seul. Les tokens proches nécessitent des représentations complètes pour prédire le token suivant, tandis que les tokens distants peuvent utiliser 1/4 de la dimensionnalité originale sans dégradation. Testé sur modèles 70M-410M et fine-tuning 1B.

Raisonnement Infrastructure Benchmarks

SIG

HYP

arXiv cs.CL·18 juin

BCL: Bayesian In-Context Learning Framework for Information Extraction

BCL est un framework d'optimisation pour l'extraction d'information utilisant le filtrage particulaire et les mises à jour bayésiennes. Il affine systématiquement les représentations d'étiquettes pour le labeling de séquences et la classification de relations, montrant des améliorations consistantes sur plusieurs échelles de modèles.

Prompt engineering Raisonnement Évaluations

SIG

HYP

arXiv cs.CL·18 juin

Morpheus: A Morphology-Aware Neural Tokenizer and Word Embedder for Turkish

Morpheus est un tokeniseur neural morphologie-aware pour le turc agglutinant. Le modèle utilise une programmation dynamique Poisson-binomial différentiable pour segmenter les morphèmes avec une compression de 1.425 bits/caractère et un alignement morphologique MorphScore F1 de 0.61 (vs ~0.32 pour les tokeniseurs subword). Lossless par construction : decode(encode(w)) = w.

Embeddings Papers Open source

SIG

HYP

arXiv cs.LG·18 juin

Artemis: Anatomy-Resolved inTervention for Eliminating Multimodal NeuroImage confounderS

Artemis est un framework causal pour les graphes de neurones qui traite les biais démographiques (âge, sexe) dans l'imagerie cérébrale multimodale (fMRI + DTI). La méthode applique des interventions causales au niveau de chaque région cérébrale pour apprendre des représentations invariantes. Testée sur ADNI, OASIS et HCP, elle améliore les diagnostics de maladie et la classification.

Papers Raisonnement Alignement

SIG

HYP

arXiv cs.LG·18 juin

Why SWAVE May Not Be All You Need:A Concept-Evolution Retrospective on Complex-Valued Recurrent Language Models

SWave est un modèle de langage récurrent à valeurs complexes (169M paramètres) entraîné sur FineWeb-Edu. L'article documente son évolution sur trois phases, identifiant des défaillances structurelles (cos-domination collapse) et validant les composants critiques (ComplexNorm, Wave Propagation Scan). PPL final : 22.0 à l'étape 89,861.

Papers Raisonnement Benchmarks

SIG

HYP

arXiv cs.LG·18 juin

SCOPE-FL: A Strategy-proof Chain-based Optimal pareto efficient Federated Learning System

SCOPE-FL propose un système de Federated Learning hiérarchique utilisant l'algorithme Top Trading Cycle pour la sélection de clients. Le mécanisme garantit l'efficacité de Pareto et la stratégie-proofness, avec distribution de récompenses via approximation Shapley et exécution blockchain. Évaluation sur MNIST, Fashion-MNIST, CIFAR-10 montre amélioration vs DA, IAS.

SIG

HYP

arXiv cs.LG·18 juin

Enhanced Graph Neural Networks using K-Hop Gaussian Diffusion

Nouvelle méthode de diffusion K-Hop Gaussian (KHG) pour améliorer les GNN. KHG prétraite les données graphiques avec une diffusion multi-hop pondérée par Gaussian, équilibrant propagation locale et globale. Surpasse message-passing standard, PPR et Heat Kernel sur benchmarks, notamment sur graphes bruyants.

Benchmarks

SIG

HYP

arXiv cs.LG·18 juin

What Does the Weight Norm Control in Grokking? Logit-Scale Mediation under Cross-Entropy

Étude sur le grokking (transition retardée de la mémorisation à la généralisation). Les auteurs montrent que la norme des poids ne contrôle pas directement le délai de grokking, mais agit via l'échelle des logits. En fixant la norme et variant la température de sortie, ils retrouvent 85% du délai en ajustant l'échelle logit. L'effet dépend de la fonction de perte (cross-entropy vs MSE).

Papers Raisonnement Évaluations

SIG

HYP

arXiv cs.LG·18 juin

Quantum Annealing Enhanced Reinforcement Learning for Accurate Remaining Useful Lifetime Prediction

Framework QAQL combinant quantum annealing et Q-learning pour prédire la durée de vie utile restante (RUL) en maintenance prédictive. Chaque mise à jour Q-value est encodée en QUBO résolu sur D-Wave Advantage. Validé sur NASA C-MAPSS et datasets de maintenance : amélioration statistiquement significative vs baselines classiques et quantiques.

Reinforcement learning Benchmarks Papers

SIG

HYP

arXiv cs.LG·18 juin

PSyGenTAB: A Privacy-Preserving Framework for Synthetic Clinical Tabular Data Generation via Constrained Optimization

PSyGenTAB est un framework de génération de données synthétiques cliniques qui formule le problème comme une optimisation contrainte via la méthode du Lagrangien augmenté. Le système intègre des contraintes de confidentialité directement dans l'entraînement pour préserver les relations inter-variables cliniques et les patterns de classes minoritaires, tout en maintenant l'utilité des données pour l'IA médicale.

Benchmarks

SIG

HYP

arXiv cs.AI·18 juin

Searching for Synergy in Shared Workspace Human-AI Collaboration

Étude sur la collaboration humain-IA en espace partagé via Collaborative Gym et DiscoveryBench. Ajouter des collaborateurs améliore les performances seulement avec une structure de coordination. Un scaffolding combinant mémoire partagée et validation humaine (HITL gates) augmente la performance, particulièrement en équipes de trois, en clarifiant les responsabilités.

Agents IA Multi-agents Évaluations

SIG

HYP

arXiv cs.AI·18 juin

RTSGameBench: An RTS Benchmark for Strategic Reasoning by Vision-Language Models

RTSGameBench est un benchmark pour évaluer le raisonnement stratégique des Vision-Language Models (VLMs) dans des jeux de stratégie en temps réel. Basé sur Beyond All Reason, il propose des évaluations multi-scénarios, des mini-jeux diagnostiques ciblant des compétences spécifiques, et un framework auto-évolutif. Les VLMs actuels échouent sur la coordination multi-agents et les tâches complexes.

Vision Raisonnement Multi-agents

SIG

HYP

arXiv cs.AI·18 juin

WorldLines: Benchmarking and Modeling Long-Horizon Stateful Embodied Agents

WorldLines est un benchmark pour agents incarnés sur long horizon testant la mémoire dans des environnements domestiques dynamiques. Le dataset inclut traces temporelles avec dialogues, actions, changements d'état d'objets/appareils. ObsMem, un framework de mémoire basé observateur, maintient des mémoires conscientes de la visibilité et des traces d'état pour des décisions informées.

Agents IA Benchmarks Raisonnement

SIG

HYP

arXiv cs.AI·18 juin

Beyond Safe Data: Pretraining-Stage Alignment with Regular Safety Reflection

Safety Reflection Pretraining intègre des réflexions de sécurité courtes dans les corpus de préentraînement pour établir l'auto-surveillance directement dans la modélisation du langage. Sur des modèles 1.7B préentraînés sur FineWeb-Edu, la méthode améliore la précision de classification de sécurité et réduit substantiellement les taux de succès des attaques en inférence et fine-tuning.

Sécurité IA Alignement Reinforcement learning

SIG

HYP

arXiv cs.AI·18 juin

Analysing drivers and interdependencies in European electricity markets using XAI

Étude combinant réseaux de neurones profonds et XAI (SHAP, SSHAP) pour analyser 39 zones de soumission électriques européennes. Identifie l'énergie solaire comme facteur disproportionné de formation des prix, les prix du gaz comme moteur dominant, et les interconnexions comme révélatrices de l'interdépendance des marchés.

Évaluations Papers

SIG

HYP

arXiv cs.CL·18 juin

Speech-Driven End-to-End Language Discrimination towards Chinese Dialects

Article proposant une approche speech-driven pour la discrimination entre dialectes chinois. Combine features MFCC, modèle HMM-DNN pour la reconnaissance vocale, attention mechanism et CNN. Évaluation sur deux corpus benchmark montre amélioration vs état de l'art.

Voix Benchmarks Papers

SIG

HYP

arXiv cs.CL·18 juin

Lost in a Single Vector: Improving Long-Document Retrieval with Chunk Evidence Aggregation

DICE améliore la récupération de documents longs en fragmentant le texte, encodant chaque chunk indépendamment, puis agrégant les vecteurs en une seule représentation. Sur LongEmbed, les gains atteignent 90.0 pour Dream Passkey >4k (vs 30.0) et 74.0 pour Needle >4k (vs 23.3). L'approche réduit l'indice de dilution d'évidence (EDI) dans 92.8% des cas.

RAG Embeddings Recherche vectorielle

SIG

HYP

arXiv cs.CL·18 juin

PragReST: Self-Reinforcing Counterfactual Reasoning for Pragmatic Language Understanding

PragReST est un framework auto-supervisé qui améliore le raisonnement pragmatique des LLM via des traces de raisonnement contrefactuel. Sans données annotées humaines, il combine fine-tuning supervisé et apprentissage par renforcement. Sur 4 benchmarks (PragMega, Ludwig, MetoQA, AltPrag), il gagne +5.37% et +5.50% en absolu pour Qwen3-8B et Qwen3-14B.

Raisonnement Reinforcement learning Fine-tuning

SIG

HYP

arXiv cs.CL·18 juin

RegMix-D: Dynamic Data Mixing via Proxy Training Trajectories

RegMix-D étend RegMix en utilisant les trajectoires complètes de perte des runs proxy, pas seulement les pertes finales, pour prédire des mélanges de données optimaux à plusieurs étapes d'entraînement. Testé sur 25B tokens du Pile avec un modèle 1B, RegMix-D surpasse RegMix et DoReMi sur 13 tâches aval avec 75% moins de calcul proxy.

Benchmarks Papers

SIG

HYP

arXiv cs.CL·18 juin

Efficient Financial Language Understanding via Distillation with Synthetic Data

Framework de distillation avec données synthétiques pour l'analyse de sentiment financier. Transfert de connaissances d'un modèle teacher instruction-tuned vers des modèles compacts. Sélection de seeds par clustering pour générer des données synthétiques via few-shot prompting. Le modèle compact surpasse le teacher sur textes complexes/bruyants avec supervision minimale.

Fine-tuning RAG Prompt engineering

SIG

HYP

arXiv cs.LG·18 juin

ThousandWorlds: A benchmark for climate emulation of potentially habitable exoplanets

ThousandWorlds est un benchmark ML pour l'émulation climatique d'exoplanètes potentiellement habitables. Le dataset contient ~1800 simulations de 5 modèles climatiques globaux mappant 8 paramètres planétaires à des champs atmosphériques 3D. Trois sous-ensembles progressifs et deux protocoles d'évaluation testent 7 baselines ; les méthodes GP surpassent le deep learning standard.

Benchmarks Papers Raisonnement

SIG

HYP

arXiv cs.LG·18 juin

A Cross-Model VLM-Judge Protocol for Single-Image 3D Mesh Quality (and Why Cheap Proxies Fall Short)

Protocole d'évaluation pour maillages 3D générés à partir d'images uniques utilisant des juges VLM (vision-language models). Les auteurs montrent que les proxies bon marché (similarité CLIP, statistiques de validité géométrique) ne corrèlent pas avec la qualité perçue. Leur protocole VLM avec correction de biais de position atteint Cohen's kappa = 0.66 entre deux familles de juges indépendantes.

Vision Évaluations Benchmarks

SIG

HYP

arXiv cs.LG·18 juin

Measurement noise limits the advantage of nonlinear models over linear models in biomedical prediction

Une étude arXiv montre que sur données biomédicales tabulaires, le bruit de mesure limite l'avantage des modèles non-linéaires (réseaux profonds, gradient boosting) sur la régression linéaire. Les interactions de degré k sont atténuées par la k-ième puissance de la fiabilité des features, tandis que la partie linéaire ne l'est qu'une fois. Analyse de 140 tâches UK Biobank confirmant cette signature du bruit.

Benchmarks Évaluations

SIG

HYP

arXiv cs.AI·18 juin

CEO-Bench: Can Agents Play the Long Game?

CEO-Bench évalue la capacité des agents IA à gérer des tâches complexes sur long terme en simulant l'exploitation d'une startup pendant 500 jours. L'agent doit gérer tarification, marketing, budgétisation via une interface Python. Seuls Claude Opus 4.8 et GPT-5.5 dépassent le bilan initial d'1M$, sans profit constant.

Agents IA Benchmarks Raisonnement

SIG

HYP

arXiv cs.CL·18 juin

JetFlow: Breaking the Scaling Ceiling of Speculative Decoding with Parallel Tree Drafting

JetFlow améliore le speculative decoding en combinant l'efficacité du drafting parallèle avec le conditionnement causal par branche. Sur GPU H100, il atteint 9.64x speedup sur MATH-500 et 4.58x sur conversations ouvertes, dépassant les méthodes tree-based existantes sur modèles Qwen3 denses et MoE.

Benchmarks Génération de code Open source

SIG

HYP

arXiv cs.LG·18 juin

TMR-GGNN: Credit Card Fraud Detection based on Time-Aware Multi-Relational Guided Graph Neural Network

TMR-GGNN, un réseau de neurones graphiques multi-relationnel sensible au temps, détecte la fraude par carte bancaire en modélisant les interactions hétérogènes entre clients, commerçants, appareils et adresses IP. Le modèle combine attention relationnelle temporelle, apprentissage contrastif et une fonction de perte composite (InfoNCE + Focal Loss) pour gérer les données déséquilibrées et réduire les faux négatifs.

Reinforcement learning

SIG

HYP

arXiv cs.AI·18 juin

R2D-RL: A RoboCup 2D Soccer Environment for Multi-Agent Reinforcement Learning

R2D-RL connecte le simulateur RoboCup 2D Soccer (RCSS2D) à des workflows Python d'apprentissage par renforcement multi-agent via mémoire partagée. L'environnement supporte l'entraînement full-field et par scénarios, avec espaces d'action discrets/hybrides, masquage d'actions, reward shaping basé sur EPV, et exécution parallèle. Benchmarks 11-vs-11 et résultats de base fournis.

Multi-agents Reinforcement learning Benchmarks

SIG

HYP

arXiv cs.CL·18 juin

LLM Parameters for Math Across Languages: Shared or Separate?

Étude mécanistique du raisonnement mathématique dans les LLM multilingues. Les paramètres associés aux maths montrent un chevauchement partiel entre langues, concentré dans les couches intermédiaires. L'anglais produit le plus grand ensemble de paramètres pertinents, tandis que les langues peu dotées en ressources en révèlent moins.

Raisonnement Papers Benchmarks

SIG

HYP

arXiv cs.CL·18 juin

Montreal Forced Aligner and the state of speech-to-text alignment in 2026

Montreal Forced Aligner 3.0, outil de référence depuis 2016 pour l'alignement forcé parole-texte, atteint des performances état-de-l'art sur l'anglais, le japonais et le coréen avec erreurs limites <15ms. Nouvelles capacités : adaptation de modèles, remappage cross-langue, couverture étendue (langues/dialectes), dictionnaires IPA harmonisés.

Voix Benchmarks Open source

SIG

HYP

arXiv cs.CL·18 juin

Towards Scalable Customization and Deployment of Multi-Agent Systems for Enterprise Applications

Framework pour la customisation et le déploiement efficace de systèmes multi-agents LLM en entreprise. Combine préentraînement continu, fine-tuning supervisé et optimisation de préférences pour adapter des modèles compacts à des domaines spécialisés. Intègre décodage spéculatif et quantification FP8 pour réduire latence et coûts. Atteint 4.48x d'accélération de débit tout en maintenant la performance.

Multi-agents Fine-tuning Business

SIG

HYP

arXiv cs.CL·18 juin

MCompassRAG: Topic Metadata as a Semantic Compass for Paragraph-Level Retrieval

MCompassRAG améliore les systèmes RAG en utilisant des métadonnées de sujets comme guide sémantique pour la récupération de paragraphes. La méthode enrichit les représentations de chunks avec des signaux au niveau des sujets dans le même espace d'embedding et entraîne un retrieveur léger par distillation LLM. Sur six benchmarks, elle gagne 8,24% en efficacité informationnelle avec 5× moins de latence.

RAG Embeddings Benchmarks

SIG

HYP

arXiv cs.CL·18 juin

Low-resource Language Discrimination Towards Chinese Dialects with Transfer learning and Data Augmentation

Framework CDDTLDA pour discriminer les dialectes chinois en contexte de ressources limitées. Utilise transfer learning sur modèles ASR, augmentation de données (vitesse, pitch, bruit) et mécanisme d'auto-attention pour capturer les features sémantiques communes. Surpasse les méthodes SOTA sur deux corpus de référence.

Voix Benchmarks

SIG

HYP

arXiv cs.CL·18 juin

Steerable Cultural Preference Optimization of Reward Models

Nouvelle méthode SCPO pour entraîner des reward models capables de représenter équitablement les préférences culturelles de différentes communautés. Gains de 7 points pour les modèles minoritaires sur PRISM et GlobalOpinionQA (7 pays), avec 280% d'efficacité accrue en données d'entraînement.

Alignement Reinforcement learning Évaluations

SIG

HYP

arXiv cs.CL·18 juin

PEC-Home: Interpretation of Progressively Elliptical Commands in Smart Homes

PEC-Home est un dataset simulé pour interpréter les commandes elliptiques progressives dans les maisons intelligentes. Les assistants actuels (GPT-4o inclus) échouent à exécuter correctement ces commandes abrégées dues à l'accumulation de contexte partagé, même avec accès à l'historique de dialogue.

Agents IA Benchmarks RAG

SIG

HYP

arXiv cs.CL·18 juin

TW-LegalBench: Measuring Taiwanese Legal Understanding

TW-LegalBench évalue 13 LLMs sur le droit taïwanais avec 16 000+ questions à choix multiples, 117 essais ouverts et 14 000+ cas de prédiction judiciaire. Les meilleurs modèles dépassent le seuil de qualification des avocats (11%) mais échouent pour juges/procureurs (1-2%). Les modèles peinent à citer les articles légaux exacts.

Benchmarks Évaluations Raisonnement

SIG

HYP

arXiv cs.CL·18 juin

Improving Medical Communication using Rubric-Guided Counterfactual Recommendations

Pipeline de recommandations contrefactuelles guidées par LM pour améliorer la communication médicale en télémédecine textuelle. Le système identifie des features interprétables (ton, personnalisation, clarté, complétude) et recommande des changements minimaux de communication prédits pour augmenter le feedback positif (+6.41% en moyenne). Les modifications préservent le contenu médical et le contrôle du médecin.

Raisonnement Évaluations RAG

SIG

HYP

arXiv cs.CL·18 juin

Possible or Definite? A Benchmark for Evaluating Diagnostic Uncertainty Preservation in Clinical Text

Benchmark d'évaluation de 1 200 documents cliniques avec 9 184 annotations d'incertitude diagnostique. Les LLM préservent mal les expressions d'incertitude (moins de 50% des cas) et confondent les niveaux adjacents. Révèle un défaut non détecté par les métriques standard.

Benchmarks Sécurité IA Évaluations

SIG

HYP

arXiv cs.LG·18 juin

ASTRA: A Scalable Next-Generation ATCO Training Simulator with Autonomous Simpilots

ASTRA est un simulateur de formation pour contrôleurs aériens qui automatise les rôles de pilotes via une pipeline de reconnaissance vocale, interprétation et génération de réponses. Le système réduit le taux d'erreur de reconnaissance vocale de 107,80% à 23,45% sur l'accent singapourien, et évalue les communications radio avec scores de 91,7% (précision), 88,2% (brièveté), 86,9% (complétude).

Voix Fine-tuning Évaluations

SIG

HYP

arXiv cs.CL·18 juin

Approximate Structured Diffusion for Sequence Labelling

Nouvelle approche combinant diffusion et CRF pour le sequence labelling en NLP. La méthode conditionne un CRF sur la séquence complète de labels (bruitée), contournant les limitations de portée des CRF classiques. Résultats : réduction d'erreur de 16.5% sur le POS-tagging.

Papers Raisonnement Benchmarks

SIG

HYP

arXiv cs.LG·18 juin

SAE Interventions are Unreliable: Post-Intervention Recovery of Suppressed Behavior

Les autoencodeurs creux (SAE) décomposent les activations en features interprétables, mais une étude montre que bloquer une feature « dangereuse » ne supprime pas le comportement : celui-ci peut se rétablir via d'autres chemins résiduels. Même avec intervention active, 95,8% de récupération du comportement est possible en refusal-steering, révélant un écart entre contrôle des features et contrôle comportemental.

Sécurité IA Alignement Évaluations

SIG

HYP

arXiv cs.LG·18 juin

Breaking the Solver Bottleneck: Training Task Generators at the Learnable Frontier

PROPEL est un framework qui entraîne des générateurs de tâches via RL pour créer des problèmes optimaux pour l'apprentissage d'agents. Une sonde légère prédit le taux de résolution sans rollouts répétés du solveur, réduisant l'évaluation à un forward pass. Sur code et SWE, les tâches au « learnable frontier » passent de 10,1% à 20% (Qwen2.5-3B) et de 9,8% à 19,6% (Qwen3.5-27B).

Reinforcement learning Agents IA Génération de code

SIG

HYP

arXiv cs.LG·18 juin

Gaussian Mixture Attention: Linear-Time Sequence Mixing via Probabilistic Latent Routing

Gaussian Mixture Attention (GMA) remplace l'attention standard par un routage probabiliste via K composantes gaussiennes apprises. Queries et keys sont mappées à des vecteurs de responsabilité dans un espace latent partagé. GMA évite la matrice N×N explicite et réduit la complexité mémoire à O(NK) au lieu de O(N²). Compétitif sur classification long-contexte, mais derrière SDPA et Mamba sur WikiText-103.

Raisonnement Benchmarks Papers

SIG

HYP

arXiv cs.CL·18 juin

SAGE: Stochastic Prompt Optimization via Agent-Guided Exploration

SAGE est un framework d'optimisation stochastique de prompts via exploration guidée par agents multi-agents. Comparaison de trois stratégies : recherche aléatoire informée par erreurs, algorithme génétique, et SAGE avec exécution de code diagnostique. Déploiement sur chatbot santé mentale : 8 cycles d'A/B tests bruyants produisent un gain statistiquement robuste en rétention.

Prompt engineering Agents IA Multi-agents

SIG

HYP

arXiv cs.LG·18 juin

A Survey on Data-Driven Models for Soil Moisture Regression and Classification

Enquête sur les modèles IA pour l'estimation de l'humidité du sol. Comparaison de cinq catégories : séries temporelles statistiques, géostatistique, ML classique, deep learning et méthodes bayésiennes. Les approches data-driven offrent une alternative flexible aux modèles physiques coûteux en calcul.

Benchmarks Papers

SIG

HYP

arXiv cs.LG·18 juin

Beyond Prediction: Tail-Aware Scheduling for LLM Inference

Nouvel ordonnanceur pour l'inférence LLM qui remplace la prédiction de longueur par des signaux statistiques légers et l'ajustement dynamique de priorités. Réduit P99 TTLT de 35-50% vs SRPT avec connaissance parfaite de longueur, et TTFT de 34-47% sur traces production et open-source.

Benchmarks Infrastructure Raisonnement

SIG

HYP

arXiv cs.LG·18 juin

Ghost Attractor Networks: Basin-Structured Dynamical Decoders for Closed-Loop Sequential Generation

Ghost Attractor Networks propose un décodeur dynamique efficace pour la génération séquentielle en robotique. Avec 2,3M paramètres, il égale la précision d'un Diffusion Transformer de 1,07B paramètres (462× moins de paramètres, 32× plus rapide). Sur LIBERO-10, le conditionnement de phase améliore le taux de succès de 13,5 points vs MLP.

Génération de code Robotique Raisonnement

SIG

HYP

arXiv cs.LG·18 juin

Structured Representation Learning with Locally Linear Embeddings and Adaptive Feature Fusion

Framework RL inspiré par les neurosciences qui sépare les features dynamiques et récompense via locally linear embeddings (LLE) et fusionne adaptivement les représentations par mécanisme d'attention. Améliore l'efficacité d'apprentissage sur benchmarks comparé aux approches RL conventionnelles.

Reinforcement learning Raisonnement Benchmarks

SIG

HYP

arXiv cs.LG·18 juin

Self-CTRL: Self-Consistency Training with Reinforcement Learning

Self-CTRL optimise la cohérence entre les auto-explications et le comportement des modèles de langage via apprentissage par renforcement. Sur un task de raisonnement probabiliste, la méthode améliore la corrélation R² de 0.24 à 0.64. En IA constitutionnelle, elle augmente la prédiction des refus de 36% à 92% et réduit le taux d'échec HarmBench de 15.0% à 0.5%.

Reinforcement learning Alignement Sécurité IA

SIG

HYP

arXiv cs.LG·18 juin

Fisher Width: A Geometric Measure of Complexity on Statistical Manifolds

Nouvelle mesure de complexité géométrique appelée Fisher width, analogue de la Gaussian width sur les variétés statistiques. Utilise la métrique d'information de Fisher au lieu de la géométrie euclidienne pour capturer la courbure statistique locale. Développe la théorie fondamentale avec bornes de généralisation et estimateurs calculables, validés sur MNIST.

Papers Benchmarks Évaluations

SIG

HYP

arXiv cs.LG·18 juin

Attribution-Guided and Coverage-Maximized Pruning for Structural MoE Compression

Méthode de compression structurelle pour modèles MoE (Mixture-of-Experts) via élagage au niveau des canaux. Utilise une approche d'attribution pour maximiser la couverture des scores de canaux. Tests sur DeepSeek et Qwen montrent 50% d'élagage structurel avec quantification 4-bit, réduction mémoire 5.27× sur Qwen3-30B-A3B.

DeepSeek Qwen Benchmarks

SIG

HYP

arXiv cs.LG·18 juin

P$^2$CE: Model-Agnostic Plausible Pareto-Optimal Counterfactual Explanations

P²CE génère des explications contrefactuelles Pareto-optimales plausibles pour les modèles ML. L'algorithme utilise une forêt d'isolation et les valeurs SHAP pour équilibrer faisabilité, plausibilité et efficacité computationnelle. Évalué sur 3 datasets, il surpasse les méthodes existantes en qualité et vitesse.

Évaluations

SIG

HYP

arXiv cs.LG·18 juin

SAGE: Retain-Aware Post-Hoc Sanitization of Final Unlearning Vector

SAGE est une méthode post-hoc pour améliorer l'oubli sélectif dans les LLM. Elle corrige les vecteurs de mise à jour finaux en supprimant les composantes nuisant à la rétention, sans relancer le pipeline d'oubli original. Testée sur plusieurs méthodes et échelles, SAGE réduit le compromis oubli-rétention.

Alignement Papers

SIG

HYP

arXiv cs.AI·18 juin

SciRisk-Bench: A Risk-Dimension-Aware Benchmark for AI4Science Safety

SciRisk-Bench est un benchmark d'évaluation de la sécurité des LLM dans les workflows AI4Science. Il couvre 7 disciplines, 31 sous-disciplines et 10 dimensions de risque. Les auteurs évaluent des LLM mainstream et orientés science pour diagnostiquer les lacunes de sécurité.

Benchmarks Sécurité IA Évaluations

SIG

HYP

arXiv cs.AI·18 juin

ProfiLLM: Utility-Aligned Agentic User Profiling for Industrial Ride-Hailing Dispatch

ProfiLLM est un pipeline LLM agentic déployé chez DiDi pour extraire des profils utilisateurs sémantiques à partir de logs comportementaux massifs. Le système utilise 27 outils analytiques pour miner les données et génère des profils alignés sur l'utilité prédictive, atteignant +6.14% d'amélioration AUC et +0.47% de GMV en test A/B.

Agents IA Llama RAG

SIG

HYP

arXiv cs.AI·18 juin

What Must Generalist Agents Remember?

Article théorique sur la mémoire des agents généralistes. Démontre qu'un agent performant sur plusieurs domaines doit maintenir des distributions mémoire distinctes aux goulots d'étranglement observationnels. La mémoire permet la désambiguïsation de domaine, la reconstruction de dynamiques de transition et la planification.

Agents IA Raisonnement Papers

SIG

HYP

arXiv cs.AI·18 juin

Generative-Model Predictive Planning for Navigation in Partially Observable Environments

BeliefDiffusion combine diffusion models et Model Predictive Control pour la navigation en environnements partiellement observables. Le framework génère des distributions de croyance multimodales et planifie des stratégies de navigation efficaces. Expériences sur cartes synthétiques : surpasse RL et autres approches génératives en taux de succès et efficacité de trajectoire.

Raisonnement Reinforcement learning Papers

SIG

HYP

arXiv cs.AI·18 juin

ForecastBench-Sim: A Simulated-World Forecasting Benchmark

ForecastBench-Sim est un benchmark de prévision basé sur des simulations du jeu Freeciv. Les modèles reçoivent un état de jeu structuré et prédisent des états futurs cachés ; le benchmark continue la simulation pour évaluer les prévisions. Permet des questions à horizons arbitraires, des mondes contrefactuels et des événements rares.

Benchmarks Raisonnement Évaluations

SIG

HYP

arXiv cs.LG·18 juin

SFT Overtraining Predicts Rank Inversion via Entropy Collapse Under RLVR

L'étude montre que l'overtraining en SFT peut inverser le classement des modèles lors du fine-tuning RLVR. Sur Qwen2.5-Coder-3B, l'augmentation de la profondeur SFT élève pass@1 pré-RL mais réduit pass@10 GRPO de 0.806 à 0.481. L'entropie pré-RL corrèle positivement avec les résultats RLVR (ρ=+0.69). Un diagnostic deux étapes basé sur l'entropie peut identifier les checkpoints à risque.

Reinforcement learning Fine-tuning Raisonnement

SIG

HYP

arXiv cs.AI·18 juin

ThinkDeception: A Progressive Reinforcement Learning Framework for Interpretable Multimodal Deception Detection

ThinkDeception propose un cadre d'apprentissage par renforcement progressif pour la détection de tromperie multimodale interprétable. Utilisant des MLLMs, il transforme la classification binaire en processus de raisonnement explicite via Chain of Thought. VAC-GRPO avec curriculum learning stratifié en 4 niveaux de difficulté atteint SOTA sur les benchmarks.

Raisonnement Reinforcement learning Vision

SIG

HYP

arXiv cs.CL·18 juin

Learning Robust Pair Confidence for Multimodal Emotion-Cause Pair Extraction

RPCL, un framework d'entraînement pour l'extraction de paires émotion-cause multimodales, améliore la robustesse des scores de confiance. Via des contraintes de marge et une corruption contextuelle, il augmente le F1 de 2.58–2.83 points sur ECF/MECAD/MEC4 sans modifier l'inférence.

Papers Benchmarks Vision

SIG

HYP

arXiv cs.CL·18 juin

ScholarSum: Student-Teacher Abstractive Summarization via Knowledge Graph Reasoning and Reflective Refinement

ScholarSum propose un cadre hiérarchique basé sur graphes de connaissances pour la résumé abstractif scientifique. Le système organise les documents en unités sémantiques cohérentes, génère un brouillon initial, puis l'affine via un processus itératif de vérification et de réécriture pour assurer cohérence logique et fidélité factuelle.

Papers RAG Raisonnement

SIG

HYP

arXiv cs.CL·18 juin

As Easy as Rocket Science: Assessing the Ability of Large Language Models to Interpret Negation in Figurative Language

Étude arXiv testant la capacité des LLM à interpréter la négation dans le langage figuré. Les chercheurs enrichissent un dataset existant et évaluent plusieurs modèles. Résultat : la combinaison négation + figuré pose un défi particulier, avec forte dépendance au style de prompt.

Évaluations Prompt engineering Raisonnement

SIG

HYP

arXiv cs.AI·18 juin

TxBench-PP: Analyzing AI Agent Performance on Small-Molecule Preclinical Pharmacology

TxBench-PP est un benchmark vérifié pour évaluer les agents IA sur la pharmacologie préclinique de petites molécules. 100 évaluations couvrent mécanisme d'action, pharmacodynamique, engagement composé-cible et sécurité. Sur 16 configurations (11 modèles, 4800 trajectoires), Claude Opus 4.8 atteint 59.3% de réussite, GPT-5.5 55.3%. Aucun système ne maîtrise fiablement ces décisions.

Agents IA Benchmarks Claude

SIG

HYP

arXiv cs.CL·18 juin

CoreMem: Riemannian Retrieval and Fisher-Guided Distillation for Long-Term Memory in Dialogue Agents

CoreMem propose une architecture mémoire pour agents dialogues personnalisés sur appareils edge (8 GB VRAM). Utilise la métrique Fisher-Rao pour la récupération (remplaçant la similarité cosinus) et la distillation de tokens guidée par Fisher pour la compression. Gains de +4.51 pp en raisonnement open-domain et +4.17 pp en raisonnement temporel sur LOCOMO et LongMemEval-S.

Agents IA RAG Embeddings

SIG

HYP

arXiv cs.CL·18 juin

Continuous Audio Thinking for Large Audio Language Models

Continuous Audio Thinking (CoAT) ajoute un espace latent continu aux modèles audio-langage pour préserver les informations acoustiques (phonétique, prosodie, affect, pitch) avant génération de texte. Testé sur Qwen2-Audio, Qwen2.5-Omni-7B et Audio Flamingo, CoAT améliore les performances en raisonnement audio, classification musicale et transcription sans coût de décodage supplémentaire.

Raisonnement Voix Qwen

SIG

HYP

arXiv cs.CL·18 juin

Want Better Synthetic Data? Steer It: Activation Steering for Low-Resource Language Generation

Activation steering améliore la génération de données synthétiques pour les langues peu dotées. Deux stratégies testées : Language Steering (identité linguistique) et Quality Steering (bien-formedness). Évaluation sur 4 LLMs open-source, 11 langues, tâches de classification. Steering sur couches précoces augmente la diversité et la performance aval.

Prompt engineering Fine-tuning Benchmarks

SIG

HYP

arXiv cs.CL·18 juin

Are LLMs Ready to Assist Physicians? PhysAssistBench for Interactive Doctor-Patient-EHR Assistance

PhysAssistBench est un benchmark d'assistance médecale interactive basé sur 1 296 tours validés par des médecins, construits à partir de cas réels MIMIC-IV. Il évalue la capacité des LLMs à coordonner connaissances cliniques, communication patient et interaction EHR dans un même dialogue. Les expériences montrent que les modèles actuels restent peu fiables dans ce contexte.

Benchmarks Agents IA Multi-agents

SIG

HYP

arXiv cs.AI·18 juin

ARIADNE: Agnostic Routing for Inference-time Adapter DyNamic sElection

ARIADNE est un framework sans entraînement pour sélectionner dynamiquement des adaptateurs au moment de l'inférence. Il représente chaque adaptateur par des centroïdes calculés à partir des embeddings de son ensemble d'entraînement. Testé sur Llama 3.2 1B avec 23 tâches NLP, il récupère 97,44% des performances optimales et atteint 89,7% de précision sur 44 tâches.

Fine-tuning Llama Benchmarks

SIG

HYP

arXiv cs.AI·18 juin

Human-AI Coevolution Dynamics: A Formal Theory of Social Intelligence Emergence Through Long-Term Interaction

Nouvelle théorie formelle (HACD-H) modélisant l'émergence de l'intelligence sociale dans l'interaction humain-IA long-terme. Framework unifié intégrant adaptation émotionnelle, mémoire sociale et cohérence de personnalité. Étude sur 14,700 tours de conversation révèle corrélation négative entre intelligence sociale et énergie cognitive (r=-0.391, p<0.001), avec patterns de transition développementale.

Raisonnement Agents IA Papers

SIG

HYP

arXiv cs.CL·18 juin

VISUALSKILL: Multimodal Skills for Computer-Use Agents

VISUALSKILL propose des compétences multimodales hiérarchiques pour les agents d'interaction informatique. Combinant documentation et exploration UI en direct, le système améliore les performances de Claude Opus 4.6 de +15.3 points sur CUA-World et OSExpert-Eval (0.456 vs 0.303 baseline). Les figures visuelles surpassent les descriptions textuelles (+8.3 points).

Claude Agents IA MCP

SIG

HYP

arXiv cs.LG·18 juin

CODEBLOCK: Learning to Supervise Code at the Right Granularity

CodeBlock est un framework de supervision sparse pour l'entraînement de LLMs de code. Il sélectionne des blocs de code syntaxiquement cohérents plutôt que des tokens isolés, en estimant leur utilité via cross-entropy généralisée et signaux de flux de données. Sur 6 benchmarks, CodeBlock surpasse la SFT full-token en utilisant seulement 1,9% des tokens supervisés.

Génération de code Fine-tuning Papers

SIG

HYP

arXiv cs.LG·18 juin

DRIFT: Refining Instruction Data via On-Policy Data Attribution

DRIFT affine la distribution des données d'entraînement SFT via des fonctions d'influence on-policy. La méthode utilise les rollouts du modèle comme cibles de validation pour minimiser l'écart de proximité et corriger le biais de norme de gradient. Tests sur modèles 7B montrent une amélioration du plafond de performance vs baselines.

Fine-tuning Reinforcement learning Évaluations

SIG

HYP

arXiv cs.AI·18 juin

User as Engram: Internalizing Per-User Memory as Local Parametric Edits

Nouvelle approche de personnalisation LLM : stocker les faits utilisateur comme édits locaux dans une table mémoire hashée (Engram) plutôt que via LoRA global. Réduit l'empreinte mémoire de 33 000x, améliore la précision du raisonnement indirect de 5,6x en moyenne, et permet de stacker plusieurs utilisateurs sans contamination croisée.

Fine-tuning Raisonnement Papers

SIG

HYP