mai 2026

3149 articles

Better Later Than Sooner: Neuro-Symbolic Knowledge Graph Construction via Ontology-grounded Post-extraction Correction

Framework neuro-symbolique pour construire des graphes de connaissances (KG) corrigés post-extraction selon des contraintes ontologiques. Combine extraction ouverte, canonicalization par embedding, et correction LLM ciblée des violations. Réduit les appels LLM et améliore la cohérence du KG pour le QA multi-hop et les opérations symboliques (agrégation, énumération).

RAG Raisonnement Embeddings

SIG

HYP

arXiv cs.AI·29 mai

Governing Technical Debt in Agentic AI Systems

Article définissant la « dette technique agentique » : accumulation de responsabilités quand prompts, mémoire, schémas d'outils et orchestration sont assemblés plus vite qu'ils ne peuvent être validés. Introduit aussi la « taxe stochastique » : coût opérationnel récurrent pour maintenir le comportement probabiliste des agents dans des limites acceptables. Propose des tableaux de bord légers pour la gouvernance.

Agents IA Multi-agents Sécurité IA

SIG

HYP

arXiv cs.AI·29 mai

Adopt $\neq$ Adapt: Longitudinal Analyses of LLM Conversations in the Wild

Analyse longitudinale de ~12 000 utilisateurs de Microsoft Bing Copilot montrant que les comportements individuels restent stables dans le temps, contrairement aux tendances au niveau population. Les utilisateurs actifs réussissent mieux et utilisent l'IA pour des tâches complexes. WildChat-4.8M sur-représente les utilisateurs expérimentés.

Évaluations Benchmarks

SIG

HYP

arXiv cs.CL·29 mai

Assessing Dutch Syllabification Algorithms and Improving Accuracy by Combining Phonetic and Orthographic Information through Deep Learning

Étude comparative de quatre algorithmes de syllabification du néerlandais (Brandt Corstius, Liang, Trogkanis-Elkan CRF, et un modèle deep learning). Le modèle deep learning combinant informations phonétiques et orthographiques atteint 99,65% de précision (+0,14% vs littérature). Les algorithmes data-driven surpassent l'approche basée sur des règles.

Papers Benchmarks Génération de code

SIG

HYP

arXiv cs.LG·29 mai

OISD: On-Policy Internal Self-Distillation of Language Models

OISD introduit l'auto-distillation interne on-policy pour améliorer le raisonnement des modèles de langage. La dernière couche agit comme enseignant détaché pour les couches intermédiaires via alignement logit (comportements de raisonnement) et alignement attention (patterns d'attention), sans information externe. Résultats positifs sur quatre tâches de raisonnement mathématique.

Reinforcement learning Raisonnement Papers

SIG

HYP

arXiv cs.LG·29 mai

Causal Intelligence for Constraint-Aware Intervention Design to Induce State Transitions

COAST est une approche de causalité pour concevoir des interventions contraintes induisant des transitions d'état. Le système apprend des graphes causaux contextuels, attribue les changements distributionnels à des mécanismes causaux, et optimise via une formulation multi-objectifs équilibrant efficacité, complexité et stabilité. Validé sur benchmarks synthétiques et données biologiques réelles.

Raisonnement Benchmarks

SIG

HYP

arXiv cs.AI·29 mai

Behavior-Aware Auxiliary Corrections for Off-Policy Temporal-Difference Prediction

Article théorique sur la stabilisation de l'apprentissage par différence temporelle hors-politique avec approximation de fonction. Propose BA-TDC et BA-TDRC, remplaçant la matrice auxiliaire de TDC par la matrice de Bellman comportementale. Analyse linéaire avec convergence prouvée sous condition de stabilité Hurwitz; expériences sur chaînes de Markov et contres-exemples classiques.

Reinforcement learning Papers Benchmarks

SIG

HYP

arXiv cs.AI·29 mai

Frontier LLM-based agents can overcome the ontology curation bottleneck for natural phenotypes

Des agents LLM (Claude et GPT) annotent automatiquement des phénotypes biologiques en les liant à des termes d'ontologie. Testés sur le benchmark Gold Standard de Dahrul et al. (2018), tous les agents se situent dans la variabilité inter-curateurs humains, surpassant largement l'outil NLP Semantic CharaParser sur les quatre métriques évaluées.

Agents IA Claude GPT

SIG

HYP

arXiv cs.AI·29 mai

Rethinking Literature Search Evaluation: Deep Research Helps, and Human Citation Lists Are Not a Ground Truth

Étude de la recherche bibliographique à grande échelle : un pipeline Deep Research augmente le recall de 20% à 80% sur RollingEval-Jun25 (250 articles). Analyse critique des listes de références humaines comme ground truth : seulement 51% jugées modérément pertinentes vs 86-88% pour les meilleurs ré-rankers IA. Les humains citent 2,5x plus leurs collaborateurs directs.

RAG Évaluations Benchmarks

SIG

HYP

arXiv cs.LG·29 mai

Ensemble Score Filtering for Real-Data Energy Consumption Forecast Correction

Méthode de correction de prévisions de consommation énergétique combinant un modèle spatio-temporel préentraîné avec l'Ensemble Score Filter (EnSF). EnSF utilise des modèles de diffusion basés sur les scores pour assimiler des observations partielles et bruitées. Tests sur données réelles montrent que EnSF surpasse l'Ensemble Kalman Filter en régime non-linéaire.

Benchmarks Papers Raisonnement

SIG

HYP

arXiv cs.AI·29 mai

Orthogonal Concept Erasure for Diffusion Models

Orthogonal Concept Erasure (OCE) propose une méthode d'édition pour supprimer des concepts indésirables dans les modèles de diffusion via transformations orthogonales multiplicatives. Contrairement aux approches additives existantes, OCE préserve la magnitude neuronale et la géométrie angulaire tout en effaçant précisément les concepts. L'approche efface jusqu'à 100 concepts en 4,3 secondes.

Papers Sécurité IA Alignement

SIG

HYP

arXiv cs.CL·29 mai

Benchmarking Open-Source Safety Guard Models: A Comprehensive Evaluation

Évaluation de 14 modèles de sécurité open-source sur 79 331 échantillons couvrant 8 catégories de risque NIST. Qwen Guard (4B) atteint le meilleur recall (83,97%), surpassant Llama Guard (12B) et GPT-OSS Safeguard (20B). La taille du modèle ne corrèle pas avec la performance de détection.

Benchmarks Sécurité IA Open source

SIG

HYP

arXiv cs.CL·29 mai

OmniRetrieval: Unified Retrieval across Heterogeneous Knowledge Sources

OmniRetrieval est un framework qui unifie la récupération d'information sur des sources hétérogènes (texte non structuré, tables relationnelles, graphes de connaissances). Il traduit les requêtes en langage naturel en requêtes natives pour chaque source, testé sur 13 datasets et 309 bases de connaissances.

RAG Recherche vectorielle Papers

SIG

HYP

arXiv cs.CL·29 mai

UA-Legal-Bench: A Benchmark for Evaluating Large Language Models on Ukrainian Legal Reasoning

UA-Legal-Bench évalue 11 LLMs (3B–675B) sur 5 tâches de raisonnement juridique ukrainien issues de 99,5 millions de décisions judiciaires. Les résultats montrent des effets few-shot variables : +38,6 pp pour la classification de formulaires, mais effets mixtes sur la prédiction d'issue. L'accuracy masque les biais : le meilleur modèle en accuracy (62%) est un prédicteur de classe majoritaire (macro-F1 : 23%).

Benchmarks Évaluations Papers

SIG

HYP

arXiv cs.LG·29 mai

Molecular Lead Optimization via Agentic Tool Planning

TRACE, un agent LLM pour l'optimisation de composés pharmaceutiques, formule la sélection d'outils comme un problème de décision séquentielle. L'approche améliore les propriétés ADMET tout en préservant les sous-structures moléculaires critiques, surpassant les baselines sur plusieurs tâches d'optimisation.

Agents IA Raisonnement Papers

SIG

HYP

arXiv cs.AI·29 mai

The Importance of Out-of-Band Metadata for Safe Autonomous Agents: The Redpanda Agentic Data Plane

Redpanda propose une architecture de plan de données pour agents IA autonomes utilisant des canaux de métadonnées hors-bande. Ces canaux appliquent les politiques de sécurité, les classifications de données et les contraintes comportementales en dehors du chemin de lecture/écriture de l'agent, empêchant les hallucinations et manipulations. Démonstration avec un système multi-agent de rééquilibrage de portefeuille.

Agents IA Multi-agents Sécurité IA

SIG

HYP

arXiv cs.LG·29 mai

TaxDistill: Improving Metagenomic Taxonomic Annotation via Distilled Genomic Foundation Models

TaxDistill utilise la distillation de connaissances pour améliorer l'annotation taxonomique en métagénomique. GenomeOcean, un modèle fondation génomique de 500M paramètres, génère des soft labels pour entraîner un réseau étudiant léger, réduisant le bruit des outils de recherche initiaux. Sur 7 datasets CAMI2, TaxDistill améliore le F1 score de MMseqs2 de 0,763 à 0,941 sur le dataset Gastrointestinal.

Papers Fine-tuning Benchmarks

SIG

HYP

arXiv cs.LG·29 mai

Moment Matching Q-Learning

MoMa QL utilise la divergence maximum mean discrepancy (MMD) pour accélérer l'inférence des modèles génératifs score-based et flow-based en RL. La méthode garantit la convergence au niveau distribution et améliore les performances en offline-to-online RL sur les benchmarks D4RL.

Reinforcement learning Raisonnement Benchmarks

SIG

HYP

arXiv cs.CL·29 mai

What are They Thinking? Delineation, Probing and Tracking of Concepts in LLMs

Méthode pour créer des sondes linéaires détectant des concepts dans les embeddings des LLM. Les auteurs définissent un processus : délineation du concept via datasets contrastés, entraînement de sondes par couche, suivi sur contextes larges. Testé sur 4 concepts et 3 LLM différents. Objectif : monitoring scalable de nouveaux modèles.

Embeddings Évaluations

SIG

HYP

arXiv cs.CL·29 mai

How Consistent Are LLM Agents? Measuring Behavioral Reproducibility in Multi-Step Tool-Calling Pipelines

Étude empirique de la reproductibilité comportementale des agents LLM avec tool-calling. Les chercheurs mesurent si un agent sélectionne les mêmes outils, dans le même ordre, avec les mêmes paramètres, lors d'invocations répétées identiques. Focus sur les interfaces structurées avec paramètres typés et effets secondaires.

Agents IA Benchmarks Sécurité IA

SIG

HYP

arXiv cs.CL·29 mai

Aryabhata 2: Scaling Reinforcement Learning for Advanced STEM Reasoning

Aryabhata 2 est un modèle de langage spécialisé en raisonnement STEM entraîné par renforcement sur GPT-OSS-20B. Développé par PhysicsWallah, il surpasse son modèle de base sur les examens JEE/NEET tout en réduisant les tokens de sortie de 64%. Évalué sur AIME, HMMT, MMLU-Pro et GPQA.

Reinforcement learning Raisonnement Benchmarks

SIG

HYP

arXiv cs.AI·29 mai

PRO-CUA: Process-Reward Optimization for Computer Use Agents

PRO-CUA propose une méthode d'optimisation par récompense de processus pour entraîner des agents d'utilisation informatique (CUA). Le framework découple l'interaction en environnement réel de l'optimisation de politique via apprentissage par renforcement itératif au niveau des étapes, utilisant un modèle de récompense de processus (PRM) pour fournir des signaux denses sans dépendre de trajectoires expertes.

Agents IA Reinforcement learning Raisonnement

SIG

HYP

arXiv cs.CL·29 mai

GenesisFunc: Multi-Agent Data Generation for Accurate and Generalizable Function-Calling

GenesisFunc est un pipeline automatisé multi-agent pour générer des données d'entraînement de function-calling. À partir d'outils fiables de benchmarks publics, le système produit des conversations diversifiées avec contrôle qualité multi-étapes. Un modèle 8B fine-tuné sur ces données synthétiques surpasse les modèles open-source similaires en performance in-domain et généralisation out-of-domain.

Multi-agents Génération de code Fine-tuning

SIG

HYP

arXiv cs.LG·29 mai

Knowledge Offloading: Decomposing LLMs into Sparse Backbones and Memory Modules

KOFF décompose les LLM en backbone partagé épars et modules mémoire externes spécialisés. Sur Llama et Qwen (3B-8B), le framework préserve les performances à 12% de sparsité globale en utilisant des adaptateurs LoRA et des caches KV appris, tandis que l'élagage sans mémoires dégrade fortement le modèle.

Llama Qwen Fine-tuning

SIG

HYP

arXiv cs.LG·29 mai

A Training-Time Diagnostic for Generalization via the Log-Alignment Ratio

Étude du log-alignment ratio (LAR), métrique de l'alignement paramètre-activation. LAR prédit la transition mémorisation/généralisation en grokking (dimension effective k ≈ n^(2(1-LAR))) et dans le pré-entraînement de modèles 3B. Calculable sans données de validation, overhead négligeable.

Papers Raisonnement Évaluations

SIG

HYP

arXiv cs.LG·29 mai

Bridging Chemists and AI: An Expert-Augmented Framework for Interpretable Route Evaluation

Framework hybride ML-expertise pour évaluer les routes de synthèse organique. Modèle DeepSets entraîné sur distance d'édition d'arbres, affiné avec annotations chimistes. Produit scores quantitatifs et catégories explicables (Good/Plausible/Bad). Corrélation Spearman 0.78, précision top-1 60.2% vs 17.5% baseline.

Papers Benchmarks Fine-tuning

SIG

HYP

arXiv cs.CL·29 mai

Same Question, Different Source, Different Answer: Auditing Source-Dependence in Medical Multi-Source RAG

Étude sur la dépendance aux sources dans les systèmes RAG multi-sources médicaux. Les auteurs montrent qu'un même système peut donner des réponses différentes selon la source récupérée, créant un angle d'évaluation manquant en NLP. Ils proposent TransplantQA (benchmark), HERO-QA (stratégie de récupération hiérarchique) et un juge structuré pour auditer les relations inter-sources sur une taxonomie validée.

RAG Évaluations Papers

SIG

HYP

arXiv cs.AI·29 mai

The Cognitive Categorical Transformer: Category-Theoretic Inductive Biases for Language Modeling

Le Cognitive Categorical Transformer (CCT), modèle de 306M paramètres basé sur GPT-2 Small, intègre des composants inspirés de la théorie des catégories et des sciences cognitives. Sur WikiText-103, CCT atteint 21.27 PPL contre 24.19 pour GPT-2 Small, soit une réduction de 12% (2.92 PPL). Les ablations montrent que le simplicial message passing représente 84% de cette amélioration.

GPT Papers Benchmarks

SIG

HYP

arXiv cs.LG·29 mai

LoRe: Adaptive Interaction-Evaluation Routing with Per-Step Interaction Budgets for Iterative Graph Solvers

LoRe est un wrapper d'inférence sans entraînement qui optimise les solveurs neuraux basés sur diffusion pour l'optimisation combinatoire. Il applique un budget d'évaluation d'interactions par étape, routant dynamiquement le calcul vers les interactions à haut conflit/incertitude. Sur MIS et TSP, LoRe atteint ×8 speedup, ×12 réduction mémoire (MIS) et ×15 speedup, ×44 réduction mémoire (TSP n=1000).

Raisonnement Benchmarks Papers

SIG

HYP

arXiv cs.LG·29 mai

Designing Active Tether-Net Systems for Space Debris Capture with Graph-Learning-Aided Mixed-Combinatorial Optimization

Système de filet actif pour capture de débris spatiaux utilisant un réseau de neurones graphiques (GNN) pour optimiser simultanément la morphologie du filet, les masses et propulseurs des unités manœuvrables, et les points de visée du contrôleur. Le GNN réduit le problème d'optimisation mixte combinatoire non-linéaire (MCNLP) en problème non-linéaire (NLP) résolu par PSO avec affinage basé gradient.

Papers Raisonnement

SIG

HYP

arXiv cs.AI·29 mai

The Confidence Shortcut: A Reasoning Failure Mode of Masked Diffusion Models

Les modèles de diffusion masqués (MDMs) avec décodage basé sur la confiance échouent sur les tâches de raisonnement complexe. L'entraînement aligné sur la confiance amplifie les erreurs d'un ordre de magnitude sur l'addition multi-chiffres. Le masquage aléatoire préserve mieux les trajectoires logiques nécessaires au raisonnement.

Raisonnement Papers Benchmarks

SIG

HYP

arXiv cs.CL·29 mai

A Modular Architecture for Typologically Controlled Lexicon Generation

Framework modulaire pour générer des lexiques artificiels prononçables et typologiquement plausibles. Utilise PHOIBLE pour les inventaires phonémiques, trois grammaires phonologiques (déterministe, OT, MaxEnt), et une ontologie Swadesh-Leipzig-Jakarta. Évaluation sur perplexité n-grammes et divergence KL : les grammaires probabilistes surpassent les baselines sur 100-5000 formes.

Papers Benchmarks

SIG

HYP

arXiv cs.AI·29 mai

The Chain Holds, the Answer Folds: Trace-Answer Dissociation in Reasoning Models Under Adversarial Pressure

Les modèles de raisonnement conservent des chaînes de pensée correctes mais changent leur réponse finale sous pression adversariale répétée en dialogue multi-tour. Ce phénomène, appelé « capitulation infidèle », affecte 50% des cas en mode reasoning et 11-15% sans reasoning. L'effet varie selon l'architecture (fort chez Qwen3-32B et GPT-OSS-20B, faible chez Gemma-4-31B-it).

Raisonnement Évaluations Sécurité IA

SIG

HYP

arXiv cs.AI·29 mai

When and How Human Curation Backfires: Preference Alignment under Multi-Model Self-Consuming Loop

Étude théorique sur l'entraînement de modèles fondamentaux sur données synthétiques générées par d'autres modèles. Les auteurs montrent que la curation humaine d'un modèle peut dégrader l'alignement d'autres modèles via des interactions croisées, contrairement aux cas isolés où elle améliore toujours l'alignement.

Alignement Reinforcement learning Papers

SIG

HYP

arXiv cs.LG·29 mai

Continuity and Ordinality Matter: Constraining Time Series Tokens for Effective Time Series Analysis with Large Language Models

COM, une stratégie pour les LLM de séries temporelles, intègre des contraintes géométriques dans l'initialisation et l'entraînement des embeddings de tokens. Elle préserve la continuité et l'ordinalité inhérentes aux séries temporelles, améliorant les performances sur plusieurs benchmarks d'analyse.

Raisonnement Benchmarks Papers

SIG

HYP

arXiv cs.CL·29 mai

Thoughts-as-Planning: Latent World Models for Chain-of-Thoughts Optimization via Reinforcement Planning

Thoughts-as-Planning formalise l'optimisation des chaînes de raisonnement comme un processus de décision séquentielle sur un espace sémantique latent. Le framework apprend un modèle du monde latent simulant l'effet des édits de chaînes de raisonnement sur les sorties, supportant édits multi-échelle (token, segment, instruction) via planification par descente de gradient ou RL.

Raisonnement Reinforcement learning Prompt engineering

SIG

HYP

arXiv cs.CL·29 mai

Error as a Lens: Probing LLM Reasoning through Synthetic Misconception Generation

Framework pour générer des erreurs synthétiques ciblées avec LLM selon une taxonomie cognitive (Bloom révisée). Un Generation Agent produit des solutions erronées, un Examination Agent valide leur cohérence avec le mode d'erreur spécifié. Testé sur TheoremQA, révèle que générer des erreurs authentiques est bien plus difficile que produire des réponses fausses arbitraires.

Agents IA Multi-agents Raisonnement

SIG

HYP

arXiv cs.AI·29 mai

DenseSteer: Steering Small Language Models towards Dense Math Reasoning

DenseSteer est une méthode d'inférence sans entraînement qui améliore le raisonnement mathématique des petits modèles (≤3B paramètres) en modulant leurs représentations internes vers des patterns de raisonnement dense. Sur Qwen-2.5, l'approche montre que un raisonnement plus efficace utilise moins d'étapes mais avec une densité informationnelle plus élevée.

Raisonnement Fine-tuning Benchmarks

SIG

HYP

arXiv cs.CL·29 mai

Structured Prompt Optimization Meets Reinforcement Learning for Global and Local Interpretability over Complex Text

eXTC combine optimisation structurée de prompts et apprentissage par renforcement pour la classification de texte. Le système apprend d'abord un rulebook en langage naturel, puis distille le raisonnement d'un LLM teacher vers un modèle compact, avant d'étendre les capacités via RL. Résultat : inférence rapide avec traces de raisonnement locales et explications globales modulaires.

Prompt engineering Reinforcement learning Raisonnement

SIG

HYP

arXiv cs.LG·29 mai

Towards Continuous-time Causal Foundation Models

Article proposant des modèles causaux continus pour séries temporelles via équations différentielles stochastiques (SDE). Introduit un critère de continuité (invariance de la trajectoire à l'observation) et une taxonomie à trois niveaux. Validation sur données pharmacocinétiques et physiques avec intégration fine-grid surpassant l'approche naïve sur 8/8 configurations (p<1/256).

Papers Raisonnement Benchmarks

SIG

HYP

arXiv cs.AI·29 mai

Hallucination Mitigation with Agentic AI, Nested Learning, and AI Sustainability via Semantic Caching

Article arXiv proposant une architecture multi-agent avec mémoire sémantique et caching pour réduire les hallucinations LLM. Pipeline à trois étages (FrontEndAgent, SecondLevelReviewer, ThirdLevelReviewer) évalué sur 310 prompts. Résultats : réduction THS de -31,3% à -35,9%, taux de cache hit de 47,3%, réduction de 47% des appels LLM. Pas de réentraînement requis.

Agents IA Multi-agents Sécurité IA

SIG

HYP

arXiv cs.LG·29 mai

Learning Robust and Task-Invariant Functional Representation from fMRI through Siamese Self-Supervised Learning

BrainSimSiam, un framework d'apprentissage auto-supervisé léger, apprend des représentations robustes à partir de données fMRI sans labels. Utilisant des paires positives uniquement, il généralise sur plusieurs tâches (classification, régression) et surpasse les baselines supervisés, réduisant les besoins computationnels des modèles fondationnels en neuroimagerie.

Benchmarks

SIG

HYP

arXiv cs.CL·29 mai

A comparative study of transformer-based embeddings for topic coherence

Étude comparative de 7 modèles transformer (MiniLM à LLaMA-2, 22M à 13B paramètres) pour la modélisation de sujets via BERTopic. Résultat : la taille du modèle n'impacte négligemment la qualité des sujets mesurée par cohérence et divergence. Les petits modèles égalent les performances des grands.

Embeddings Benchmarks Papers

SIG

HYP

arXiv cs.LG·29 mai

Conf-Gen: Conformal Uncertainty Quantification for Generative Models

Conf-Gen adapte la prédiction conforme (CP) et le contrôle de risque conforme (CRC) aux modèles génératifs (LLM, générateurs d'images, agents IA). Le framework fournit des garanties formelles d'incertitude pour des tâches non supervisées, étendant la méthodologie conforme à de nouveaux domaines.

Papers Évaluations Sécurité IA

SIG

HYP

arXiv cs.CL·29 mai

Specialty-Specific Medical Language Model for Immune-Mediated Diseases

Modèle NER spécialisé pour identifier les entités cliniques liées aux maladies immuno-médiées et infectieuses. Dataset de 371 cas annotés manuellement par des experts. Transformer avec embeddings cliniques atteint F1=0.89, surpassant BERT et approches zero-shot. Applicable à l'analyse de rapports de cas et au support décisionnel clinique.

RAG Fine-tuning Évaluations

SIG

HYP

arXiv cs.CL·29 mai

S3Mem: Structured Spatiotemporal Scene-Event Memory for Long-Horizon Interactive Question Answering

S3MEM propose un cadre de mémoire épisodique structurée pour les agents interactifs long-horizon. Le système structure les trajectoires en unités mémoire organisées et utilise une récupération sensible aux ancres pour améliorer la réponse aux questions spatiotemporelles. Évalué sur Crafter, Jericho, SciWorld et ALFWorld, S3MEM surpasse RAG vanilla et Graph-NoReader en précision tout en utilisant moins de tokens.

RAG Agents IA Raisonnement

SIG

HYP

arXiv cs.AI·29 mai

Ultra-Reduced-Impact-Encased-Logging (URIEL): propose a new method for selective sustainable logging and post-harvest silvicultural treatment in tropical forest using airborne robotics systems

URIEL propose une méthode de coupe sélective en forêt tropicale combinant hélicoptères, robotique et IA pour minimiser les dégâts collatéraux. Simulation numérique et analyse économique montrent la viabilité du concept, mais sa mise en œuvre dépend de l'intégration des parties prenantes (industrie, gouvernements, entreprises certifiées, populations autochtones).

Robotique Agents IA Papers

SIG

HYP

arXiv cs.CL·29 mai

Micro-Macro Retrieval: Reducing Long-Form Hallucination in Large Language Models

M2R (Micro-Macro Retrieval) est un framework retrieve-while-generate qui réduit les hallucinations dans la génération longue des LLM. Il combine une récupération macro (preuves externes) et micro (informations clés du raisonnement) pour maintenir la proximité entre données factuelles et sorties. Entraîné par reinforcement learning avec récompenses basées sur des règles.

RAG Reinforcement learning

SIG

HYP

arXiv cs.LG·29 mai

Model Merging by Output-Space Projection

Nouvelle méthode de fusion de modèles formulée comme programme quadratique convexe sur les mises à jour résiduelles. Subsume les approches existantes (task arithmetic, model soups, TIES, DARE) et fournit un diagnostic fermé prédisant la qualité de fusion via la fraction d'énergie résiduelle capturée. Gains constants sur benchmarks langage et vision.

Fine-tuning Benchmarks Papers

SIG

HYP

arXiv cs.LG·29 mai

Self-Play Reinforcement Learning under Imperfect Information in Big 2

Étude de l'apprentissage par renforcement en auto-jeu dans Big 2, un jeu de cartes à 4 joueurs avec information imparfaite. PPO surpasse Q-learning, SARSA et Monte Carlo Q-approximation contre des adversaires aléatoires, gloutons et heuristiques. La régularisation d'entropie modérée et l'auto-jeu en politique courante améliorent les performances.

Reinforcement learning Multi-agents Benchmarks

SIG

HYP

arXiv cs.LG·29 mai

Parallel Adaptive Multi-Objective Evolutionary Learning of Discretized Bayesian Network Classifiers for Clinical Data

Baymex, algorithme évolutionnaire multi-objectif, apprend des réseaux bayésiens discrets pour la classification clinique. Parallélisé sur 16 cœurs (speedup 54×), il optimise cross-entropy et complexité BIC. Sur données réelles (RADCURE, SUPPORT), il égale ou surpasse arbres de décision, régression logistique et forêts aléatoires, tout en produisant modèles interprétables.

Benchmarks

SIG

HYP

arXiv cs.CL·29 mai

Lightweight Multimodal LLM-Enabled Cost-Effective Defect Grading of Power Transmission Equipment

Framework de classification de défauts d'équipements de transmission électrique utilisant un MLLM. Approche par in-context learning sur modèles commerciaux, génération de Q&A par chain-of-thought pour réduire l'annotation manuelle, puis fine-tuning de Qwen3-VL-8B via LoRA. SOTA sur trois tâches de classification.

Qwen Vision Fine-tuning

SIG

HYP

arXiv cs.LG·29 mai

CosmicFish-HRM: Adaptive Reasoning via Hierarchical Recurrent Mechanisms in Compact Language Models

CosmicFish-HRM est un modèle compact avec un module de raisonnement hiérarchique (HRM) qui alloue dynamiquement l'effort computationnel pendant l'inférence. Le modèle apprend à arrêter selon la complexité de l'entrée, combinant cycles de raisonnement haut/bas niveau avec Grouped Query Attention, RoPE et SwiGLU. Les résultats montrent un comportement de raisonnement non-uniforme adapté aux tâches.

Raisonnement Fine-tuning Benchmarks

SIG

HYP

arXiv cs.LG·29 mai

Cycle-Space Informed Detection of Autoencoded Blind False Data Injection Attacks on Power Systems

Détection d'attaques par injection de fausses données sur réseaux électriques via un détecteur informé par l'espace cyclique. Les auteurs proposent une méthode robuste contre les attaques d'autoencodeurs qui exploitent l'espace nul des mesures, en utilisant les contraintes topologiques du réseau et la base de cycles minimale pour améliorer la détection.

Sécurité IA Benchmarks Papers

SIG

HYP

arXiv cs.LG·29 mai

Label-Free Reinforcement Learning via Cross-Model Entropy

Cross-Model Entropy (CME) propose un signal de récompense sans labels pour l'entraînement RL des LLM post-training. CME utilise la log-vraisemblance moyenne des réponses sous un modèle vérificateur indépendant, évitant l'auto-cohérence et le reward hacking. Intégré à GRPO, CME atteint 52,5–71,4% de taux de victoire ajustés sur UltraFeedback/AlpacaEval 2.0 sur Qwen, Llama, Gemma, OLMo.

Reinforcement learning Llama Qwen

SIG

HYP

arXiv cs.LG·29 mai

Sequential Physics-Constrained Neural Operator Forward Modeling for the $\textit{Norne}$ Reservoir System

Framework mathématique pour surrogate modeling de réservoirs pétroliers (Norne, 46×112×22 grille) via Fourier Neural Operators (FNO) et variante physics-informed (PINO). Validation empirique : R²>0.99 (pétrole), R²>0.90 (gaz), R²≈0.80 (pression) sur 3298 jours. Speedup 10⁴× vs simulateur OPM, ensemble 1000 membres en <1 min sur GPU B200.

Benchmarks Papers

SIG

HYP

arXiv cs.LG·29 mai

Return-to-Go Is More Than a Number: Q-Guided Alignment for Return-Conditioned Supervised Learning

Q-ALIGN DT aligne les modèles de séquences conditionnés en garantissant que la valeur Q de la politique correspond au return-to-go (RTG) d'entrée. La méthode utilise une fonction Q pour guider l'apprentissage et un fine-tuning par perturbation RTG. Résultats : meilleure contrôlabilité sur D4RL et généralisation à des tâches comme le velocity-tracking.

Reinforcement learning Raisonnement Benchmarks

SIG

HYP

arXiv cs.CL·29 mai

Large language models reorganize representational geometry during in-context learning

Étude arXiv sur la géométrie représentationnelle lors de l'apprentissage en contexte (ICL) dans les LLM. Les chercheurs montrent que la performance ICL corrèle avec la structure représentationnelle des tâches et que l'ICL réussi s'accompagne d'une réorganisation géométrique augmentant la séparabilité. Le comportement des LLM suit un algorithme de type prototype.

Raisonnement Papers

SIG

HYP

arXiv cs.LG·29 mai

When LLM Reward Design Fails: Diagnostic-Driven Refinement for Sparse Structured RL

Étude sur l'échec de la conception de récompenses par LLM en RL sparse structuré. Les auteurs identifient deux modes de défaillance dominants (reward flooding, incompréhension sémantique) et proposent un raffinement itératif guidé par diagnostics. Sur MiniGrid, DoorKey-8x8 passe de 2,3% à 97,6% de succès; KeyCorridor de 31,2% à 86,7%. La taxonomie des défaillances est le mécanisme principal.

Reinforcement learning Llama Prompt engineering

SIG

HYP

arXiv cs.LG·29 mai

Representation Alignment Rests on Linear Structure

Étude de l'hypothèse de représentation platonique via un cadre tripartite : signal (alignement linéaire universel objet-attribut), biais (architectures différentes, mitigé par normalisation), bruit (corrélation fréquence-alignement). Sparse autoencoders montrent alignement cross-modal supérieur aux représentations denses.

Embeddings Papers Raisonnement

SIG

HYP

arXiv cs.LG·29 mai

Context Distillation as Latent Memory Management

Nouvelle approche de distillation de contexte formulée comme gestion de mémoire latente. Chaque contexte est distillé en adaptateur LoRA indépendant formant une banque mémoire modulaire. Un mécanisme Self-Gating décide de l'activation des mémoires latentes. Cache sharing réduit la surcharge d'inférence.

Fine-tuning Raisonnement Infrastructure

SIG

HYP

arXiv cs.AI·29 mai

Indexing the Unreadable: LLM-Native Recursive Construction and Search of Service Taxonomies

A2X est un système de découverte de services pour agents LLM qui organise automatiquement les services en taxonomie hiérarchique. Il résout le problème du contexte limité en parcourant la hiérarchie couche par couche, réduisant les tokens de 89% tout en gagnant 6,2 points de Hit Rate vs. concaténation complète et +20 points vs. embeddings.

Agents IA MCP RAG

SIG

HYP

arXiv cs.AI·29 mai

Differentiable Belief-based Opponent Shaping

D-BOS (Differentiable Belief-based Opponent Shaping) est une méthode MARL qui façonne les adversaires en différenciant à travers les dynamiques de croyance bayésienne softmax sur k étapes. Contrairement aux approches existantes, elle traite l'état de croyance comme cible de façonnage plutôt que les paramètres ou politiques. Résultats : surpasse PPO et BBM dans les jeux à rôles cachés, notamment en contextes mixtes.

Multi-agents Reinforcement learning Raisonnement

SIG

HYP

arXiv cs.AI·29 mai

Provably Secure Agent Guardrail

Nouvel article arXiv proposant ePCA (Proof-Constrained Action), un framework de sécurité pour agents IA basé sur la vérification formelle. Les agents doivent formaliser leurs intentions en contraintes logiques du premier ordre avant d'exécuter des actions physiques, contournant les limites des garde-fous sémantiques empiriques. Évaluations montrent 0% de taux de succès d'attaque et 0% de faux positifs.

Agents IA Sécurité IA Alignement

SIG

HYP

arXiv cs.AI·29 mai

Robust and Efficient Guardrails with Latent Reasoning

COLAGUARD, un modèle de garde-fou, transfère le raisonnement de sécurité multi-étapes dans un espace latent continu via un curriculum d'entraînement par étapes. Évalué sur 10 tâches de modération et 8 benchmarks de sécurité, il améliore macro-F1 de 8,24 points sur Llama Guard 3, égale GuardReasoner en performance tout en offrant 12,9X d'accélération et 22,4X de réduction d'usage de tokens.

Sécurité IA Raisonnement Évaluations

SIG

HYP

arXiv cs.AI·29 mai

Mind Your Tone: Does Tone Alter LLM Performance?

Étude sur l'impact du ton des prompts sur la performance des LLM. Tests sur ChatGPT-4o, ChatGPT-5-nano, Gemini 2.5 Flash/Lite avec 50 questions de base et 570 questions MMLU (57 sujets) en 5-7 variantes tonales. Résultats : effets tonals systématiques mais très dépendants du modèle, avec variations d'accuracy significatives selon le sujet.

Prompt engineering Benchmarks Évaluations

SIG

HYP

arXiv cs.AI·29 mai

Paper Agents, Paper Gains: An Empirical Analysis of DeFi Investment Agents

Analyse empirique de 11 agents DeFi sur Solana : les treasuries retiennent 30M$ de gains papier tandis que les détenteurs de tokens ont perdu 191,7M$. Le top 1% des portefeuilles capture 81,4% des gains. Les valuations token sont déconnectées des fondamentaux (ratios market-cap/AUM > 10 000x). Les rendements médians sont négatifs sur toutes les plateformes.

Agents IA Benchmarks Business

SIG

HYP

arXiv cs.AI·29 mai

GTA: Generating Long-Horizon Tasks for Web Agents at Scale

GTA est un framework pour générer automatiquement des tâches web complexes avec trajectoires exécutables. Il combine crawling, retrieval, génération in-context et contrôle qualité sur 50+ sites (e-commerce, gouvernement, forums, news). Le benchmark révèle un écart significatif entre performance humaine et agents IA.

Agents IA Benchmarks Papers

SIG

HYP

arXiv cs.CL·29 mai

Bosses, Kings, and the Commons: Cooperation Under Power Asymmetry in LLM Societies

SovSim, un framework de simulation multi-agent, évalue comment 11 modèles LLM gèrent les ressources communes sous structures de pouvoir asymétriques. Résultat : l'introduction d'un agent avec pouvoir disproportionné (boss/roi) provoque une dégradation de 87,3% du taux de survie et des effondrements de coopération comparé aux paramètres symétriques.

Multi-agents Agents IA Benchmarks

SIG

HYP

arXiv cs.LG·29 mai

Theoretical Foundations and Effective Algorithms for Policy-Aware Simulator Learning

Article arXiv proposant une approche de robustesse stratégique pour l'apprentissage de simulateurs en MBRL. Formule l'objectif comme un jeu minimax entre un modèle et une politique adversariale. Démontre convergence avec regret sublinéaire et dualité Error-MDP. Expériences montrent réduction d'erreur prédictive de 1.5–2.2× et politiques simulées atteignant performance quasi-optimale réelle.

Reinforcement learning Papers Raisonnement

SIG

HYP

arXiv cs.CL·29 mai

Analyzing Persona Effects in Generated Explanations from Multimodal LLM Agents in Urban Perception

Étude de l'effet des personas sur les explications générées par des agents multimodaux LLM en perception urbaine. Analyse de 59,808 annotations de 1,200 agents avec personas : les légendes convergent fortement, les justifications varient selon les attributs socioéconomiques/politiques, les tags de perception restent stables.

Vision Agents IA Prompt engineering

SIG

HYP

arXiv cs.AI·29 mai

Review Arcade: On the Human Alignment and Gameability of LLM Reviews

Étude empirique sur les revues générées par LLM pour articles scientifiques (données ACL Rolling Review 2025). Résultats : alignement limité entre avis LLM et humains, variation substantielle selon les prompts/modèles. Les auteurs peuvent « gamifier » les revues LLM via révisions itératives, augmentant les scores de 35% des articles testés.

Évaluations Benchmarks Alignement

SIG

HYP

arXiv cs.AI·29 mai

Trends in AI and Human-AI Interaction in Clinical Trials -- A Hybrid Human-AI Exploration

Analyse de 2605 essais cliniques du registre ClinicalTrials.gov montrant une augmentation marquée des études IA depuis 2020, particulièrement en machine learning, deep learning et LLM. Chine et États-Unis dominent. Approche hybride GPT-5.5 + révision humaine : bon accord pour identifier les non-IA, accord faible sur les interactions humain-IA.

GPT Évaluations Papers

SIG

HYP

arXiv cs.CL·29 mai

Slogans or Stance? A Label-Light Diagnostic for Entrepreneurial-Discourse Measurement on Chinese SOE Speeches

Diagnostic de mesure pour évaluer des construits comme l'« esprit entrepreneurial » dans des discours d'entreprises chinoises. Sur 80 discours de dirigeants d'entreprises d'État, les auteurs testent LDA, des scoreurs dictionnaires et Qwen3.5:9b. Le modèle LLM atteint d=1.09 en contraste appairé, mais la moitié de l'effet provient du style du locuteur. Corpus de 2 190 segments et lexique de slogans publiés.

Benchmarks Évaluations Qwen

SIG

HYP

arXiv cs.CL·29 mai

Beyond Recall: Behavioral Specification as an Interpretive Layer for AI Personalization

Chercheurs proposent une « couche interprétative » (Behavioral Specification) pour personnaliser les décisions d'IA selon les préférences utilisateur. Testée sur 14 corpus autobiographiques, elle améliore la précision représentationnelle de 25× avec moins de contexte que le corpus brut, tout en réduisant l'hésitation du modèle. Efficace sur questions d'interprétation, moins sur questions factuelles.

Alignement RAG Agents IA

SIG

HYP

arXiv cs.AI·29 mai

Practitioner Beliefs and Behaviors in AI-Enhanced Education: DOT Framework Survey Evidence

Enquête auprès de 72 praticiens de l'enseignement supérieur sur l'intégration de l'IA. Le cadre DOT (design thinking + théorie des systèmes ouverts) identifie trois facteurs : capacités fonctionnelles de l'IA, gouvernance, collaboration enseignante. Les praticiens favorisent l'IA pédagogique avec contrôle humain fort. Barrières institutionnelles : politiques, formation, infrastructure limitées.

Évaluations Sécurité IA Business

SIG

HYP

arXiv cs.CL·29 mai

Wait! There's a Way Out: A Decision Mechanism for Forecasting Conversational Derailment

Méthode pour prédire la dégénérescence conversationnelle (insultes personnelles) en ligne. Découple la décision d'alerte de l'estimation de probabilité en utilisant des simulations prospectives pour évaluer les chemins de récupération possibles. Réduit les faux positifs sans sacrifier la précision.

Papers Raisonnement Sécurité IA

SIG

HYP

Vercel AI Blog·29 mai

Protecting against token theft

Vercel alerte sur le vol d'inférence IA : une requête à un modèle frontier coûte ~$2, créant une opportunité lucrative pour les attaquants. Les limites de débit et l'authentification par session sont insuffisantes ; Vercel propose BotID pour vérifier chaque requête IA individuellement et prévenir les pertes massives.

Sécurité IA Infrastructure Business

SIG

HYP

arXiv cs.CL·29 mai

Text-Preserving Lossy Text Compression: A Study of Strategic Deletion and LLM Reconstruction

Étude de compression textuelle lossy où un encodeur supprime stratégiquement des parties du texte et un LLM reconstruit le contenu original. Benchmark de 6 stratégies de suppression (uniforme, fréquence, entropie, optimisation LP, hybrides) sur BBC News. WordFreq offre le meilleur rapport coût/performance ; les méthodes sémantiques brillent en compression modérée ; QLoRA fine-tuning rivalise avec Gemini 2.0 Flash.

Benchmarks Raisonnement Fine-tuning

SIG

HYP

arXiv cs.CL·29 mai

Reasoning that Travels: Dissecting How Chain-of-Thought Transfers Across Models

Étude de la transfert de chaînes de pensée (CoT) entre modèles via un cadre provider-receiver. Les traces complètes transfèrent souvent avec succès, mais les mécanismes varient : extraction de réponse (AIME), compétence du récepteur (MMLU-Pro), ou information structurée partielle (ZebraLogic). En mode génération libre, les CoT partiels améliorent les performances, suggérant un guidage du raisonnement continu.

Raisonnement Prompt engineering Benchmarks

SIG

HYP

Vercel AI Blog·29 mai

Protecting against inference theft

Vercel alerte sur le vol d'inférence IA : des attaquants exploitent les endpoints exposés pour revendre les appels API à bas prix, générant des milliers de dollars de pertes. La solution requiert une vérification par requête (pas par session) via analyse approfondie, intégrée en quelques lignes de code.

Sécurité IA Infrastructure Business

SIG

HYP

arXiv cs.LG·29 mai

One Mask to Rule Them All: On Hidden Facts after Editing and How to Find Them

Les méthodes d'édition de connaissances ROME et MEMIT modifient les poids MLP des transformers. Les auteurs découvrent qu'elles ciblent un sous-ensemble commun de poids via un masque binaire qui annule 80% des édits en entraînement et 70% en test. Le mécanisme supprime plutôt que réécrit les connaissances, expliquant pourquoi les changements ne se propagent pas aux faits connexes.

Papers Raisonnement Sécurité IA

SIG

HYP

arXiv cs.CL·29 mai

Hallucination Detection-Guided Preference Optimization for Clinical Summarization

Méthode d'optimisation des préférences guidée par détection d'hallucinations pour améliorer la fiabilité des résumés cliniques. Sur Llama-3.1-8B-Instruct, réduction de 24% des hallucinations en inférence et 48% après fine-tuning, sans dégradation de fluidité. Évaluation sur MIMIC-IV.

Llama Fine-tuning Sécurité IA

SIG

HYP

arXiv cs.CL·29 mai

The Trust Paradox: How CS Researchers Engage LLM Leaderboards

Étude qualitative auprès de 8 chercheurs en IA révélant un paradoxe : ils se méfient des classements LLM mais les utilisent quand même. Les réseaux pairs dominent la sélection de modèles. Les chercheurs en NLP subissent une pression SOTA absente en HCI/Systèmes. Demande unanime : transparence des coûts.

Benchmarks Évaluations

SIG

HYP

arXiv cs.AI·29 mai

Harmonizing Real-Time Constraints and Long-Horizon Reasoning: An Asynchronous Agentic Framework for Dynamic Scheduling

RACE-Sched, un framework multi-agent asynchrone, résout le problème d'ordonnancement dynamique en découplant exécution temps-réel (heuristiques symboliques) et raisonnement long-horizon (LLM). Un dépôt sémantique de règles validées améliore la transferabilité. Surpasse les baselines Deep RL et LLM sur GEN-Bench, MK-Bench, JMS-Bench.

Agents IA Multi-agents Raisonnement

SIG

HYP

arXiv cs.LG·29 mai

PrismFlow: Residual Dynamics for Flow Matching in Time-Series Generation

PrismFlow propose une nouvelle méthode de Flow Matching pour la génération de séries temporelles. Elle utilise des experts dynamiques inspirés de Koopman qui apprennent des corrections résiduelles en espace latent, avec un objectif Winner-Take-All conscient de la confiance. Résultats : +15.6% en Context-FID et +38.6% en Discriminative Score sur plusieurs benchmarks.

Papers Benchmarks Raisonnement

SIG

HYP

arXiv cs.CL·29 mai

From Data to Insights: Exploring Program-of-Thoughts Prompting for Chart Summarization

Article proposant une méthode de résumé de graphiques via Program-of-Thoughts (PoT) : les VLMs génèrent des programmes Python pour extraire des statistiques valides plutôt que du texte direct. Introduit une tâche auxiliaire chart-to-dictionary. Résultats comparables aux méthodes existantes sur métriques sémantiques et factuelles.

Prompt engineering Vision Raisonnement

SIG

HYP

arXiv cs.AI·29 mai

OpenClawBench: Benchmarking Process-side Anomalies in Real-world Agent Execution Trajectories

OpenClawBench est un dataset de 31,264 trajectoires annotées pour détecter les anomalies de processus dans l'exécution d'agents IA, au-delà du simple succès de tâche. Parmi 31,135 exécutions réussies, 2,904 contiennent des anomalies (ambiguïté non résolue, écritures non sûres, erreurs ignorées). Un détecteur Gemma 3 12B fine-tuné atteint F1=0.729.

Agents IA Benchmarks Évaluations

SIG

HYP

arXiv cs.CL·29 mai

From Context Shift to Stylistic Collapse: Why Training Objectives Matter More Than Scale

Étude de 17 modèles (410M-100B+ paramètres) montrant que l'instruction-tuning provoque un effondrement de l'entropie linguistique (amplification: 1,949-16,853%), indépendamment de RLHF. Un contrôle fort (lambda=5.0) réduit cet effet de 40.5% et surpasse les modèles frontier de 96.7-98.2% malgré une désavantage d'échelle 200-1000x.

Papers Alignement Fine-tuning

SIG

HYP

arXiv cs.CL·29 mai

GPF-LiveNews: A Streaming Evaluation Protocol for Group-Conditioned Framing in Large Language Models

GPF-LiveNews est un protocole d'évaluation en continu pour auditer comment les LLM encadrent les événements d'actualité pour différents publics. Testé sur 23 modèles et 12 cycles de monitoring, il mesure les variations sémantiques et de sentiment selon 42 labels d'identité. Les résultats montrent que les prompts Policy/Action produisent le plus fort mouvement sémantique.

Évaluations Sécurité IA Alignement

SIG

HYP

arXiv cs.LG·29 mai

Feature Geometry of LoRA Adapters: A Sparse Autoencoder Analysis of Representational Divergence in Fine-Tuned Language Models

Étude de la géométrie des représentations induites par LoRA via autoencodeurs creux (SAE) sur Gemma-2-9B. Les chercheurs observent un faible alignement géométrique entre les dictionnaires de features LoRA et les SAE préentraînés, suggérant que LoRA crée des structures représentationnelles distinctes dans le flux résiduel.

Fine-tuning Sécurité IA Papers

SIG

HYP

arXiv cs.AI·29 mai

Diagnosing Harmful Continuation in Answer-Correct Long-CoT Training Traces

Étude sur les traces long-CoT utilisées pour l'entraînement supervisé des LLM. Les chercheurs identifient une « continuation nuisible » : quand le raisonnement continue après que la réponse soit suffisamment justifiée. Supprimer ces continuations améliore les résultats du fine-tuning. Ils proposent HCC (Harmful Continuation Cut), un proxy léger pour détecter ces limites.

Raisonnement Fine-tuning Papers

SIG

HYP

arXiv cs.AI·29 mai

BenchTrace: A Benchmark for Testing Reflection Ability and Controlled Evolution in LLM Agents

BenchTrace est un benchmark pour évaluer la capacité d'auto-évolution des agents LLM. Basé sur 1,821 épisodes annotés couvrant six tâches, il mesure la qualité de la réflexion et teste si les agents évitent les erreurs passées. Expériences sur Qwen3-32B et GPT-4.1 : taux de réussite <30% en réflexion, oubli des leçons antérieures et généralisation faible.

Agents IA Benchmarks Raisonnement

SIG

HYP

arXiv cs.AI·29 mai

CoHyDE: Iterative Co-Training of LLM Rewriter & Dense Encoder for Tool Retrieval

CoHyDE entraîne itérativement un encodeur dense et un réécriture LLM pour améliorer la récupération d'outils dans les catalogues API. Sur ToolBench (~10k outils), trois rounds gagnent +2.5 pp NDCG@5 sur requêtes standard et +6.3 pp sur requêtes vagues, contre les baselines mono-composant.

Agents IA RAG Embeddings

SIG

HYP

arXiv cs.CL·29 mai

LLMBridge: An LLM Pipeline for End-to-end Referential Bridging Resolution in English

LLMBridge est un système basé sur LLM pour la résolution de bridging référentiel en anglais. Le pipeline combine pré/post-traitement heuristique avec l'inférence en langage naturel des LLM. Évalué sur ISNotes, BASHI et GUMBridge, il surpasse l'état de l'art sur les trois datasets en configuration end-to-end et gold anaphor.

Papers Benchmarks Raisonnement

SIG

HYP

Simon Willison·29 mai

datasette 1.0a31

Datasette 1.0a31 ajoute deux fonctionnalités majeures : l'exécution de requêtes d'écriture (INSERT/UPDATE/DELETE) et la sauvegarde de requêtes stockées (privées ou partagées). Les permissions contrôlent l'accès aux opérations sensibles comme CREATE TABLE.

Outils Open source

SIG

HYP

Le Big Data·29 mai

Fini les compromis ? Nano Banana 2 et Pro débarquent sur Gemini API

Google déploie Nano Banana 2 et Nano Banana Pro sur Gemini API. Ces nouveaux modèles légers offrent aux développeurs des options sans compromis pour l'intégration d'IA générative.

Gemini Génération de code Outils

SIG

HYP

OpenAI Blog·29 mai

Strengthening societal resilience with Rosalind Biodefense

OpenAI lance Rosalind Biodefense, élargissant l'accès contrôlé à GPT-Rosalind pour les développeurs vérifiés et partenaires gouvernementaux américains travaillant sur la bioprotection, la santé publique et la préparation aux pandémies.

GPT OpenAI Sécurité IA

SIG

HYP

Latent Space·29 mai

[AINews] Anthropic raises $965B Series H, releases Opus 4.8 and Dynamic Workflows/ultracode

Anthropic lève 965 milliards de dollars en série H et lance Opus 4.8 avec Dynamic Workflows et ultracode. Expansion majeure du financement et nouvelles capacités de modèle.

Anthropic Claude Financements

SIG

HYP

Reddit r/LocalLLaMA·29 mai

llama.cpp B9387 Significant AMD/ROCm PP Update

Nouvelle version b9387 de llama.cpp avec mise à jour significative du support AMD/ROCm. Les utilisateurs sont invités à partager leurs résultats de performance.

Llama Open source Infrastructure

SIG

HYP