mai 2026

3149 articles

HRVConformer: Neonatal Hypoxic-Ischemic Encephalopathy Classification from the Heart Rate signals

HRVConformer est une architecture hybride Convolution-Transformer pour classifier l'encéphalopathie hypoxique-ischémique néonatale à partir de signaux de fréquence cardiaque bruts. Entraîné sur 1 573 epochs (259 annotés, reste faiblement labellisés), le modèle atteint 83,23% AUC et 74,56% accuracy sur un test de 215 heures, surpassant ResNet50 et Transformer seuls.

Vision Benchmarks Génération de code

SIG

HYP

arXiv cs.LG·27 mai

Max-Window Scale Estimation for Near-Lossless HiF8 W8A8 Quantization-Aware Training

Étude systématique du QAT en HiF8 W8A8 sur OpenPangu-Embedded-1B. Identifie deux modes de défaillance : saturation amax (corruption silencieuse via clipping) et oubli catastrophique (surapprentissage du taux d'apprentissage). Solutions : fenêtre d'historique 64-step pour DTS et warmup BF16 500-step. Résultat : 0.43% drop MMLU, 0.58% HellaSwag, 0.22% ARC-Challenge vs baseline.

Fine-tuning Benchmarks Papers

SIG

HYP

arXiv cs.AI·27 mai

Multi-Stakeholder LLM Alignment: Decomposing Estimation from Aggregation

Article sur l'alignement multi-parties prenantes des LLM. Les juges holistiques confondent estimation et agrégation d'utilité, créant du bruit de pondération instable. DecompR sépare calibration contrefactuelle des poids (fixes avant scoring) et estimation indépendante des utilités par rôle, réduisant la dérive des poids et le bruit d'estimation.

Alignement Évaluations Raisonnement

SIG

HYP

arXiv cs.LG·27 mai

Dynamic Link Prediction with Temporally Enhanced Signed Graph Neural Networks

Framework modulaire pour améliorer les GNN signés avec contexte temporel. Introduit HCIM (Historical Context Integration Module) combinant pondération temporelle, LSTM et attention multi-tête pour prédire les liens dans les réseaux temporels signés. Testé sur Bitcoin OTC, Bitcoin Alpha, Reddit avec améliorations statistiquement significatives vs baseline statique.

Papers Benchmarks Raisonnement

SIG

HYP

arXiv cs.LG·27 mai

Two-Parameter Flows for Learning Population Dynamics of Physical Systems

Nouvelle méthode pour apprendre la dynamique de densités de probabilité haute-dimension sans trajectoires labellisées. Les flux à deux paramètres apprennent les transports de temps d'échantillonnage vers les marginales, puis extraient la dynamique physique par régression sur trajectoires synthétiques couplées. Approche scalable en haute dimension, compatible avec les phénomènes rotationnels.

Papers Raisonnement

SIG

HYP

arXiv cs.AI·27 mai

Automatic Layer Selection for Hallucination Detection

Étude sur la détection automatique des hallucinations dans les LLM. Les chercheurs proposent FEPoID (First Effective Peak of Intrinsic Dimension), une méthode sans entraînement pour sélectionner les couches intermédiaires optimales. Testée sur QA et résumé, elle surpasse les baselines existantes avec overhead computationnel négligeable.

Raisonnement Évaluations

SIG

HYP

arXiv cs.LG·27 mai

InfoQuant: Shaping Activation Distributions for Low-Bit LLM Quantization

InfoQuant propose une méthode de quantification post-entraînement (PTQ) sans entraînement pour les LLM. Elle utilise Peak Suppression Orthogonal Transformation (PSOT) pour transformer les activations en distributions plus faciles à quantifier. Sur LLaMA-2 13B en W4A4KV4, elle préserve 97% de la précision et réduit l'écart de performance de 42% par rapport à l'état de l'art.

Llama Papers Benchmarks

SIG

HYP

arXiv cs.LG·27 mai

Co-folding model guided by structural proteomics

AIMS-Fold intègre des données de protéomique structurale (XL-MS, HDX-MS) dans un modèle de diffusion pour prédire les structures de complexes protéiques. Le framework surpasse Boltz-2 sur les cibles de proximité induite, critiques pour la conception d'anticorps et de PROTACs.

Papers Benchmarks Raisonnement

SIG

HYP

arXiv cs.LG·27 mai

AirCast-SR: A Foundation Model for Kilometer-Scale Atmospheric Super-Resolution via Latent Consistency Diffusion

AirCast-SR est un modèle de super-résolution atmosphérique qui affine les prévisions météorologiques IA globales de 28 km à 1 km de résolution horizontale. Basé sur un U-Net 3D conditionné par diffusion LCM, entraîné sur les prévisions GraphCast et les données NOAA, il produit des prévisions de 67 heures sans biais et démontre une transférabilité zéro-shot sur l'Inde et l'Allemagne.

Papers Benchmarks Open source

SIG

HYP

arXiv cs.AI·27 mai

Tail-Aware HiFloat4: W4A4 Post-Training Quantization for Wan2.2

Tail-Aware HiFloat4 applique la quantification post-entraînement W4A4 au modèle Wan2.2 de génération vidéo texte. La méthode adapte ViDiT-Q en utilisant le format HiFloat4, quantifie les couches linéaires du transformer, préserve les modules sensibles en haute précision, et introduit un calibrage percentile conscient des queues d'activation pour réduire l'impact des valeurs aberrantes.

Génération de vidéos Fine-tuning Benchmarks

SIG

HYP

arXiv cs.LG·27 mai

Reparametrizing Shampoo and SOAP for Subspace Basis Updates and BFloat16 Storage

Nouvelle reparamétrisation des méthodes Shampoo (KL-Shampoo, SOAP, KL-SOAP) permettant le stockage en BFloat16 et réduisant le coût computationnel via décomposition QR en sous-espace. Améliore l'efficacité mémoire et temps sans dégradation de performance.

Reinforcement learning Benchmarks Papers

SIG

HYP

arXiv cs.LG·27 mai

On the Role of Inductive Bias in Time-Series Pretraining: A Case Study in Learning Generalizable Representations for Clinical Time Series

PathoFM, un transformer encodeur préentraîné sur des séries temporelles cliniques (analyse de marche en lésion médullaire), combine trois objectifs : Local Completion, Temporal Continuity et Unsupervised In-Context Dynamics. L'étude montre que les objectifs centrés sur la dynamique produisent les meilleures représentations transférables entre tâches de classification et régression.

Papers Raisonnement Fine-tuning

SIG

HYP

arXiv cs.CL·27 mai

The Daily Dose: Workflow-Integrated Large Language Model Automation for Clinical Summarization and Trial Identification in Radiation Oncology

The Daily Dose (TDD) est un système LLM intégré en routine en oncologie radiothérapique pour résumer automatiquement les dossiers patients et identifier les essais cliniques pertinents. Évaluation sur 55 cliniciens : 83,6% utilisent TDD quotidiennement, satisfaction moyenne 3,89/5, 27% rapportent ≥10 min économisées/jour.

Génération de code RAG Business

SIG

HYP

arXiv cs.CL·27 mai

Memory Architectures for Multi-Turn Text-to-SQL: A Benchmark and Empirical Study

EnterpriseMem-Bench, un benchmark multi-tour Text-to-SQL de 1 400 tours sur 300 sessions, évalue GPT-5 mini, GPT-5.2, Claude Sonnet 4.5/4.6 et Opus 4.6. Résultats clés : sans mémoire, la précision s'effondre dès le tour 3 ; la mémoire de travail domine les architectures complexes ; Sonnet 4.6 régresse de 17-33pp sur SEC EDGAR vs Sonnet 4.5.

Benchmarks Génération de code GPT

SIG

HYP

arXiv cs.CL·27 mai

Pretraining Data Exposure in Large Language Models: A Survey of Membership Inference, Data Contamination, and Security Implications

Enquête unifiée sur l'exposition des données d'entraînement (PDE) dans les LLM, couvrant l'inférence d'appartenance et la contamination de données. Formalise PDE selon les niveaux d'exposition, examine les méthodes d'attaque/défense et identifie les défis ouverts pour l'intégrité des évaluations et la protection de la vie privée.

Sécurité IA Alignement Évaluations

SIG

HYP

arXiv cs.LG·27 mai

From Privacy to Generalization: Linear Max-Information Bounds for DP-SGD

Article théorique prouvant une borne finie sur l'information maximale approximée de DP-SGD avec scaling linéaire en taille du dataset. Dérive une borne PAC-Bayes générale où la distribution a priori est apprise par DP-SGD, et une borne de généralisation explicite contrôlée par les hyperparamètres d'optimisation.

Papers Sécurité IA Alignement

SIG

HYP

arXiv cs.CL·27 mai

Self-Verified Distillation: Your Language Model Is Secretly Its Own Synthetic Data Pipeline

Qwen3 améliore ses capacités de raisonnement via Self-Verified Distillation, un algorithme post-training sans données externes. Le modèle génère des solutions, les filtre par auto-vérification (cycle-consistency, factualité, correction), puis s'entraîne sur les données auto-curées. Gains : +16.7 points en math (AIME26/HMMT), +11.1 en science (GPQA), +8.3 en coding pour Qwen3-4B.

Qwen Fine-tuning Raisonnement

SIG

HYP

arXiv cs.CL·27 mai

SPEAR: Code-Augmented Agentic Prompt Optimization

SPEAR est un optimiseur de prompts agentic qui intègre un sandbox Python pour analyser les erreurs structurelles (matrices de confusion, clustering). Évalué sur 13 tâches industrielles LLM-as-judge et BBH-7, il surpasse GEPA et TextGrad (κ 0.857 vs 0.359 sur sélection d'outils; F1-macro 0.815 vs 0.763). L'outil Python contribue +0.79κ sur les tâches complexes.

Prompt engineering Agents IA Génération de code

SIG

HYP

arXiv cs.LG·27 mai

Classification and detection of multiple UAVs using rational Gaussian wavelet neural networks

Système de détection de drones par signaux sonores utilisant des réseaux de neurones avec ondelettes gaussiennes rationnelles. La méthode combine extraction de features adaptatives et classification/détection de UAVs simples et essaims. Surpasse les approches ML traditionnelles tout en conservant l'interprétabilité. Code publié.

Vision Benchmarks

SIG

HYP

arXiv cs.LG·27 mai

Balancing Plasticity and Stability with Fast and Slow Successor Features

Étude sur l'adaptation des agents RL en environnements non-stationnaires graduels. Les auteurs modifient des environnements 3D Miniworld et MuJoCo pour introduire une dérive continue, et montrent que la consolidation synaptique appliquée aux Successor Features (SFs) multi-échelles surpasse les approches basées sur les Q-values. La stabilité prime sur la plasticité dans l'apprentissage continu.

Reinforcement learning Papers Benchmarks

SIG

HYP

arXiv cs.CL·27 mai

Why LLMs Hallucinate on Structured Knowledge: A Mechanistic Analysis of Reasoning over Linearized Representations

Étude mécanistique des hallucinations dans les LLM sur connaissances structurées linéarisées (graphes, tables). Les hallucinations résultent de dynamiques internes systématiques : attention concentrée sur des indices structurels raccourcis, représentations feed-forward ne grounding pas la connaissance fournie, reversion à la mémoire paramétrée. Patterns généralisent à graphes multi-hop et données tabulaires.

Raisonnement Papers Sécurité IA

SIG

HYP

arXiv cs.AI·27 mai

MobileExplorer: Accelerating On-Device Inference for Mobile GUI Agents via Online Exploration

MobileExplorer accélère l'inférence sur appareil pour les agents GUI mobiles via exploration en ligne. Le framework exploite le temps de raisonnement des VLM pour explorer parallèlement les éléments UI, enregistrant les traces comme mémoire structurée. Avec un mécanisme de rollback deux niveaux, il réduit les étapes de raisonnement et la latence de 23% sur AndroidWorld.

Agents IA Vision Raisonnement

SIG

HYP

arXiv cs.LG·27 mai

Modeling Dynamic Mixtures of Time-Delay Systems from Streaming Time Series

Méthode online pour modéliser des séries temporelles en streaming comme mélanges dynamiques de systèmes à délais variables. Utilise une représentation tensorielle compacte des paramètres de Markov pour capturer dynamiques et délais, avec décomposition tensorielle pour adapter rapidement le modèle aux changements de régime. DelayMix surpasse les baselines sur données réelles non-stationnaires.

Benchmarks Papers

SIG

HYP

arXiv cs.AI·27 mai

Completion vs Optimality: Policy Gradient in Long-Horizon Cumulative-Damage Problems

Étude des défaillances des méthodes de gradient de politique dans les problèmes de décision à long horizon avec dommages cumulatifs. Les auteurs identifient deux modes d'échec orthogonaux et proposent une décomposition séparant complétude (atteindre l'horizon terminal) et optimalité (correspondre à la programmation dynamique). Expériences sur carrière de maçon (49 étapes) et carrière NBA (20 saisons).

Reinforcement learning Papers Raisonnement

SIG

HYP

arXiv cs.AI·27 mai

Advancing Creative Physical Intelligence in Large Multimodal Models

MM-CreativityBench, un nouveau benchmark, évalue la capacité des modèles multimodaux à résoudre des problèmes créatifs en identifiant des usages non-évidents d'objets dans des environnements physiquement contraints. Les LMMs actuels échouent par manque d'exploration ancrée et hallucinations. L'alignement par affordances via DPO réduit ces erreurs et améliore la sélection d'entités pertinentes.

Benchmarks Vision Raisonnement

SIG

HYP

arXiv cs.AI·27 mai

Which Changes Matter? Towards Trustworthy Legal AI via Relevance-Sensitive Evaluation and Solver-Grounded Reasoning

Étude arXiv sur l'évaluation des LLM juridiques. Les modèles existants sont sensibles à des variations légalement non pertinentes. LexGuard, un framework multi-agent adversarial, formalise les statuts en contraintes exécutables et utilise des solveurs SMT pour vérifier la cohérence logique et la satisfaction légale.

Raisonnement Multi-agents Sécurité IA

SIG

HYP

arXiv cs.AI·27 mai

OmniToM: Benchmarking Theory of Mind in LLMs via Explicit Belief Modeling

OmniToM est un benchmark évaluant la théorie de l'esprit dans les LLM via la modélisation explicite des croyances. Construit sur 895 histoires (22 343 propositions de croyances annotées), il teste l'extraction et l'étiquetage des états mentaux selon 7 dimensions. Les résultats montrent que les LLM actuels peinent à transformer les faits narratifs en croyances d'acteurs.

Benchmarks Raisonnement Évaluations

SIG

HYP

arXiv cs.LG·27 mai

SilIF: Silhouette-Augmented Isolation Forest for Unsupervised Transaction Fraud Detection

SilIF améliore l'Isolation Forest pour la détection de fraude en ajoutant un score de silhouette basé sur les chemins d'arbres. Sur le benchmark IEEE-CIS (~590K transactions, 3.5% fraude), SilIF gagne +0.0080 AUC-PR en moyenne (p=0.046). La méthode ne progresse pas sur Sparkov, révélant des conditions d'applicabilité spécifiques.

Benchmarks Évaluations Open source

SIG

HYP

arXiv cs.AI·27 mai

What Makes Chain-of-Thought Work at Probe Time? Local Co-occurrence Rather Than Global Derivation

Étude sur le mécanisme du chain-of-thought (CoT) au moment de l'inférence. Les auteurs montrent que l'amélioration de performance provient principalement d'une activation lexicale et de co-occurrences de tokens à courte portée (2-3 tokens), plutôt que d'une dérivation logique globale. Même un texte avec mots mélangés surpasse l'absence de rationale.

Raisonnement Prompt engineering Papers

SIG

HYP

arXiv cs.LG·27 mai

TSFMAudit: Data Contamination Auditing in Forecasting Time Series Foundation Models

TSFMAudit, première méthode d'audit de contamination de données pour modèles de fondation en séries temporelles (TSFMs). Détecte si des datasets d'évaluation ont été exposés lors du préentraînement en analysant la dynamique d'adaptation fine-tuning : les données contaminées montrent une réduction de perte anormalement rapide. Évalué sur 6 TSFMs et 187 datasets.

Benchmarks Évaluations Papers

SIG

HYP

arXiv cs.CL·27 mai

FAB-Bench: A Framework for Adaptive RAG Benchmarking in Semiconductor Manufacturing

FAB-Bench est un framework de benchmarking adaptatif pour évaluer les systèmes RAG en fabrication semiconducteurs. Il définit 6 métriques diagnostiques (précision factuelle, utilisation contextuelle, complétude, pertinence de retrieval, profondeur technique, cohérence du raisonnement) sur des fenêtres de contexte 4K-32K tokens. Benchmark de 200 paires query-answer testé sur 4 LLMs et 4 frameworks RAG.

RAG Benchmarks Évaluations

SIG

HYP

arXiv cs.LG·27 mai

GAC: Noise-Aware Adaptive Mixing for Hybrid SFT-RL Post-Training

GAC est un contrôleur adaptatif pour l'entraînement hybride SFT-RL qui ajuste dynamiquement le poids de mélange en fonction de l'estimation en ligne de la variance des gradients et du désaccord entre les deux signaux. Testé sur des benchmarks math, code, science et logique, GAC améliore les baselines fixes avec moins de 1% de surcharge computationnelle.

Reinforcement learning Fine-tuning Benchmarks

SIG

HYP

arXiv cs.LG·27 mai

A PAC-Bayesian View of Generalisation for Physics-Informed Machine Learning

Cadre PAC-Bayésien pour l'apprentissage informé par la physique (PIML) intégrant les équations différentielles partielles. Fournit des garanties de généralisation haute probabilité avec pertes non bornées via perspective multi-tâche. Bornes non-vacueuses validées sur benchmarks PDE standards.

Papers Raisonnement Benchmarks

SIG

HYP

arXiv cs.LG·27 mai

GEM: Geometric Entropy Mixing for Optimal LLM Data Curation

GEM (Geometric Entropy Mixing) reformule la curation de données LLM comme un problème variationnel sur l'hypersphère pour éviter l'effondrement de clusters. Utilise un algorithme MM prouvable et la distillation enseignant-étudiant pour passer à l'échelle. Améliore la précision en aval de 1,2% sur modèles 1,1B intégrés à DoReMi et RegMix.

Papers Benchmarks Fine-tuning

SIG

HYP

arXiv cs.CL·27 mai

Hubness, Not Anisotropy, Drives Cross-Lingual Retrieval Asymmetry in Multilingual Embedding Models

Étude sur l'asymétrie de récupération cross-lingue dans 5 modèles multilingues (Gemini, Mistral, OpenAI, Qwen). Analyse de 6 518 expressions idiomatiques en anglais, bengali, hindi et arabe. Résultat : la « hubness » (concentration de vecteurs) est le principal facteur causal (49,5% de dominance), bien plus que l'anisotropie. La correction CSLS ferme 63,5% de l'écart de réciprocité.

Embeddings Benchmarks Multi-agents

SIG

HYP

arXiv cs.LG·27 mai

Provably Communication-Efficient and Privacy-Preserving Federated Graph Neural Networks

CE-FedGNN est un framework fédéré pour les réseaux de neurones graphiques (GNNs) qui réduit la communication en échangeant rarement des représentations agrégées plutôt que des embeddings à chaque round. Un estimateur de moyenne mobile gère les dépendances cross-client et la staleness. Le framework garantit la confidentialité via metric-DP et converge en O(1/√T) avec complexité de communication O(T^3/4).

SIG

HYP

arXiv cs.LG·27 mai

Planning Neural Dynamics with Lie Group Embedding through Supervised Projective Manifold Learning

LieEDNN propose des réseaux de neurones dynamiques intégrant les groupes de Lie pour modéliser les symétries continues. L'approche résout l'incompatibilité entre l'arithmétique additive des réseaux et la géométrie non-euclidienne via des actions adjointes sur l'algèbre de Lie. Application testée sur SE(3) pour manipulateurs télescopiques.

Raisonnement Robotique Papers

SIG

HYP

arXiv cs.AI·27 mai

ScientistOne: Towards Human-Level Autonomous Research via Chain-of-Evidence

ScientistOne, un système autonome de recherche, introduit Chain-of-Evidence (CoE) pour tracer chaque affirmation à sa source. Évaluation sur 75 articles : les systèmes de base montrent 21% de références halluccinées, 42% de vérification de scores réussie. ScientistOne atteint 0 hallucination, vérification parfaite, et surpasse les experts humains sur 5 tâches.

Agents IA Raisonnement Évaluations

SIG

HYP

arXiv cs.CL·27 mai

AI evaluation may bias perceptions: The importance of context in interpreting academic writing

Étude montrant que les méthodes d'évaluation de l'usage de l'IA dans les publications scientifiques produisent des biais importants sans tenir compte des différences contextuelles entre pays et domaines. Les benchmarks « pooled » confondent variations stylistiques préexistantes avec texte généré par LLM, surestimant l'IA dans certains contextes et la sous-estimant dans d'autres.

Évaluations Papers Sécurité IA

SIG

HYP

arXiv cs.CL·27 mai

In-Context Optimization for Retrieval-Augmented Generation: A Gradient-Descent Perspective

Étude théorique montrant qu'une couche de self-attention linéaire peut implémenter une étape de gradient descent sur un objectif RAG unifié. Les auteurs proposent une méthode légère pour adapter l'interaction entre requêtes et documents récupérés sans modifier le retriever ni le modèle backbone, testée sur 7 benchmarks QA avec améliorations significatives.

RAG Raisonnement Papers

SIG

HYP

arXiv cs.AI·27 mai

Managing Uncertainty in LLM-Generated Procedural Knowledge for Virtual Laboratory Planning

Un cadre pour gérer l'incertitude dans les procédures générées par LLM pour la planification de laboratoires virtuels éducatifs. Le système utilise des représentations de domaine structurées et des échantillons de transition d'état incertains pour extraire des règles procédurales, les transformer en contraintes explicites et réparer les étapes défectueuses.

Raisonnement Agents IA Papers

SIG

HYP

arXiv cs.LG·27 mai

The Constraint Tax: Measuring Validity-Correctness Tradeoffs in Structured Outputs for Small Language Models

Étude sur le coût des contraintes de sortie structurées pour petits modèles de langage (< 3B). Tests sur Qwen2.5-0.5B/1.5B et SmolLM2-1.7B montrent que forcer la validité du schéma JSON (61.5% → 100%) réduit la précision des réponses (19.7% → 11.0%) et augmente les sorties invalides sémantiquement (49.5% → 88.9%). Recommandation : rapporter séparément validité schéma, précision réponse et taux d'erreurs sémantiques.

Qwen Génération de code Évaluations

SIG

HYP

arXiv cs.AI·27 mai

Composition Collapse: Stable Factual Knowledge Does Not Imply Compositional Reasoning

Une étude arXiv montre que les modèles avec des connaissances factuelles stables échouent systématiquement à les assembler en chaînes de raisonnement multi-hop (écart >40 points). Les métriques agrégées masquent ce « composition collapse ». Les auteurs proposent un protocole double-gate pour décomposer les gains post-training en trois canaux : stabilité atomique, composition résiduelle et profondeur critique.

Raisonnement Benchmarks Évaluations

SIG

HYP

arXiv cs.CL·27 mai

Conv-to-Bench: Evaluating Language Models Via User-Assistant Dialogues In Code Tasks

Conv-to-Bench transforme automatiquement des dialogues multi-tours utilisateur-assistant en checklist d'évaluation structurées pour tâches de code. Le framework atteint une corrélation de Spearman ρ=1.000 avec BigCodeBench, avec accord humain κ=0.705 pour l'évaluation par LLM-as-a-judge.

Benchmarks Génération de code Évaluations

SIG

HYP

arXiv cs.AI·27 mai

On the Detection of Commutative Factors in Factor Graphs: Necessary and Sufficient Conditions

Article théorique sur la détection de facteurs commutatifs dans les graphes de facteurs probabilistes. Les auteurs identifient une faille dans l'algorithme état-de-l'art : le théorème central n'est qu'une condition nécessaire, non suffisante. Ils proposent une version corrigée garantissant l'exactitude tout en préservant l'efficacité.

Papers Raisonnement

SIG

HYP

arXiv cs.AI·27 mai

It's Not the Capability: Harness Sensitivity Is Non-Monotone Across LLM Agent Tiers

Étude de 432 expériences sur 6 modèles (4 tiers de capacité) testant l'hypothèse que les modèles plus puissants nécessitent moins de structure. Résultats : relation non-monotone. Gemini 2.5 Flash voit ses performances baisser de 29-38pp avec plus de verbosité. Qwen3.5-122B (reasoning) atteint 91.7% VTSR avec harness strict. Taxonomie de 6 défaillances identifiée.

Agents IA Évaluations Raisonnement

SIG

HYP

arXiv cs.LG·27 mai

Unified Neural Scaling Laws

Nouvelle loi de scaling unifiée (UNSL) modélisant simultanément l'impact de la taille du modèle, du dataset, des étapes d'entraînement, des étapes d'inférence et des hyperparamètres sur la performance. Validée sur vision, langage, math et RL avec extrapolations plus précises que les formulations existantes.

Benchmarks Papers Raisonnement

SIG

HYP

arXiv cs.AI·27 mai

Mind the Tool Failures: Achieving Synergistic Tool Gains for Medical Agents

Étude sur l'utilisation d'outils externes par les agents médicaux IA face à des défaillances d'outils. Propose un cadre RL basé sur GRPO avec sélection au niveau instance plutôt que tâche, récompenses de minimisation de risque probabiliste et apprentissage de synergies conscientes du désaccord. Évaluation sur 7 benchmarks médicaux montre améliorations robustes.

Agents IA Reinforcement learning Raisonnement

SIG

HYP

arXiv cs.CL·27 mai

Cultural Value Alignment Via Latent Activation Steering in Large Language Models

Étude sur l'alignement culturel des LLM via activation steering. Les chercheurs contournent les refus de sécurité en utilisant 300 dilemmes situationnels pour extraire les valeurs culturelles latentes, puis appliquent du steering d'activation sans réentraînement. Découverte clé : les valeurs culturelles sont encodées comme structures couplées, limitant l'alignement précis.

Alignement Raisonnement Évaluations

SIG

HYP

arXiv cs.CL·27 mai

Curation and Extraction of Drug-Related Entities from Reddit Platform

ReDose est un dataset de 6 435 posts Reddit annotés par des toxicologues pour extraire les entités DRUG, DOSE et EFFECT. BiomedBERT atteint F1=0.843 pour DRUG ; Llama-3 70B surpasse GPT-4 (F1=0.79 vs 0.72). L'extraction d'EFFECT reste difficile (recall GPT-4=0.41).

Benchmarks RAG Llama

SIG

HYP

arXiv cs.CL·27 mai

Evidence Absence Is Not Evidence Insufficiency: Diagnosing NEI Construction Artifacts in Fact Verification

NEI-CAP, un protocole de diagnostic pour évaluer la construction des labels « Not Enough Information » dans les benchmarks de vérification de faits. Les chercheurs montrent que la compétence NEI ne transfère pas fiablement entre constructions : les modèles entraînés sur des indices de raccourci échouent à reconnaître l'insuffisance de preuves sémantiquement liée. Tests sur SciFact, FEVER et HoVer.

Benchmarks Évaluations Papers

SIG

HYP

arXiv cs.LG·27 mai

Bridging Classification and Reconstruction: Cooperative Time Series Anomaly Detection

CoAD, un nouveau framework pour la détection d'anomalies en séries temporelles, combine classification (Outlier Exposure) et reconstruction (Masked Autoencoder). Le module de classification génère des masques souples pour guider la reconstruction, résolvant les problèmes de généralisation et d'alignement des masques. Expériences sur benchmarks standards montrent des gains significatifs avec une inférence plus rapide.

Benchmarks Papers

SIG

HYP

arXiv cs.AI·27 mai

Experiments in Agentic AI for Science

Deux frameworks d'IA agentive pour workflows scientifiques : DeepTS/DeepCollector automatise la curation et déduplication de datasets time-series à grande échelle ; DeepScribe analyse autonomement des lectures de physique complexes pour générer des rapports structurés. Architecture hybride Local Body/Remote Brain via Google Colab avec orchestrateurs Python et backends LLM cloud.

Agents IA RAG Raisonnement

SIG

HYP

arXiv cs.AI·27 mai

A Dataset of Robot-Patient and Doctor-Patient Medical Dialogues for Spoken Language Processing Tasks

MeDial-Speech : dataset de 111+ heures de dialogues médicaux parlés (robot-patient et médecin-patient) couvrant 4 conditions de santé. Benchmark de 3 LLMs (GPT-4 mini, DeepSeek-V3, Claude Sonnet 4) via sélection de phrases : Claude Sonnet 4 atteint 71,1% de précision. Révèle une surconfiance systématique des modèles.

Benchmarks Claude DeepSeek

SIG

HYP

arXiv cs.AI·27 mai

LiveK12Bench: Have Large Multimodal Models Truly Conquered High School-level Examinations?

LiveK12Bench est un benchmark dynamique multi-disciplinaire évaluant les capacités de raisonnement des modèles multimodaux sur 2K+ questions d'examens réels (Maths, Physique, Chimie, Biologie). Les tests révèlent une dégradation majeure : GPT-5 chute de 79 à 53/100 sous contraintes réalistes d'examen. Le framework inclut un pipeline automatisé anti-contamination et un schéma d'évaluation « Mock Exam » end-to-end.

Benchmarks Vision Raisonnement

SIG

HYP

arXiv cs.LG·27 mai

Semigroup Consistency as a Diagnostic for Learned Physics Simulators

Nouvelle métrique de diagnostic pour les simulateurs physiques appris : l'erreur de semi-groupe mesure la cohérence temporelle en comparant l'évolution directe sur s+t avec l'évolution composée (s puis t). Testée sur dynamiques thermiques et Burgers avec ConvNet et FNO, corrélation Spearman ρ=0.635 avec dégradation en long-horizon. Utile comme évaluation post-hoc plutôt que comme objectif d'entraînement.

Benchmarks Évaluations Papers

SIG

HYP

arXiv cs.CL·27 mai

Verilog-Evolve: Feedback-Driven and Skill-Evolving Verilog Generation

Verilog-Evolve est un framework de raffinement itératif du code Verilog généré par LLM. Le système évalue les candidats via simulation fonctionnelle, synthèse Yosys, timing ABC et métriques GEMM, puis évolue des compétences modulaires entre tâches. Résultats sur VerilogEval : meilleure stabilité fonctionnelle et qualité RTL downstream.

Génération de code Reinforcement learning Évaluations

SIG

HYP

arXiv cs.LG·27 mai

When Correct Demonstrations Hurt: Rethinking the Role of Exemplars in In-Context Learning

Une étude arXiv révèle que des démonstrations correctes peuvent dégrader les performances en in-context learning (ICL). Les chercheurs introduisent des perturbations préservant la tâche pour montrer que la correction n'implique pas l'utilité : modifier l'entrée d'un exemplaire tout en conservant une sortie correcte peut réduire la précision, particulièrement sur les petits modèles et tâches difficiles.

Prompt engineering Raisonnement Évaluations

SIG

HYP

arXiv cs.AI·27 mai

The MiniMax-M2 Series: Mini Activations Unleashing Max Real-World Intelligence

MiniMax présente la série M2, des modèles MoE avec 229.9B paramètres totaux et 9.8B activés par token. Conçus pour le déploiement d'agents, ils intègrent des pipelines de données agent-driven, Forge (système RL agent-natif), et M2.7 capable d'auto-évolution. Performance frontier sur benchmarks de coding agent, recherche profonde et raisonnement.

Agents IA Raisonnement Génération de code

SIG

HYP

arXiv cs.AI·27 mai

MedGuideX: Internalizing Decision Logic from Executable Guidelines into Large Language Models for Clinical Reasoning

MedGuideX transforme les recommandations des guides de pratique clinique (CPG) en logique décisionnelle exécutable pour générer des données d'entraînement en question-réponse. Post-entraînement d'un LLM médical sur ces données améliore la précision de 10,28% sur quatre benchmarks de raisonnement clinique et produit des justifications préférées par les médecins.

Fine-tuning Raisonnement Évaluations

SIG

HYP

arXiv cs.AI·27 mai

FAST-GOAL: Fast and Efficient Global-local Object Alignment Learning

FAST-GOAL améliore CLIP pour traiter des descriptions textuelles longues via alignement sémantique global-local. La méthode combine extraction efficace de régions locales (FLISM) et apprentissage par similarité de tokens (TSL). Un dataset GLIT100k avec paires image-caption longues et dérivées locales valide l'approche sur DOCCI, DCI, MSCOCO, Flickr30k.

Vision RAG Embeddings

SIG

HYP

arXiv cs.AI·27 mai

Personalizing Embodied Multimodal Large Language Model Agents over Long-term User Interactions

POLAR est un framework pour agents embodiés basés sur MLLM qui personnalise l'assistance via un graphe de connaissances multimodal. Il organise les interactions passées en mémoire sémantique (concepts visuels) et épisodique (trajectoires), améliorant les performances notamment pour le raisonnement multi-hop et le suivi du contexte utilisateur.

Agents IA Vision RAG

SIG

HYP

arXiv cs.AI·27 mai

Reasoning, Code, or Both? How Large Language Models Handle Variations in Math Questions

Étude comparative de trois approches LLM sur 1 000 problèmes mathématiques (GSM-Symbolic) : chain-of-thought (CoT), Program-Aided Language models (PAL) et Step-by-Step Coding (SBSC). CoT s'avère plus robuste face aux variations (drop 1,3pp vs 1,7pp pour PAL), contredisant l'hypothèse que l'exécution de code améliore la robustesse du raisonnement.

Raisonnement Génération de code Benchmarks

SIG

HYP

arXiv cs.CL·27 mai

Alignment Tuning for Large Language Models: A Data-Centric Lens on Alignment Data Pipelines

Étude des pipelines de données d'alignement pour LLM. Décompose la construction en trois étapes : synthèse de réponses, évaluation de préférences, instanciation de préférences. Identifie trade-offs récurrents et principes de conception influençant le signal d'optimisation.

Alignement Reinforcement learning Papers

SIG

HYP

arXiv cs.CL·27 mai

MicroSpec: Accelerating Speculative Decoding with Lightweight In-Context Vocabularies

MicroSpec réduit le vocabulaire actif de 40x (sous 3k tokens) lors du décodage spéculatif sans entraînement supplémentaire. La technique exploite la localité temporelle du langage et intègre gestion GPU asynchrone. Speedup end-to-end de 1.12-1.32x vs EAGLE-2.

Génération de code Infrastructure Benchmarks

SIG

HYP

arXiv cs.AI·27 mai

From Static Context to Calibrated Interactive RL: Mitigating Distribution Shift in Multi-turn Dialogue with Aligned Simulator

Article théorique et empirique sur l'entraînement d'agents dialogue LLM. Identifie la distribution shift comme limitation majeure du Static Context RL et Interactive RL. Propose Calibrated Interactive RL couplant RL interactif avec alignement du simulateur pour réduire l'écart sim-to-real et améliorer la qualité du dialogue multi-tour.

Reinforcement learning Agents IA Raisonnement

SIG

HYP

arXiv cs.AI·27 mai

JobBench: Aligning Agent Work With Human Will

JobBench est un benchmark évaluant 36 modèles IA (dont Claude Opus à 45,9%) sur 130 tâches professionnelles réelles couvrant 35 métiers. Contrairement aux benchmarks existants axés sur la valeur économique, JobBench priorise les workflows que les experts identifient comme prioritaires pour la délégation, favorisant l'augmentation plutôt que le remplacement humain.

Agents IA Benchmarks Claude

SIG

HYP

arXiv cs.CL·27 mai

Conceptual Steganography

Des chercheurs montrent qu'un modèle de langage peut dissimuler des messages dans ses chaînes de pensée (CoT) via des patterns de raisonnement conceptuel, contournant les défenses par paraphrase. Cette forme de stéganographie est plus robuste que les approches lexicales sur quatre familles de modèles. Une paraphrase consciente de la stratégie peut réduire ce risque.

Raisonnement Sécurité IA Alignement

SIG

HYP

arXiv cs.CL·27 mai

CroCo: Cross-Lingual Contrastive Preference Tuning on Self-Generations

CroCo étend le tuning de préférence contrastif sur auto-générations à 14 langues (hautes et basses ressources). Un modèle de récompense entraîné sur préférences anglaises génère des classements utiles multilingues sans annotation spécifique par langue. Gains confirmés sur EuroLLM-9B et Aya-3B avec données on-policy.

Reinforcement learning Papers

SIG

HYP

arXiv cs.AI·27 mai

MemFail: Stress-Testing Failure Modes of LLM Memory Systems

MemFail est un benchmark diagnostic qui isole les modes de défaillance des systèmes de mémoire LLM modernes. Les auteurs formalisent ces systèmes comme composition de trois opérations (résumé, stockage, récupération) et construisent cinq datasets adversariaux pour tester chacune. Évaluation de quatre systèmes SOTA révèle les compromis architecturaux.

Agents IA Benchmarks Évaluations

SIG

HYP

arXiv cs.CL·27 mai

Probing Minimalist Phase Structure in LLMs: What Universal Dependencies Cannot Represent

Des chercheurs testent si les LLM encodent des structures syntaxiques formelles (phase boundaries du Minimalist Program) invisibles aux Universal Dependencies. Sur 13 modèles (4 familles), 12/13 montrent un gradient lié au nombre de phases, et 13/13 une asymétrie prédite par la cohésion intra-phase. L'activation patching confirme ces représentations sont causalement actives.

Papers Raisonnement Évaluations

SIG

HYP

arXiv cs.CL·27 mai

Elias in the Lighthouse, Again? Diagnosing Low Diversity in LLM Stories

Étude sur 20 000 histoires générées par 4 LLM : 11 mots (Elias, Mara, Elara, lighthouse, clockmaker, librarian) apparaissent dans 88,3% des récits. Ces tokens proviennent de données de préférence utilisées lors de l'alignement, pas des données d'entraînement. Révèle l'impact disproportionné de petits datasets combinés à des algorithmes d'alignement puissants.

Benchmarks Alignement Évaluations

SIG

HYP

arXiv cs.CL·27 mai

The Labyrinth and the Thread: Rethinking Regularizations in Sequential Knowledge Editing for Large Language Models

Étude théorique et empirique des mécanismes de l'édition séquentielle de connaissances dans les LLM. Les auteurs démontrent l'équivalence formelle entre édition unique et séquentielle, montrant que la stabilité émerge naturellement sans régularisations complexes. Code disponible.

Fine-tuning Raisonnement Papers

SIG

HYP

arXiv cs.LG·27 mai

Curriculum Learning for Safety Alignment

Staged-Competence, un framework de curriculum learning, améliore la robustesse de l'alignement de sécurité basé sur DPO. Sur trois familles de modèles, il réduit les taux de réponses nuisibles hors-distribution de 16% et les taux de succès des attaques jailbreak de 20%, tout en préservant les capacités générales. Le framework atteint la sécurité de base avec 75% des données d'entraînement.

Sécurité IA Alignement Reinforcement learning

SIG

HYP

arXiv cs.CL·27 mai

Towards Just-in-Time Adaptive Feedback: Enhancing Student Learning via Knowledge-Grounded LLM

Framework d'apprentissage adaptatif utilisant des LLM ancrés dans des connaissances expertes pour fournir des retours pédagogiques juste-à-temps. Déployé dans un cours universitaire (N>1000), il améliore la performance étudiante de 80% en analysant les essais de raisonnement et en corrigeant les erreurs conceptuelles via conversations itératives.

Raisonnement RAG Évaluations

SIG

HYP

arXiv cs.LG·27 mai

Quantized Keys Steal Attention: Bias Correction for KV-Cache Compression in Video Diffusion

Les modèles de diffusion vidéo autorégressifs utilisent un cache KV quantifié pour réduire la mémoire, mais la quantization crée un biais d'attention (Jensen bias) qui dégrade la qualité. Les auteurs proposent une correction per-attention-score calculée à partir des pas de quantization, récupérant la qualité perdue avec INT2 tout en utilisant 50% moins de mémoire qu'INT4.

Génération de vidéos Raisonnement Benchmarks

SIG

HYP

arXiv cs.AI·27 mai

BrickAnything: Geometry-Conditioned Buildable Brick Generation with Structure-Aware Tokenization

BrickAnything génère des structures de briques physiquement constructibles à partir de formes 3D via un framework autorégressif. La méthode utilise une tokenization arborescente consciente de la structure pour modéliser les dépendances entre briques, avec décodage contraint et alignement par préférence pour améliorer la stabilité et la fidélité géométrique.

Papers Génération de code Raisonnement

SIG

HYP

arXiv cs.LG·27 mai

Stateful Inference for Low-Latency Multi-Agent Tool Calling

Architecture d'inférence avec état persistant pour appels d'outils multi-agents. Cache KV persistent entre les tours, coût réduit de O(n_t) à O(Δ_t). Speedup 2.1× sur workflows 6-tours, 4.2× sur workflows 35-tours vs vLLM/SGLang.

Agents IA Multi-agents Infrastructure

SIG

HYP

arXiv cs.AI·27 mai

Is Agent Memory a Database? Rethinking Data Foundations for Long-Term AI Agent Memory

Article formalisant la mémoire d'agent IA comme workload de gestion de données distinct. Propose GEM (Governed Evolving Memory) avec quatre opérateurs au niveau état (ingestion, révision, oubli, récupération) et six conditions de correction. Démontre que les systèmes record-level ne peuvent satisfaire ces conditions. Prototype MemState sur graphe de propriétés.

Agents IA Papers Infrastructure

SIG

HYP

arXiv cs.AI·27 mai

Beyond a Single Direction: Chain-of-Thought Disrupts Simple Steering of Refusal

Les modèles de raisonnement (LRM) encodent le refus conjointement dans les activations résiduelles et la chaîne de pensée (CoT). Sur DeepSeek-R1-Distill-LLaMA-8B, le steering d'activation inverse le refus dans 39% des cas avec CoT fixe, mais 70% sans CoT. Régénérer la CoT sous steering atteint 94% de succès, révélant que le refus est distribué entre activations et CoT.

Raisonnement Sécurité IA Alignement

SIG

HYP

arXiv cs.AI·27 mai

Your Agents Are Aging Too: Agent Lifespan Engineering for Deployed Systems

AgingBench, un benchmark de fiabilité longitudinale, évalue comment les agents IA déployés se dégradent au fil du temps. Étude sur 14 modèles et ~400 exécutions montrant que la fiabilité dépend de quatre mécanismes : compression, interférence, révision et maintenance. Les agents perdent précision factuelle même quand les tests comportementaux restent corrects.

Agents IA Évaluations Benchmarks

SIG

HYP

arXiv cs.LG·27 mai

QAM-W: Joint 2D Codebook Quantization for LLM Weights via Hadamard Rotation and Activation-Aware Scaling

QAM-W est un codec de quantification 2D pour poids de LLM qui utilise rotation Hadamard et mise à l'échelle consciente de l'activation. Sur 5 modèles (1.1B–13B), la variante activation-aware à ~5.5 bpw maintient ±0.4% de perplexité BF16, égalant SmoothQuant W8A8 avec 32% moins de bits. Le codage 2D surpasse le codage polaire de 2–15 pp.

Fine-tuning Benchmarks Papers

SIG

HYP

arXiv cs.AI·27 mai

Constraint acquisition needs better benchmarks

MPMMine est une suite de benchmarks pour évaluer les algorithmes de Constraint Acquisition (CA) qui découvrent, valident et améliorent les modèles de programmation mathématique. Elle standardise les artefacts de connaissance de domaine en formats ouverts (MiniZinc, CommonMark, JSON) et fournit milliers de solutions/non-solutions pour améliorer la reproductibilité et comparabilité des études.

Benchmarks Papers

SIG

HYP

arXiv cs.CL·27 mai

Bounded Path Context: A Controlled Study of Visible Path History in LLM-Based Knowledge Graph Question Answering

Étude contrôlée sur la longueur d'historique de chemin dans le QA sur graphes de connaissances avec LLM. Bounded Path Context (BPC) limite l'historique exposé au modèle (K derniers sauts) tout en conservant le chemin complet en mémoire symbolique. Sur WebQSP et CWQ avec Qwen3.5-9B-AWQ : K=1 atteint 0.487 F1 (vs 0.472 historique complet) avec 9.7% moins de tokens.

Raisonnement Benchmarks Papers

SIG

HYP

arXiv cs.CL·27 mai

LATTE: Forecasting Peer Anchored Preference Trajectories for Personalized LLM Generation

LATTE est un framework de personnalisation pour LLM gelés qui prédit les trajectoires de préférence des utilisateurs en soustrayant des profils de pairs comparables. Une séquence légère prédit l'état suivant, injecté via un token soft unique. Sur Amazon Reviews 2023, LATTE atteint ROUGE-L=0.259 vs 0.219 pour les profils statiques.

Prompt engineering Fine-tuning Benchmarks

SIG

HYP

arXiv cs.CL·27 mai

NestedKV: Nested Memory Routing for Long-Context KV Cache Compression

NestedKV compresse le cache KV des modèles long-context sans entraînement. La méthode maintient des ancres clés multi-échelles (globales, par bloc, fenêtre glissante), score les tokens par anomalie cosinus et combine les classements avec routage adaptatif par tête. Gains jusqu'à 19.10 points sur RULER et 19.29 sur LongBench vs KeyDiff (Qwen3-4B, r=0.75).

Raisonnement Benchmarks Qwen

SIG

HYP

arXiv cs.CL·27 mai

Why Prompt Optimization Works, and Why It Sometimes Doesn't: A Causal-Inspired Edit-Level Analysis

Analyse causale des méthodes d'optimisation de prompts (DSpy, TextGrad) révélant pourquoi elles échouent à généraliser. Les édits augmentant la complexité nuisent aux tâches mathématiques et multi-sauts, tandis que les édits step-by-step améliorent le raisonnement logique. Les défaillances proviennent d'interactions systématiques entre familles d'édits et caractéristiques des tâches.

Prompt engineering Raisonnement Benchmarks

SIG

HYP

arXiv cs.CL·27 mai

Slide Deck Q&A Quality Assurance App: A Multi-Stage Pipeline for Pedagogical Question Generation

slidesqaqa est un système Flask qui génère des questions pédagogiques à partir de présentations PDF. Un pipeline LLM à 4 étapes (planification, synthèse, annotation, réconciliation) traite texte et images pour produire des questions cohérentes et non-redondantes, avec scores d'évaluation en JSON structuré.

Génération de code RAG Vision

SIG

HYP

arXiv cs.LG·27 mai

MechRL: Reinforcement Learning Agents Perform Circuit Discovery for Mechanistic Interpretability

MechRL utilise un agent RL (PPO) opérant sur 144 têtes d'attention de GPT-2 small pour découvrir automatiquement les circuits mécanistiques. Entraîné sur induction et IOI, l'agent identifie les têtes causalement pertinentes via ablation zéro et récompense contrastive, généralisant à docstring completion (96% de l'oracle en best-of-five).

Reinforcement learning Évaluations Papers

SIG

HYP

arXiv cs.LG·27 mai

ARBITER: Reasoning Trajectory Basins and Majority Vote Failures in Test-Time Sampling

ARBITER corrige les défaillances du vote majoritaire en test-time sampling. Les trajectoires de raisonnement se concentrent en clusters (bassins) stables mais pas nécessairement corrects. ARBITER utilise les états cachés et preuves du modèle pour ajouter des preuves conservatives au consensus, récupérant ~22% de l'écart oracle sur Llama-3.1-8B MMLU-HS-Math (78%→82%).

Raisonnement Évaluations Benchmarks

SIG

HYP

arXiv cs.CL·27 mai

Reliable Extraction of Clinical Follow-Up Instructions: A Hybrid Neural-Symbolic Pipeline

Pipeline hybride neural-symbolique pour extraire les instructions de suivi clinique (action, date) des dossiers ambulatoires. BioBERT + tagging BIO + linker biaffine + normalisation déterministe des dates surpasse GPT-4o-mini et LLaMA-3 fine-tuné : F1 pair 0.997 (données vues) vs 0.51-0.57 pour les baselines.

Benchmarks Génération de code Raisonnement

SIG

HYP

arXiv cs.CL·27 mai

The Need for an External Observer Formalizing the Sufficiency Gap: A Mathematical Extension of Mixture Identifiability and Contextual Grounding in Sequence Models

Article théorique sur l'insuffisance des modèles de séquence face aux états latents non observés. Les auteurs formalisent un processus mixte où un prédicteur parfait peut devenir surconfiant si le contexte observé correspond au mauvais régime latent. Ils montrent que le « sufficiency gap » (écart de suffisance) ne peut être fermé que par révélation parfaite de l'état latent ou un mécanisme de vérification équivalent.

Raisonnement Alignement Sécurité IA

SIG

HYP

arXiv cs.AI·27 mai

Exploiting Local Dynamics Regularity for Reusable Skills in Offline Hierarchical RL

CARL, un algorithme d'apprentissage hiérarchique par renforcement hors ligne, exploite la régularité des dynamiques locales pour découvrir des compétences réutilisables. En alignant les contextes globaux avec les séquences d'actions requises, la méthode améliore les performances sur OGBench intégrée à HIQL.

Reinforcement learning Agents IA Benchmarks

SIG

HYP

Latent Space·27 mai

[AINews] New AI Infra decacorns: Fireworks, Baseten (with OpenRouter on the way)

Fireworks et Baseten rejoignent le club des décacornes de l'infrastructure IA. OpenRouter s'apprête à suivre. Trois acteurs clés du déploiement et de l'inférence IA franchissent le cap du milliard de valorisation.

Infrastructure Financements Business

SIG

HYP

Le Big Data·27 mai

Daily Brief : l’agent IA de Google pense déjà à votre journée avant vous

Google lance Daily Brief, un agent IA qui anticipe les besoins de l'utilisateur en planifiant sa journée. L'outil analyse les données personnelles pour proposer des actions proactives avant que l'utilisateur ne les demande.

Agents IA DeepMind

SIG

HYP

Reddit r/LocalLLaMA·27 mai

Stop traumatizing AI into loops and turn hallucinations into an honest "I don't know!" by being NICE to them (Proof of Concept, Research, I don't want to sell anything)

Un chercheur teste l'hypothèse que les prompts « autoritaires » (« expert IQ 200 ») déclenchent des boucles de pensée similaires au stress chronique chez les modèles IA, tandis que des prompts « bienveillants » (« c'est ok d'échouer ») réduisent la latence et augmentent les réponses honnêtes « je ne sais pas ». Résultats sur Gemini, Mistral, Claude Haiku 4.5 : moins de confabulation, réponses plus rapides.

Prompt engineering Raisonnement Sécurité IA

SIG

HYP

Reddit r/LocalLLaMA·27 mai

How Qwen3.6-35B-A3B fails differently as a sub agent compared to solo

Utilisateur rapporte que Qwen3.6-35B-A3B en tant que sous-agent montre des modes de défaillance différents du mode solo. L'orchestrateur accepte les réponses structurellement correctes mais factuellement erronées sans validation explicite. L'architecture MoE crée une variance imprévisible selon les types de tâches sur GPU consumer.

Qwen Agents IA Multi-agents

SIG

HYP

Reddit r/LocalLLaMA·27 mai

Single 3090 with Q4 Qwen 27B, context dropped from 137k to 14k with MTP enabled. Is it normal?

Utilisateur rapporte une chute drastique de la taille de contexte (137k → 14k) en activant MTP (Multi-Token Prediction) avec speculative decoding sur Qwen 27B Q4 dans llama.cpp. Demande si ce comportement est normal.

Qwen Génération de code Open source

SIG

HYP

Hacker News (AI)·27 mai

Agent Memory: An Anatomy

Article explorant l'architecture et les mécanismes de mémoire dans les systèmes d'agents IA. Analyse les différentes approches de stockage et de récupération d'informations pour améliorer la persistance et la contextualisation des agents autonomes.

Agents IA RAG

SIG

HYP

Vercel AI Blog·27 mai

Experimental native binaries for Vercel CLI

Vercel CLI propose un binaire natif expérimental optionnel, plus rapide et sécurisé, sans dépendance Node.js. Les binaires sont signés cryptographiquement et stockent les credentials dans le Keychain système (macOS). Disponible sur macOS, Linux, Windows en x64/arm64.

Outils Infrastructure

SIG

HYP