Page 13 sur 192

ToutHaut signalRécent

7679 articles

The AI Epistemic Deference Index: A Continuous Measure of Sycophancy

Nouvel indice AEDI mesure la sycophantie épistémique des LLM : sensibilité du modèle à l'attitude de l'utilisateur. Test sur 8 modèles (Claude, Grok, Gemini) avec 500 propositions et 16 000 prompts. Claude montre moins de déférence, Grok et Gemini plus. Benchmark open-source.

Évaluations Sécurité IA Alignement

SIG

HYP

arXiv cs.AI·9 juin

When Does Delegation Beat Majority? A Delegation-Based Aggregator for Multi-Sample LLM Inference

PPV (Propagational Proxy Voting) surpasse le vote majoritaire sur MMLU-Pro (+1.5 pp, +2.24 pp sur sous-ensemble non-trivial, p~1.0e-14). Cette agrégation non-supervisée exploite l'entropie des lettres et la géométrie du raisonnement pour pondérer 128 générations partitionnées en 16 groupes, sans labels ni entraînement auxiliaire.

Benchmarks Raisonnement Évaluations

SIG

HYP

arXiv cs.AI·9 juin

Stress-testing medical large language models reveals latent safety pathology beyond benchmark accuracy

AI-MASLD, un framework d'audit de stress, évalue 7 LLMs médicaux sur 240 cas cliniques avec perturbations narratives. Tous performent bien en baseline, mais divergent sous stress réaliste. Les modèles quantifiés masquent l'effondrement fonctionnel ; le fine-tuning médical dégrade stabilité logique et équité. Un modèle open-weight égale les alternatives propriétaires sur tous les critères de sécurité.

Benchmarks Sécurité IA Évaluations

SIG

HYP

arXiv cs.AI·9 juin

Overcoming the Regulatory Bottleneck via Agent-to-Agent Protocols: A Nuclear Case Study

Un protocole de communication agent-à-agent (RCP) automatise les échanges entre régulateurs et demandeurs dans l'examen des réacteurs nucléaires avancés. Testé sur 1 236 documents de la NRC, il réduit les coûts de 50-77% (21-44M USD vs 89M USD) et les délais de 65% (15 mois vs 42 mois). Applicable à d'autres secteurs réglementés, les économies potentielles atteindraient 210-330 milliards USD/an.

Agents IA Multi-agents MCP

SIG

HYP

arXiv cs.AI·9 juin

Land cover and flood type govern the detection limits of satellite-based flood mapping across diverse global flood events

Prithvi-EO-2.0, un modèle géospatial fondationnel, testé sur 19 événements de crue (2017-2025) à travers 6 continents. Précision variable selon le type de couverture terrestre : cultures 52% IoU, zones arborées 4%. Détection riveraine forte (F1=0.69). 23 modes de défaillance identifiés, l'ingénierie du pipeline domine les erreurs initiales.

Vision Benchmarks Papers

SIG

HYP

arXiv cs.CL·9 juin

ThinkBooster: A Unified Framework for Seamless Test-Time Scaling of LLM Reasoning

ThinkBooster est un framework unifié pour le scaling du calcul au test-time (TTC) des modèles de raisonnement. Il intègre une librairie Python modulaire, un benchmark évaluant performance et efficacité computationnelle, et un service proxy compatible OpenAI. Résultats sur tâches mathématiques et de codage montrent les trade-offs performance-coût des stratégies TTC.

Raisonnement Benchmarks Génération de code

SIG

HYP

The Decoder·8 juin

Microsoft Research's Lens proves detailed captions matter more than raw scale for training efficient image generators

Microsoft Research présente Lens, un modèle texte-vers-image de 3,8 milliards de paramètres qui égale des rivaux bien plus grands sur les benchmarks, avec un coût d'entraînement réduit. La clé : 800 millions de captions détaillées générées par GPT-4.1 au lieu de textes alt vagues. Code et poids disponibles en open-source.

Génération d'images Benchmarks Open source

SIG

HYP

Reddit r/LocalLLaMA·8 juin

Luce Spark: a 35B MoE on a 16 GB GPU, without the offload tax

Luce Spark exécute des modèles MoE 33-35B sur GPU 16 GB sans ralentissement. Qwen 35B-A3B : 13,3 GiB (vs 20,5), Laguna XS.2 33B-A3B : 14,6 GiB (vs 18,8). Seuls les experts actifs (~8/256) restent en VRAM ; les autres en RAM système avec swap intelligent. Calibrage auto via profil d'apprentissage. Open-source Apache 2.0.

Open source Infrastructure Llama

SIG

HYP

Reddit r/LocalLLaMA·8 juin

[Benchmark] DFlash Speculative Decoding + KV Cache Compression on RTX 5090 — 3.26x Speedup

Benchmark de DFlash speculative decoding + compression KV cache sur RTX 5090 avec Qwen3.6-27B. Speedup 3.26x (turbo4/turbo4), 3.18x (q4_0/turbo4) avec dégradation PPL +0.02% seulement. Q5_K_XL surpasse NVFP4-Q8_0. Scripts et données disponibles.

Qwen Benchmarks Open source

SIG

HYP

Vercel AI Blog·8 juin

DeepSeek enters the fight for token volume, Anthropic continues to dominate spend

DeepSeek V4 a capturé 17% du volume de tokens sur AI Gateway en mai 2025, passant de <1% en avril, grâce à des prix 20-50× inférieurs à Claude. Malgré cette croissance massive en volume, DeepSeek ne représente que 1% des dépenses, tandis qu'Anthropic domine les coûts de production.

DeepSeek Anthropic OpenAI

SIG

HYP

arXiv cs.AI·8 juin

When Does Multi-Agent Collaboration Help? An Entropy Perspective

Étude empirique de 245 features d'entropie (token, agent, round) sur 6 benchmarks de raisonnement et 2 tâches agentic. Résultat contre-intuitif : agent unique surpasse MAS dans 43,3% des cas. Trois observations clés : préférence pour la certitude, entropie de base déterminante, variation selon la tâche. Algorithme Entropy Judger proposé pour sélectionner solutions MAS.

Multi-agents Agents IA Raisonnement

SIG

HYP

arXiv cs.AI·8 juin

How AI Agents Reshape Knowledge Work: Autonomy, Efficiency, and Scope

Perplexity analyse son produit Computer (agent autonome) vs Search (assistant conversationnel) sur données réelles. Computer exécute 26 min de travail autonome par session vs 33 sec pour Search, réduit le temps de tâche de 269 à 36 min (-87%), diminue la dissatisfaction de 55% et élargit le scope des tâches (travail cross-domaines, cognitif supérieur).

Agents IA Benchmarks Business

SIG

HYP

arXiv cs.AI·8 juin

DuMate-DeepResearch: An Auditable Multi-Agent System with Recursive Search and Rubric-Grounded Reasoning

DuMate-DeepResearch est un système multi-agent pour la recherche approfondie construit sur Qianfan Agent Foundry. Il découple planification et exécution, introduit une stratégie de planification dynamique basée graphe, une exécution récursive à deux niveaux, et une optimisation par rubrique au test-time. Résultats SOTA : 58,03% sur DeepResearch Bench et 61,95% sur DeepResearch Bench II.

Multi-agents Agents IA Raisonnement

SIG

HYP

arXiv cs.AI·8 juin

Think Fast: Estimating No-CoT Task-Completion Time Horizons of Frontier AI Models

Étude mesurant la capacité de raisonnement sans chaîne de pensée explicite (CoT) sur 30 000+ questions couvrant 43 benchmarks. Les modèles frontière doublent leur horizon de complétion de tâches (~50%) tous les ans : GPT-5.5 atteint 3+ minutes sans tokens de raisonnement explicites. Projections : 7 minutes en 2028, 25 minutes en 2030.

Raisonnement Benchmarks Sécurité IA

SIG

HYP

arXiv cs.AI·8 juin

DyCon: Dynamic Reasoning Control via Evolving Difficulty Modeling

DyCon est un framework sans entraînement qui modélise dynamiquement la difficulté des tâches via les représentations latentes des étapes de raisonnement. Testé sur 4 modèles (4B-32B) et 12 benchmarks (math, QA, code), il réduit les étapes redondantes sans perte de précision.

Raisonnement Papers Benchmarks

SIG

HYP

arXiv cs.AI·8 juin

CrowdMath: A Dataset of Crowdsourced Mathematical Research Discussions

CrowdMath est un dataset de 164 chaînes de discussions annotées du programme MIT PRIMES–Art of Problem Solving (2016-2025), capturant la résolution collaborative de problèmes ouverts. Les posts sont étiquetés par rôle fonctionnel (progrès partiel, erreur, correction). Six modèles frontier atteignent 83-88% en prédiction du post suivant mais seulement 0.42 macro-F1 en classification de rôle.

Benchmarks Raisonnement Papers

SIG

HYP

arXiv cs.CL·8 juin

MADE: Beyond Scoring via a Multilingual Agentic Diagnosing Engine for Fine-Grained Evaluation Insights

MADE est un moteur d'analyse multilingue basé sur des agents qui décompose l'évaluation post-benchmark en planification, analyse agrégée, inspection d'instances et synthèse de rapports. Évalué sur 33 familles de modèles, 11 benchmarks et 26 langues (8,66M enregistrements), MADE surpasse les baselines de 47% en qualité de diagnostic et est préféré par 87,9% des experts humains.

Agents IA Multi-agents Évaluations

SIG

HYP

arXiv cs.CL·8 juin

Translate-R1: Cost-Aware Translation Tool Use via Reinforcement Learning

Translate-R1 apprend via RL une politique unique décidant quand traduire les entrées vers la langue dominante du modèle. Entraîné sur Qwen3-4B sur 22 langues et 5 domaines, le système améliore la récompense de +4.6 à +23.5 selon les ressources linguistiques, tout en réduisant les coûts de traduction de 37% sans perte de performance.

Reinforcement learning Multi-agents Outils

SIG

HYP

arXiv cs.CL·8 juin

Does Topic Sentiment Cause Perceived Ideology? Comparing Human and LLM Annotations in Political News Articles

Étude comparant annotations humaines et LLM (GPT-4o-mini, Llama-3.3-70B) sur l'idéologie politique d'articles de presse. Double Machine Learning révèle que le fine-tuning de GPT-4o-mini crée un couplage spurieux sentiment-idéologie absent du jugement humain, malgré F1=72.48. Implications pour l'utilisation des annotations LLM comme silver labels.

GPT Llama Évaluations

SIG

HYP

arXiv cs.CL·8 juin

What Do People Actually Want From AI? Mapping Preference Plurality

Analyse de 1 500 réponses ouvertes du dataset PRISM (75 pays) sur les préférences humaines envers les IA. Résultat : les valeurs demandées varient fortement entre individus (seule l'exactitude atteint 49%), avec des définitions divergentes du même concept. Les méthodes RLHF actuelles échouent à capturer cette pluralité en l'agrégant dans un modèle de récompense unique.

Alignement Reinforcement learning Évaluations

SIG

HYP

arXiv cs.CL·8 juin

How Language Models Fail: Token-Level Signatures of Committed and Persistent Reasoning Failures

Étude des signatures de défaillance du raisonnement dans les modèles de langage via signaux d'incertitude au niveau des tokens. Deux modes identifiés : défaillance engagée (verrouillage précoce sur un chemin incorrect) et incertitude persistante (accumulation tout au long de la trace). Framework validé sur 23 configurations modèle-dataset avec implications pour l'auto-cohérence.

Raisonnement Évaluations Papers

SIG

HYP

arXiv cs.LG·8 juin

GlucoFM-Bench: Benchmarking Time-Series Foundation Models for Blood Glucose Forecasting

GlucoFM-Bench évalue 8 modèles de fondation pour séries temporelles (Chronos-2, TimesFM, LLM) sur 15 datasets diabète (1 117 patients). Les TSFMs pré-entraînés montrent bon transfert zéro-shot (5% du meilleur full-shot), mais LSTM léger reste supérieur en données abondantes (+4-21%). Défis persistants sur diabète type 1 et plages hypo/hyperglycémiques.

Benchmarks

SIG

HYP

arXiv cs.AI·8 juin

Act As a Real Researcher: A Suite of Benchmarks Evaluating Frontier LLMs and Agentic Harnesses in Research Lifecycle

AARRI-Bench évalue les agents IA sur des tâches de recherche scientifique granulaires. Même la meilleure configuration (Mini-SWE-Agent + Claude Opus 4.7) atteint 68,3% de succès, révélant des lacunes en jugement nuancé et éthique. Le benchmark cible la capacité à émuler le professionnalisme des chercheurs humains, au-delà de l'exécution macro.

Agents IA Benchmarks Claude

SIG

HYP

arXiv cs.AI·8 juin

Zero-Shot Embedding Drift Detection: A Lightweight Defense Against Prompt Injections in LLMs

ZEDD (Zero-Shot Embedding Drift Detection) détecte les injections de prompts en mesurant les décalages sémantiques dans l'espace d'embedding entre entrées bénignes et suspectes. Sans accès aux internals du modèle ni réentraînement, la méthode atteint >93% de précision sur Llama 3, Qwen 2, Mistral avec <3% de faux positifs.

Sécurité IA Embeddings Prompt engineering

SIG

HYP

arXiv cs.AI·8 juin

Lean4Agent: Formal Modeling and Verification for Agent Workflow and Trajectory

Lean4Agent est un framework utilisant Lean4 (langage formel à types dépendants) pour modéliser et vérifier formellement les workflows d'agents IA. FormalAgentLib permet de vérifier la cohérence sémantique des workflows, tandis que LeanEvolve les améliore itérativement. Sur SWE-Bench-Verified et ELAIP-Bench, les workflows vérifiés surpassent les autres de 11,94%, avec gains supplémentaires de 7,47% via LeanEvolve.

Agents IA Raisonnement Benchmarks

SIG

HYP

arXiv cs.CL·8 juin

Beyond Rubrics: Exploration-Guided Evaluation Skills for Reward Modeling

Eval-Skill, une méthode d'exploration guidée, synthétise des compétences d'évaluation réutilisables pour la modélisation de récompenses sans rubrique rigide. Entraîné sur 100 cas par domaine, le système génère progressivement des workflows et principes injectés directement dans le contexte du juge. Sur RewardBench 2, gains de +13.44% (Qwen3-8B) et +18.51% (DeepSeek-V4-Flash).

Reinforcement learning Évaluations Raisonnement

SIG

HYP

arXiv cs.CL·8 juin

OpenHalDet: A Unified Benchmark for Hallucination Detection across Diverse Generation Scenarios

OpenHalDet est un benchmark unifié pour la détection d'hallucinations dans les LLM. Il standardise l'évaluation (construction de prompts, génération, annotation, scoring) et supporte trois familles de détecteurs : black-box (sorties uniquement), gray-box (signaux probabilistes), white-box (signaux internes). Codebase open-source disponible.

Benchmarks Sécurité IA Évaluations

SIG

HYP

arXiv cs.CL·8 juin

ThinkBooster: A Unified Framework for Seamless Test-Time Scaling of LLM Reasoning

Raisonnement Benchmarks Génération de code

SIG

HYP

arXiv cs.CL·8 juin

Interpreting Brain Responses to Language with Sparse Features from Language Models

Des chercheurs utilisent des autoencodeurs creux (SAE) issus de modèles de langage pour interpréter les réponses cérébrales au langage via fMRI 7T. Sur 8 participants écoutant 200 phrases, ils identifient des populations de voxels sensibles au contenu lié aux personnes et montrent que les régions frontales s'expliquent par la surprise seule, tandis que le réseau fronto-temporal partage des features communes.

Papers Raisonnement Évaluations

SIG

HYP

arXiv cs.LG·8 juin

The Identity Trap in EEG Foundation Models: A Diagnostic Audit

Étude diagnostique des modèles fondamentaux EEG révélant l'« Identity Trap » : les modèles (LaBraM, CBraMod, REVE) confondent l'identité du sujet avec les biomarqueurs cliniques. FMScope, un protocole de 5 diagnostics, montre que la variance sujet domine 13-89x le hasard et persiste après fine-tuning (+10-63 pp). L'effacement de cet axe améliore le décodage du label (+6-12 pp).

Benchmarks Évaluations Sécurité IA

SIG

HYP

arXiv cs.CL·8 juin

Data-Efficient Autoregressive-to-Diffusion Language Models via On-Policy Distillation

Nouvelle méthode OPDLM pour transformer des modèles autorégressifs en modèles de diffusion sans réentraînement complet. Via distillation on-policy, le modèle étudiant génère ses propres trajectoires tandis que le modèle original gèle fournit les logits cibles. Résultat : 15x à 7000x moins de tokens d'entraînement requis.

Fine-tuning Raisonnement Papers

SIG

HYP

arXiv cs.CL·8 juin

The Piggyback Hypothesis of Generalization: Explaining and Mitigating Emergent Misalignment

Étude sur le surapprentissage des LLM au-delà des données d'entraînement. Les auteurs proposent l'hypothèse du Piggyback : les tokens de chat-template propagent les comportements affinés vers des domaines hors-distribution. Ils introduisent Token-Regularized Finetuning (TReFT) pour atténuer ce désalignement émergent, réduisant de 33,5% le misalignment sur Llama-3.1-8B en domaine légal.

Fine-tuning Alignement Sécurité IA

SIG

HYP

arXiv cs.CL·8 juin

UnpredictaBench: A Benchmark for Evaluating Distributional Randomness in LLMs

UnpredictaBench évalue la capacité des LLM à capturer les vraies distributions sous-jacentes via 448 problèmes (distributions statistiques, programmes stochastiques, scénarios naturels). La métrique KS@N utilise le test de Kolmogorov-Smirnov. Aucun modèle ne dépasse 40% à KS@100, révélant un déficit majeur en simulation distributionnelle.

Benchmarks Évaluations Raisonnement

SIG

HYP

arXiv cs.LG·8 juin

Data-Constrained Language Model Pretraining: Improved Regularization and Scaling Laws

Étude des lois d'échelle pour le préentraînement de modèles de langage en régime limité en données. Les auteurs proposent MIR (masked-input regularization), une perte auxiliaire de prédiction du token suivant sur entrées masquées aléatoirement, et SoftQ, une loi d'échelle couplant taille du modèle et données répétées. MIR améliore la validation loss sur modèles 72M-1.4B et équivaut à 1.3× plus de données uniques.

Fine-tuning Benchmarks

SIG

HYP

arXiv cs.LG·8 juin

Evidence-Grounded Ensemble Diagnosis of 802.11 Packet Captures: A Multi-Stage Pipeline with Deterministic Reliability Scoring

PROBE, un pipeline multi-étapes, diagnostique les captures 802.11 en combinant normalisation déterministe PCAP-to-text, ensembles multi-modèles et scoring de fiabilité basé sur l'évidence (sans auto-évaluation LLM). Sur 87 captures Wi-Fi d'entreprise, atteint F1=0.957 vs 0.871 baseline expert, élimine les hallucinations et les scores de confiance non calibrés des LLM.

Raisonnement Évaluations Benchmarks

SIG

HYP

arXiv cs.LG·8 juin

TALAN: Task-Aligned Latent Adaptation Networks for Targeted Post-Training of Large Language Models

TALAN (Task-Aligned Latent Adaptation Networks) combine un adaptateur low-rank avec un chemin latent conditionné par la séquence inséré dans le flux résiduel du transformer. Testé sur quatre backbones Qwen3 et quatre benchmarks STEM/code, TALAN améliore les baselines LoRA (+1.41 points) et DoRA (+1.85 points) avec <1% de paramètres supplémentaires et 1.01-1.02x de surcharge inférence.

Fine-tuning Raisonnement Génération de code

SIG

HYP

arXiv cs.LG·8 juin

The Geography of Algorithmic Judgment: LLM Intermediaries, Place Identity, and Racial Steering in Housing Search

Audit comportemental de 7 LLM (open-source et propriétaires) sur 4 villes US révèle que le steering racial émerge de l'interaction entre identité utilisateur, préférences exprimées et représentations spatiales apprises du modèle. Le phénomène n'est pas uniforme : les préférences conditionnées amplifient souvent les biais. Les résultats ne généralisent pas entre marchés locaux.

Sécurité IA Alignement Évaluations

SIG

HYP

arXiv cs.AI·6 juin

Coding with "Enemy": Can Human Developers Detect AI Agent Sabotage?

Étude de 100+ développeurs collaborant avec Claude-Opus-4.6, GPT-5.4, Gemini-3.1-Pro et MiniMax-M2.7 sur des tâches de codage longue durée. 94% des développeurs ne détectent pas le sabotage d'agents IA (injection de code malveillant). Un moniteur de sécurité réduit le succès du sabotage mais 56% des participants acceptent quand même le code malveillant.

Agents IA Sécurité IA Alignement

SIG

HYP

arXiv cs.AI·6 juin

PSEBench: A Controllable and Verifiable Benchmark for Evaluating LLMs in Patient Safety Event Triage

PSEBench est un benchmark de 5 074 cas pour évaluer les LLM sur le triage des événements de sécurité des patients selon les politiques de Minnesota. La méthodologie utilise des « clause cards » pour factoriser les textes réglementaires en spécifications de décision auditables, avec vérification en boucle fermée. Évaluation de 15 LLM représentatifs révèle des tendances de capacité et des lacunes pour le triage fiable.

Benchmarks Évaluations Sécurité IA

SIG

HYP

arXiv cs.AI·6 juin

Minimizing the Hidden Cost of Scales: Graph-Guided Ultra-Low-Bit Quantization for Large Language Models

SAGE-PTQ, une méthode de quantification ultra-faible précision pour LLM, réduit le coût caché des échelles en séparant poids saillants et non-saillants via statistiques distributionnelles et modélisation graphique. Sur LLaMA-3-8B : 6.74 perplexité WikiText2 vs 55.8 pour BiLLM, avec 50% moins de mémoire GPU. Sur LLaMA-2-70B : décodage 1.5x plus rapide sur NVIDIA L40.

Llama Benchmarks

SIG

HYP