Page 12 sur 192

ToutHaut signalRécent

7679 articles

DiffusionGemma

Google publie DiffusionGemma-26B, un modèle Gemma open-weight (Apache 2) basé sur sa recherche Gemini Diffusion de mai 2024. Le modèle génère du texte à 500+ tokens/seconde. NVIDIA l'héberge gratuitement via NIM cloud API.

Gemini Open source Génération de code

SIG

HYP

Reddit r/LocalLLaMA·10 juin

DeepMind Just Dropped "DiffusionGemma" — Text Generation via Image-Style Diffusion Model

DeepMind publie DiffusionGemma, modèle 26B MoE (3.8B actifs) sous Apache 2.0. Au lieu de générer token par token, il utilise la diffusion pour raffiner 256 tokens simultanément. Atteint 1000+ tokens/s sur H100, 700+ sur RTX 5090. Intégration native vLLM, Unsloth, HF Transformers.

DeepMind Génération de code Open source

SIG

HYP

The Decoder·10 juin

Claude Fable 5: The first Mythos model is powerful, expensive, and heavily filtered

Anthropic lance Claude Fable 5, premier modèle de la classe Mythos. Il domine les benchmarks (SWE-bench Verified 95%), mais coûte 2× plus cher qu'Opus 4.8 (10-50$/M tokens). Filtres de sécurité stricts bloquent 9% des requêtes; rétention données 30j obligatoire.

Claude Benchmarks Sécurité IA

SIG

HYP

Reddit r/LocalLLaMA·10 juin

1-bit and 1.58 bit LLM Benchmarking on Jetson Orin Nano Super | Bonsai LM

Benchmark détaillé des modèles Bonsai LM (1-bit et 1.58-bit, 1.7B–8B) sur Jetson Orin Nano Super ($250) avec llama.cpp CUDA. Résultats clés : 25W est optimal pour modèles ≤4B (47–48% plus rapide qu'en 15W), pas de throttling thermique observé, Bonsai-1.7B Q1_0 atteint 5.84 tok/J en 237 MB disque avec 26 tok/s.

Open source Benchmarks Infrastructure

SIG

HYP

arXiv cs.CL·10 juin

Using Probabilistic Programs to Train Inductive Reasoning in Large Language Models

Nouvelle méthode Program-based Posterior Training (PPT) pour entraîner les LLM à l'inférence inductive. Utilise des programmes probabilistes générés par LLM pour créer 10 000 scénarios d'entraînement avec étiquettes distribuées. Améliore significativement la précision, l'alignement humain et la calibration sans dépendre du temperature scaling.

Raisonnement Fine-tuning Papers

SIG

HYP

arXiv cs.CL·10 juin

Do Vision-Language Models See or Guess? Measuring and Reducing Textual-Prior Reliance with a Phrasing-Controlled Benchmark

Étude arXiv mesurant la dépendance des VLMs aux priors textuels plutôt qu'au contenu visuel. Benchmark de 540 images avec 4 variantes de questions par image. 11 modèles testés : tous dégradent sur la variante la plus difficile, les modèles open-source chutent le plus. Ablation sans image réduit les modèles open à 1-9% de performance. GRPO post-training améliore la dépendance à l'image.

Vision Évaluations Benchmarks

SIG

HYP

arXiv cs.CL·10 juin

MIRAGE: A Polarity-Flipping Encoding Subspace in LLM Agents

Des chercheurs découvrent un sous-espace de codage partagé dans le flux résiduel des LLM permettant de détecter quand les agents encodent secrètement des données sensibles (Base64, ROT13, etc.). MIRAGE, un moniteur temps réel exploitant deux signaux mécanistiques, atteint AUC=0.918 sur 126 scénarios d'exfiltration, surpassant largement la détection en sortie (AUC=0.518).

Sécurité IA Alignement Raisonnement

SIG

HYP

arXiv cs.CL·10 juin

Prefilling-dLLM: Predictive Prefilling for Long-Context Inference in Diffusion Language Models

Prefilling-dLLM optimise l'inférence des modèles de langage par diffusion en partitionnant le contexte en chunks, cachant leurs représentations KV et sélectionnant les chunks pertinents avec sparsité intra-chunk. Atteint 9.1–28.0x speedup sur contextes 8K–32K sans réencodage complet du préfixe.

Raisonnement Benchmarks Infrastructure

SIG

HYP

arXiv cs.LG·10 juin

Two to Tango: Coupled Task-Reference Selection for Safe LLM Fine-tuning

DualSelect, une méthode de fine-tuning pour LLMs, sélectionne conjointement des exemples de sécurité et des tâches compatibles pour préserver l'alignement de sécurité lors de l'adaptation. Testé sur des modèles 1B-8B, elle améliore Safety Avg. de 5.10 points minimum par rapport aux baselines tout en conservant l'utilité des tâches.

Fine-tuning Sécurité IA Alignement

SIG

HYP

arXiv cs.AI·10 juin

Self-Distillation Policy Optimization via Visual Feedback: Bridging Code and Visual Artifacts

Visual-SDPO, un framework d'auto-distillation par retour visuel, améliore la génération de code pour artefacts visuels (graphiques, pages web, slides). La méthode trace les défauts visuels détectés jusqu'aux instructions de code responsables et amplifie le signal de distillation. Sur ChartMimic, Design2Code et AeSlides, elle gagne +10 points absolus vs zéro-shot et +2.4 vs GRPO.

Génération de code Vision Reinforcement learning

SIG

HYP

arXiv cs.AI·10 juin

STAGE-Claw: Automated State-based Agent Benchmarking for Realistic Scenarios

STAGE-Claw est un framework automatisé pour créer et évaluer des agents IA dans des scénarios réalistes. Il génère automatiquement des tâches, environnements et métriques basées sur l'état du système. Benchmark de 40 tâches évalue 11 modèles frontier sur fiabilité des appels outils et patterns d'erreur.

Agents IA Benchmarks Évaluations

SIG

HYP

arXiv cs.AI·10 juin

RealMath-Eval: Why SOTA Judges Struggle with Real Human Reasoning

RealMath-Eval, un benchmark de 224 réponses d'examen réelles, révèle que les juges LLM état-de-l'art échouent à évaluer le raisonnement humain authentique (MSE ~2.96 vs ~1.17 sur solutions synthétiques). L'analyse montre que les erreurs humaines forment un espace d'erreurs plus diversifié que les erreurs synthétiques, avec une surprisal informationnelle plus élevée.

Évaluations Benchmarks Raisonnement

SIG

HYP

arXiv cs.AI·10 juin

One Token per Multimodal Evidence: Latent Memory for Resource-Constrained QA

Latent Memory remplace chaque élément de mémoire (texte/image) par un unique token latent compressé, réduisant la consommation de tokens du générateur de 3-10x. Entraîné avec objectifs de reconstruction, contrastif et distillation, le système atteint des performances compétitives sur HotpotQA et benchmarks multimodaux tout en diminuant la pression mémoire.

RAG Embeddings Vision

SIG

HYP

arXiv cs.CL·10 juin

LakeQA: An Exploratory QA Benchmark over a Million-Scale Data Lake

LakeQA est un benchmark QA sur 9,5 TB de données hétérogènes (Wikipedia + données gouvernementales) nécessitant recherche et raisonnement multi-hop. GPT-4.5 atteint 18,37% en exact-match. Évalue la capacité des agents LLM à découvrir et analyser des documents dans des data lakes massives.

Benchmarks Raisonnement RAG

SIG

HYP

arXiv cs.LG·10 juin

Co-GLANCE: Uncertainty-Aware Active Perception for Heterogeneous Robot Teaming

Co-GLANCE est un système de perception embarqué temps réel pour équipes de robots hétérogènes. Il distille les capacités sémantiques des modèles vision-langage en un modèle end-to-end pour la segmentation d'occlusions et l'allocation de robots, avec garanties statistiques via prédiction conforme. Améliore la précision de 25-36% vs baselines cloud tout en réduisant la latence 350x.

Vision Robotique Raisonnement

SIG

HYP

arXiv cs.AI·10 juin

Less Context, Better Agents: Efficient Context Engineering for Long-Horizon Tool-Using LLM Agents

Étude sur l'optimisation du contexte pour agents LLM autonomes en workflows d'entreprise. Test de 4 configurations GPT-5 sur 50 tâches de catégorisation de dépenses (Microsoft Dynamics 365). Pruning du contexte aux 5 derniers appels outils + summarization atteint 91,6% de complétude avec 553k tokens (vs 1,48M en contexte complet), réduisant le runtime de 14,56h à 5,79h.

GPT Agents IA MCP

SIG

HYP

arXiv cs.LG·10 juin

Conformal Risk Prediction for Non-Alcoholic Fatty Liver Disease Using Gradient Boosting with Distribution-Free Coverages

Framework ML couplant gradient boosting et prédiction conforme pour le risque de NAFLD. Évalué sur 2,599 patients (Guangzhou), atteint AUROC 0.912 en interne et 0.891 en validation externe. Couverture conforme 91.3% à niveau nominal 90%. Stratification 3-niveaux : groupe haut-risque montre taux progression 4.7× supérieur au groupe bas-risque.

Benchmarks Évaluations Sécurité IA

SIG

HYP

arXiv cs.LG·10 juin

TENP: Trapezoidal Expert Neuron Pruning For Mixture-of-Experts

TENP propose un cadre de pruning structuré pour les modèles MoE (Mixture-of-Experts). La méthode identifie les experts importants et applique un pruning au niveau des neurones aux experts moins importants, avec un pattern trapézoïdal. Sur DeepSeek avec 40% sparsité de routage et 63.76% de paramètres activés, la perte de précision est limitée à 1 point, avec +10% sur la génération de code.

DeepSeek Qwen Benchmarks

SIG

HYP

arXiv cs.LG·10 juin

SHAPE: Coalition-Aware Expert Pruning for Sparse Mixture-of-Experts LLMs

SHAPE est une méthode de pruning pour modèles MoE sparse qui évalue les experts via des coalitions observées plutôt qu'individuellement. Utilisant l'attribution Shapley sur les top-k routages, elle identifie les experts essentiels aux collaborations. Testée sur Qwen3-30B-A3B, GPT-OSS-20B et DeepSeek-V2-Lite, SHAPE maintient la précision avec 20-40% de pruning sans réentraînement et réduit la mémoire GPU.

Open source Benchmarks Infrastructure

SIG

HYP

arXiv cs.CL·10 juin

BenSyc: Benchmarking Conversational Sycophancy and Human Alignment in LLMs for Bengali Contexts

BenSyc est le premier benchmark pour évaluer la sycophantie conversationnelle dans les contextes sociaux bengalis. Construit à partir de 170k commentaires Reddit, il teste 15+ LLMs sur la classification d'alignement et la génération de réponses. Les meilleurs modèles atteignent seulement 61,8% Macro-F1 en détection binaire, révélant des difficultés à distinguer le soutien empathique de la validation excessive.

Benchmarks Alignement Sécurité IA

SIG

HYP

arXiv cs.LG·10 juin

TRAPS: Therapeutic Response Analysis via Pathway-informed Stratification

Benchmark unifié pour la prédiction de réponse thérapeutique au cancer utilisant des architectures de deep learning informées par les voies biologiques (BINN, GraphPath, PATH). Évaluation sur 2,622 patients du Cancer Genome Atlas pour trois tâches cliniques : thérapie moléculaire ciblée, radiothérapie et survie à 6 mois. GraphPath atteint AUROC 0.92 en prédiction de thérapie ciblée prostatique.

Benchmarks Papers Raisonnement

SIG

HYP

arXiv cs.CL·10 juin

UniSVQ: 2-bit Unified Scalar-Vector Quantization

UniSVQ propose une quantification unifiée 2-bit pour LLM combinant avantages de la quantification scalaire et vectorielle via transformation affine de réseaux entiers. Stratégie de fine-tuning par bloc minimise l'erreur de reconstruction. Expériences sur plusieurs familles LLM montrent surperformance vs méthodes SQ et parité avec VQ avancées, avec meilleur débit inférence.

SIG

HYP

arXiv cs.CL·10 juin

LC-QAT: Data-Efficient 2-Bit QAT for LLMs via Linear-Constrained Vector Quantization

LC-QAT propose une méthode de quantification 2-bit pour LLMs combinant vector quantization et optimisation différentiable. Le framework utilise un mappage affine appris sur des vecteurs discrets, éliminant le lookup de codebook explicite. Résultats : surpasse les méthodes QAT existantes avec seulement 0.1%-10% des données d'entraînement.

Fine-tuning Benchmarks Papers

SIG

HYP

arXiv cs.LG·10 juin

Mix, Don't Pick: Why Synthetic Corpus Composition Matters for Time Series Foundation Model Pretraining

Étude sur la composition de corpus synthétiques pour le préentraînement de modèles fondamentaux de séries temporelles. Un mélange équipondéré de 11 familles de générateurs surpasse les meilleurs générateurs individuels sur Chronos-T5-Mini et Moirai-Small, réduisant l'écart d'erreur de prévision jusqu'à 2×. Le classement des générateurs varie selon l'architecture.

Benchmarks Papers Fine-tuning

SIG

HYP

arXiv cs.LG·10 juin

Time Series as Language: A Universal Tokenizer for General-Purpose Time Series Foundation Models

UniTok est un tokeniseur universel qui convertit les séries temporelles continues en tokens discrets. UniTok-FM, un modèle fondation préentraîné via prédiction du prochain token, supporte prévisions zéro-shot, génération et classification par inférence en contexte sans entraînement supplémentaire.

Raisonnement Benchmarks Papers

SIG

HYP

arXiv cs.CL·10 juin

WebChallenger: A Reliable and Efficient Generalist Web Agent

WebChallenger est un agent web autonome qui utilise PageMem, une représentation structurée du DOM, pour naviguer efficacement sans modèles propriétaires coûteux. Le système combine attention sélective, mémoire persistante et workflows d'actions composées. Résultats : 56,3% sur WebArena, 48,7% sur VisualWebArena, 51,0% sur Online-Mind2Web, 70,9% sur WorkArena.

Agents IA Benchmarks Open source

SIG

HYP

arXiv cs.LG·10 juin

From Confident Closing to Silent Failure: Characterizing False Success in LLM Agents

Étude de la « fausse réussite » chez les agents LLM : ils déclarent la tâche complétée alors que l'état de l'environnement contredit cela. Analyse de 9,876 trajectoires tau2-bench et 1,879 AppWorld. Les juges LLM échouent (AUROC max 0.65 sur tau2-bench, 0.54 sur AppWorld), tandis que des détecteurs TF-IDF légers atteignent 0.83–0.95 AUROC avec 3,300x moins de latence.

Agents IA Évaluations Sécurité IA

SIG

HYP

Reddit r/LocalLLaMA·10 juin

Fine-tuned Qwen2.5-7B to 96% of Claude Haiku on a domain-specific task using ~$3 of API calls and zero human labelers

Fine-tuning de Qwen2.5-7B atteint 96% des performances de Claude Haiku sur une tâche spécialisée (moteur de décision) avec ~$3 d'appels API et zéro annotateurs humains. Méthode DV-DPO : conseil à 3 voix + contre-examen adversarial génère 1 040 paires d'entraînement. Latence 11s vs 3s (T4 4-bit). Boucle autonome en production avec détection d'erreurs et red-teaming automatique.

Qwen Fine-tuning Reinforcement learning

SIG

HYP

arXiv cs.AI·9 juin

Stress-testing medical large language models reveals latent safety pathology beyond benchmark accuracy

AI-MASLD, un framework d'audit de stress, évalue 7 LLMs médicaux sur 240 cas cliniques avec perturbations narratives. Tous performent bien en baseline, mais divergent sous stress réaliste. Les modèles quantifiés masquent l'effondrement fonctionnel ; le fine-tuning médical dégrade stabilité logique et équité. Un modèle open-weight égale les alternatives propriétaires sur tous les critères de sécurité.

Benchmarks Sécurité IA Évaluations

SIG

HYP

arXiv cs.AI·9 juin

When Does Delegation Beat Majority? A Delegation-Based Aggregator for Multi-Sample LLM Inference

PPV (Propagational Proxy Voting) surpasse le vote majoritaire sur MMLU-Pro (+1.5 pp, +2.24 pp sur sous-ensemble non-trivial, p~1.0e-14). Cette agrégation non-supervisée exploite l'entropie des lettres et la géométrie du raisonnement pour pondérer 128 générations partitionnées en 16 groupes, sans labels ni entraînement auxiliaire.

Benchmarks Raisonnement Évaluations

SIG

HYP

arXiv cs.CL·9 juin

ThinkBooster: A Unified Framework for Seamless Test-Time Scaling of LLM Reasoning

ThinkBooster est un framework unifié pour le scaling du calcul au test-time (TTC) des modèles de raisonnement. Il intègre une librairie Python modulaire, un benchmark évaluant performance et efficacité computationnelle, et un service proxy compatible OpenAI. Résultats sur tâches mathématiques et de codage montrent les trade-offs performance-coût des stratégies TTC.

Raisonnement Benchmarks Génération de code

SIG

HYP

arXiv cs.AI·9 juin

Overcoming the Regulatory Bottleneck via Agent-to-Agent Protocols: A Nuclear Case Study

Un protocole de communication agent-à-agent (RCP) automatise les échanges entre régulateurs et demandeurs dans l'examen des réacteurs nucléaires avancés. Testé sur 1 236 documents de la NRC, il réduit les coûts de 50-77% (21-44M USD vs 89M USD) et les délais de 65% (15 mois vs 42 mois). Applicable à d'autres secteurs réglementés, les économies potentielles atteindraient 210-330 milliards USD/an.

Agents IA Multi-agents MCP

SIG

HYP

arXiv cs.AI·9 juin

Land cover and flood type govern the detection limits of satellite-based flood mapping across diverse global flood events

Prithvi-EO-2.0, un modèle géospatial fondationnel, testé sur 19 événements de crue (2017-2025) à travers 6 continents. Précision variable selon le type de couverture terrestre : cultures 52% IoU, zones arborées 4%. Détection riveraine forte (F1=0.69). 23 modes de défaillance identifiés, l'ingénierie du pipeline domine les erreurs initiales.

Vision Benchmarks Papers

SIG

HYP

arXiv cs.LG·9 juin

Enabling KV Caching of Shared Prefix for Diffusion Language Models

Les modèles de diffusion de langage (DLMs) utilisent l'attention bidirectionnelle, ce qui invalide les techniques de cache KV classiques pour les préfixes partagés. Les chercheurs proposent bicache, une méthode qui identifie dynamiquement la profondeur de couche sûre pour réutiliser les KVs des préfixes partagés. Résultat : 36–98% d'amélioration du débit sans effondrement d'accuracy.

Raisonnement Benchmarks Infrastructure

SIG

HYP

arXiv cs.LG·9 juin

UNIQ: Conformal Calibration for Adaptive Conservatism in Offline Reinforcement Learning

UNIQ introduit une calibration conforme pour adapter la conservatisme dans l'apprentissage par renforcement hors ligne. Basé sur IQL, la méthode utilise un ensemble multi-expectile et la prédiction conforme pour estimer l'incertitude sans distribution, ajustant dynamiquement la pénalité selon la couverture locale des données. Sur D4RL MuJoCo, UNIQ surpasse IQL avec 10× moins de mémoire qu'EDAC.

Reinforcement learning Papers Benchmarks

SIG

HYP

arXiv cs.LG·9 juin

Repetition Mismatch: Why Data Mixture Experiments Don't Scale and How to Fix Them

Les expériences de mélange de données pré-entraînement échouent souvent lors du passage à l'échelle car le taux de répétition des données de haute qualité change avec le budget de tokens. Une procédure de sous-échantillonnage contrôlant la répétition permet de récupérer le mélange optimal avec 1/16 des tokens cibles (757M paramètres), réduisant l'erreur de 0.75 à 0.05.

Benchmarks Papers

SIG

HYP

arXiv cs.LG·9 juin

The Routing Plateau: Understanding and Breaking the Accuracy Limits of LLM Routers

Étude de 21 méthodes de routage LLM sur 5 benchmarks révélant un plateau d'accuracy : la plupart convergent vers une performance similaire loin de l'oracle. Le goulot d'étranglement provient d'une prédictibilité insuffisante — les routeurs apprennent des tendances globales plutôt que des signaux spécifiques par requête. Datasets plus larges, encodeurs plus forts et fine-tuning bout-à-bout améliorent les résultats.

Agents IA Benchmarks Évaluations

SIG

HYP

arXiv cs.LG·9 juin

Reachability and asymptotics of Gaussian Transformer dynamics

Étude théorique formalisent la propagation de données dans les Transformers comme système de contrôle non-linéaire. Pour le modèle mean-field avec self-attention et couches feed-forward affines, les distributions gaussiennes restent gaussiennes. Cela réduit la dynamique à un système de contrôle bilinéaire fini gouvernant moyenne et covariance, reliant l'expressivité des Transformers à des équations de Riccati.

Papers Raisonnement Benchmarks

SIG

HYP

arXiv cs.AI·9 juin

A Multi-modal Agentic Co-pilot for Evidence Grounded Computational Pathology

PathPocket est un co-pilote IA multimodal pour la pathologie fondée sur des preuves. Le système intègre un corpus de 110 472 documents médicaux et un hypergraphe de 4,55 millions d'entités pour fournir des diagnostics traçables. Évalué sur 200 000 cas réels, il surpasse les approches existantes et améliore la précision diagnostique des pathologistes.

Agents IA Multi-agents Vision

SIG

HYP

arXiv cs.AI·9 juin

PACE: Anytime-Valid Acceptance Tests for Self-Evolving Agents

PACE est une méthode d'acceptation anytime-valid pour les agents auto-évolutifs. Elle remplace la règle naïve « garder si le score augmente » par un test d'hypothèse séquentiel basé sur le betting e-process. Sur Qwen2.5 (0.5B-3B) sur GSM8K/SVAMP/ARC-Challenge, PACE réduit les faux commits de 30-42% à quasi-zéro et baisse les coûts d'évaluation de 18%.

Agents IA Prompt engineering Évaluations

SIG

HYP