Page 80 sur 192

ToutHaut signalRécent

7679 articles

Benchmarking Machine Learning Uncertainty Quantification Methodologies for Predicting Turbine Gas Temperature Degradation

Comparaison de 5 méthodes de quantification d'incertitude (Delta, Bayesian Monte Carlo Dropout, Bootstrap, LUBE, MVE) pour prédire la dégradation de température de turbine. Évaluation sur dataset réel avec métriques de couverture et largeur d'intervalle. Trade-offs identifiés entre précision et fiabilité.

Benchmarks Évaluations Raisonnement

SIG

HYP

arXiv cs.AI·1 juin

Diagnosing Failure Modes of Shared-State Collaboration in Resource-Constrained Visual Agents

CoSee, un framework d'audit, analyse les défaillances de systèmes de raisonnement visuel modulaires utilisant une mémoire partagée. Sur des modèles 4B–8B, deux modes de défaillance dominent : Noise Reinforcement (réutilisation de notes non fondées) et Policy Collapse (réponses sous-spécifiées). L'étude montre que les espaces de travail partagés naïfs amplifient les hallucinations sans vérification explicite.

Vision Agents IA Multi-agents

SIG

HYP

arXiv cs.LG·1 juin

Early Prediction of Future Behavioral Strategy from Process Traces

Modèle de variable latente au niveau processus (PLVM) pour prédire les stratégies comportementales futures à partir de traces partielles inter-tâches. Testé sur PowerWash Simulator : fusion de traces de deux tâches de nettoyage prédit si un joueur adoptera une stratégie « Zone Planner » ou « Zone Hopper » sur un niveau inédit. Utile pour systèmes adaptatifs (tuteurs, jeux, IA collaborative).

Reinforcement learning Évaluations Agents IA

SIG

HYP

arXiv cs.AI·1 juin

When LLM Reward Design Fails: Diagnostic-Driven Refinement for Sparse Structured RL

Étude arXiv sur l'affinage itératif des fonctions de récompense générées par LLM pour RL sparse structuré. Les auteurs identifient deux modes de défaillance dominants (reward flooding, incompréhension sémantique) et proposent un raffinement diagnostique guidé par taxonomie. Résultats : DoorKey-8x8 passe de 2,3% à 97,6%, KeyCorridor de 31,2% à 86,7%. Limites : méthode restreinte à PPO et tâches sparse structurées.

Reinforcement learning Llama Prompt engineering

SIG

HYP

arXiv cs.AI·1 juin

Gradient-Free Training of Spiking Neural Networks via Low-Rank Evolution Strategies

EGGROLL, une factorisation bas-rang des perturbations en Evolution Strategies, réduit la complexité mémoire de O(mn) à O(r(m+n)) pour l'entraînement sans gradient des réseaux de neurones impulsionnels. Sur N-MNIST, la méthode atteint 79,21% de précision avec 2,23× d'accélération par rapport aux ES plein-rang, compatible avec l'apprentissage sur matériel neuromorphe.

Papers Benchmarks Reinforcement learning

SIG

HYP

arXiv cs.LG·1 juin

Gait2Hip-60: A Unified Deep Learning Benchmark for Predicting Hip Muscle Forces and Joint Moments from Multi-Cadence Gait Kinematics

Benchmark unifié Gait2Hip-60 comparant LSTM, Transformer et Mamba pour prédire les forces musculaires et moments articulaires de la hanche à partir de la cinématique de marche. Transformer surpasse les autres modèles (R²=0.819 pour les forces, R²=0.862 pour les moments). Validation externe sur 9 patients atteints de nécrose fémorale montre une généralisation modérée (R²=0.537-0.569).

Benchmarks Raisonnement

SIG

HYP

arXiv cs.AI·1 juin

XOResNet: Exclusive-OR Meta-Residuals Facilitate Deep Spiking Neural Networks Learning

XOResNet introduit des connexions de raccourci OR-ADD et des méta-résidus XOR pour améliorer l'apprentissage dans les réseaux de neurones impulsionnels profonds. Testé sur Fashion-MNIST, CIFAR-10, CIFAR-100 et miniImageNet, le modèle surpasse les SNNs existants en réduisant la redondance des pics et la perte d'information.

Papers Benchmarks Raisonnement

SIG

HYP

arXiv cs.LG·1 juin

A Unified Framework for Gradient Aggregation in Multi-Objective Optimization

Framework unifié pour l'agrégation de gradients en optimisation multi-objectif. Les auteurs établissent des taux de convergence vers la stationnarité de Pareto via une condition d'alignement suffisant et montrent que les directions non-conflictuelles dans l'enveloppe convexe des gradients garantissent la convergence. Ils introduisent capped MGDA basé sur CVaR et valident sur benchmarks.

Reinforcement learning Papers Benchmarks

SIG

HYP

arXiv cs.LG·1 juin

Calibrated Preference Learning: The Case of Label Ranking

Étude formelle de la calibration pour le label ranking probabiliste. Les auteurs définissent une hiérarchie de notions (full rankings, sub-rankings, top-k) et montrent que les modèles populaires sont mal calibrés. Application aux reward models RLHF révèle que calibration et accuracy ne sont pas parfaitement corrélées.

Reinforcement learning Évaluations Benchmarks

SIG

HYP

arXiv cs.LG·1 juin

Bounded Behavioral Indistinguishability for Black-Box LLM Distillation

Étude de la distillation de LLM en boîte noire via la notion de « bounded behavioral indistinguishability ». Les auteurs évaluent des paires Qwen et Llama avec une suite de 5 000 prompts, montrant que LoRA améliore la similarité sémantique (0.788→0.862 pour Qwen, 0.814→0.874 pour Llama) mais laisse subsister des différences comportementales détectables par adversaires.

Fine-tuning Évaluations Sécurité IA

SIG

HYP

arXiv cs.LG·1 juin

idSCD: Identifying Training Datasets through Semantic Correlation Descriptors

Nouvelle méthode pour identifier si un dataset a servi à l'entraînement d'un modèle via ses corrélations sémantiques internes (SCDs). Approche white-box qui surpasse les baselines black-box (RMIA, LiRA) avec gains jusqu'à 60% en ROC-AUC sur classification NLI, émotions et textes médicaux.

Papers Sécurité IA Évaluations

SIG

HYP

arXiv cs.AI·1 juin

Healthcare Mechanisms from Policy-as-Code Search under Strategic Provider Response

Des chercheurs reformulent la conception de mécanismes de santé comme synthèse de programmes pour LLM. Medi-Sim, un simulateur multi-agent, évalue les règles face aux réponses stratégiques des prestataires (codage, sélection, délai, effort, triage). Une recherche évolutionnaire guidée par LLM synthétise un programme mixte qui élimine le sur-codage, réduit les rejets de 50% et préserve la rentabilité.

Agents IA Multi-agents Génération de code

SIG

HYP

arXiv cs.LG·1 juin

Universal Multiclass Transductive Online Learning

Article théorique sur l'apprentissage transductif en ligne multiclasse avec espace de labels potentiellement non borné. Caractérisation de la learnability : deux taux optimaux possibles (borné ou logarithmique). Introduction de la structure LCLL tree et extension aux cas agnostique et stochastique.

Papers Évaluations

SIG

HYP

arXiv cs.LG·1 juin

Graph-Conditioned Mixture of Graph Neural Network Experts for Traffic Forecasting

GC-MoE est un framework mixture-of-experts graph-conditionné pour la prévision de trafic spatio-temporelle. Il assigne à chaque nœud une combinaison personnalisée d'experts GNN gelés basée sur la topologie du graphe et les données récentes. Entraîné sur PEMS04, PEMS07, METR-LA et PEMS-BAY, le modèle améliore MAE avec seulement ~17K paramètres entraînables sur 1.5M poids gelés.

Benchmarks Papers

SIG

HYP

arXiv cs.CL·1 juin

Efficient Diffusion LLMs via Temporal-Spatial Parallel Decoding and Confidence Extrapolation

Nouvelle méthode pour accélérer les modèles de langage basés sur diffusion (dLLMs). Temporal-Spatial Parallel Decoding (TSPD) et Confidence Extrapolation (CE) réduisent les itérations de débruitage inutiles en analysant les trajectoires token-wise et en prédisant les tendances futures sans entraînement supplémentaire.

Génération de code Raisonnement Papers

SIG

HYP

arXiv cs.CL·1 juin

Semantic Motion Anchors: Bridging Motion and Meaning in Co-Speech Gestures

Méthode pour aligner texte et gestes co-verbaux via des « ancres de mouvement sémantique » : discrétisation de gestes 3D en primitives, verbalisation structurée et supervision contrastive. Amélioration de 8,2% en R@1 sur BEAT2 ; les gestes récupérés sont sémantiquement pertinents plutôt que génériques.

Vision Benchmarks Papers

SIG

HYP

arXiv cs.LG·1 juin

Zeroth-Order Non-Log-Concave Sampling with Variance Reduction and Applications to Inverse Problems

Méthode de sampling zeroth-order avec réduction de variance pour distributions non-log-concave en boîte noire. Propose ZO-APMC pour problèmes inverses avec priors génératifs. Premières garanties de convergence non-asymptotique établies.

Papers Raisonnement Benchmarks

SIG

HYP

arXiv cs.LG·1 juin

Learning Transferable Predictability Representations

Méthode pour assigner des scores de prédictibilité cohérents à des trajectoires courtes sur un continuum déterministe-stochastique. GON (Gauge-Fixed Ordinal Network), réseau convolutif temporel, résout l'ambiguïté cross-système via une objective anchor-and-variance. Transfert validé sur 5 systèmes dynamiques avec meilleure performance que l'entraînement from-scratch.

Papers Raisonnement Benchmarks

SIG

HYP

arXiv cs.CL·1 juin

AI for Monitoring and Classifying Data Used in Research Literature

Méthode pour détecter et classifier l'usage de datasets dans la littérature scientifique via un framework GLiNER multitâche. Combine extraction de mentions, identification de relations et classification du contexte d'usage. Utilise données synthétiques et revalidation LLM pour pallier la rareté des labels.

Papers Benchmarks RAG

SIG

HYP

arXiv cs.CL·1 juin

Counterfactual Graph for Multi-Agent LLM Calibration

Les systèmes multi-agents LLM supposent que l'accord entre agents indique la fiabilité. Les auteurs montrent que la communication entre agents crée des défaillances corrélées et des faux consensus. Ils proposent CAGE-CAL, un cadre de calibration basé sur des graphes contrefactuels, qui compare les dépendances observées post-communication avec un scénario sans communication pour ajuster la confiance.

Multi-agents Agents IA Raisonnement

SIG

HYP

arXiv cs.AI·1 juin

COMPASS: Cognitive MCTS-Guided Process Alignment for Safe Search Agents

COMPASS est un framework d'alignement de sécurité pour agents de recherche LLM multi-étapes. Il combine l'exploration d'arbres cognitifs (CTE) pour synthétiser des trajectoires d'attaque et l'alignement introspectif (ISA) pour superviser les actions intermédiaires risquées. Résultats : meilleur compromis sécurité-utilité avec moins de données d'entraînement.

Agents IA Sécurité IA Alignement

SIG

HYP

arXiv cs.AI·1 juin

A Persona-Based Evaluation Framework for Pluralistic Alignment in Generative AI

Cadre d'évaluation basé sur des personas pour l'alignement pluraliste des IA génératives. Remplace les benchmarks monolithiques par une variété de profils cognitifs synthétiques représentant diverses perspectives humaines. Révèle une dégradation systématique de la cohérence des personas sous inférence séquentielle, suggérant le besoin de mécanismes de régulation dynamiques.

Alignement Évaluations Benchmarks

SIG

HYP

arXiv cs.AI·1 juin

HADT: A Heterogeneous Multi-Agent Differential Transformer for Autonomous Earth Observation Satellite Cluster

Nouvelle architecture transformer pour la gestion autonome des ressources dans des constellations satellites hétérogènes (optiques et SAR). Utilise le reinforcement learning sans modèle pour la prise de décision en temps réel lors de missions d'observation terrestre. Démontre améliorations significatives et transferabilité sur différentes tailles de constellations.

Multi-agents Reinforcement learning Raisonnement

SIG

HYP

arXiv cs.AI·1 juin

Vector Linking via Cross-Model Local Isometric Consistency

Méthode pour établir des correspondances entre vecteurs d'embeddings produits par différents encodeurs. Exploite la cohérence géométrique locale des encodeurs contrastifs entraînés indépendamment : les distances courtes sont préservées à un facteur d'échelle près. Utilise un hachage géométrique itératif basé sur des ancres appairées pour récupérer les liens vectoriels. Code disponible.

Embeddings Recherche vectorielle Benchmarks

SIG

HYP

arXiv cs.CL·1 juin

CobSeg: Coherence Boundary Modeling for Dialogue Topic Segmentation

CobSeg est une architecture multi-branche pour la segmentation de sujets en dialogue. Elle sépare la continuité sémantique des transitions lexicales et utilise un pondérage par informativeness des limites. Évaluée sur 5 benchmarks, elle réduit Pk de 0.7 points sur VHF et atteint Pk=1.0 sur DialSeg711, sans appels LLM à l'inférence.

Benchmarks Papers

SIG

HYP

arXiv cs.CL·1 juin

Human-Alignment, Calibration, and Activation Patterns in Large Language Model Uncertainty

Étude de l'alignement entre l'incertitude des LLM et celle humaine via analyse comportementale et des patterns d'activation internes. Les auteurs mesurent calibration et alignement sur datasets multi-choix et rappel factuel, évaluant l'impact du fine-tuning d'instruction.

Évaluations Alignement Sécurité IA

SIG

HYP

Reddit r/LocalLLaMA·1 juin

Built a fun weekend project: An MCP server for generating Mandelbrot visualizations

Développeur crée un serveur MCP pour explorer l'ensemble de Mandelbrot via LLM. Outils : rendu d'images, présets de régions intéressantes, inspection des paramètres, palettes de couleurs, générateur de galerie HTML. Testé avec Qwen 3.6-35B. Repo GitHub : openmandel.

MCP Qwen Outils

SIG

HYP

Simon Willison·31 mai

datasette 1.0a32

Datasette 1.0a32 corrige un bug avec les requêtes INSERT ... RETURNING via le nouvel endpoint /db/-/execute-write et plusieurs problèmes de base_url découverts lors d'expérimentations avec les Service Workers.

Outils Open source

SIG

HYP

Reddit r/LocalLLaMA·31 mai

Qwen3.6-35B vs Gemma4-26B on 7900 XTX

Benchmark sur Radeon 7900 XTX : Qwen3.6-35B vs Gemma4-26B avec reasoning activé. Qwen génère 2x plus de tokens (14,811 vs 7,386) mais Gemma est ~20% plus rapide en wall clock (95.6s vs 118.8s). MTP de Qwen atteint 130 tok/s vs 78 tok/s, mais le nombre de tokens devient le goulot. Qualité proche, splits intéressants par tâche.

Qwen Gemini Raisonnement

SIG

HYP

Reddit r/LocalLLaMA·31 mai

I built mlx-Chronos — a community benchmark leaderboard for local LLM engines on Apple Silicon (oMLX, Rapid-MLX, mlx-lm, Ollama)

mlx-Chronos est un outil CLI open-source et un leaderboard communautaire pour comparer les moteurs d'inférence MLX sur Apple Silicon (oMLX, Rapid-MLX, mlx-lm, Ollama). Il mesure TTFT, throughput, RAM et état thermique avec méthodologie standardisée. Leaderboard actuellement alimenté par un M2 8GB, cherche résultats M3/M4.

Open source Benchmarks Infrastructure

SIG

HYP

Reddit r/MachineLearning·31 mai

Built an AI Accelerator and opensourced it. [P]

Développeur open-source un accélérateur IA sur FPGA (AWS F2) basé sur RocketChip/RISC-V avec mécanisme d'attention intégré au silicium. Benchmarks : 225× speedup attention vanilla, 96× TinyBERT, 50× ViT, 30× GPT-2 prefill. Support BF16 natif.

Infrastructure Open source Benchmarks

SIG

HYP

The Decoder·31 mai

Ask AI what goes with chicken and the answer depends on whether it learned from recipes or molecules

Kaikaku.AI lance Epicure, trois modèles IA distinguant les ingrédients compatibles par recette ou chimie. Entraînés sur 4,14 millions de recettes multilingues et FlavorDB, ils recommandent différemment selon leur source. Le modèle chimique seul classe mieux goût et valeurs nutritionnelles sans données directes.

Fine-tuning Benchmarks Outils

SIG

HYP

Reddit r/LocalLLaMA·31 mai

Speed difference between Windows 11 and Linux with llama.cpp: a myth when using medium and large MoE models

Benchmark llama.cpp comparant Windows 11 et Linux (Ubuntu 26.04) sur GPU Nvidia (RTX 5080 + 2× RTX 5060 Ti). Aucune différence significative de performance : Qwen 3.5 122B atteint PP 300/TG 28 (Windows) vs PP 290/TG 28.5 (Linux) ; Qwen 3.5 397B : PP 140/TG 16 vs PP 150/TG 15.2. Tests répétés 4 fois avec llama.cpp récent incluant optimisation VRAM.

Llama Qwen Benchmarks

SIG

HYP

The Decoder·31 mai

Anthropic study finds men use AI coding agents more than twice as often as women in social science research

Une étude Anthropic révèle que les chercheurs aux noms typiquement masculins utilisent les agents de codage IA plus de deux fois plus souvent que ceux aux noms féminins, à discipline et niveau de carrière égaux. Les économistes en tête (39%), les chercheurs en éducation à 4%. L'écart de genre pour les agents de codage dépasse celui de l'IA générale.

Anthropic Agents IA Génération de code

SIG

HYP

Reddit r/MachineLearning·31 mai

I built mlx-Chronos — a community benchmark leaderboard for local LLM engines on Apple Silicon (oMLX, Rapid-MLX, mlx-lm, Ollama) [P]

mlx-Chronos est un outil CLI open-source et leaderboard communautaire pour benchmarker les moteurs d'inférence LLM locaux sur Apple Silicon (oMLX, Rapid-MLX, mlx-lm, Ollama). Mesure TTFT, throughput, RAM, et état thermique avec méthodologie standardisée. Actuellement peuplé uniquement par résultats M2 8GB.

Open source Benchmarks Infrastructure

SIG

HYP

The Decoder·31 mai

AI search agents often confirm what they already know instead of actually researching the web

Les agents de recherche IA comme GPT-5.4 et Kimi K2.6 confirment surtout leurs connaissances d'entraînement au lieu de vraiment explorer le web. Des chercheurs de l'Institut de technologie de Harbin ont démontré cela avec LiveBrowseComp, un benchmark basé sur des événements des 90 derniers jours. Sans accès à la mémoire d'entraînement, les performances s'effondrent.

Benchmarks Agents IA GPT

SIG

HYP

Reddit r/LocalLLaMA·30 mai

Cost Analysis of my $6.4k Local LLM Server

Analyse TCO d'un serveur LLM local de 6400$ équipé de 4x MI100 32GB et CPU EPYC 48-core. Exécute 4 instances llama.cpp avec Qwen 3.6 27B sur ROCm. Traite 20.4M tokens input et 1.32M tokens output/jour. Coût API équivalent: 3701$/an (308$/mois). L'auteur souligne l'importance de l'amortissement matériel pour un TCO réaliste.

Open source Infrastructure Llama

SIG

HYP

Simon Willison·30 mai

Running Python ASGI apps in the browser via Pyodide + a service worker

Simon Willison a utilisé Claude Opus 4.8 via Claude Code pour implémenter l'exécution d'applications Python ASGI dans le navigateur via Pyodide et Service Workers. Cette approche remplace la précédente basée sur Web Workers, permettant l'exécution de scripts JavaScript et corrigeant les limitations de Datasette Lite. Des démos fonctionnelles sont disponibles.

Claude Code Génération de code Outils

SIG

HYP

The Decoder·30 mai

Attackers abuse shared ChatGPT and Claude chats to spread malware

Des attaquants exploitent les fonctionnalités de partage de conversations de ChatGPT et Claude pour distribuer des malwares. Les chats contrefaits imitent des messages d'erreur ou guides d'installation et contournent les outils de sécurité en étant hébergés sur des domaines de confiance.

Sécurité IA

SIG

HYP

Reddit r/LocalLLaMA·30 mai

Vidai Community is now available: one Rust binary for cost attribution, guardrails and multi-provider routing on every LLM call

Vidai Community, binaire Rust open-source, unifie cost attribution, guardrails et multi-provider routing pour appels LLM. Intégration one-line via changement base_url (OpenAI/Anthropic/Google). Attribution de coûts par user/team/model, budgets hard, overhead 1.95ms, 21,803 RPS sur single node.

Outils Infrastructure Open source

SIG

HYP