Page 78 sur 192

ToutHaut signalRécent

7679 articles

Benchmarks of 20 small LLMs on a 6GB RTX 4050

Benchmark de 20 petits LLMs sur GPU RTX 4050 6GB. L'auteur teste des quantifications Q4/Q6 GGUF avec 6 probes qualitatives (tool-call, JSON strict, décomposition de plan, pas d'hallucination de chemin) plutôt que des suites complètes, mesurant vitesse de préfill et génération à 1k/8k/32k tokens pour identifier les modèles viables en local sur hardware limité.

Benchmarks Open source Génération de code

SIG

HYP

ActuIA·2 juin

Agents IA : la Linux Foundation parie sur le DNS face aux registres des hyperscalers

La Linux Foundation lance DNS-AID (Agent IA Discovery), un projet open source utilisant le DNS comme couche de découverte pour les agents IA. Cette approche décentralisée s'oppose aux registres propriétaires des hyperscalers (OpenAI, Google, Anthropic).

Agents IA Open source Infrastructure

SIG

HYP

GitHub Trending·2 juin

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> mksglu /</span> context-mode

Context-mode optimise la fenêtre de contexte pour les agents IA de codage en isolant les sorties d'outils. Réduit la consommation de tokens de 98%. Compatible avec 15 plateformes.

Agents IA Génération de code Prompt engineering

SIG

HYP

GitHub Trending·2 juin

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> chopratejas /</span> headroom

Headroom compresse les sorties d'outils, logs, fichiers et chunks RAG avant envoi au LLM. Réduit de 60-95% les tokens consommés sans dégrader les réponses. Disponible en library, proxy et serveur MCP.

RAG MCP Outils

SIG

HYP

Reddit r/LocalLLaMA·2 juin

Replaced Claude with local Qwen3.6-27B in my multi-agent orchestrator for 2 weeks

Expérience 2 semaines : remplacement de Claude par Qwen3.6-27B (Q6_K, 22GB) dans un orchestrateur multi-agent sur RTX 3090. Succès : génération de plans (95% valides), extraction mémoire, auto-review. Échecs : fiabilité tool-call 12% vs 0.5% Claude, dérive contexte >14k tokens, gestion cascade-failures limitée.

Qwen Multi-agents Raisonnement

SIG

HYP

Reddit r/LocalLLaMA·2 juin

Qwen 3.6-35B-A3B with 977 tk/s prompt processing and 262k context window on Intel Arc B70 Pro

Qwen 3.6-35B-A3B atteint 977 tokens/s en traitement de prompt et supporte une fenêtre de contexte de 262k sur Intel Arc B70 Pro via llama.cpp avec backend SYCL. L'utilisateur rapporte une inférence locale stable et utilisable pour des tâches complexes comme la génération de jeux.

Qwen Génération de code Open source

SIG

HYP

Reddit r/MachineLearning·2 juin

Browse CVPR 2026 papers on PapersWithCode [P]

Niels de Hugging Face annonce paperswithcode.co, une plateforme de suivi SOTA relancée. Nouvelle fonctionnalité : indexation des conférences majeures (NeurIPS, CVPR, ICML). Les 2026 papiers CVPR sont catalogués par tâche, avec liens arXiv, GitHub, pages projet, artefacts HF et évaluations.

Open source Papers Benchmarks

SIG

HYP

arXiv cs.AI·2 juin

MindZero: Learning Online Mental Reasoning With Zero Annotations

MindZero est un framework d'apprentissage par renforcement auto-supervisé qui entraîne des modèles multimodaux (MLLMs) à inférer les états mentaux humains sans annotations. Le modèle est récompensé pour générer des hypothèses d'états mentaux maximisant la vraisemblance des actions observées. Après entraînement, l'inférence devient rapide et surpasse les méthodes basées sur des planificateurs.

Raisonnement Reinforcement learning Agents IA

SIG

HYP

arXiv cs.LG·2 juin

Large-scale Uncertainty Quantification for Latent Variable Models Using Subsampling Markov Chain Monte Carlo

Théorie asymptotique pour SGLD-Gibbs, combinant dynamique de Langevin stochastique et mises à jour Gibbs pour l'inférence bayésienne dans les modèles à variables latentes. Les auteurs dérivent des limites de diffusion-saut et proposent un guide de tuning d'hyperparamètres garantissant une quantification d'incertitude statistiquement valide.

Reinforcement learning Raisonnement Évaluations

SIG

HYP

arXiv cs.LG·2 juin

InfoAtlas: A Foundation Model for Zero-Shot Statistical Dependence Estimate

InfoAtlas est un modèle fondation capable d'estimer l'information mutuelle entre variables haute-dimensionnelles en une seule passe forward, sans optimisation itérative. Préentraîné sur données synthétiques, il atteint 100× d'accélération par rapport aux estimateurs neuraux classiques tout en maintenant la précision et généralise à des scénarios réels complexes.

Papers Benchmarks Raisonnement

SIG

HYP

arXiv cs.LG·2 juin

Modeling Spectral Energy Shifts in Spatio-Temporal Graph Anomaly Detection

Nouvelle méthode de détection d'anomalies dans les graphes spatio-temporels basée sur les shifts d'énergie spectrale. Détecte les anomalies camouflées (variation spectrale réduite) que les approches existantes manquent. Framework compatible avec message passing, sans modules séquentiels spécialisés.

Benchmarks Papers

SIG

HYP

arXiv cs.LG·2 juin

Accurate Large-sample Uncertainty Quantification using Stochastic Gradient Markov Chain Monte Carlo

Nouvel article arXiv proposant des approximations discrètes pour SG(L)D avec et sans momentum, permettant des prédictions précises de la covariance stationnaire et du temps d'autocorrélation intégré. Bornes d'erreur non-asymptotiques pour l'ajustement pratique et la quantification d'incertitude, validées sur modèles mal spécifiés et grands batch sizes.

Reinforcement learning Benchmarks Papers

SIG

HYP

arXiv cs.CL·2 juin

Toward Robust In-Context Learning: Leveraging Out-of-distribution Proxies for Target Inaccessible Demonstration Retrieval

DOPA, un framework de recherche de démonstrations, utilise un proxy OOD pour approximer le domaine cible inaccessible et guide la récupération de démonstrations pertinentes. Une contrainte de diversité basée sur la distance de Mahalanobis assure la variété des exemples sélectionnés. Résultats positifs sur plusieurs LLMs et tâches en contexte de distribution shift sévère.

Prompt engineering Benchmarks Papers

SIG

HYP

arXiv cs.CL·2 juin

lmfaoooo at SemEval-2026 Task 1: Humor Is an Audience. Preference Modeling for Constrained Humor Generation

Système de génération d'humour pour SemEval-2026 Task-1 (MWAHAHA) utilisant une stratégie « générer-beaucoup → sélectionner-meilleur ». Génération de candidats diversifiés via prompting multi-étapes et ensemble de modèles, puis sélection via un modèle de préférence entraîné sur 2.5K jugements humains appariés. Classement 1er en anglais et chinois, 2e en espagnol.

Prompt engineering Évaluations Benchmarks

SIG

HYP

arXiv cs.AI·2 juin

Deliberative Curation: A Protocol for Multi-Agent Knowledge Bases

Protocole de gouvernance pour bases de connaissances multi-agents combinant cycle de vie formalisé, vote délibératif pondéré par réputation (Beta Reputation + EigenTrust) et sanctions graduées. Évaluation sur 100 agents, 7 archétypes comportementaux : 0.826 vs 0.791 de précision face à l'adversité modérée (p<0.001). Le masquage vote commit-reveal apporte +8.2-8.6pp.

Multi-agents Agents IA Benchmarks

SIG

HYP

arXiv cs.LG·2 juin

Emergence of Exploration in Policy Gradient Reinforcement Learning via Retrying

ReMax formalise l'exploration en RL via des retries : une politique est évaluée par le rendement maximal attendu sur M échantillons. L'exploration émerge naturellement sans bonus explicites. RePPO, variante de PPO optimisant ReMax, généralise M à un paramètre continu m, contrôlant finement l'exploration. Résultats sur MinAtar et Craftax.

Reinforcement learning Benchmarks

SIG

HYP

arXiv cs.LG·2 juin

Adaptive data selection improves wearable prediction under low baseline performance

Étude sur l'adaptation sélective de données pour prédiction sur wearables. Analyse de 3 modalités (fréquence cardiaque, activité, EMA) sur dataset longitudinal. Gains AUROC jusqu'à 0.7 pour participants avec faible baseline, corrélation inverse forte (r=-0.67) entre amélioration et performance initiale. Bénéfice limité pour bonnes baselines.

Évaluations Benchmarks

SIG

HYP

arXiv cs.CL·2 juin

Isolating LLM Lexical Bias: A Curation-Free Triangulated Metric for Preference-Stage Learning

Nouvelle métrique automatisée (Triangulated Preference Shift score) pour mesurer les biais lexicaux introduits lors de l'apprentissage par préférence (RLHF) dans les LLM, sans annotation manuelle. Analyse sur 6 familles de modèles révèle une tendance vers un « langage de prestige » (suremploi de « delve », « furthermore »).

Reinforcement learning Alignement Évaluations

SIG

HYP

arXiv cs.AI·2 juin

Product-Aware Deep Autoencoders for Robust Process Monitoring in Multi-Product Cyber-Physical Systems

Article académique proposant des autoencodeurs sensibles aux produits pour la détection d'anomalies dans les systèmes cyber-physiques multi-produits. Les modèles globaux traditionnels créent des « angles morts » où les attaques peuvent passer inaperçues. Tests sur Tennessee Eastman Process : le modèle produit-aware détecte 100% des scénarios d'attaque contre 22.2% pour le modèle global.

Benchmarks Sécurité IA Évaluations

SIG

HYP

arXiv cs.CL·2 juin

Short-form Text Rewriting with Phi Silica

Étude empirique d'adaptation de Phi Silica pour la réécriture de textes courts via curation de données, distillation de prompts et fine-tuning paramétrique. Dataset construit à partir de présentations publiques. Résultats : fidélité sémantique améliorée, hallucinations réduites, taux de victoire supérieur à GPT-5-chat.

Fine-tuning Prompt engineering Évaluations

SIG

HYP

arXiv cs.CL·2 juin

LaSR: Context-Aware Speech Recognition via Latent Reasoning

LaSR introduit un paradigme d'entraînement pour les Speech LLMs intégrant un raisonnement latent aligné sur les régions acoustiques. Sans tokens intermédiaires explicites, la méthode améliore la reconnaissance de vocabulaire spécialisé sur Fun-Audio-Chat. Un nouveau corpus Spoken Darwin-Science pour terminologies académiques est proposé.

Voix Raisonnement RAG

SIG

HYP

arXiv cs.CL·2 juin

Skill or Skip? Learning Selective Skill Invocation in Agentic Tasks via Dual-Granularity Preference Learning

SelSkill, un framework d'apprentissage par préférence dual-granularité, optimise l'invocation sélective de compétences dans les tâches agentic. Sur ALFWorld avec Qwen3-8B : +10,9 pp de succès, +29,1 pp de précision. Sur BFCL : +5,7 pp de succès, +29,5 pp de précision. Transfère à zéro-shot sur Tau-bench et PopQA.

Agents IA Reinforcement learning Raisonnement

SIG

HYP

arXiv cs.AI·2 juin

Position Paper: Post-Solve Robustness in Decision Engines: Feasible Regions and Smoothness Under Perturbations

Article de position sur la robustesse post-résolution dans les moteurs de décision MILP. Identifie un écart : les solutions optimales nominales deviennent infaisables sous petites perturbations de coûts ou ressources. Propose une couche d'audit formalisée autour de la solution incumbente, combinant approximations certifiées, estimation probabiliste et vérification solver-backed.

Benchmarks Papers Sécurité IA

SIG

HYP

arXiv cs.AI·2 juin

Optimal Transport-based Permutation-Invariant Bayesian Optimization of Offshore Wind Farm Layouts

Nouvelle approche de Bayesian Optimization (PIBO) exploitant la théorie du transport optimal pour optimiser les layouts de parcs éoliens offshore. PIBO gère l'invariance par permutation (l'ordre des turbines n'affecte pas la production), réduit le temps de calcul de ~50% et améliore les solutions par rapport à BO classique.

Papers

SIG

HYP

arXiv cs.AI·2 juin

Acting with AI: An Interaction-Based Framework for Agentic Tort Liability

Un cadre juridique pour la responsabilité civile des systèmes IA agentiques. L'article propose trois catégories d'interaction (dérive autonome, outil pur, planification collaborative) et utilise les logs d'interaction comme preuve pour déterminer où la responsabilité s'attache. Introduit un standard « Agent Raisonnable » basé sur la vérification de contraintes et la traçabilité.

Agents IA Régulation Sécurité IA

SIG

HYP

arXiv cs.AI·2 juin

Doing What They Say, Not What They Reason: Locating the Faithfulness Gap in LLM Agents

Étude de la fidélité des agents LLM dans un simulateur de poker Texas. Les chercheurs mesurent l'écart entre le raisonnement énoncé et les actions réelles en décomposant le problème en deux étapes : raisonnement-conclusion et conclusion-action. Les deux étapes montrent des comportements opposés.

Agents IA Raisonnement Alignement

SIG

HYP

arXiv cs.LG·2 juin

Hoeffding Concept Bottleneck Models with Applications to Overhead Images

Hoeffding Concept Bottleneck Models (HCBM) remplacent l'agrégation linéaire des concepts par une décomposition non-linéaire et sparse basée sur les arbres boostés. Robustes aux fuites inter-concepts, ils améliorent l'explainabilité des prédictions en vision par ordinateur, notamment sur images aériennes.

Vision Évaluations Papers

SIG

HYP

arXiv cs.LG·2 juin

Automatically Differentiable Nonlinear Tensor Networks (ADNTNs) for Exponential Compression of Deep Neural Networks

Les réseaux de tenseurs non-linéaires automatiquement différentiables (ADNTNs) compressent les poids de réseaux de neurones via des tenseurs cœurs entraînés par différenciation automatique. Testés sur AlexNet et VGG-16, ils atteignent des ratios de compression de 2000× à 77000× par couche avec précision préservée ou améliorée.

Fine-tuning Papers Benchmarks

SIG

HYP

arXiv cs.AI·2 juin

Closed-Loop Neural Activation Control in Vision-Language-Action Models

CTRL-STEER propose un cadre de contrôle en boucle fermée pour les modèles Vision-Language-Action (VLA). Au lieu d'utiliser un coefficient de direction fixe, la méthode adapte dynamiquement la force d'intervention via des contrôleurs PID ou par apprentissage par renforcement. Tests sur OpenVLA et LIBERO montrent une meilleure stabilité et un meilleur compromis entre direction et succès de tâche.

Vision Agents IA Reinforcement learning

SIG

HYP

arXiv cs.AI·2 juin

On Wednesdays, We Ask Questions: Optimizing "Active Listening" in Automated Legal Triage and Referral

FETCH, un classifier pour le triage juridique automatisé, génère des questions de suivi via un ensemble économique de LLMs. L'étude montre que les modèles bon marché performent bien en classification, mais la génération de questions en langage clair de qualité requiert GPT-4 ou supérieur. Le prompt engineering seul ne suffit pas ; les évaluations LLM-as-judge divergent des évaluations humaines.

GPT OpenAI Prompt engineering

SIG

HYP

arXiv cs.AI·2 juin

Model-Native Computing Architecture: Envisioning Future System Architecture Through the Lens of Computer Architecture

Papier de synthèse proposant l'Intelligent Computing Architecture Model (ICAM), un cadre à 6 couches pour l'informatique model-native. Mappe les concepts d'architecture informatique classique aux systèmes LLM (gestion de cache, contexte, agents). Introduit trois lois de conception : Semantic Locality Law, Context Budget Law, Agent Speedup Law. Distingue plan d'exécution probabiliste et plan de contrôle déterministe.

Agents IA Multi-agents Raisonnement

SIG

HYP

arXiv cs.AI·2 juin

Coupling Language Models with Physics-based Simulation for Synthesis of Inorganic Materials

Framework hybride couplant LLMs avec simulation physique pour planifier la synthèse de matériaux inorganiques. Étude sur le système niobium-oxygène : les routes de synthèse générées par LLM surpassent les algorithmes classiques de planification de chemin en exploitant des priors implicites.

Raisonnement Benchmarks Papers

SIG

HYP

arXiv cs.AI·2 juin

VESTA: Visual Exploration with Statistical Tool Agents

VESTA est un framework d'agents statistiques équipant les VLMs d'une boîte à outils exploratoire dynamique pour affiner les modèles quantitatifs. Évalué sur DAWN (benchmark de modélisation de distributions et séries temporelles), VESTA surpasse les systèmes antérieurs, notamment sur tâches complexes en astronomie (fonctions de masse initiale, signaux d'ondes gravitationnelles).

Agents IA Vision Raisonnement

SIG

HYP

arXiv cs.AI·2 juin

Weak Critics Make Strong Learners: On-Policy Critique Distillation for Scalable Oversight

Méthode OPCD pour améliorer les grands modèles via critiques faibles. Au lieu d'utiliser des superviseurs faibles comme annotateurs, on les emploie comme critiques pour guider les révisions. La distillation progressive filtre les critiques de qualité et les intègre au modèle fort via signaux d'auto-enseignement adaptatifs. Résultats sur benchmarks de raisonnement et alignement.

Raisonnement Alignement Reinforcement learning

SIG

HYP

arXiv cs.LG·2 juin

Geometric Erasure by Contrastive Velocity Matching in Rectified Flows

GEM est une méthode d'effacement de concepts pour les modèles Rectified Flow Transformers. Elle combine des signaux de trajectoire (Generative Flow Networks) et un guidage par enseignant pour supprimer sélectivement les contenus nuisibles (deepfakes, violations de copyright) tout en préservant la génération bénigne.

Sécurité IA Alignement Papers

SIG

HYP

arXiv cs.LG·2 juin

Foundation-Preserving Adaptation via Generalized Rayleigh-Quotient Optimization

FoLoRA, un framework d'optimisation conscient de l'oubli, adapte les modèles de fondation via quotient de Rayleigh généralisé. Il équilibre performance sur tâche cible et préservation des capacités préentraînées en pénalisant les directions d'adaptation à faible utilité relative à l'oubli. Testé sur adaptation mathématique, code et suivi d'instructions.

Fine-tuning Papers Alignement

SIG

HYP

arXiv cs.AI·2 juin

TRACE: Trajectory Risk-Aware Compression for Long-Horizon Agent Safety

TRACE, une méthode de compression de trajectoires, détecte les risques de sécurité dans les agents LLM sur long horizon. Un Compresseur encode la trajectoire complète en état latent supervisé, tandis qu'un Reader juge la sécurité avec cette référence. Amélioration jusqu'à 12,6 points sur ASSEBench, Pre-Ex-Bench et R-Judge.

Agents IA Sécurité IA Raisonnement

SIG

HYP

arXiv cs.LG·2 juin

Beyond Augmentation: Score-Guided Pathological Prior for EEG-based Depression Detection

Nouvelle approche pour détecter la dépression majeure à partir d'EEG sans augmentation de données. La méthode SGC (Score-Guided Classification) utilise un réseau génératif non supervisé pour modéliser les anomalies pathologiques comme prior, fusionné avec les représentations profondes. Un module d'adaptation spatiale gère l'hétérogénéité des canaux multi-centres. Validation sur Mumtaz2016 et MODMA.

Papers Évaluations Vision

SIG

HYP

arXiv cs.LG·2 juin

From Rashomon Theory to PRAXIS: Efficient Decision Tree Rashomon Sets

PRAXIS est un algorithme qui calcule efficacement les ensembles de Rashomon (ensembles de modèles quasi-optimaux) pour les arbres de décision creux. L'approche réduit drastiquement la mémoire et le temps de calcul tout en récupérant la majorité de l'ensemble complet. Code disponible sur GitHub.

Évaluations

SIG

HYP

arXiv cs.LG·2 juin

A Pre-Training Analogue of Grokking in Language Models: Tracing Delayed Grammatical Generalization

Étude de la généralisation retardée (grokking) lors du pré-entraînement de modèles de langage. Via un cadre basé sur l'exposition et les paires minimales BLiMP, les auteurs observent une généralisation différée sur cinq phénomènes grammaticaux. Les vecteurs de concepts grammaticaux deviennent plus prédictifs après généralisation et occupent un sous-espace de dimension supérieure.

Papers Raisonnement Évaluations

SIG

HYP