Page 79 sur 192

ToutHaut signalRécent

7679 articles

When Softmax Fails at the Top: Extreme Value Corrections for InfoNCE

InfoNCE, l'objectif standard du contrastive learning, repose sur une hypothèse statistique mal alignée avec les embeddings normalisés modernes. Les auteurs proposent WEINCE, une modification simple utilisant la théorie des valeurs extrêmes et des statistiques batch en ligne pour corriger les logits softmax, sans paramètres supplémentaires. Améliorations consistantes sur 5 benchmarks vision.

Papers Benchmarks Embeddings

SIG

HYP

arXiv cs.LG·2 juin

Inner Product Aware Quantization: Provably Fast, Accurate, and Adaptive Algorithms

Nouvelle méthode de quantization préservant les produits scalaires avec vecteurs non vus. Algorithmes adaptatifs et non-biaisés développés avec garanties théoriques. Implémentations pratiques 2-10× plus rapides que l'état de l'art en Adaptive Stochastic Quantization.

Benchmarks Fine-tuning

SIG

HYP

arXiv cs.AI·2 juin

From Noise to Control: Parameterized Diffusion Policies

Parameterized Diffusion Policy (PDP) conditionne les politiques de diffusion sur des paramètres continus dans une variété de comportements apprise. Cette approche permet l'interpolation fluide entre stratégies et l'adaptation efficace à de nouvelles contraintes sans mise à jour des poids. Résultats améliorés sur benchmarks multimodaux en simulation et robots réels.

Robotique Reinforcement learning Papers

SIG

HYP

arXiv cs.LG·2 juin

Adaptive Order Policies for Masked Diffusion

Modèles de diffusion masquée : une politique réseau apprend l'ordre optimal de démasquage des tokens. Approche par réépondération de la perte selon les probabilités du débruiteur. Surpasse les heuristiques sur tâches combinatoires et protéines.

Papers Raisonnement Benchmarks

SIG

HYP

arXiv cs.LG·2 juin

Rethinking the Role of Temperature in Large Language Model Distillation

Étude arXiv sur le rôle de la température dans la distillation de LLM. Les auteurs montrent que la divergence KL avant (FKL) surpasse la divergence KL inverse (RKL) à températures élevées, contrairement aux conclusions empiriques antérieures qui omettaient ce paramètre. La température enrichit FKL avec des signaux de tokens non-dominants tandis qu'elle rescale seulement les gradients RKL.

Fine-tuning Papers Benchmarks

SIG

HYP

arXiv cs.AI·2 juin

Evaluating Bivariate Causal Statements Based on Mutual Compatibility

Méthode pour évaluer des collections d'énoncés causaux bivariés sans accès à la vérité terrain. Les auteurs introduisent un score de compatibilité quantifiant la plausibilité d'un modèle causal induit, sans supposer la fidélité. Application à l'évaluation des affirmations causales de grands modèles de langage.

Papers Raisonnement Évaluations

SIG

HYP

arXiv cs.LG·2 juin

Adversarially Robust Control of Conditional Value-at-Risk via Rockafellar-Uryasev Conformal Inference

Cadre en ligne sans hypothèse distributive pour contrôler la Conditional Value-at-Risk (CVaR) en environnements non-stationnaires et adversariels. Combine inférence conforme, apprentissage en ligne et représentation variationnelle de Rockafellar-Uryasev. Garanties de sécurité prouvées pour risques de queue non-linéaires. Applications : gestion de portefeuille et atténuation de toxicité LLM.

Papers Sécurité IA Raisonnement

SIG

HYP

arXiv cs.LG·2 juin

Perturbative methods for non-parametric instrumental variable

Méthode perturbative pour l'estimation non-paramétrique de variables instrumentales (NPIV). Inspirée de la théorie des perturbations en physique, elle étend les méthodes kernel ridge avec des corrections d'ordre supérieur. Réduit l'erreur de prédiction jusqu'à 99% dans les cas mal définis haute-dimension (β > 0.7) vs ridge regression standard.

Papers Benchmarks Évaluations

SIG

HYP

arXiv cs.LG·2 juin

CHAM-net: A Contrastive Hierarchical Adaptive Meta-network for Robust Global Methane Flux Prediction

CHAM-net, un réseau de méta-apprentissage hiérarchique adaptatif, prédit les flux de méthane globaux en capturant les dynamiques spécifiques aux sites via un encodeur-décodeur conditionné. Sur données de simulation et observationnelles, le modèle atteint nRMSE=0.43 (émissions) et R²=0.97, surpassant les baselines.

Papers Benchmarks Reinforcement learning

SIG

HYP

arXiv cs.CL·2 juin

AEyeDE: An Attention-Based Attribution Framework for AI-Generated Text Detection

AEyeDE propose une méthode de détection de texte généré par IA basée sur les matrices d'attention d'un modèle Transformer proxy. Un CNN léger apprend à distinguer les patterns d'attention entre texte humain et IA-généré. La méthode surpasse les baselines texte-seul et montre une robustesse en transfert cross-dataset et face aux perturbations orthographiques.

Papers Sécurité IA Évaluations

SIG

HYP

arXiv cs.CL·2 juin

Cognitive-Linguistic Indicators of Depression in Online Communities: Analysed by DistilBERT and Holographic Reduced Representation

Étude combinant features linguistiques cognitives (pronoms première personne, mots absolutistes, émotions négatives) avec embeddings DistilBERT et Holographic Reduced Representation pour détecter la dépression dans des posts Reddit. Le modèle hybride atteint F1=0.94 vs 0.80 pour TF-IDF baseline, AUC=0.981.

Embeddings Benchmarks Papers

SIG

HYP

arXiv cs.CL·2 juin

TCAR-Gen: Temporal Graph Retrieval with Evidence Fusion for Knowledge-Grounded Generation

TCAR-Gen combine des réseaux de neurones graphiques, la fusion d'evidence temporelle et le raisonnement chain-of-trees pour la génération augmentée par récupération. Sur le benchmark Victorian Crime Diaries, atteint 0.3738 Recall@5, surpassant Vanilla RAG, Temporal RAG et GraphRAG. Tests cross-model sur GPT-OSS 20B à TinyLlama 1.1B montrent robustesse à petite échelle.

RAG Raisonnement Benchmarks

SIG

HYP

arXiv cs.CL·2 juin

BOUTEF: A Multilingual Corpus for FakeNews in North Africa -- Language as a Weapon

BOUTEF est un corpus multilingue de 2 pays (Algérie, Tunisie) couvrant fausses nouvelles, narratifs authentiques, commentaires et débunkage. Inclut MSA, dialectes algérien/tunisien, arabizi, français, anglais et code-switching. Analyse révèle que les fausses nouvelles utilisent narratifs émotionnels et cadrage sensationnaliste, tandis que le débunkage adopte un style factuel.

Papers Benchmarks Sécurité IA

SIG

HYP

arXiv cs.AI·2 juin

CAST: Non-Privileged Clipped Asymmetric Self-Teaching with Advantage Flipping for GRPO

CAST est une méthode d'auto-distillation sans réponse de référence pour GRPO (Group Relative Policy Optimization). Elle utilise un auto-enseignant sans gradient pour façonner les avantages au niveau des tokens selon la correction des trajectoires, avec inversion bidirectionnelle des signaux et avantages bornés pour les groupes à variance zéro. Améliore le raisonnement mathématique.

Reinforcement learning Raisonnement Génération de code

SIG

HYP

Vercel AI Blog·2 juin

Build Chat SDK web UIs in Vue or Svelte

Vercel AI SDK ajoute le support natif de Vue et Svelte pour construire des interfaces de chat web, aux côtés de React. Les helpers retournent une instance réactive Chat avec messages et status accessibles directement en template. La configuration serveur reste identique entre frameworks.

Outils Génération de code Open source

SIG

HYP

Reddit r/LocalLLaMA·1 juin

Computex 2026: Intel launches Crescent Island GPU with up to 480GB VRAM

Intel présente Crescent Island à Computex 2026, un GPU professionnel basé sur l'architecture Arc Xe 3P avec jusqu'à 480 GB de VRAM en LPDDR5X. TDP de 350W, support des formats FP4/MXFP4 à FP64 pour les workloads IA nouvelle génération.

Infrastructure Benchmarks

SIG

HYP

Reddit r/MachineLearning·1 juin

Why our #1 LightGBM feature by importance made predictions worse [D]

Un modèle LightGBM de régression quantile pour la prédiction de prix a classé une feature encodée (Bayesian target encoder) #1 en importance, mais l'ablation sur 4 seeds × 3 variantes a révélé une régression de +0.28pp MAPE. Le signal appris était du bruit irréductible (facteurs non observés), non généralisable.

Benchmarks Fine-tuning

SIG

HYP

Reddit r/MachineLearning·1 juin

How much of MLE-Bench's gains are the algorithm vs. better models + more search? [R]

MLE-Bench affiche 80% de gains en deux ans, mais une nouvelle étude (FML-Bench) révèle que peu provient du progrès algorithmique réel. À budget de steps égal et modèles identiques, l'algorithme AIDE de deux ans égale les systèmes modernes de recherche agent/évolutionnaire. FML-Bench unifie l'agent d'édition de code, la définition des steps et les splits val/test pour évaluer l'efficacité algorithmique.

Benchmarks Agents IA Évaluations

SIG

HYP

Reddit r/LocalLLaMA·1 juin

Mellum 2 12B A2.5B

JetBrains publie Mellum 2, un MoE 12B/2.5B spécialisé en code. Performance en raisonnement comparable à Qwen 3.5 9B, inférieure à Qwen 3.5 4B sur autres tâches. Rapport technique disponible.

Génération de code Open source Benchmarks

SIG

HYP

Reddit r/LocalLLaMA·1 juin

unsloth vs bartowski MTP ggufs

Benchmark comparatif des quantifications MTP (Multi-Token Prediction) entre unsloth et bartowski sur Qwen 3.5-4B, 3.5-9B et 3.6-27B. Bartowski utilise Q8_0 pour la tête MTP (fichiers plus volumineux). Tests sur Snapdragon avec Q4_0, IQ4_NL, Q4_1, MXFP4_MOE, Q8_0 limités à 24GB VRAM RTX 3090. Unsloth généralement plus rapide en décodage (t/s) et efficace en VRAM.

Qwen Benchmarks Génération de code

SIG

HYP

Reddit r/LocalLLaMA·1 juin

I was a Data Scientist for 10 years before becoming a quadriplegic. For the past 3 months, I built VibeETL from scratch: A lightning-fast, visual Alteryx alternative powered by Polars & React Flow.

VibeETL : plateforme ETL visuelle open-source construite en 3 mois par un ancien data scientist. Backend Polars + Rust, frontend React Flow avec algorithme BFS natif. Zéro dépendance externe, exécution Python sandboxée (30s timeout). Alternatif léger à Alteryx.

Open source Outils Infrastructure

SIG

HYP

arXiv cs.LG·1 juin

Unicorn: Scaling High-Dimensional Time Series Forecasting via Universal Correlation Modeling

Unicorn, un framework de préentraînement multi-dataset, résout le compromis entre modèles indépendants par canal (scalables mais ignorant les dépendances) et modèles dépendants (expressifs mais limités en dimensions). Via un codebook de prototypes latents, il projette des canaux hétérogènes dans un espace partagé pour apprendre des patterns de corrélation réutilisables et transférables.

Papers Benchmarks Fine-tuning

SIG

HYP

arXiv cs.LG·1 juin

A Novel Evaluation Metric for Unsupervised Learning in AIS-Based Maritime Anomaly Detection: MADQI

Nouvelle métrique d'évaluation MADQI pour la détection d'anomalies non supervisée dans les données AIS maritimes. Combine quatre indices (ARC, PPS, SDS, ECE) via normalisation automatique. Score MADQI de 80,37% sur dataset AIS, avec ECE=0,907 et ARC=1,000 pour détecter comportements anormaux de navires.

Évaluations Benchmarks

SIG

HYP

arXiv cs.AI·1 juin

Formalizing and falsifying causal pathways of rare events

Article formalisant les chemins causaux d'événements rares dans les modèles d'équations structurelles. Propose une définition rigoureuse des pathways causaux et identifie les conditions où les implications testables dépendent uniquement de l'abstraction causale du pathway, pas du graphe causal complet.

Papers Raisonnement

SIG

HYP

arXiv cs.AI·1 juin

COLLEAGUE.SKILL: Automated AI Skill Generation via Expert Knowledge Distillation

COLLEAGUE.SKILL est un système automatisé de distillation de traces en compétences pour générer des skills IA ancrées à une personne via extraction de connaissances expertes. Le système produit des packages versionnés avec deux pistes : capacités (pratiques, modèles mentaux, heuristiques) et comportements bornés (style de communication, règles d'interaction). 18.5k stars GitHub, 215 skills de 165 contributeurs.

Agents IA Prompt engineering Open source

SIG

HYP

arXiv cs.AI·1 juin

Uncertainty-Aware and Temporally Regulated Expert Advice in Reinforcement Learning for Autonomous Driving

Framework d'apprentissage par renforcement pour la conduite autonome qui utilise des conseils d'experts régulés par l'incertitude. Les seuils adaptatifs d'incertitude épistémique/aléatoire déclenchent l'intervention d'experts, tandis qu'une stratégie de commitment-cooldown limite la dépendance. Testé sur CARLA : +5-7% de succès vs baseline IQN.

Reinforcement learning Robotique Sécurité IA

SIG

HYP

arXiv cs.AI·1 juin

Structure-Induced Information for Rerooting Levin Tree Search

Algorithme √LTS pour la recherche en arbre avec rerootage implicite. Trois designs de rerooter proposés : clustering basé sur la structure d'état, heuristique avec estimations coût-à-aller, et hybride. Évite la génération explicite de sous-objectifs, réduit l'overhead computationnel et atteint l'efficacité d'entraînement en ligne optimale sur les domaines testés.

Raisonnement Agents IA Benchmarks

SIG

HYP

arXiv cs.AI·1 juin

Learning to Adapt: Self-Improving Web Agent via Cognitive-Aware Exploration

SCALE est un framework d'auto-amélioration pour agents web basé sur MLLMs. Il utilise trois rôles adversariaux (Selector, Predictor, Judger) pour explorer autonomement les limites de l'agent et élargir ses capacités cognitives. SCALE-Hop optimise la planification globale. Un dataset SCALE-20k de 19 sites réels avec 20k démonstrations structurées valide l'approche sur plusieurs MLLMs.

Agents IA Vision Reinforcement learning

SIG

HYP

arXiv cs.LG·1 juin

Scientific Machine Learning for Engine Health Management and Remaining Useful Life Prediction

Framework de machine learning scientifique pour la prédiction de durée de vie utile restante (RUL) de turbines. Combine encodeur partagé (CNN + LSTM bidirectionnel + attention) avec têtes spécialisées pour prédire température turbine, delta température et RUL avec intervalles de confiance. Évaluation sur données réelles hétérogènes et non-stationnaires via MAE, PICP, MPIW et CWC.

Raisonnement Multi-agents Benchmarks

SIG

HYP

arXiv cs.AI·1 juin

Learning Agent-Compatible Context Management for Long-Horizon Tasks

AdaCoM, un système d'IA externe, gère le contexte d'agents LLM figés via apprentissage par renforcement pour les tâches longues (recherche web, recherche approfondie). Les stratégies apprises révèlent un compromis Fidélité-Fiabilité : les agents performants bénéficient d'une préservation contextuelle fidèle, tandis que les agents faibles nécessitent une compression agressive.

Agents IA Reinforcement learning Raisonnement

SIG

HYP

arXiv cs.CL·1 juin

Speculative Decoding Across Languages

Les chercheurs améliorent le speculative decoding multilingue en comparant trois stratégies : fine-tuning du modèle draft sur données spécifiques, fine-tuning sur corpus monolingues non annotés, et modèles n-gram. Évaluation sur 11 langues en traduction et génération d'histoires. Les modèles n-gram offrent les meilleurs accélérations malgré des taux d'acceptation plus faibles.

Génération de code Benchmarks Infrastructure

SIG

HYP

arXiv cs.CL·1 juin

Knowledge Graph-Enhanced Zero-Shot Topic Classification: A Multi-Strategy Comparative Study

Étude comparative de classification de sujets multi-label en zero-shot utilisant des graphes de connaissances extraits des documents. Framework testé sur 15 LLMs et 8 datasets : la variante keyword-enhanced surpasse la baseline, l'augmentation par graphe aide les petits modèles mais nuit aux grands, et le self-consistency decoding augmente les coûts sans amélioration.

RAG Benchmarks Papers

SIG

HYP

arXiv cs.LG·1 juin

The Fast Mixing Mechanism for Differential Privacy

Nouvel mécanisme de sketching différentiellement privé basé sur des transformées rapides (Hadamard). Combine compression matricielle et garanties de confidentialité pour la régression linéaire DP. Première méthode rapide pour les moindres carrés ordinaires DP avec garanties d'utilité et de runtime améliorées.

Benchmarks Papers

SIG

HYP

arXiv cs.CL·1 juin

Protocol for evaluating ChatGPT in biomedical association generation and verification using a RAG-enabled, cross-model majority voting workflow

Protocole d'évaluation de ChatGPT pour générer et vérifier des associations biomédicales centrées sur les maladies. Utilise RAG avec LLMs open-source pour validation sémantique et détection d'hallucinations via vote majoritaire cross-modèle.

GPT RAG Évaluations

SIG

HYP

arXiv cs.CL·1 juin

Your Multimodal Speech Model Says I Have a Face for Radio

Étude de biais dans les modèles de reconnaissance vocale multimodaux (audio-visuel). Les chercheurs créent des vidéos appairant différents visages au même audio et mesurent les variations de précision de transcription. Résultats : écarts de qualité jusqu'à 4,05 points d'erreur selon le genre, l'ethnicité et leur intersection sur Whisper-Flamingo et Gemini.

Vision Voix Benchmarks

SIG

HYP

arXiv cs.AI·1 juin

Procedural Generation of First Person Shooter Maps using Map-Elites

Étude appliquant MAP-Elites (algorithme de diversité qualitative) à la génération procédurale de niveaux FPS. Deux nouvelles représentations (Point-Line, Spatial-Layout) améliorent la caractérisation des cartes. Métriques topologiques et émergentes définies. MESB génère des populations de cartes avec diversité et qualité supérieures aux approches antérieures.

Benchmarks Papers

SIG

HYP

arXiv cs.CL·1 juin

Evaluating using Mock Tool Calls to Quarantine Untrusted Prompt Inputs

Étude arXiv sur la sécurité des LLM face aux entrées non fiables. Les chercheurs testent l'hypothèse que wrapper du contenu non fiable dans des appels d'outils simulés améliore la robustesse. Résultat : sur 7 modèles et 3 tâches de jugement, cette approche échoue et augmente souvent les taux de succès des attaques, inversant la hiérarchie d'instructions attendue.

Sécurité IA Prompt engineering Évaluations

SIG

HYP

arXiv cs.LG·1 juin

Functional MRI Time Series Generation via Wavelet-Based Image Transform and Spectral Flow Matching for Brain Disorder Identification

DSFM (Dual-Spectral Flow Matching) génère des séries temporelles fMRI synthétiques en combinant transformée en ondelettes discrète (DWT) et transformée en cosinus discret (DCT) avec flow matching spectral. Le modèle capture la non-stationnarité et la dynamique spatiotemporelle des signaux BOLD pour améliorer la classification de réseaux cérébraux.

Papers Benchmarks Vision

SIG

HYP

arXiv cs.CL·1 juin

Pairwise Reference Alignment as a Model-Level Ordinal Observable

Article théorique définissant l'alignement de référence par paires comme observable ordinale pour évaluer les modèles de langage. Formule statistique pour mesurer si un modèle classe les réponses préférées au-dessus des réponses rejetées, avec estimateurs à échantillon fini et bornes de concentration. Validation empirique sur Qwen2.5 et RewardBench.

Évaluations Benchmarks Alignement

SIG

HYP

arXiv cs.CL·1 juin

XLGoBench: Detecting cross-lingual skill gaps with algorithmic tasks

XLGoBench est un benchmark de tâches algorithmiques synthétiques pour détecter les lacunes cross-lingues dans les capacités des LLM. Le benchmark est comparable entre langues, scalable (complexité variable), quantifiable (correction objective) et transparent (templates auditables). Les expériences révèlent des lacunes persistantes dans plusieurs modèles état-de-l'art.

Benchmarks Évaluations

SIG

HYP