Page 63 sur 192

ToutHaut signalRécent

7679 articles

EnvShip-Bench: An Environment-Enhanced Benchmark for Short-Term Vessel Trajectory Prediction

EnvShip-Bench est un benchmark unifié pour la prédiction de trajectoires de navires à court terme, construit à partir de données AIS brutes du Danish Maritime Authority et de la NOAA. Le benchmark standardise le protocole (10 min observation, 10 min prédiction, échantillonnage 20s) et fournit des annotations contextuelles environnementales et de navires proches pour soutenir la modélisation consciente du contexte.

Benchmarks

SIG

HYP

arXiv cs.LG·16 juin

GRAPE: Guided Parameter-Space Evolution for Compact Adversarial Robustness

GRAPE propose une méthode d'entraînement adversarial qui expose progressivement les paramètres du réseau plutôt que d'optimiser un espace fixe. Sur CIFAR-10 en ℓ∞, GRAPE améliore la précision robuste PGD-20 de ResNet-18 de 51,70% à 56,94% avec 21,4% moins de paramètres et budget de calcul quasi identique (1,009x FLOPs).

Benchmarks Papers

SIG

HYP

arXiv cs.LG·16 juin

Towards a Unified Generative Model for Scarce Time Series with Domain Experts

TimeMoDE, un framework combinant Diffusion Transformers et Mixture-of-Experts, génère des séries temporelles réalistes en contexte de données scarces. Pré-entraîné sur des datasets multi-domaines, il utilise des Domain Prompts pour adapter l'assignation d'experts et intègre des signaux de diffusion pour calibrer le débruitage. Surpasse les méthodes existantes en few-shot generation.

SIG

HYP

arXiv cs.LG·16 juin

Diversity-Driven Offline Multi-Objective Optimization via Nested Pareto Set Learning

DOMOO, une méthode d'optimisation multi-objectif hors-ligne, résout le problème de distribution décalée (OOD) en combinant un module de contrôle de risque cumulatif et un apprentissage imbriqué de l'ensemble de Pareto. Introduit IGD_offline, un indicateur adapté au cadre hors-ligne, pour sélectionner des solutions diverses et convergentes.

Benchmarks

SIG

HYP

arXiv cs.LG·16 juin

High-Dimensional Random Projection for Activation Steering in Language Models

HiDRA, une méthode d'activation steering sans entraînement, utilise la projection aléatoire haute-dimensionnelle pour améliorer le contrôle comportemental des LLM. Elle dépasse les approches linéaires basées sur les différences de moyennes en capturant des signaux discriminatifs dans les sous-espaces non-linéaires, avec gains constants sur plusieurs familles de modèles.

Raisonnement Alignement

SIG

HYP

arXiv cs.LG·16 juin

Phase-Localized Curation Does Not Help: A Negative Result on Per-Phase Metric Selection for Demonstration Filtering

Étude négative sur la sélection de métriques par phase pour filtrer les démonstrations en robotique. Sur trois tâches LIBERO de pick-and-place, la curation par phase ne surpasse jamais les métriques globales (Task 1: 86.0 vs 92.0). Le signal de défaut dilué par agrégation entre phases nuit à la sélection. Les auteurs recommandent une métrique unique globale plutôt qu'une décomposition par phase.

Robotique Reinforcement learning Benchmarks

SIG

HYP

arXiv cs.LG·16 juin

Unlocking Latent Dimensions: Exploring Representations of Large-Scale X-ray Scattering Data using Variational Autoencoders

Variational Autoencoder (C-VAE) entraîné sur 1,5 million d'images de diffusion de rayons X pour apprendre des représentations latentes de faible dimension. Le modèle révèle des clusters organisés et génère des images synthétiques contrôlées. Déployé sans réentraînement sur deux installations de synchrotron, il surpasse DINOv3 en interprétabilité. Intégré dans Latent Space Explorer (MLExchange).

Vision Benchmarks Outils

SIG

HYP

arXiv cs.CL·16 juin

CoCoGEC: Counterfactual Generation for Robust Grammatical Error Correction

CoCoGEC est un framework de génération contrefactuelle pour l'amélioration robuste de la correction grammaticale. La méthode génère des variantes d'entraînement avec contextes altérés tout en préservant les erreurs, puis sélectionne les instances avec labels inversés et MI élevé. Gains F0.5 de +9.9 à +20.8 points sur BEA-19, CoNLL-14 et TEM-8.

Papers Benchmarks Génération de code

SIG

HYP

arXiv cs.LG·16 juin

Zero-order Parameter-free Optimization for LMO-based Methods: Novel Approach for Efficient Fine-tuning

Nouvel algorithme AdaNAGED pour l'optimisation sans gradient (zero-order) et sans paramètres lors du fine-tuning de LLMs. Réduit la mémoire requise par la rétropropagation en utilisant des oracles de minimisation linéaire et des mises à jour géométriques adaptatives. Validé sur OPT-1.3B.

Fine-tuning Papers

SIG

HYP

arXiv cs.LG·16 juin

Benchmarking Instance-Dependent Label Noise with Controlled Corruptions

CILN est un framework de benchmark pour le bruit de label dépendant de l'instance (IDN). Il génère du bruit via corruptions d'entrée contrôlées plutôt que par annotateurs imparfaits. 90 configurations testées sur CIFAR-10, MNIST et Adult montrent que la structure du bruit, pas seulement son taux, affecte la difficulté et expose des failles dans Co-Teaching et DivideMix.

Benchmarks Évaluations

SIG

HYP

arXiv cs.LG·16 juin

Controlled Dynamics Attractor Transformer

CDAT couple l'attention Transformer avec des dynamiques d'attracteurs inspirées des réseaux de neurones continus (CANN). Le modèle combine une énergie d'attention von Mises-Fisher avec un raffinement Hopfield et une modulation excitation-inhibition. Résultats SOTA en détection d'anomalies et classification de graphes.

Raisonnement Benchmarks Papers

SIG

HYP

arXiv cs.AI·16 juin

QoS-Aware Token Scheduling and Private Data Valuation for Multi-Modal Agentic Networks

Système d'allocation équitable de tokens pour réseaux d'agents décentralisés. Approche combinant représentations multi-modales, prototypes différentiellement privés et schéma de récompense robuste à l'hétérogénéité des données. Simulations montrent amélioration de l'équité et de la QoS, avec résistance renforcée aux attaques de reconstruction d'images.

Agents IA Multi-agents Vision

SIG

HYP

arXiv cs.AI·16 juin

Agentic Retrieval and Reinforcement Learned Equation Chains: A Controlled Generation Framework for Complex and Novel Physics Word Problems

ARVRE combine apprentissage par renforcement hors-ligne, RAG agentic et LLM pour générer des problèmes de physique complexes et solvables. La première étape construit des chaînes d'équations valides via temporal-difference learning ; la seconde convertit ces chaînes en questions naturelles. Évaluations humaines et automatiques montrent une supériorité en complexité, nouveauté et solvabilité.

Agents IA RAG Reinforcement learning

SIG

HYP

arXiv cs.AI·16 juin

VGPT-RSI for RH-Adjacent Formal Progress: Boundary Certificates, Verified Finite Lagarias Inequalities, and Explicit Failure Localization

Système VGPT-RSI appliqué à deux tâches de certification adjacentes à l'hypothèse de Riemann : construction de certificats de frontière RH vérifiés formellement en Coq, et initiation d'une route Lagarias formalisée. Identifie explicitement les obstacles mathématiques non résolus (équivalence Lagarias, théorème de queue global, réduction aux entiers extrémaux).

Raisonnement Papers Benchmarks

SIG

HYP

arXiv cs.CL·16 juin

Evaluating the Robustness of Proof Autoformalization in Lean 4

Étude de la robustesse des modèles LLM pour l'autoformalization de preuves mathématiques en Lean 4. Les auteurs évaluent 7 modèles récents sur des perturbations globales (paraphrases) et locales (modifications de valeurs/étapes). Résultat : tous les modèles sont sensibles aux perturbations globales et échouent à rester fidèles aux perturbations locales.

Raisonnement Évaluations Papers

SIG

HYP

arXiv cs.CL·16 juin

Simplifying the Modeling of Arbitrary Conditionals in Natural Language

AC-GPT modifie les Transformers causaux pour évaluer et générer à partir de conditionnels arbitraires (passé, futur, contextes mixtes) en un seul passage avant. La méthode préserve l'ordre gauche-droite et l'objectif de prédiction du token suivant, permettant l'affinage des LLMs existants sans dégrader les performances standard.

Raisonnement Papers Benchmarks

SIG

HYP

arXiv cs.CL·16 juin

Deep Temporal Modeling and Ensemble Fusion for Multimodal Emotion Recognition from Physiological Signals

Évaluation de modèles deep learning (LSTM, TCN, Transformer) sur le dataset WESAD pour la reconnaissance d'émotions à partir de signaux physiologiques (capteurs poignet/poitrine). L'ensemble par late-fusion atteint 98.91% de précision et 98.56% de macro-F1. Transformer excelle en multimodal, TCN en wrist-only.

Benchmarks Raisonnement Évaluations

SIG

HYP

arXiv cs.CL·16 juin

Stop When Further Reasoning Won't Help: Attention-State Adaptive Generation in Reasoning Models

ASAG, une méthode sans entraînement basée sur l'analyse des distributions d'attention, détecte le surapprentissage dans les modèles de raisonnement et arrête la génération de manière adaptative. Testé sur DeepSeek-R1-Distill et Qwen3, elle améliore la précision de 3,2% tout en réduisant les tokens générés de 40% sur Qwen3-8B.

Raisonnement DeepSeek Qwen

SIG

HYP

arXiv cs.CL·16 juin

When Cognitive Graphs Meet LLMs: BDEI Cognitive Pathways for Panic Emotional Arousal Prediction

PanicCognitivePath (PCP) prédit le timing de l'arousal émotionnel panique en fusionnant théorie de l'appraisal et modèles cognitifs BDI. Un nœud Émotion explicite et une distance psychologique (PSD) mappent quatre domaines de signaux en métrique de risque unifiée. L'LLM est limité à l'estimation de paramètres pour éviter les hallucinations. Sur Hurricane Sandy : +10.68% précision timing, erreur pic réduite à 7.07%.

Raisonnement Agents IA Benchmarks

SIG

HYP

arXiv cs.CL·16 juin

AmchiBias: Measuring Stereotypical Bias in Goan Identity Groups with a Minimal Pair Dataset in English and Konkani

AmchiBias est un benchmark mesurant les biais stéréotypés socio-culturels pour l'État du Goa (Inde) en anglais et konkani dévanagari. 313 paires minimales couvrent 8 dimensions démographiques. Évaluation de 5 modèles multilingues révèle des scores proches du hasard en konkani et des biais plus élevés pour les groupes pan-indiens que locaux.

Benchmarks Évaluations Sécurité IA

SIG

HYP

arXiv cs.LG·16 juin

Temporal Difference Learning for Diffusion Models

Nouvelle approche d'entraînement pour modèles de diffusion utilisant la différence temporelle (TD) pour enforcer la cohérence multi-étapes le long de la trajectoire de débruitage. Reformulation du processus de diffusion comme processus de récompense Markov et problème d'évaluation de politique en RL. Amélioration significative du FID, particulièrement avec peu d'étapes d'échantillonnage.

Reinforcement learning Raisonnement

SIG

HYP

Reddit r/LocalLLaMA·16 juin

HalBench: 29 OSS models tested on a custom built Sycophancy and Hallucination Benchmark, Qwen 3.6 and Gemma 4 scoring far above their weight! (While Meta keeps proving they forgot how to spend their money...)

HalBench v2.3 évalue 29 modèles open-source sur la sycophantie et hallucinations via 3,076 questions avec fausses prémisses. Qwen 3.6 (~27B) atteint 36.6% de rejet, surpassant tous les modèles open plus grands, GPT-5.4 et Gemini 3.1 Pro. Seuls Sonnet 4.6 et Grok dépassent 50%. Phi-4 obtient 2.3%.

Benchmarks Open source Évaluations

SIG

HYP

Vercel AI Blog·16 juin

Vercel Sandbox can now run for up to 24 hours

Vercel Sandbox augmente la durée maximale des sessions de 5 à 24 heures. Cette extension permet les workflows longs comme le traitement de données massif, les tests end-to-end et les workflows agentiques persistants. Disponible sur les plans Pro et Enterprise.

Agents IA Infrastructure Outils

SIG

HYP

Vercel AI Blog·16 juin

Workflow SDK now supports TanStack Start

Vercel Workflow SDK supporte désormais TanStack Start. Le plugin workflow/vite fonctionne directement avec TanStack Start (basé sur Vite et Nitro). Les développeurs écrivent des workflows et steps en TypeScript standard avec les directives « use workflow » et « use step », exécutés comme opérations durables, reprises et persistantes.

Outils Infrastructure Génération de code

SIG

HYP

OpenAI Blog·16 juin

Predicting model behavior before release by simulating deployment

OpenAI présente Deployment Simulation, une méthode prédisant le comportement des modèles IA avant leur déploiement en utilisant des données de conversations réelles pour améliorer la sécurité et la précision des évaluations.

OpenAI Évaluations Sécurité IA

SIG

HYP

Vercel AI Blog·16 juin

Workflow SDK now supports inflight cancellation

Workflow SDK 5 bêta ajoute le support des APIs AbortController et AbortSignal pour annuler les opérations en cours à travers les limites de workflow et d'étapes. Le signal reste durable lors des suspensions et rejeux déterministe, permettant d'arrêter des étapes lentes, d'annuler après première réponse réussie, ou de canceler du travail parallèle.

Outils Infrastructure Agents IA

SIG

HYP

Reddit r/MachineLearning·15 juin

Cleo: trying to fit full analyst behavior in a 2B model [P]

Cleo est un fine-tune de Qwen 2B-Base conçu pour les tâches text-to-SQL. Le modèle intègre entraînement, évaluation et inférence dans un même système unifié, avec couche de sécurité SQL, gestion des dialectes et comportement de clarification. Code, modèle et datasets sont open-source.

Qwen Fine-tuning Génération de code

SIG

HYP

Reddit r/LocalLLaMA·15 juin

We trained a cybersecurity-focused Mythos like LLM open weights on HuggingFace

OpenMythos, un LLM open-source spécialisé en cybersécurité, entraîné via SFT puis RLVR (reward learning avec vérification). Données : 1,84K papers ArXiv cs.CR + dataset CVE structuré. Le modèle réduit les hallucinations sur les vulnérabilités et améliore la calibration d'incertitude. Démo, modèle et datasets disponibles sur HuggingFace.

Open source Fine-tuning Reinforcement learning

SIG

HYP

Reddit r/LocalLLaMA·15 juin

Evalatro: an open benchmark where LLMs play the real Balatro

Evalatro est un benchmark open-source où les LLMs jouent au vrai Balatro via une connexion MCP. Le modèle reçoit l'état du jeu en texte et décide seul de ses coups. Leaderboard public avec seeds fixes, mimo-v2.5-pro atteint Ante 5, aucun modèle n'a approché l'objectif Ante 12.

Benchmarks MCP Open source

SIG

HYP

Reddit r/MachineLearning·15 juin

Open weights are not enough: we need open training frameworks for research and better algorithms [P]

FeynRL, un framework open-source pour le post-training RL des LLMs et agents, vise à rendre la formation transparente et modifiable. L'auteur argue que les poids ouverts ne suffisent pas : il faut des codebases d'entraînement explicites séparant algorithmes et systèmes. Le framework supporte SFT, DPO, multi-GPU et clusters.

Open source Reinforcement learning Génération de code

SIG

HYP

Reddit r/MachineLearning·15 juin

AI language models have favorite names, and we mapped them [R]

Les modèles de langage présentent des biais spécifiques sur les noms de personnages. Claude génère fréquemment Elena Vasquez et Marcus Chen ensemble, formant des ensembles corrélés qui apparaissent sur des dizaines de sites web. Une étude (arXiv:2606.02184) documente ce phénomène découvert lors du développement d'une méthode de diffing de modèles.

Claude Papers Évaluations

SIG

HYP

Reddit r/MachineLearning·15 juin

I implemented 10 core ML algorithms from scratch with NumPy. Here's what no tutorial taught me [P]

Implémentation de 10 algorithmes ML classiques (régression, KNN, arbres de décision, XGBoost, réseaux de neurones) en NumPy pur, validés contre Scikit-learn et PyTorch. Repo open-source avec notebooks Jupyter exécutables localement ou sur Colab. L'auteur souligne l'importance de la structure modulaire et de la compréhension du gradient descent.

Open source Outils Fine-tuning

SIG

HYP

Reddit r/LocalLLaMA·15 juin

React Native ExecuTorch now runs Gemma 4 (Vulkan and MLX accelerated)

ExecuTorch intègre Gemma 4 dans React Native avec accélération GPU : Vulkan sur Android, MLX sur Apple Silicon. Exécution entièrement hors ligne.

Gemini Génération de code Outils

SIG

HYP

Reddit r/MachineLearning·15 juin

PrintGuard 2.0 — ShuffleNetV2 + few-shot prototypical network, TFLite via LiteRT, ≈5 MB, runs unmodified in the browser (Pyodide) and on CPython [P]

PrintGuard 2.0 : détecteur de défauts d'impression 3D FDM basé sur ShuffleNetV2 + réseau prototypique few-shot. Modèle TFLite (~5 MB) via LiteRT, exécutable inchangé en CPython et navigateur (Pyodide). Architecture unifiée avec une seule implémentation Platform par runtime.

Open source

SIG

HYP

Le Big Data·15 juin

OpenAI Partner Network : un réseau pour industrialiser l’IA

OpenAI lance l'OpenAI Partner Network, un réseau destiné à accélérer le déploiement de l'IA en entreprise, avec un investissement de 150 millions de dollars.

OpenAI Business

SIG

HYP

arXiv cs.CL·15 juin

Characterizing Cultural Localization in AI-Generated Stories

Étude arXiv mesurant la localisation culturelle dans les histoires générées par IA. Les chercheurs détectent que seulement 9-17% du vocabulaire varie selon les nationalités, révélant l'usage de templates génériques. Analyse de 5 modèles sur 193 nationalités montre des marqueurs culturels stéréotypés et offensants, particulièrement pour 19 pays du Sud global.

Papers Évaluations Sécurité IA

SIG

HYP

arXiv cs.AI·15 juin

A Deep Reinforcement Learning (DRL)-Based Transformer Method for Solving the Open Shop Scheduling Problem

Méthode Transformer avec apprentissage par renforcement pour résoudre le problème d'ordonnancement en atelier ouvert (OSSP). Le modèle encoder-decoder entraîné sur instances Taillard (4x4 à 10x10) généralise à des instances 40x40-100x100 avec écarts de 12,89-15,12% par rapport à la borne inférieure, surpassant les heuristiques classiques SPT/LPT.

Reinforcement learning Raisonnement Benchmarks

SIG

HYP

arXiv cs.AI·15 juin

Capability Minimization as a Safety Primitive: Risk-Aware Causal Gating for Least-Privilege LLM Agents

Risk-Aware Causal Gating (RACG) est un framework qui décide si un agent LLM doit agir, différer ou s'abstenir en combinant estimation d'effets causaux et contrôle de risque calibré. RACG modélise le chemin causal des actions aux résultats et applique des seuils basés sur le risque contrefactuel plutôt que la confiance prédictive, avec bornes distribution-free garantissant les contraintes de sécurité.

Agents IA Sécurité IA Alignement

SIG

HYP

arXiv cs.AI·15 juin

Adversarial Concept Search: Predicting Compositional Errors From Feature Geometry

Méthode pour prédire les défaillances compositionnelles des LLM via leur géométrie représentationnelle. Quand deux concepts sont encodés proches (interférence linéaire), le modèle échoue à les composer ; quand ils sont quasi-orthogonaux, il réussit. Validé sur programmation, raisonnement multisaut et rappel multilingue.

Raisonnement Évaluations Papers

SIG

HYP

arXiv cs.AI·15 juin

CSPO: Constraint-Sensitive Policy Optimization for Safe Reinforcement Learning

CSPO est une méthode d'optimisation de politique primal-duale pour l'apprentissage par renforcement sûr. Elle intègre la sensibilité aux contraintes dans les mises à jour de politique via une correction basée sur la distance signée minimale à la limite de sécurité. Résultats : récupération plus rapide après violation de contrainte et préservation des récompenses sur benchmarks de navigation et locomotion.

Reinforcement learning Sécurité IA Papers

SIG

HYP