Page 60 sur 192

ToutHaut signalRécent

7679 articles

TMR-GGNN: Credit Card Fraud Detection based on Time-Aware Multi-Relational Guided Graph Neural Network

TMR-GGNN, un réseau de neurones graphiques multi-relationnel sensible au temps, détecte la fraude par carte bancaire en modélisant les interactions hétérogènes entre clients, commerçants, appareils et adresses IP. Le modèle combine attention relationnelle temporelle, apprentissage contrastif et une fonction de perte composite (InfoNCE + Focal Loss) pour gérer les données déséquilibrées et réduire les faux négatifs.

Reinforcement learning

SIG

HYP

arXiv cs.LG·18 juin

Structured Representation Learning with Locally Linear Embeddings and Adaptive Feature Fusion

Framework RL inspiré par les neurosciences qui sépare les features dynamiques et récompense via locally linear embeddings (LLE) et fusionne adaptivement les représentations par mécanisme d'attention. Améliore l'efficacité d'apprentissage sur benchmarks comparé aux approches RL conventionnelles.

Reinforcement learning Raisonnement Benchmarks

SIG

HYP

arXiv cs.CL·18 juin

Efficient Financial Language Understanding via Distillation with Synthetic Data

Framework de distillation avec données synthétiques pour l'analyse de sentiment financier. Transfert de connaissances d'un modèle teacher instruction-tuned vers des modèles compacts. Sélection de seeds par clustering pour générer des données synthétiques via few-shot prompting. Le modèle compact surpasse le teacher sur textes complexes/bruyants avec supervision minimale.

Fine-tuning RAG Prompt engineering

SIG

HYP

arXiv cs.LG·18 juin

Quantum Annealing Enhanced Reinforcement Learning for Accurate Remaining Useful Lifetime Prediction

Framework QAQL combinant quantum annealing et Q-learning pour prédire la durée de vie utile restante (RUL) en maintenance prédictive. Chaque mise à jour Q-value est encodée en QUBO résolu sur D-Wave Advantage. Validé sur NASA C-MAPSS et datasets de maintenance : amélioration statistiquement significative vs baselines classiques et quantiques.

Reinforcement learning Benchmarks Papers

SIG

HYP

arXiv cs.LG·18 juin

PSyGenTAB: A Privacy-Preserving Framework for Synthetic Clinical Tabular Data Generation via Constrained Optimization

PSyGenTAB est un framework de génération de données synthétiques cliniques qui formule le problème comme une optimisation contrainte via la méthode du Lagrangien augmenté. Le système intègre des contraintes de confidentialité directement dans l'entraînement pour préserver les relations inter-variables cliniques et les patterns de classes minoritaires, tout en maintenant l'utilité des données pour l'IA médicale.

Benchmarks

SIG

HYP

arXiv cs.AI·18 juin

Searching for Synergy in Shared Workspace Human-AI Collaboration

Étude sur la collaboration humain-IA en espace partagé via Collaborative Gym et DiscoveryBench. Ajouter des collaborateurs améliore les performances seulement avec une structure de coordination. Un scaffolding combinant mémoire partagée et validation humaine (HITL gates) augmente la performance, particulièrement en équipes de trois, en clarifiant les responsabilités.

Agents IA Multi-agents Évaluations

SIG

HYP

arXiv cs.AI·18 juin

What Must Generalist Agents Remember?

Article théorique sur la mémoire des agents généralistes. Démontre qu'un agent performant sur plusieurs domaines doit maintenir des distributions mémoire distinctes aux goulots d'étranglement observationnels. La mémoire permet la désambiguïsation de domaine, la reconstruction de dynamiques de transition et la planification.

Agents IA Raisonnement Papers

SIG

HYP

arXiv cs.CL·18 juin

LLMs Struggle to Measure What Distinguishes Students of Different Proficiency Levels: A Study of Item Discrimination in Reading Comprehension Assessment

Étude évaluant 42 LLMs (propriétaires et open-source) sur leur capacité à mesurer la discrimination d'items en compréhension de lecture. Les modèles échouent : corrélation de Spearman de 0,152 en prédiction directe, 0,241 en calibration CTT. Les LLMs ne capturent pas fiablement comment les items distinguent les étudiants de niveaux différents.

Benchmarks Évaluations Papers

SIG

HYP

arXiv cs.CL·18 juin

RegMix-D: Dynamic Data Mixing via Proxy Training Trajectories

RegMix-D étend RegMix en utilisant les trajectoires complètes de perte des runs proxy, pas seulement les pertes finales, pour prédire des mélanges de données optimaux à plusieurs étapes d'entraînement. Testé sur 25B tokens du Pile avec un modèle 1B, RegMix-D surpasse RegMix et DoReMi sur 13 tâches aval avec 75% moins de calcul proxy.

Benchmarks Papers

SIG

HYP

Reddit r/LocalLLaMA·17 juin

llama.cpp now supports model management (downloading etc) via API

llama.cpp intègre la gestion de modèles via API (PR #23976). Téléchargement et chargement/déchargement à la demande depuis un répertoire. Interface utilisateur prévue. Déploiement et gestion du cycle de vie complets via API seule.

Llama Open source Infrastructure

SIG

HYP

Reddit r/LocalLLaMA·17 juin

I released Inflect-Nano, an ultra-extreme tiny 4.63m parameter TTS model.

Inflect-Nano-v1, modèle TTS de 4.63M paramètres, est le 2e plus petit modèle de synthèse vocale public. Composé d'un modèle acoustique (3.46M) et d'un vocoder (1.17M), il génère de l'audio 24 kHz en anglais. ~17x plus petit que Kokoro, ~108x plus petit que Chatterbox. Exécutable localement en PyTorch, adapté aux appareils embarqués et assistants vocaux hors ligne.

Voix Open source Outils

SIG

HYP

Reddit r/LocalLLaMA·17 juin

We built an open source UI kit for document RAG/agents

Extend publie un kit UI open source (MIT) pour RAG et agents documentaires : 15 composants pour visualiser PDF, DOCX, XLSX avec citations par bounding box, upload de fichiers, e-signature. Construit en interne, éprouvé sur millions de pages/jour, maintenu activement.

RAG Agents IA Open source

SIG

HYP

Reddit r/LocalLLaMA·17 juin

GameCraft-Bench: Can Agents Build Playable Games End-to-End in a Real Game Engine?

GameCraft-Bench évalue la capacité d'agents IA à construire des jeux jouables end-to-end dans un moteur de jeu réel. Benchmark teste Opus-4.7, GPT-5.5, Kimi-K2.6, DeepSeek-V4-Pro et autres. Absence de résultats pour modèles médium (27B-31B).

Agents IA Benchmarks Génération de code

SIG

HYP

Reddit r/LocalLLaMA·17 juin

TRELLIS.2 now runs natively on MLX (Image to 3d object model)

Port natif MLX de TRELLIS.2 (Microsoft) pour Apple Silicon. Génération d'objets 3D à partir d'images en 512×512 (~70s) et 1024×1024 (~300-700s) sur M4 Max. Repo GitHub disponible.

Open source Outils Infrastructure

SIG

HYP

Reddit r/MachineLearning·17 juin

I deployed a GAN on a Raspberry Pi 4 and built a physical NFT minting device [P]

Déploiement d'un DCGAN 128×128 sur Raspberry Pi 4 connecté à un ESP32. Modèle entraîné 800 epochs sur M3 (4h), 2480 images, exporté en ONNX (53MB). Inférence 3s/image. Génère des visages hybrides avec titres aléatoires. Présenté comme installation artistique à NYC.

Génération d'images Open source Outils

SIG

HYP

Reddit r/LocalLLaMA·17 juin

Headless screenshot loops let a local 30B agent finish a raytraced FPS demo in pure C

Un agent local Qwen 27B a complété une démo FPS raytraced en C pur en utilisant des boucles de screenshots headless pour déboguer visuellement. L'ajout d'un mode headless permettant à l'agent de capturer des frames et d'inspecter les résultats a transformé l'approche : le modèle a appris à automatiser le débogage visuel récursif.

Qwen Agents IA Génération de code

SIG

HYP

The Decoder·17 juin

Hyperscalers may soon be unable to fund their AI buildout from cash flow alone

Selon Epoch AI, Microsoft, Amazon, Alphabet, Meta et Oracle augmentent leurs dépenses en infrastructure IA de ~70% annuels contre 23% pour le cash-flow opérationnel. Les dépenses pourraient dépasser le cash-flow dès Q3 2026. Plusieurs géants explorent déjà des financements externes.

Business Infrastructure

SIG

HYP

Hugging Face Blog·17 juin

From the Hugging Face Hub to robot hardware with Strands Agents and LeRobot

Hugging Face et Strands intègrent des modèles du Hub avec LeRobot pour déployer des agents IA sur du matériel robotique. La plateforme permet aux développeurs d'utiliser des modèles pré-entraînés pour contrôler des robots physiques directement.

Agents IA Robotique Open source

SIG

HYP

OpenAI Blog·17 juin

A near-autonomous AI chemist improves a challenging reaction in medicinal chemistry

OpenAI et Molecule.one démontrent qu'un chimiste IA quasi-autonome utilisant GPT-5.4 a amélioré une réaction clé en chimie médicinale, optimisant un processus de synthèse pharmaceutique.

GPT OpenAI Agents IA

SIG

HYP

Reddit r/MachineLearning·17 juin

Next-Latent Prediction Transformers [R]

Microsoft Research propose Next-Latent Prediction (NextLat), une méthode d'apprentissage auto-supervisé où les transformers prédisent leur propre état latent suivant. Cela améliore la compression de l'historique, l'efficacité des données et accélère l'inférence jusqu'à 3.3x via décodage spéculatif récursif.

Raisonnement Reinforcement learning Papers

SIG

HYP

Reddit r/MachineLearning·17 juin

What is Speculative Decoding? (trending on paperswithco.de) [R]

Speculative Decoding est une technique d'optimisation d'inférence qui utilise un petit modèle rapide pour proposer plusieurs tokens futurs, vérifiés en parallèle par un modèle cible plus grand. SGLang a publié un blog détaillant comment atteindre des latences optimales pour l'inférence LLM avec Modal et les modèles DFlash de Z.ai.

Benchmarks Infrastructure

SIG

HYP

arXiv cs.LG·17 juin

Credibility-Weighted Pricing of Autonomous Vehicle Liability Under Operational Design Domain Shift

Framework bayésien hiérarchique pour tarifier la responsabilité civile des véhicules autonomes face aux changements de domaine opérationnel. Testé sur 648 accidents Waymo vérifiés (4 villes US, 116M miles) : poids de crédibilité modérés (0.12-0.46), pooling partiel surpasse l'absence de pooling, avantage du kernel détectable à ~12 villes déployées.

Sécurité IA Benchmarks Régulation

SIG

HYP

arXiv cs.AI·17 juin

MathVis-Fine: Aligning Visual Supervision with Necessity via Progressive Dependency-Guided Training for Multimodal Mathematical Reasoning

MathVis-Fine propose un cadre pour améliorer le raisonnement mathématique multimodal en modélisant les dépendances visuelles fine-grained. Un nouveau dataset annote les images avec des ratings de dépendance visuelle. Un entraînement progressif en deux étapes équilibre les récompenses de correction et de grounding visuel selon la nécessité réelle de chaque échantillon.

Raisonnement Vision Benchmarks

SIG

HYP

arXiv cs.AI·17 juin

StepGuard: Guarding Web Navigation via Single-Step Calibration

StepGuard propose une méthode pour améliorer la navigation web par agents IA. Elle combine Dynamic Dual-Policy Optimization (DDPO) pour gérer les conflits de récompense et Confidence-Guided Adaptive Navigation Reflection (CANR) pour calibrer les erreurs à chaque étape. Le framework atteint des résultats SOTA sur les benchmarks de navigation web.

Agents IA Reinforcement learning Vision

SIG

HYP

arXiv cs.AI·17 juin

A homotopy-type-theoretic generalization of neurosymbolic inference

Article théorique proposant une généralisation des systèmes neurosymboliques via la théorie homotopique des types. Le cadre préserve les informations de symétrie et de preuves multiples, transformant les fonctionnelles classiques en cardinales homotopiques pondérées. Validation sur benchmarks MNIST avec meilleure calibration qu'un ensemble diversifié.

Raisonnement Papers

SIG

HYP

arXiv cs.AI·17 juin

Using Cognitive Models to Improve Language Model Simulation of Human Persuasion Games

Les chercheurs proposent « Equation-to-Behavior Prompting » pour guider les LLM à simuler différents modèles cognitifs humains (Bayésien, motivated reasoning, modèle α-β de Grether). Les grands modèles approximent ces spécifications par prompting, mais les petits modèles échouent. L'entraînement par RL réduit l'erreur de croyance de 26,5% et améliore les performances de 2,5–12% sur des jeux de persuasion légaux.

Raisonnement Reinforcement learning Évaluations

SIG

HYP

arXiv cs.AI·17 juin

Brick-DICL: Dynamic In-Context Learning for Automated Brick Schema Classification

Brick-DICL propose un framework de dynamic in-context learning en deux étapes pour classifier automatiquement les points BMS selon le schéma Brick (936 classes). Combine metadata-RAG et class-RAG pour enrichir les connaissances des LLMs, avec filtrage multi-modèles pour réduire l'effort de vérification manuelle.

RAG Prompt engineering Raisonnement

SIG

HYP

arXiv cs.AI·17 juin

Can LLMs Be CEOs? Benchmarking Strategic Resource Reallocation with Multi-Role Agent Simulation

CEO-Bench, un benchmark multi-agent, évalue la capacité des LLM à prendre des décisions stratégiques de réallocation de ressources. Cinq modèles frontière testés sur 13 scénarios montrent une validité structurelle élevée mais divergent sur l'étalonnage stratégique. Les défaillances incluent la capture par un seul conseiller et l'amnésie historique.

Agents IA Multi-agents Raisonnement

SIG

HYP

arXiv cs.AI·17 juin

MapSatisfyBench: Benchmarking Satisfaction-Aware Map Agents through Behavior-Grounded Implicit Decision Factors

MapSatisfyBench est un benchmark pour évaluer les agents LLM intégrés aux services cartographiques. Il mesure leur capacité à identifier et satisfaire les besoins implicites des utilisateurs (facteurs de décision non explicités) à partir de données comportementales réelles. Les expériences montrent que les agents actuels réussissent bien sur les tâches explicites mais peinent à anticiper les facteurs implicites.

Agents IA Benchmarks Évaluations

SIG

HYP

arXiv cs.AI·17 juin

Nothing from Something: Can a Language Model Discover 0?

Étude sur la capacité des modèles de langage à découvrir le concept mathématique de zéro. Des modèles GPT-2 échouent sans entraînement supplémentaire, mais progressent après exposition à des dizaines/centaines d'exemples. Le préentraînement linguistique réduit de ~50% les exemples nécessaires.

Raisonnement Papers Benchmarks

SIG

HYP

arXiv cs.LG·17 juin

ReRAM-aware Model Finetuning addressing I-V Non-linearity and Retention Errors

Méthode de fine-tuning hardware-aware pour déployer des DNNs sur réseaux ReRAM. Utilise transformation sinh pour atténuer la non-linéarité I-V et intègre les erreurs de rétention dans une perte de régularisation. Résultats : ResNet18/DeiT-Tiny sans dégradation, MobileNetV3 <2% sur ImageNet, F-1 -1 point sur SQuAD v2.

Fine-tuning Benchmarks

SIG

HYP

arXiv cs.LG·17 juin

Generalization Guarantees for Multi-Input Neural Operator Learning in Sobolev Spaces

Analyse théorique des garanties de généralisation pour les opérateurs neuronaux multi-entrées avec erreur mesurée en normes de Sobolev. Le cadre traite plusieurs fonctions d'entrée sur domaines différents avec dimensions et régularités variables. Les taux d'approximation et de généralisation quantifient explicitement la contribution de chaque espace d'entrée.

Papers Raisonnement Benchmarks

SIG

HYP

arXiv cs.LG·17 juin

Decision-Driven Geosteering Under Uncertainty: A Unified Framework for Sequential Decision Optimization

Framework d'optimisation séquentielle pour la géonavigation de puits pétroliers sous incertitude. Intègre filtrage particulaire pour l'interprétation probabiliste du sous-sol et apprentissage par renforcement basé sur la valeur. Compare trois approches décisionnelles : programmation dynamique approximée, Deep Q-learning et Double DRL avec décomposition duelle, validées sur simulateur industriel.

Reinforcement learning Raisonnement Évaluations

SIG

HYP

arXiv cs.LG·17 juin

Finsler Geometry, Graph Neural Networks, and You

Des chercheurs proposent des réseaux de neurones graphiques basés sur la géométrie de Finsler pour dépasser les limitations des architectures utilisant le Laplacien graphique (opérateurs isotropes). Ils prouvent la convergence discrète vers l'opérateur vrai sur variétés et expriment cet opérateur comme couche GNN, validant la récupération de géométries non-linéaires.

Papers Benchmarks

SIG

HYP

arXiv cs.LG·17 juin

Informative Missingness to Generate Irregular Clinical Time Series

Approche par diffusion pour générer des séries temporelles cliniques irrégulières en modélisant conjointement les valeurs de laboratoire et leurs motifs d'observation. Utilise le benchmark DACMI dérivé de MIMIC-III, étend TimeDiff pour capturer les dépendances entre physiologie et comportement de test clinique sous missingness MNAR.

Papers Benchmarks Reinforcement learning

SIG

HYP

arXiv cs.LG·17 juin

Correct When Paired, Wrong When Split: Decoupling and Editing Modality-Specific Neurons in MLLMs

Les chercheurs identifient un problème critique dans l'édition de connaissances des MLLMs : les mises à jour fonctionnent avec des entrées multimodales (texte+image) mais échouent avec des entrées unimodales seules. Ils proposent DECODE, une méthode qui localise et découple les neurones spécifiques à chaque modalité pour propager les éditions de manière cohérente.

Fine-tuning Vision Évaluations

SIG

HYP

arXiv cs.CL·17 juin

Perceptual compensation for tonal context in self-supervised speech models

Étude sur wav2vec2.0 examinant la compensation perceptuelle pour le contexte tonal en mandarin. Les modèles pré-entraînés non supervisés ne montrent pas de compensation dans les similarités d'embeddings. Les classifieurs de probing révèlent une compensation partielle mais ne répliquent pas les performances humaines. Les objectifs supervisés semblent nécessaires pour abstraire certaines régularités phonologiques.

Papers Évaluations Voix

SIG

HYP

arXiv cs.CL·17 juin

Bridging Functional Correctness and Runtime Efficiency Gaps in LLM-Based Code Translation

SwiftTrans, un framework de traduction de code par LLM, combine exploration multi-perspective (MpTranslator avec apprentissage en contexte parallèle) et sélection consciente des différences (DiffSelector) pour améliorer à la fois la correction fonctionnelle et l'efficacité runtime. Évaluation sur CodeNet, F2SBench et SwiftBench.

Génération de code Prompt engineering Benchmarks

SIG

HYP

arXiv cs.CL·17 juin

Prompt Perturbation for Reliable LLM Evaluation over Comparison Graphs

Méthode pour évaluer les LLM via comparaisons par paires en résolvant l'intransitivité (cycles A≻B≻C≻A). Framework de perturbation de prompts génère des variantes, identifie les incohérences structurelles dans les graphes de comparaison, puis applique des méthodes de ranking filtrées pour stabiliser les leaderboards.

Évaluations Prompt engineering Benchmarks

SIG

HYP

arXiv cs.CL·17 juin

MODE-RAG: Manifold Outlier Diagnosis and Energy-based Retrieval-Augmented Generation Evaluation

MODE-RAG est un système multi-agent basé sur l'énergie libre variationnelle pour réduire les hallucinations dans les systèmes de génération augmentée par récupération multimodale. Il utilise MCTS, perturbations logit et des agents spécialisés pour router les requêtes à haut risque et vérifier les faits. Les auteurs introduisent ModeVent, un sous-ensemble du dataset MultiVent, pour évaluer la robustesse.

RAG Multi-agents Vision

SIG

HYP