Page 56 sur 146

ToutHaut signalRécent
5831 articles
arXiv cs.CL·

ChildEval: When large language models meet children's personalities

ChildEval est un benchmark contenant 29K profils de personnalité d'enfants (3-6 ans) pour évaluer la capacité des LLM à inférer et suivre les préférences enfant-centrées en conversations longues. Le dataset couvre 5 catégories principales et 14 sous-catégories de la vie quotidienne. Les résultats montrent que le fine-tuning sur ChildEval améliore les performances.

BenchmarksFine-tuningÉvaluations
SIG
72
HYP
25
arXiv cs.LG·

Faster Thermal Profiling of a Lunar Rover with Machine Learning Adapted Finite Difference Model

Un framework de machine learning informé par la physique (PIML) pour modéliser thermiquement un rover lunaire. Un réseau de neurones adaptatif détermine le maillage 3D en différences finies selon les charges thermiques, améliorant la précision de 50% vs modèles coarse-mesh et 39% vs ANN pur, tout en étant 3x plus rapide que les simulations haute-fidélité.

RaisonnementBenchmarksRobotique
SIG
72
HYP
15
arXiv cs.LG·

Test-Time Collective Action: Proxy-Based Perturbations for Correcting Algorithmic Harms

Nouvelle approche permettant à des groupes d'utilisateurs de corriger les biais algorithmiques sans intervention de la plateforme. Test-Time Collective Action (TTCA) utilise des perturbations universelles générées via un proxy du modèle pour améliorer l'équité sans accès à l'entraînement. Validation sur CIFAR-10, CIFAR-100 et FairFace montre la fermeture des écarts de précision entre sous-groupes.

Sécurité IAAlignementÉvaluations
SIG
72
HYP
18
arXiv cs.LG·

SparseOpt: Addressing Normalization-induced Gradient Skew in Sparse Training

SparseOpt, un optimiseur conscient de la parcimonie, résout le problème de gradient asymétrique induit par la normalisation par batch en entraînement sparse dynamique. Tests sur ResNet (CIFAR-100, ImageNet) montrent convergence plus rapide et meilleure généralisation. Première étude systématique de l'interaction entre Batch Normalization, couches sparse et DST.

PapersBenchmarksFine-tuning
SIG
72
HYP
18
arXiv cs.AI·

Diagnosing Live Within-Policy Instruction Conflicts in LLM Agents with Witnessed Resolution Profiles

WIRE est un pipeline d'évaluation qui diagnostique les conflits de règles au sein d'une même politique de prompt LLM. Sur 6 politiques publiques, l'outil extrait 276 règles et identifie 170 paires de règles en collision dure. Seulement 35,4% des cas testés respectent les deux règles simultanément ; 64,6% violent au moins une règle source.

Agents IAPrompt engineeringÉvaluations
SIG
72
HYP
18
arXiv cs.LG·

Balancing Fidelity and Diversity in Diffusion Models via Symmetric Attention Decomposition: Hopfield Perspective

Article théorique décomposant la matrice d'attention pré-softmax en composantes symétrique et antisymétrique. La partie symétrique gouverne le paysage énergétique, la partie antisymétrique pilote la circulation. Les auteurs proposent des mesures de stabilité Hopfield pour quantifier la fidélité-diversité en génération et un contrôle pour moduler ce compromis.

RaisonnementPapersVision
SIG
72
HYP
15
arXiv cs.LG·

Bayesian Deployment Approval for Learned Landing Controllers under Finite Rollout Validation

Framework bayésien pour valider le déploiement de contrôleurs d'atterrissage autonomes entraînés par RL. Utilise l'inférence bayésienne pour quantifier l'incertitude sur la capacité réelle des politiques, au-delà des métriques empiriques (reward, taux de succès). Expériences avec PPO et SAC montrent que l'optimisation empirique surconfiance, tandis que l'inférence bayésienne calibre mieux la confiance de déploiement.

Reinforcement learningSécurité IARobotique
SIG
72
HYP
15
arXiv cs.LG·

High-Fidelity Industrial Crash Dynamics Prediction via Geometry-Aware Operator Learning with Memory-Efficient Low-Rank Attention

GeoTransolver, un framework d'operator learning géométrie-aware, prédit avec précision la dynamique de crash automobile à l'échelle industrielle. Sur des datasets de bumper beam et véhicule complet, il capture les déformations plastiques et profils d'accélération. Une modification FLARE réduit la mémoire de 2x tout en améliorant la précision pour les transitoires haute-fréquence.

PapersBenchmarksRaisonnement
SIG
72
HYP
25
arXiv cs.AI·

EAPO: Entropy-Driven Adaptive Positive-Negative Sample Weighting for Policy Optimization in Open-Ended QA

EAPO est une méthode d'optimisation de politique adaptative pour l'entraînement de modèles de raisonnement en QA ouvert. Elle ajuste dynamiquement le poids des échantillons positifs/négatifs selon le ratio d'entropie courante/initiale pour préserver l'exploration et la stabilité. Tests sur deux datasets médicaux montrent amélioration de la diversité et stabilité vs baselines à poids fixes.

Reinforcement learningRaisonnementÉvaluations
SIG
72
HYP
18
arXiv cs.CL·

LCO: LLM-based Constraint Optimization for Safer Agentic LLMs in Real-world Tasks

LCO (LLM-based Constraint Optimization) est un framework qui réduit le reward hacking en contexte (ICRH) chez les LLMs autonomes sans fine-tuning. Deux modules : auto-réflexion pour intégrer des contraintes de sécurité, et échantillonnage évolutionnaire pour maintenir les actions dans un espace sûr. Sur GPT-4, réduction de 39% du taux de toxicité et 15.23% de l'ICRH.

Agents IASécurité IAAlignement
SIG
72
HYP
25
arXiv cs.AI·

Identifying and Understanding Human Values in Text: A Tailorable LLM-based Architecture

Architecture modulaire basée sur LLM pour détecter et quantifier l'intensité des valeurs humaines dans du texte. Trois modules coordonnés : génération de spécifications de valeurs, étiquetage de textes, assignation de support/résistance gradué. Évaluation sur ValueEval dataset avec plusieurs LLMs, démontrant la généralité du pipeline.

AlignementÉvaluationsRaisonnement
SIG
72
HYP
18
arXiv cs.LG·

Supervised Distributional Reduction via Optimal Transport and Dependence Maximization

SDR (Supervised Distributional Reduction) combine le transport optimal et la maximisation de dépendance pour apprendre des représentations cibles. L'algorithme étend l'objectif Fused Gromov-Wasserstein avec un terme de dépendance explicite, produisant des embeddings compacts qui capturent structure géométrique et signal prédictif. Application aux processus gaussiens avec noyaux adaptatifs.

Papers
SIG
72
HYP
15
arXiv cs.AI·

Hierarchical Prompt-Domain Control and Learning for Resource-Constrained Agentic Language Models

Framework hiérarchique pour LLMs compacts en systèmes agentiques sous contraintes (mémoire, latence, coût). Distillation du modèle + boucle oracle-contrôleur qui valide les protocoles, projette l'historique dans un domaine de prompt viable, et déclenche du fine-tuning léger. Séparation entre apprentissage du schéma et adaptation sémantique. Évaluation sur Multi-Fidelity Bayesian Optimization.

Agents IAFine-tuningPrompt engineering
SIG
72
HYP
18
arXiv cs.CL·

UniMaia: Steering Chess Policies with Language for Human-like Play

UniMaia est un framework qui contrôle une politique d'échecs (Lc0) via des prompts en langage naturel, sans réentraînement multimodal complet. Un encodeur texte léger et un mécanisme ControlNet permettent de moduler le jeu (sélection d'ouverture, niveau). UniMaia-Aux ajoute des objectifs temporels et de prédiction comportementale. Résultats SOTA sur benchmarks prompt-conditionnés.

Prompt engineeringRaisonnementFine-tuning
SIG
72
HYP
25
arXiv cs.LG·

Transferable Reinforcement Learning via Probabilistic Latent Embeddings and Dynamic Policy Adaptation for Sim-to-Real Deployment

Framework RL pour transfert de politique sim-to-real via embeddings latents probabilistes et adaptation dynamique. Utilise meta-RL et CMDPs pour inférer la représentation latente de l'environnement, avec formulation distributional RL ajustant dynamiquement les niveaux de risque selon la précision d'estimation du contexte latent.

Reinforcement learningRobotiqueSécurité IA
SIG
72
HYP
18
arXiv cs.LG·

Can Entry-Wise Clipping Give Spectral Control of Stochastic Gradients?

Article théorique sur le contrôle spectral du bruit de gradient stochastique via clipping entrée-par-entrée. Montre qu'une méthode simple d'écrêtage entrée-par-entrée peut équilibrer structure matricielle et coût computationnel, avec garanties de convergence O(ε⁻⁴) sous bruit Cauchy-contaminé. Gains empiriques : ~7% de tokens économisés sur NanoGPT avec shrinkage lisse, ~2% supplémentaires combiné avec Muon.

PapersReinforcement learningBenchmarks
SIG
72
HYP
15
arXiv cs.LG·

$E^3$-Agent: An Executable and Evolving Agent for Resource Management of Edge Generative Inference

E³-Agent est un agent IA exécutable et adaptatif pour la gestion des ressources d'inférence générative sur edge. Il combine un routeur rapide (décisions en millisecondes) et un contrôleur LLM lent piloté par événements, apprenant en ligne des retours d'exécution. Évalué en simulation, il réduit la latence de 65-73% vs baselines statiques sur scénarios dynamiques (sémantique, churn, drift).

Agents IARaisonnementInfrastructure
SIG
72
HYP
28
Reddit r/MachineLearning·

noisekit - CLI for generating realistic degraded speech datasets for ASR benchmarking [P]

noisekit est un CLI open-source pour générer des datasets de parole dégradée annotés, permettant de benchmarker les modèles STT sur des conditions réalistes (télécom G.711, bruit ambiant, réverbération). Résout le problème : les datasets publics (FLEURS, CommonVoice) sont trop propres pour évaluer la performance en production. Compatible HuggingFace AudioFolder, inclut métriques PESQ/SNR/NISQA.

VoixÉvaluationsBenchmarks
SIG
72
HYP
25
Reddit r/MachineLearning·

EMA-Gated Temporal Sequence Compression in Vision Transformers [P]

NeuroFlow est un framework de routage dynamique pour l'inférence vidéo des Vision Transformers. Il exploite la redondance temporelle via une moyenne mobile exponentielle (EMA) des embeddings de patches pour éliminer les tokens stationnaires. Architecture B atteint 55.80× d'accélération (678 ms → 11.9 ms sur SigLIP 1792p) à 97.37% de fidélité. Code disponible.

VisionPapersOpen source
SIG
72
HYP
35
Reddit r/MachineLearning·

Cross-species RSA: same learning rules (BP, PC, STDP, FA) tested against both human fMRI and macaque electrophysiology [P]

Étude comparative de règles d'apprentissage (BP, PC, STDP, FA) testées sur fMRI humain et électrophysiologie macaque (V1/V2/V4/IT). STDP et PC dominent en V1/V2 (ρ ≈ 0.30/0.28), conservant le pattern humain. En IT, l'alignement dépend de la capacité du modèle (ResNet-50: ρ ≈ 0.25) plutôt que de la règle. Code et deux papers (arxiv 2604.16875, 2605.22401) disponibles.

PapersBenchmarksRaisonnement
SIG
72
HYP
15
Reddit r/LocalLLaMA·

Turning every "no thats not what i meant" in chat into actual LoRA training data

Un développeur a créé une app desktop (TideForge) qui transforme les corrections en chat en données d'entraînement LoRA. Après chaque réponse, un bouton « Teach » permet de noter la correction souhaitée ; les exemples s'accumulent et déclenchent un fine-tuning PEFT sur Qwen 0.6B. Test initial : 110 corrections, loss 4.25→0.73, l'adapter conserve l'identité face aux jailbreaks. App gratuite, Windows, GGUF compatible.

Fine-tuningOpen sourceOutils
SIG
72
HYP
35
Reddit r/LocalLLaMA·

Does Engram Do Memory Retrieval in Autoregressive Image Generation?

Un module Engram (mémoire associative O(1) par hash) injecté dans des Transformers pour la génération d'images autorégressives sur ImageNet 256×256 n'améliore pas la qualité (FID) malgré des gains FLOP. Les expériences (gate-clamp, donor-probe, table gelée) révèlent que le module fonctionne comme un chemin résiduel architectural gated, non comme un mécanisme de récupération adressée par contenu.

PapersGénération d'imagesBenchmarks
SIG
72
HYP
15