Page 57 sur 146

ToutHaut signalRécent
5835 articles
Reddit r/LocalLLaMA·

Turning every "no thats not what i meant" in chat into actual LoRA training data

Un développeur a créé une app desktop (TideForge) qui transforme les corrections en chat en données d'entraînement LoRA. Après chaque réponse, un bouton « Teach » permet de noter la correction souhaitée ; les exemples s'accumulent et déclenchent un fine-tuning PEFT sur Qwen 0.6B. Test initial : 110 corrections, loss 4.25→0.73, l'adapter conserve l'identité face aux jailbreaks. App gratuite, Windows, GGUF compatible.

Fine-tuningOpen sourceOutils
SIG
72
HYP
35
Reddit r/LocalLLaMA·

Does Engram Do Memory Retrieval in Autoregressive Image Generation?

Un module Engram (mémoire associative O(1) par hash) injecté dans des Transformers pour la génération d'images autorégressives sur ImageNet 256×256 n'améliore pas la qualité (FID) malgré des gains FLOP. Les expériences (gate-clamp, donor-probe, table gelée) révèlent que le module fonctionne comme un chemin résiduel architectural gated, non comme un mécanisme de récupération adressée par contenu.

PapersGénération d'imagesBenchmarks
SIG
72
HYP
15
arXiv cs.LG·

On the Push-Based Asynchronous Federated Learning: A Bias-Correction Aggregation Approach

PushCen-ADFL est un framework d'apprentissage fédéré décentralisé asynchrone qui réduit la communication de 80% tout en améliorant la précision de 6% sous hétérogénéité des données. Il utilise une représentation centroïde partagée, un mélange push-sum et une régularisation légère pour corriger les biais d'agrégation et atténuer la dérive du modèle.

BenchmarksPapers
SIG
72
HYP
15
arXiv cs.LG·

Max-Window Scale Estimation for Near-Lossless HiF8 W8A8 Quantization-Aware Training

Étude systématique du QAT en HiF8 W8A8 sur OpenPangu-Embedded-1B. Identifie deux modes de défaillance : saturation amax (corruption silencieuse via clipping) et oubli catastrophique (surapprentissage du taux d'apprentissage). Solutions : fenêtre d'historique 64-step pour DTS et warmup BF16 500-step. Résultat : 0.43% drop MMLU, 0.58% HellaSwag, 0.22% ARC-Challenge vs baseline.

Fine-tuningBenchmarksPapers
SIG
72
HYP
15
arXiv cs.LG·

HRVConformer: Neonatal Hypoxic-Ischemic Encephalopathy Classification from the Heart Rate signals

HRVConformer est une architecture hybride Convolution-Transformer pour classifier l'encéphalopathie hypoxique-ischémique néonatale à partir de signaux de fréquence cardiaque bruts. Entraîné sur 1 573 epochs (259 annotés, reste faiblement labellisés), le modèle atteint 83,23% AUC et 74,56% accuracy sur un test de 215 heures, surpassant ResNet50 et Transformer seuls.

VisionBenchmarksGénération de code
SIG
72
HYP
25
arXiv cs.LG·

On the Role of Inductive Bias in Time-Series Pretraining: A Case Study in Learning Generalizable Representations for Clinical Time Series

PathoFM, un transformer encodeur préentraîné sur des séries temporelles cliniques (analyse de marche en lésion médullaire), combine trois objectifs : Local Completion, Temporal Continuity et Unsupervised In-Context Dynamics. L'étude montre que les objectifs centrés sur la dynamique produisent les meilleures représentations transférables entre tâches de classification et régression.

PapersRaisonnementFine-tuning
SIG
72
HYP
18
arXiv cs.LG·

Two-Parameter Flows for Learning Population Dynamics of Physical Systems

Nouvelle méthode pour apprendre la dynamique de densités de probabilité haute-dimension sans trajectoires labellisées. Les flux à deux paramètres apprennent les transports de temps d'échantillonnage vers les marginales, puis extraient la dynamique physique par régression sur trajectoires synthétiques couplées. Approche scalable en haute dimension, compatible avec les phénomènes rotationnels.

PapersRaisonnement
SIG
72
HYP
15
arXiv cs.LG·

Dynamic Link Prediction with Temporally Enhanced Signed Graph Neural Networks

Framework modulaire pour améliorer les GNN signés avec contexte temporel. Introduit HCIM (Historical Context Integration Module) combinant pondération temporelle, LSTM et attention multi-tête pour prédire les liens dans les réseaux temporels signés. Testé sur Bitcoin OTC, Bitcoin Alpha, Reddit avec améliorations statistiquement significatives vs baseline statique.

PapersBenchmarksRaisonnement
SIG
72
HYP
15
arXiv cs.LG·

MULTISEISMO: A Multimodal Seismic Dataset and Model for Cross-Modal Seismic Understanding

MultiSeismo est un dataset multimodal de 16K+ événements sismiques (2010-2023) intégrant enregistrements de sismographes, cartes d'intensité, données géographiques et métadonnées textuelles. Les auteurs développent SeisModal, un modèle spécialisé basé sur Unified IO 2 avec encodeur temporel, surpassant les GMMs génériques sur des tâches de raisonnement sismique multimodal.

BenchmarksPapersVision
SIG
72
HYP
25
arXiv cs.LG·

Semigroup Consistency as a Diagnostic for Learned Physics Simulators

Nouvelle métrique de diagnostic pour les simulateurs physiques appris : l'erreur de semi-groupe mesure la cohérence temporelle en comparant l'évolution directe sur s+t avec l'évolution composée (s puis t). Testée sur dynamiques thermiques et Burgers avec ConvNet et FNO, corrélation Spearman ρ=0.635 avec dégradation en long-horizon. Utile comme évaluation post-hoc plutôt que comme objectif d'entraînement.

BenchmarksÉvaluationsPapers
SIG
72
HYP
15
arXiv cs.LG·

When Correct Demonstrations Hurt: Rethinking the Role of Exemplars in In-Context Learning

Une étude arXiv révèle que des démonstrations correctes peuvent dégrader les performances en in-context learning (ICL). Les chercheurs introduisent des perturbations préservant la tâche pour montrer que la correction n'implique pas l'utilité : modifier l'entrée d'un exemplaire tout en conservant une sortie correcte peut réduire la précision, particulièrement sur les petits modèles et tâches difficiles.

Prompt engineeringRaisonnementÉvaluations
SIG
72
HYP
18
arXiv cs.CL·

Cultural Value Alignment Via Latent Activation Steering in Large Language Models

Étude sur l'alignement culturel des LLM via activation steering. Les chercheurs contournent les refus de sécurité en utilisant 300 dilemmes situationnels pour extraire les valeurs culturelles latentes, puis appliquent du steering d'activation sans réentraînement. Découverte clé : les valeurs culturelles sont encodées comme structures couplées, limitant l'alignement précis.

AlignementRaisonnementÉvaluations
SIG
72
HYP
25
arXiv cs.CL·

Annotator Positionality as Signal: Psychometric Weighting for Anti-Autistic Ableism Detection

Étude arXiv sur la détection du capacitisme anti-autiste dans les LLM. Les chercheurs proposent un cadre d'évaluation pondéré psychométriquement, ancré dans la positionality des annotateurs. Les modèles produisent des résultats nuisibles, mislabellisent le langage réapproprié par la communauté et dépendent du matching de mots-clés plutôt que du contexte (identité du locuteur, solidarité in-group).

Sécurité IAAlignementÉvaluations
SIG
72
HYP
15
arXiv cs.CL·

Towards Just-in-Time Adaptive Feedback: Enhancing Student Learning via Knowledge-Grounded LLM

Framework d'apprentissage adaptatif utilisant des LLM ancrés dans des connaissances expertes pour fournir des retours pédagogiques juste-à-temps. Déployé dans un cours universitaire (N>1000), il améliore la performance étudiante de 80% en analysant les essais de raisonnement et en corrigeant les erreurs conceptuelles via conversations itératives.

RaisonnementRAGÉvaluations
SIG
72
HYP
35
arXiv cs.CL·

Elias in the Lighthouse, Again? Diagnosing Low Diversity in LLM Stories

Étude sur 20 000 histoires générées par 4 LLM : 11 mots (Elias, Mara, Elara, lighthouse, clockmaker, librarian) apparaissent dans 88,3% des récits. Ces tokens proviennent de données de préférence utilisées lors de l'alignement, pas des données d'entraînement. Révèle l'impact disproportionné de petits datasets combinés à des algorithmes d'alignement puissants.

BenchmarksAlignementÉvaluations
SIG
72
HYP
25
arXiv cs.LG·

Planning Neural Dynamics with Lie Group Embedding through Supervised Projective Manifold Learning

LieEDNN propose des réseaux de neurones dynamiques intégrant les groupes de Lie pour modéliser les symétries continues. L'approche résout l'incompatibilité entre l'arithmétique additive des réseaux et la géométrie non-euclidienne via des actions adjointes sur l'algèbre de Lie. Application testée sur SE(3) pour manipulateurs télescopiques.

RaisonnementRobotiquePapers
SIG
72
HYP
15
arXiv cs.CL·

AI evaluation may bias perceptions: The importance of context in interpreting academic writing

Étude montrant que les méthodes d'évaluation de l'usage de l'IA dans les publications scientifiques produisent des biais importants sans tenir compte des différences contextuelles entre pays et domaines. Les benchmarks « pooled » confondent variations stylistiques préexistantes avec texte généré par LLM, surestimant l'IA dans certains contextes et la sous-estimant dans d'autres.

ÉvaluationsPapersSécurité IA
SIG
72
HYP
15
arXiv cs.CL·

Evidence Absence Is Not Evidence Insufficiency: Diagnosing NEI Construction Artifacts in Fact Verification

NEI-CAP, un protocole de diagnostic pour évaluer la construction des labels « Not Enough Information » dans les benchmarks de vérification de faits. Les chercheurs montrent que la compétence NEI ne transfère pas fiablement entre constructions : les modèles entraînés sur des indices de raccourci échouent à reconnaître l'insuffisance de preuves sémantiquement liée. Tests sur SciFact, FEVER et HoVer.

BenchmarksÉvaluationsPapers
SIG
72
HYP
15
arXiv cs.CL·

The Need for an External Observer Formalizing the Sufficiency Gap: A Mathematical Extension of Mixture Identifiability and Contextual Grounding in Sequence Models

Article théorique sur l'insuffisance des modèles de séquence face aux états latents non observés. Les auteurs formalisent un processus mixte où un prédicteur parfait peut devenir surconfiant si le contexte observé correspond au mauvais régime latent. Ils montrent que le « sufficiency gap » (écart de suffisance) ne peut être fermé que par révélation parfaite de l'état latent ou un mécanisme de vérification équivalent.

RaisonnementAlignementSécurité IA
SIG
72
HYP
15
arXiv cs.AI·

Managing Uncertainty in LLM-Generated Procedural Knowledge for Virtual Laboratory Planning

Un cadre pour gérer l'incertitude dans les procédures générées par LLM pour la planification de laboratoires virtuels éducatifs. Le système utilise des représentations de domaine structurées et des échantillons de transition d'état incertains pour extraire des règles procédurales, les transformer en contraintes explicites et réparer les étapes défectueuses.

RaisonnementAgents IAPapers
SIG
72
HYP
18
arXiv cs.AI·

From Static Context to Calibrated Interactive RL: Mitigating Distribution Shift in Multi-turn Dialogue with Aligned Simulator

Article théorique et empirique sur l'entraînement d'agents dialogue LLM. Identifie la distribution shift comme limitation majeure du Static Context RL et Interactive RL. Propose Calibrated Interactive RL couplant RL interactif avec alignement du simulateur pour réduire l'écart sim-to-real et améliorer la qualité du dialogue multi-tour.

Reinforcement learningAgents IARaisonnement
SIG
72
HYP
18
arXiv cs.AI·

Which Changes Matter? Towards Trustworthy Legal AI via Relevance-Sensitive Evaluation and Solver-Grounded Reasoning

Étude arXiv sur l'évaluation des LLM juridiques. Les modèles existants sont sensibles à des variations légalement non pertinentes. LexGuard, un framework multi-agent adversarial, formalise les statuts en contraintes exécutables et utilise des solveurs SMT pour vérifier la cohérence logique et la satisfaction légale.

RaisonnementMulti-agentsSécurité IA
SIG
72
HYP
18
arXiv cs.AI·

Tail-Aware HiFloat4: W4A4 Post-Training Quantization for Wan2.2

Tail-Aware HiFloat4 applique la quantification post-entraînement W4A4 au modèle Wan2.2 de génération vidéo texte. La méthode adapte ViDiT-Q en utilisant le format HiFloat4, quantifie les couches linéaires du transformer, préserve les modules sensibles en haute précision, et introduit un calibrage percentile conscient des queues d'activation pour réduire l'impact des valeurs aberrantes.

Génération de vidéosFine-tuningBenchmarks
SIG
72
HYP
15
arXiv cs.AI·

Completion vs Optimality: Policy Gradient in Long-Horizon Cumulative-Damage Problems

Étude des défaillances des méthodes de gradient de politique dans les problèmes de décision à long horizon avec dommages cumulatifs. Les auteurs identifient deux modes d'échec orthogonaux et proposent une décomposition séparant complétude (atteindre l'horizon terminal) et optimalité (correspondre à la programmation dynamique). Expériences sur carrière de maçon (49 étapes) et carrière NBA (20 saisons).

Reinforcement learningPapersRaisonnement
SIG
72
HYP
15
arXiv cs.AI·

AGORA: Adapter-Grounded Observation-Action Retention for Inference-Free Prompt Compression in LLM Agents

AGORA propose une méthode de compression de prompts sans inférence pour agents LLM, basée sur des adaptateurs et la rétention d'observations-actions. Les compresseurs extractifs token-level standards échouent sur les agents (75% de performance en 8/9 cas). L'ablation révèle que la structure et le scorer adaptatif permettent 1.0-11.5x de compression.

Agents IAPrompt engineeringRaisonnement
SIG
72
HYP
15
arXiv cs.LG·

Modeling Dynamic Mixtures of Time-Delay Systems from Streaming Time Series

Méthode online pour modéliser des séries temporelles en streaming comme mélanges dynamiques de systèmes à délais variables. Utilise une représentation tensorielle compacte des paramètres de Markov pour capturer dynamiques et délais, avec décomposition tensorielle pour adapter rapidement le modèle aux changements de régime. DelayMix surpasse les baselines sur données réelles non-stationnaires.

BenchmarksPapers
SIG
72
HYP
15
arXiv cs.LG·

Bridging Classification and Reconstruction: Cooperative Time Series Anomaly Detection

CoAD, un nouveau framework pour la détection d'anomalies en séries temporelles, combine classification (Outlier Exposure) et reconstruction (Masked Autoencoder). Le module de classification génère des masques souples pour guider la reconstruction, résolvant les problèmes de généralisation et d'alignement des masques. Expériences sur benchmarks standards montrent des gains significatifs avec une inférence plus rapide.

BenchmarksPapers
SIG
72
HYP
28
arXiv cs.LG·

Balancing Plasticity and Stability with Fast and Slow Successor Features

Étude sur l'adaptation des agents RL en environnements non-stationnaires graduels. Les auteurs modifient des environnements 3D Miniworld et MuJoCo pour introduire une dérive continue, et montrent que la consolidation synaptique appliquée aux Successor Features (SFs) multi-échelles surpasse les approches basées sur les Q-values. La stabilité prime sur la plasticité dans l'apprentissage continu.

Reinforcement learningPapersBenchmarks
SIG
72
HYP
15