Page 64 sur 147

ToutHaut signalRécent
5873 articles
arXiv cs.LG·

Less Data, Faster Training: repeating smaller datasets speeds up learning via sampling biases

Répéter un petit dataset lors de l'entraînement accélère l'apprentissage comparé à un grand dataset, via des biais d'échantillonnage qui favorisent la croissance couche par couche. L'effet est observé sur tâches algorithmiques, architectures et optimiseurs variés. Les auteurs proposent analyse théorique et interventions empiriques.

PapersRaisonnementReinforcement learning
SIG
72
HYP
18
arXiv cs.LG·

Graph Transductive Sharpening: Leveraging Unlabeled Predictions in Node Classification

Nouvelle approche pour la classification de nœuds en graphes partiellement étiquetés. Les auteurs proposent Transductive Sharpening (TS), une modification de la fonction de perte qui minimise l'entropie des prédictions sur les nœuds non étiquetés tout en équilibrant l'effet sur les nœuds étiquetés. Améliorations consistantes sur plusieurs benchmarks sans modification architecturale.

BenchmarksPapers
SIG
72
HYP
18
arXiv cs.LG·

Neural Estimation of Pairwise Mutual Information in Masked Discrete Sequence Models

Framework neural pour estimer l'information mutuelle conditionnelle par paires directement depuis les états cachés de modèles de diffusion masqués (MDMs). L'estimateur capture les dépendances internes du modèle et permet un décodage parallèle guidé par MI, réduisant les passes forward d'inférence de 3-5x sur Sudoku et génération de séquences protéiques (ESM-C).

RaisonnementGénération de codePapers
SIG
72
HYP
18
arXiv cs.LG·

It Takes Two: Complementary Self-Distillation for Contextual Integrity in LLMs

SELFCI est un framework de self-distillation complémentaire qui optimise deux divergences KL inverses indépendantes pour aligner les LLMs sur l'Intégrité Contextuelle (CI). Le système préserve les informations pertinentes pour la tâche tout en minimisant les divulgations inappropriées, sans supervision externe coûteuse, surpassant GRPO et autres baselines.

Reinforcement learningAlignementSécurité IA
SIG
72
HYP
28
arXiv cs.CL·

Collocational bootstrapping: A hypothesis about the learning of subject-verb agreement in humans and neural networks

Étude sur le « collocational bootstrapping » : mécanisme par lequel les régularités dans les co-occurrences de mots fournissent des indices pour les dépendances syntaxiques. Entraînement de réseaux de neurones sur des données synthétiques variant en prévisibilité des paires sujet-verbe. Les résultats suggèrent que ce mécanisme pourrait expliquer l'acquisition de l'accord sujet-verbe chez l'enfant.

PapersRaisonnementBenchmarks
SIG
72
HYP
15
arXiv cs.CL·

When Reasoning Supervision Hurts: TTCW-Based Long-Form Literary Review Generation

Étude sur la génération de critiques littéraires long-format basées sur le Torrance Test of Creative Writing (TTCW). Construction d'un dataset de 263 911 histoires annotées selon 14 dimensions créatives. Fine-tuning de Qwen3 (4B et 8B) montre que l'absence de supervision par raisonnement produit de meilleures performances (0.6820), les modèles supervisés échouant à générer les 14 métriques requises.

QwenFine-tuningRaisonnement
SIG
72
HYP
15
arXiv cs.CL·

Long-Context Reasoning Through Proxy-Based Chain-of-Thought Tuning

ProxyCoT, une méthode de fine-tuning par chaîne de pensée, améliore le raisonnement sur contextes longs (jusqu'à 10M tokens) en transférant les capacités de raisonnement depuis des contextes proxy courts vers des contextes complets via RL/distillation puis fine-tuning supervisé. Gains de performance avec surcharge computationnelle réduite et généralisation cross-domain.

RaisonnementFine-tuningReinforcement learning
SIG
72
HYP
18
arXiv cs.LG·

Closed-form predictive coding via hierarchical Gaussian filters

Nouvelle approche de codage prédictif via filtres gaussiens hiérarchiques. Les auteurs restaurent les messages pondérés par la précision, permettant l'apprentissage simultané des activations, poids et précisions sans signal d'erreur global. Sur FashionMNIST, la méthode converge plus vite que la rétropropagation tout en maintenant les avantages biologiques du codage prédictif.

RaisonnementAlignementPapers
SIG
72
HYP
18
arXiv cs.LG·

Catching a Moving Subspace: Low-Rank Bandits Beyond Stationarity

Article théorique sur les bandits contextuels linéaires de faible rang avec dérive de sous-espace. Propose SPSC, un algorithme qui combine sondes isotropes et ridge-UCB projeté, atteignant une regret dynamique de Õ(r√T) au lieu de Õ(d√T). Caractérise les conditions d'identifiabilité du sous-espace mouvant et valide sur 11 benchmarks (synthétiques, MovieLens, données cliniques, ZOZOTOWN).

Reinforcement learningPapersBenchmarks
SIG
72
HYP
15
arXiv cs.CL·

Shiny Stories, Hidden Struggles: Investigating the Representation of Disability Through the Lens of LLMs

Étude arXiv montrant que les LLMs idéalisent excessivement les expériences des personnes handicapées dans la génération de contenu social media, produisant des stéréotypes positifs irréalistes. Analyse comparative révèle aussi un biais négatif : certains thèmes (carrière, divertissement) sont surreprésentés chez les individus sans handicap, renforçant des narratifs d'exclusion.

AlignementSécurité IABenchmarks
SIG
72
HYP
15
arXiv cs.CL·

When Irregularity Helps: A Subclass Analysis of Inductive Bias in Neural Morphology

Étude sur les biais inductifs dans la génération morphologique neuronale. Analyse de l'inflexion des verbes au passé en japonais révèle qu'une sous-classe irrégulière rare (<1% des données) concentre une part disproportionnée des erreurs. Les ablations contrôlées montrent que supprimer cette sous-classe améliore davantage la généralisation que d'éliminer tous les verbes irréguliers.

PapersÉvaluationsBenchmarks
SIG
72
HYP
15
arXiv cs.CL·

Synchronization and Turn-Taking in Full-Duplex Speech Dialogue Models

Étude de la synchronisation dans les modèles de dialogue full-duplex (Moshi) qui écoutent et parlent simultanément. Les chercheurs mesurent l'alignement des représentations internes via CKA et détectent des signaux anticipatoires de prise de parole. La synchronisation est forte sans bruit, se dégrade avec le bruit, et les états internes encodent des informations prédictives.

VoixAgents IAPapers
SIG
72
HYP
15
arXiv cs.LG·

FBOS-RL: Feedback-Driven Bi-Objective Synergistic Reinforcement Learning

FBOS-RL propose un cadre d'apprentissage par renforcement bi-objectif pour améliorer l'entraînement des grands modèles. Le framework combine deux objectifs mutuellement renforçants : l'alignement de politique orienté exploitation (EPA) et la cultivation de capacités orientée exploration (ECC). Expériences montrent que FBOS-RL converge plus vite que GRPO avec des plafonds de performance supérieurs.

Reinforcement learningRaisonnementPapers
SIG
72
HYP
25
arXiv cs.CL·

Refining and Reusing Annotation Guidelines for LLM Annotation

Les LLM peinent à respecter les conventions spécialisées des benchmarks de référence. Les auteurs proposent un cadre itératif de modération qui réutilise et affine les directives d'annotation pour aligner les modèles. Tests sur trois tâches de NER biomédicales (NCBI Disease, BC5CDR, BioRED) avec GPT, Gemini, DeepSeek confirment l'efficacité de l'intégration de directives et des modèles optimisés pour le raisonnement.

GPTGeminiDeepSeek
SIG
72
HYP
18
arXiv cs.LG·

WaveGraphNet: Physics-Consistent Guided-Wave Damage Localization through Coupled Inverse-Forward Graph Learning

WaveGraphNet est un framework d'apprentissage graphique couplé inverse-forward pour la localisation de dommages par ondes guidées dans des plaques CFRP. Le modèle utilise des transducteurs piézoélectriques comme nœuds graphiques et intègre une branche forward comme régularisateur physique pour améliorer la généralisation à des régions non vues.

PapersBenchmarks
SIG
72
HYP
15
arXiv cs.LG·

GraphDiffMed: Knowledge-Constrained Differential Attention with Pharmacological Graph Priors for Medication Recommendation

GraphDiffMed propose un cadre de recommandation médicamenteuse basé sur l'attention différentielle dual-scale et des contraintes pharmacologiques. Testé sur MIMIC-III, le modèle filtre le bruit intra-visite et inter-visite tout en intégrant les interactions médicamenteuses, surpassant les baselines existantes en qualité et sécurité.

BenchmarksPapersSécurité IA
SIG
72
HYP
18
Reddit r/MachineLearning·

OpenAI claims a general-purpose reasoning model found a counterexample to Erdos's unit-distance bound [D]

OpenAI annonce qu'un modèle de raisonnement général a découvert un contre-exemple à la conjecture d'Erdős sur les distances unitaires en géométrie discrète. Le modèle a construit des ensembles de points planaires avec plus de n^{1+δ} distances unitaires, réfutant la borne supérieure conjecturée. La preuve a été vérifiée par un pipeline d'évaluation IA puis révisée par des mathématiciens.

RaisonnementOpenAIPapers
SIG
72
HYP
45
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> lance-format /</span> lance

Lance est un format lakehouse ouvert pour l'IA multimodale. Convertit depuis Parquet en 2 lignes de code avec accès aléatoire 100x plus rapide, indexation vectorielle et versioning. Compatible Pandas, DuckDB, Polars, PyArrow, PyTorch.

Recherche vectorielleEmbeddingsOpen source
SIG
72
HYP
35
arXiv cs.LG·

Multi-Pedestrian Safety Warning at Urban Intersections Use Case of Digital Twin

Système d'alerte de sécurité pour piétons aux carrefours urbains utilisant un jumeau numérique couplé à des capteurs (caméra, UWB) et modélisation prédictive de trajectoires. Déployé sur le testbed COSMOS à New York, le système génère des alertes en temps réel via edge-cloud computing et réduit significativement les temps de réaction des usagers vulnérables.

VisionInfrastructureSécurité IA
SIG
72
HYP
28