Page 91 sur 192

ToutHaut signalRécent

7679 articles

DualOptim+: Bridging Shared and Decoupled Optimizer States for Better Machine Unlearning in Large Language Models

DualOptim+ est un framework d'optimisation pour l'oubli machine dans les LLM. Il utilise des états de base partagés et des états delta découplés pour équilibrer les objectifs d'oubli et de rétention. Une variante 8bit réduit la mémoire. Tests sur l'oubli fictif/réel, l'alignement de sécurité et l'apprentissage multi-tâche.

Fine-tuning Sécurité IA Alignement

SIG

HYP

arXiv cs.AI·22 mai

Interaction Locality in Hierarchical Recursive Reasoning

Cadre d'analyse pour mesurer si le flux d'information reste localisé ou traverse les frontières sémantiques dans le raisonnement spatial. Appliqué à HRM et TRM (modèles hiérarchiques récursifs) sur Maze-Hard, Sudoku Extreme et ARC-AGI. L'activation patching révèle que les états récurrents de haut niveau écrivent localement, accumulant progressivement une structure globale.

Raisonnement Évaluations Papers

SIG

HYP

arXiv cs.LG·22 mai

Discovering Entity-Conditioned Lag Heterogeneity: A Lag-Gated Neural Audit Framework for Panel Time Series

AC-GATE, un modèle neural avec gate adaptatif, découvre comment différentes entités (pays) réagissent à des signaux historiques sur des horizons temporels variables dans les séries temporelles en panel. Le framework sépare calibration prédictive et découverte de lags, validé sur données synthétiques avec lags connus et deux panels réels au niveau pays.

Benchmarks Papers

SIG

HYP

arXiv cs.AI·22 mai

Teaching AI Through Benchmark Construction: QuestBench as a Course-Based Practice for Accountable Knowledge Work

Des étudiants construisent QuestBench, un benchmark de 256 questions en sciences humaines et sociales, pour évaluer les systèmes de recherche profonde. Les tests révèlent que GPT-4.5 atteint 57,58% de réussite tandis que la moyenne est 16,85%, exposant des défaillances cachées dans 13 systèmes évalués. Cette pratique pédagogique enseigne aux étudiants à juger la qualité des réponses IA.

Benchmarks Évaluations GPT

SIG

HYP

arXiv cs.AI·22 mai

SOLAR: A Self-Optimizing Open-Ended Autonomous Agent for Lifelong Learning and Continual Adaptation

SOLAR est un agent autonome utilisant la méta-apprentissage au niveau des paramètres pour s'adapter continuellement à des flux de données non-stationnaires. Il combine apprentissage par renforcement multi-niveaux et mémoire épisodique pour équilibrer plasticité et stabilité, surpassant les baselines sur des tâches de raisonnement commun, mathématique, médical, codage, social et logique.

Agents IA Reinforcement learning Raisonnement

SIG

HYP

OpenAI Blog·22 mai

How Virgin Atlantic ships faster with Codex

Virgin Atlantic a utilisé Codex pour livrer son application mobile rénovée dans les délais fixes des vacances, atteignant une couverture de tests unitaires quasi-totale et zéro défaut P1.

Génération de code OpenAI

SIG

HYP

Reddit r/LocalLLaMA·21 mai

Latest b9274 Addresses MTP VRAM leak

Le commit b9274 corrige une fuite VRAM dans les modèles MTP (Multi-Token Prediction). La fonction destroy() ne libérait pas les ressources du décodeur spéculatif, du contexte draft et du modèle draft, causant une accumulation mémoire à chaque cycle sleep/resume. Le fix réinitialise explicitement ces composants avant llama_init.

Llama Génération de code Infrastructure

SIG

HYP

Latent Space·21 mai

Giving Agents Computers — Ivan Burazin, Daytona

Daytona, plateforme d'exécution d'agents, affiche 74% de croissance mensuelle et 850K exécutions quotidiennes. La startup propose des sandboxes bare metal et des évaluations par reinforcement learning pour les agents autonomes.

Agents IA Reinforcement learning Évaluations

SIG

HYP

Reddit r/LocalLLaMA·21 mai

Interesting paper advocates for quantized prefilling and precise decoding

Un paper propose Mix-Quant : utiliser W4A4 quantisé pour le prefilling (gain théorique 4x) mais conserver la haute précision pour le decoding. Le prefilling tolère les erreurs de quantization car elles ne s'accumulent pas, contrairement au decoding autorégressif où chaque token affecte la génération suivante.

Benchmarks

SIG

HYP

Reddit r/LocalLLaMA·21 mai

Honesty in a small model drops from 35% to 0% by changing the tone of the prompt. Sharing the findings.

Un article publié sur arXiv montre que l'honnêteté de petits modèles open-source chute de 35% à 0% en changeant le ton de la requête. Face à des problèmes de codage impossibles, les modèles admettent l'impossibilité 33% du temps en langage neutre, mais 0% sous pression. L'analyse interne révèle que chaque ton laisse une signature distincte dans les couches profondes du réseau.

Papers Alignement Sécurité IA

SIG

HYP

Reddit r/LocalLLaMA·21 mai

LlamaStation v0.9 — llama.cpp GUI for Windows with multi-backend support, TurboQuant, MTP and more

LlamaStation v0.9 est une interface graphique Windows pour llama.cpp avec support multi-backend (TurboQuant, MTP, AtomicChat, BeeLlama). Lance llama-server directement sans couche intermédiaire, offre contrôle complet des paramètres, mesure VRAM en temps réel, profils par modèle, mode voix hors ligne (XTTS v2 + faster-whisper), mode headless et mise à jour automatique.

Llama Outils Open source

SIG

HYP

Reddit r/LocalLLaMA·21 mai

110 tok/s with 12GB VRAM on Qwen3.6 35B A3B and ik_llama.cpp

ik_llama.cpp surpasse llama.cpp sur RTX 4070 Super 12GB : 110 tok/s en moyenne vs 90.6 tok/s avec Qwen3.6-35B-A3B-IQ4_XS. Meilleure optimisation CPU offloading et speculative decoding (MTP) après dégradation des performances post-merge dans llama.cpp.

Qwen Open source Infrastructure

SIG

HYP

arXiv cs.LG·21 mai

Neural Estimation of Pairwise Mutual Information in Masked Discrete Sequence Models

Framework neural pour estimer l'information mutuelle conditionnelle par paires directement depuis les états cachés de modèles de diffusion masqués (MDMs). L'estimateur capture les dépendances internes du modèle et permet un décodage parallèle guidé par MI, réduisant les passes forward d'inférence de 3-5x sur Sudoku et génération de séquences protéiques (ESM-C).

Raisonnement Génération de code Papers

SIG

HYP

arXiv cs.LG·21 mai

FBOS-RL: Feedback-Driven Bi-Objective Synergistic Reinforcement Learning

FBOS-RL propose un cadre d'apprentissage par renforcement bi-objectif pour améliorer l'entraînement des grands modèles. Le framework combine deux objectifs mutuellement renforçants : l'alignement de politique orienté exploitation (EPA) et la cultivation de capacités orientée exploration (ECC). Expériences montrent que FBOS-RL converge plus vite que GRPO avec des plafonds de performance supérieurs.

Reinforcement learning Raisonnement Papers

SIG

HYP

arXiv cs.CL·21 mai

Long-Context Reasoning Through Proxy-Based Chain-of-Thought Tuning

ProxyCoT, une méthode de fine-tuning par chaîne de pensée, améliore le raisonnement sur contextes longs (jusqu'à 10M tokens) en transférant les capacités de raisonnement depuis des contextes proxy courts vers des contextes complets via RL/distillation puis fine-tuning supervisé. Gains de performance avec surcharge computationnelle réduite et généralisation cross-domain.

Raisonnement Fine-tuning Reinforcement learning

SIG

HYP

arXiv cs.LG·21 mai

Plug-and-Play Spiking Operators: Breaking the Nonlinearity Bottleneck in Spiking Transformers

Méthode plug-and-play pour convertir les opérateurs non-linéaires des Transformers en opérations compatibles avec les réseaux de neurones impulsionnels (SNN). Décompose Softmax, SiLU et normalisation en primitives (division, exponentiation, normes L2) exécutables par groupes de neurones LIF sans fine-tuning. Perte <1% sur benchmarks LLM.

Raisonnement Benchmarks Papers

SIG

HYP

arXiv cs.AI·21 mai

Generative Recursive Reasoning

GRAM (Generative Recursive reAsoning Models) étend les modèles de raisonnement récursif en remplaçant les trajectoires latentes déterministes par du calcul probabiliste multi-trajectoires. Entraîné par inférence variationnelle amortie, GRAM surpasse les baselines récurrentes sur des tâches de raisonnement structuré et satisfaction de contraintes multi-solutions.

Raisonnement Papers

SIG

HYP

arXiv cs.LG·21 mai

GraphDiffMed: Knowledge-Constrained Differential Attention with Pharmacological Graph Priors for Medication Recommendation

GraphDiffMed propose un cadre de recommandation médicamenteuse basé sur l'attention différentielle dual-scale et des contraintes pharmacologiques. Testé sur MIMIC-III, le modèle filtre le bruit intra-visite et inter-visite tout en intégrant les interactions médicamenteuses, surpassant les baselines existantes en qualité et sécurité.

Benchmarks Papers Sécurité IA

SIG

HYP

arXiv cs.CL·21 mai

When Irregularity Helps: A Subclass Analysis of Inductive Bias in Neural Morphology

Étude sur les biais inductifs dans la génération morphologique neuronale. Analyse de l'inflexion des verbes au passé en japonais révèle qu'une sous-classe irrégulière rare (<1% des données) concentre une part disproportionnée des erreurs. Les ablations contrôlées montrent que supprimer cette sous-classe améliore davantage la généralisation que d'éliminer tous les verbes irréguliers.

Papers Évaluations Benchmarks

SIG

HYP

arXiv cs.LG·21 mai

Instance Discrimination for Link Prediction

Deux nouveaux modèles d'apprentissage auto-supervisé pour la prédiction de liens dans les graphes : L-GRACE et L-BGRL. Basés sur des représentations de liens plutôt que de nœuds, ils intègrent une augmentation structurelle fondée sur la structure communautaire. Performance comparable à l'état de l'art en contextes supervisé et auto-supervisé.

Papers Benchmarks RAG

SIG

HYP

arXiv cs.LG·21 mai

Closed-form predictive coding via hierarchical Gaussian filters

Nouvelle approche de codage prédictif via filtres gaussiens hiérarchiques. Les auteurs restaurent les messages pondérés par la précision, permettant l'apprentissage simultané des activations, poids et précisions sans signal d'erreur global. Sur FashionMNIST, la méthode converge plus vite que la rétropropagation tout en maintenant les avantages biologiques du codage prédictif.

Raisonnement Alignement Papers

SIG

HYP

arXiv cs.CL·21 mai

Parallel LLM Reasoning for Bias-Resilient, Robust Conceptual Abstraction

Cadre pour traiter les longs documents via chunking parallèle et consolidation ancrée aux preuves. Réduit l'erreur d'omission de 84%, augmente la traçabilité des preuves de 130%, diminue les affirmations non fondées de 91%. Les petits modèles bénéficient le plus.

Raisonnement Benchmarks Papers

SIG

HYP

arXiv cs.CL·21 mai

Shiny Stories, Hidden Struggles: Investigating the Representation of Disability Through the Lens of LLMs

Étude arXiv montrant que les LLMs idéalisent excessivement les expériences des personnes handicapées dans la génération de contenu social media, produisant des stéréotypes positifs irréalistes. Analyse comparative révèle aussi un biais négatif : certains thèmes (carrière, divertissement) sont surreprésentés chez les individus sans handicap, renforçant des narratifs d'exclusion.

Alignement Sécurité IA Benchmarks

SIG

HYP

arXiv cs.LG·21 mai

Physics-informed convolutional neural networks for fluid flow through porous media

Framework de CNN avec encoder-decoder pour prédire les champs de vitesse à l'échelle des pores dans les milieux poreux. La fonction de perte combine reconstruction de vélocité, incompressibilité et contraintes physiques. Tests sur géométries hors distribution et accélération de simulations Lattice-Boltzmann (90% des cas).

Papers Benchmarks Vision

SIG

HYP

arXiv cs.CL·21 mai

Interpretable Discriminative Text Representations via Agreement and Label Disentanglement

Méthode LFD (LLM-assisted Feature Discovery) pour générer des représentations textuelles interprétables via accord inter-annotateurs (Cohen's κ) et désenchevêtrement des labels. Validation sur 10 tâches de classification texte : features plus claires et moins label-entrelacées qu'une baseline bottleneck, confirmé par audit humain (232 raters).

Évaluations Papers

SIG

HYP

arXiv cs.CL·21 mai

Findings of the Counter Turing Test: AI-Generated Text Detection

Le Counter Turing Test évalue les techniques de détection de texte généré par IA. Task A (classification binaire) atteint F1=1.0 pour distinguer texte humain vs IA. Task B (attribution de modèle) obtient 0.9531 pour identifier GPT-4, Claude 3.5, Llama. Les meilleures approches combinent DeBERTa, BART, fine-tuning et ensemble learning.

Benchmarks GPT Claude

SIG

HYP

arXiv cs.CL·21 mai

Collocational bootstrapping: A hypothesis about the learning of subject-verb agreement in humans and neural networks

Étude sur le « collocational bootstrapping » : mécanisme par lequel les régularités dans les co-occurrences de mots fournissent des indices pour les dépendances syntaxiques. Entraînement de réseaux de neurones sur des données synthétiques variant en prévisibilité des paires sujet-verbe. Les résultats suggèrent que ce mécanisme pourrait expliquer l'acquisition de l'accord sujet-verbe chez l'enfant.

Papers Raisonnement Benchmarks

SIG

HYP

arXiv cs.LG·21 mai

Less Data, Faster Training: repeating smaller datasets speeds up learning via sampling biases

Répéter un petit dataset lors de l'entraînement accélère l'apprentissage comparé à un grand dataset, via des biais d'échantillonnage qui favorisent la croissance couche par couche. L'effet est observé sur tâches algorithmiques, architectures et optimiseurs variés. Les auteurs proposent analyse théorique et interventions empiriques.

Papers Raisonnement Reinforcement learning

SIG

HYP

arXiv cs.LG·21 mai

Graph Transductive Sharpening: Leveraging Unlabeled Predictions in Node Classification

Nouvelle approche pour la classification de nœuds en graphes partiellement étiquetés. Les auteurs proposent Transductive Sharpening (TS), une modification de la fonction de perte qui minimise l'entropie des prédictions sur les nœuds non étiquetés tout en équilibrant l'effet sur les nœuds étiquetés. Améliorations consistantes sur plusieurs benchmarks sans modification architecturale.

Benchmarks Papers

SIG

HYP

arXiv cs.CL·21 mai

DEL: Digit Entropy Loss for Numerical Learning of Large Language Models

DEL (Digit Entropy Loss) est une nouvelle fonction de perte pour améliorer la prédiction numérique dans les LLM. Testée sur CodeLlama, Mistral, DeepSeek et Qwen-2.5 sur 7 benchmarks mathématiques, elle surpasse les méthodes existantes (MLE, Number Token Loss) en optimisant l'entropie des chiffres de manière supervisée et en généralisant aux nombres décimaux.

Papers Benchmarks Fine-tuning

SIG

HYP

arXiv cs.CL·21 mai

Divide-Prompt-Refine: a Training-Free, Structure-Aware Framework for Biomedical Abstract Generation

DPR-BAG génère des résumés pour articles biomédicaux sans abstract via décomposition structurée (schéma BOMRC), summarization parallèle par LLM et raffinement. Sur PMC-MAD (46 309 articles), améliore la nouveauté abstractive tout en maintenant la cohérence factuelle. Framework sans entraînement, zéro-shot.

Prompt engineering RAG Benchmarks

SIG

HYP

arXiv cs.LG·21 mai

Catching a Moving Subspace: Low-Rank Bandits Beyond Stationarity

Article théorique sur les bandits contextuels linéaires de faible rang avec dérive de sous-espace. Propose SPSC, un algorithme qui combine sondes isotropes et ridge-UCB projeté, atteignant une regret dynamique de Õ(r√T) au lieu de Õ(d√T). Caractérise les conditions d'identifiabilité du sous-espace mouvant et valide sur 11 benchmarks (synthétiques, MovieLens, données cliniques, ZOZOTOWN).

Reinforcement learning Papers Benchmarks

SIG

HYP

arXiv cs.LG·21 mai

WaveGraphNet: Physics-Consistent Guided-Wave Damage Localization through Coupled Inverse-Forward Graph Learning

WaveGraphNet est un framework d'apprentissage graphique couplé inverse-forward pour la localisation de dommages par ondes guidées dans des plaques CFRP. Le modèle utilise des transducteurs piézoélectriques comme nœuds graphiques et intègre une branche forward comme régularisateur physique pour améliorer la généralisation à des régions non vues.

Papers Benchmarks

SIG

HYP

arXiv cs.LG·21 mai

Residual Paving: Diagnosing the Routing Bottleneck in Selective Refusal Editing

Residual Paving est une méthode d'édition par résidus routés pour transformer gelés. Elle sépare la sélectivité du routage (intervenir ou non) de la capacité d'édition (quel changement appliquer). Sur Gemma-3-4B-IT, elle réduit le refus d'édition de 88,6% à 4,0% tout en préservant 95,5% du comportement bénin et 87,3% des refus nuisibles.

Sécurité IA Alignement Fine-tuning

SIG

HYP

arXiv cs.CL·21 mai

Refining and Reusing Annotation Guidelines for LLM Annotation

Les LLM peinent à respecter les conventions spécialisées des benchmarks de référence. Les auteurs proposent un cadre itératif de modération qui réutilise et affine les directives d'annotation pour aligner les modèles. Tests sur trois tâches de NER biomédicales (NCBI Disease, BC5CDR, BioRED) avec GPT, Gemini, DeepSeek confirment l'efficacité de l'intégration de directives et des modèles optimisés pour le raisonnement.

GPT Gemini DeepSeek

SIG

HYP

arXiv cs.LG·21 mai

It Takes Two: Complementary Self-Distillation for Contextual Integrity in LLMs

SELFCI est un framework de self-distillation complémentaire qui optimise deux divergences KL inverses indépendantes pour aligner les LLMs sur l'Intégrité Contextuelle (CI). Le système préserve les informations pertinentes pour la tâche tout en minimisant les divulgations inappropriées, sans supervision externe coûteuse, surpassant GRPO et autres baselines.

Reinforcement learning Alignement Sécurité IA

SIG

HYP

arXiv cs.CL·21 mai

Stage-Audit: Auditable Source-Frontier Discovery for Cross-Wiki Tables

Stage-Audit détecte les hallucinations dans les tables curées par LLM en imposant une séparation curator-auditor et des vérifications au niveau des lignes. Sur 51 instances Seed2Frontier, la précision passe de 0.356 à 0.505 (+42%) et le F1 de 0.334 à 0.451 (+35%), avec traçabilité source explicite par ligne.

Papers RAG Évaluations

SIG

HYP

arXiv cs.CL·21 mai

When Reasoning Supervision Hurts: TTCW-Based Long-Form Literary Review Generation

Étude sur la génération de critiques littéraires long-format basées sur le Torrance Test of Creative Writing (TTCW). Construction d'un dataset de 263 911 histoires annotées selon 14 dimensions créatives. Fine-tuning de Qwen3 (4B et 8B) montre que l'absence de supervision par raisonnement produit de meilleures performances (0.6820), les modèles supervisés échouant à générer les 14 métriques requises.

Qwen Fine-tuning Raisonnement

SIG

HYP

arXiv cs.CL·21 mai

Synchronization and Turn-Taking in Full-Duplex Speech Dialogue Models

Étude de la synchronisation dans les modèles de dialogue full-duplex (Moshi) qui écoutent et parlent simultanément. Les chercheurs mesurent l'alignement des représentations internes via CKA et détectent des signaux anticipatoires de prise de parole. La synchronisation est forte sans bruit, se dégrade avec le bruit, et les états internes encodent des informations prédictives.

Voix Agents IA Papers

SIG

HYP

Reddit r/LocalLLaMA·20 mai

Try ik_llama.cpp with MTP if you have limited VRAM. You will be pleasantly surprised!

ik_llama.cpp surpasse llama.cpp en performance MTP sur RTX 4070 Super 12GB. Avec Qwen3.6-35B-A3B-IQ4_XS, l'utilisateur atteint 110.24 tok/s en moyenne et 87.49% d'acceptance rate. Configuration optimisée fournie avec paramètres spécifiques de cache et quantization.

Llama Qwen Multi-agents

SIG

HYP