Page 68 sur 192

ToutHaut signalRécent

7679 articles

Recursive Binding on a Budget: Subspace Carving in Order-p Tensor Memories

OSC (Orthogonal Subspace Carving) résout le dilemme entre Tensor Product Representations (croissance exponentielle) et Vector Symbolic Architectures (compression bruyante). En projetant sur l'espace nul de la base des rôles avant agrégation en tenseur d'ordre-p fixe, OSC découple l'ordre du tenseur de la profondeur structurelle, permettant la liaison récursive profonde avec empreinte mémoire constante.

Raisonnement Papers

SIG

HYP

arXiv cs.LG·11 juin

CRUMB: Efficient Prior Fitted Network Inference via Distributionally Matched Context Batching

CRUMB est une méthode d'inférence pour les réseaux pré-ajustés (PFN) qui réduit la complexité quadratique de l'attention en sélectionnant un sous-ensemble d'entraînement distribué via minimisation MMD. Testé sur 51 datasets TabArena avec TabPFNv2, TabICLv1, TabICLv2, CRUMB surpasse les stratégies existantes et résiste à la dérive de covariables.

Benchmarks RAG Papers

SIG

HYP

arXiv cs.AI·11 juin

SVoT: State-aware Visualization-of-Thought for Spatial Reasoning via Reinforcement Learning

SVoT est un framework de reinforcement learning pour améliorer le raisonnement spatial des MLLMs. Il génère des états intermédiaires vérifiables et des visualisations via chaînes de raisonnement de transition. Entraîné avec GRPO, SVoT atteint 65% de gain de précision sur des domaines étendus (Pacman, Gather) nécessitant interactions multi-objets.

Reinforcement learning Vision Raisonnement

SIG

HYP

arXiv cs.AI·11 juin

When Do Data-Driven Systems Exhibit the Capability to Infer?

Article académique proposant un cadre pour évaluer la capacité d'inférence des systèmes data-driven selon la loi IA européenne. Analyse des systèmes de scoring crédit (Annexe III) et montre que la présence d'experts humains et le workflow complet influencent si un système relève de la définition IA. Code disponible.

Régulation Papers

SIG

HYP

arXiv cs.LG·11 juin

RoVE: Rotary Value Embeddings Attention for Relative Position-dependent Value Pathways

RoVE introduit une modification sans paramètres supplémentaires de RoPE (Rotary Position Embeddings) en rendant les valeurs sensibles à la position via rotation simultanée avec les clés. Les modèles GPT-2 124M et 354M montrent des gains empiriques sur l'apprentissage en contexte, la perplexité hors-distribution et la récupération long-contexte.

Raisonnement Benchmarks Papers

SIG

HYP

arXiv cs.AI·11 juin

Architecture-Aware Reinforcement Learning Makes Sliding-Window Attention Competitive in Math Reasoning

SWARR combine l'attention à fenêtre glissante (SWA) avec l'apprentissage par renforcement pour le raisonnement mathématique. Après conversion supervisée d'un modèle SA préentraîné, l'RL adapte les trajectoires générées au contrainte SWA, réduisant l'écart de performance tout en conservant la complexité linéaire. Expériences sur benchmarks de raisonnement mathématique.

Reinforcement learning Raisonnement Papers

SIG

HYP

arXiv cs.LG·11 juin

OmniLoc: A Geometry-Aware Foundation Model for Anchor-Free UE Localization Across Diverse Indoor Environments

OmniLoc est un modèle de fondation pour la localisation intérieure sans ancre basée sur les mesures sans fil. Il utilise une tokenization unifiée, un Transformer conscient de la géométrie et un module d'estimation de position géométriquement cohérent. Évalué sur des datasets internes et publics, il surpasse les méthodes existantes avec forte généralisation cross-environnement.

Papers Benchmarks Raisonnement

SIG

HYP

arXiv cs.LG·11 juin

Mirror Descent Beyond Euclidean Stability: An Exponential Separation in Initialization Sensitivity

Mirror Descent (MD) avec régularisateurs non-quadratiques montre une sensibilité exponentielle à l'initialisation, contrairement à Gradient Descent. Sur objectifs convexes lisses avec régularisateurs KL, une perturbation ε initiale s'amplifie à min{polylog⁻¹(1/ε), εe^Ω(ηT)} après T itérations. Ajouter une régularisation Bregman vers un point d'ancrage stabilise la dynamique.

Reinforcement learning Raisonnement Papers

SIG

HYP

arXiv cs.CL·11 juin

Compatibility-Aware Dynamic Fine-Tuning for Large Language Models

CADFT (Compatibility-Aware Dynamic Fine-Tuning) étend Dynamic Fine-Tuning en contrôlant la variance au niveau des échantillons. La méthode utilise un signal de compatibilité dérivé des vraisemblances du modèle pour moduler les mises à jour supervisées et supprime les gradients haute-variance des démonstrations incompatibles. Expériences montrent amélioration de la stabilité, généralisation et initialisation RL.

Fine-tuning Reinforcement learning Papers

SIG

HYP

arXiv cs.CL·11 juin

LatticeBridge: Rare-Event Sequential Inference for Faithful Structured Sequence Synthesis

LatticeBridge résout la génération de séquences structurées contraintes via inférence d'événements rares. Le système combine un modèle de langage compact, des automates compilés par instance, et un décodeur SMC tordu avec rééchantillonnage. Sur 2 610 tâches (CommonGen, E2E NLG, WikiBio), il améliore la satisfaction exacte des ancres et la couverture moyenne par rapport aux baselines greedy/beam.

Génération de code Raisonnement Benchmarks

SIG

HYP

arXiv cs.CL·11 juin

ProcessThinker: Enhancing Multi-modal Large Language Models Reasoning via Rollout-based Process Reward

ProcessThinker améliore le raisonnement multimodal en fournissant des récompenses au niveau des étapes sans entraîner explicitement un modèle de récompense de processus. La méthode réécrire les traces de raisonnement, applique GRPO avec des récompenses basées sur des rollouts (taux de succès empirique), et améliore Qwen3-VL-8B-Instruct sur quatre benchmarks vidéo (Video-MMMU, MMVU, VideoMathQA, LongVideoBench).

Raisonnement Reinforcement learning Vision

SIG

HYP

arXiv cs.CL·11 juin

Afrispeech Semantics: Evaluating Audio Semantic Reasoning in Spoken Language Models Across Domains and Accents

Afrispeech Semantics évalue le raisonnement sémantique audio dans les modèles de langage parlé sur cinq tâches : inférence, cohérence, plausibilité, dérive d'accent et retenue d'accent. L'étude révèle des limitations critiques dans l'évaluation du raisonnement audio au-delà de la transcription, notamment face aux variations d'accent et aux changements de domaine.

Benchmarks Voix Évaluations

SIG

HYP

arXiv cs.AI·11 juin

From Architecture to Output: Structural Origins of Hallucination in Large Language Models and the Amplifying Role of Data

Étude arXiv analysant les hallucinations LLM comme conséquence structurelle de trois décisions architecturales : l'auto-attention confond entités via apprentissage de co-occurrence, l'objectif MLE optimise probabilité sans contrainte factuelle, le décodage autorégressif cascade les erreurs sans révision. Les pathologies de données amplifient mais ne causent pas indépendamment ces défaillances.

Raisonnement Alignement Papers

SIG

HYP

arXiv cs.LG·11 juin

Bernstein-Schur Kernels: Random Features by Sketched Modulation and Radial Randomization

Kernels de Bernstein-Schur : construction de random features combinant sketching de modulation finie et randomisation de facteurs radiaux complètement monotones. Dimension des features = Dm (sketch size m × radial draws D), sans dépendance O(d²). Garanties : non-biais, bornes operator-norm contrôlées par dimensions intrinsèques, stabilité spectrale pour kernel ridge regression.

Papers Benchmarks Embeddings

SIG

HYP

arXiv cs.LG·11 juin

Loss Landscape Diagnosis for Gradient-Based Gray-Scott System Inversion: Disentangling the Roles of PINN Components

Étude de la géométrie du paysage de perte pour l'inversion de systèmes Gray-Scott via rétropropagation directe à travers la PDE. Sans réseau de neurones, la perte résiduelle est quadratique et lisse ; le réseau neuronal ne peut pas corriger un sous-espace de paramètres mal posé, il complète seulement les données observées. Implications pour la conception des PINNs.

Papers Raisonnement Évaluations

SIG

HYP

arXiv cs.LG·11 juin

To Intervene or Not: Guiding Inference-time Alignment with Probabilistic Model Blending

BlendIn, un framework d'alignement au moment de l'inférence, mélange probabilistiquement les distributions de deux modèles plutôt que d'appliquer des guidances binaires. La méthode pondère la contribution de chaque modèle selon sa fiabilité, améliorant les performances jusqu'à 50% sur des paires de modèles difficiles.

Alignement Raisonnement Évaluations

SIG

HYP

Hugging Face Blog·11 juin

Profiling in PyTorch (Part 2): From nn.Linear to a Fused MLP

Deuxième partie d'un guide sur le profilage PyTorch. Analyse détaillée des performances d'une couche nn.Linear et construction d'un MLP fusionné optimisé. Démonstration des techniques de fusion d'opérations pour réduire la latence et améliorer l'efficacité computationnelle.

Infrastructure Outils Génération de code

SIG

HYP

OpenAI Blog·11 juin

BBVA puts AI at the core of banking with OpenAI

BBVA déploie ChatGPT Enterprise auprès de 100 000 employés et s'associe à OpenAI pour accélérer sa transformation bancaire par l'IA.

OpenAI Business Agents IA

SIG

HYP

Reddit r/MachineLearning·10 juin

Pyrecall open source tool for detecting catastrophic forgetting during LLM fine-tuning[P]

Pyrecall est un outil open-source (MIT, v0.1.0) pour détecter l'oubli catastrophique lors du fine-tuning de LLM. Il snapshote les scores de compétences avant/après, signale les régressions et permet de revenir à des adaptateurs LoRA précédents. Entièrement local, sans API externe.

Fine-tuning Open source Outils

SIG

HYP

The Decoder·10 juin

Google's new open model DiffusionGemma generates text from noise instead of word by word

Google publie DiffusionGemma, modèle de 26B paramètres générant du texte par diffusion (bruit → texte) plutôt que token par token. Atteint ~1000 tokens/s sur H100 (4× plus rapide que modèles autorégressifs comparables), mais qualité inférieure. Positionné comme outil expérimental.

Gemini Open source Génération de code

SIG

HYP

Reddit r/LocalLLaMA·10 juin

SenseNova U1 dropped an infographic-specific finetune

SenseNova U1-8B-MoT reçoit un fine-tune spécialisé en infographies. IGenBench I-ACC passe de 4.2 à 17.0 (×4), Chart Understanding 51.3→69.5, Text Rendering 39.8→46.6. Repo et docs disponibles.

Vision Fine-tuning Benchmarks

SIG

HYP

The Decoder·10 juin

Germany's National Security Council greenights an AI Safety Institute modeled after the UK's AISI

Le Conseil de sécurité nationale allemand approuve la création d'une institute de sécurité IA (DE-AISI) calquée sur le modèle britannique AISI. Elle testera les modèles frontière d'Anthropic et OpenAI pour identifier les risques de sécurité. L'UE reste dépendante des technologies IA américaines et chinoises.

Sécurité IA Régulation Anthropic

SIG

HYP

GitHub Trending·10 juin

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> BerriAI /</span> litellm

litellm est un SDK Python et serveur proxy (AI Gateway) unifiant l'accès à 100+ APIs LLM (OpenAI, Anthropic, Bedrock, Azure, VertexAI, Cohere, HuggingFace, VLLM, NVIDIA NIM) avec suivi des coûts, garde-fous, équilibrage de charge et logging.

Infrastructure Open source Outils

SIG

HYP

Reddit r/MachineLearning·10 juin

Introducing Papers Without Code [P]

Hugging Face relance paperswithcode.co pour agréger l'état de l'art (SOTA) en IA via parsing automatique d'arXiv/HF. Leaderboards interactifs avec support des modèles fermés (GPT-5.5, Mythos 5) et toggle pour filtrer les evals open-source uniquement.

Benchmarks Évaluations Open source

SIG

HYP

arXiv cs.AI·10 juin

ReflectiChain: Epistemic Grounding in LLM-Driven World Models for Supply Chain Resilience

ReflectiChain combine LLM et apprentissage par renforcement pour les chaînes d'approvisionnement via un modèle monde (SC-WM) en espace latent 6D avec conservation physique. Sur benchmark Semi-Sim (10 nœuds, risque SIR), amélioration de 33% en cohérence rationnelle, 82.3% d'opérabilité sous chocs adversariaux, comportement anti-fragile (+40.2%).

Agents IA Reinforcement learning Raisonnement

SIG

HYP

arXiv cs.LG·10 juin

Operator Fusion for LLM Inference on the Tensix Architecture

Étude d'optimisation d'inférence LLM sur l'architecture Tensix de Tenstorrent. Fusion d'opérateurs (RMSNorm + multiplication matricielle) réduit les accès DRAM et la latence : -37,44% attention, -15,89% MLP sur Qwen2.5-0.5B, Qwen3-0.6B/4B. Mécanisme multicast NoC pour parallélisme multi-cœur.

Qwen Infrastructure Benchmarks

SIG

HYP

arXiv cs.CL·10 juin

The Order Matters: Sequential Fine-Tuning of LLaMA for Coherent Automated Essay Scoring

Étude sur le fine-tuning séquentiel de LLaMA-3.1-8B pour l'évaluation automatique d'essais. Le modèle entraîné progressivement sur les éléments de discours (lead → position → claim → evidence → conclusion) atteint F1=65% (evidence) et 87% (conclusion), surpassant LLaMA-70B. Démontre que l'ordre d'apprentissage aligné à la structure du texte améliore la cohérence.

Llama Fine-tuning Benchmarks

SIG

HYP

arXiv cs.CL·10 juin

Which LoRA? An Empirical Study on the Effectiveness of LoRA Techniques During Multilingual Instruction Tuning

Étude empirique comparant LoRA et 4 variantes sur l'instruction tuning multilingue. Résultats : aucun avantage significatif des variantes complexes vs LoRA basique pour équilibrer transfert cross-lingual et rétention de connaissances. Analyse des embeddings : représentations linguistiques similaires indépendamment de la technique LoRA.

Fine-tuning Benchmarks

SIG

HYP

arXiv cs.AI·10 juin

AutoPDE: Reliable Agentic PDE Solving via Explicitly Represented Solver Strategies

AutoPDE est un agent IA qui résout les équations aux dérivées partielles (EDP) en maintenant explicitement la stratégie numérique comme objet inspectable. L'approche combine analyse d'EDP, sélection de méthodes numériques et calibrage adaptatif. Sur PDE Agent Bench, AutoPDE atteint 54,5% de réussite, surpassant la meilleure baseline de 14,2 points.

Agents IA Génération de code Raisonnement

SIG

HYP

arXiv cs.CL·10 juin

Expert-Level Crisis Detection in Mental Health Conversations

CRADLE-Dialogue, un benchmark clinicien-annoté de 600 dialogues, évalue la détection de crise au niveau du tour de parole. Le dataset distingue les signaux d'alerte précoce (Alert) des confirmations explicites (Confirm) pour suicide, automutilation et maltraitance. Un modèle 32B surpasse les modèles open-source existants avec F1 Micro 40-60%.

Benchmarks Sécurité IA Papers

SIG

HYP

arXiv cs.AI·10 juin

Infini Memory: Maintainable Topic Documents for Long-Term LLM Agent Memory

Infini Memory propose une architecture de mémoire persistante pour agents LLM basée sur des documents structurés par thème. Les observations sont consolidées périodiquement dans des contextes textuels cohérents, et la récupération se fait par appels itératifs d'outils plutôt qu'une seule requête. Sur MemoryAgentBench, le système atteint 64,7% de score global.

Agents IA MCP Papers

SIG

HYP

arXiv cs.AI·10 juin

A complementary study on PlanGPT: Evaluation with defined Performance Metrics and comparison with a planner

Étude complémentaire de PlanGPT avec métriques de performance définies (coût du plan, temps de génération). Comparaison avec un planificateur traditionnel révèle que PlanGPT ne surpasse pas une stratégie de recherche Greedy.

GPT Benchmarks Raisonnement

SIG

HYP

arXiv cs.CL·10 juin

Early-Token Confidence Predicts Reasoning Quality in Multi-Agent LLM Debate

Les probabilités logarithmiques des premiers tokens générés prédisent mieux la qualité du raisonnement dans les débats multi-agents LLM que les statistiques sur la séquence complète. Testé sur deux ensembles d'essais ASAP avec évaluation par juge LLM, ce signal intrinsèque offre une estimation légère de la fiabilité du raisonnement.

Multi-agents Raisonnement Évaluations

SIG

HYP

arXiv cs.LG·10 juin

Uncertainty-aware Multi-fidelity Closure via Conditional Normalizing Flows

Article proposant une approche multi-fidélité basée sur les normalizing flows conditionnels pour améliorer la précision des modèles réduits (ROM). Le framework apprend un mappage probabiliste entre coefficients ROM basse-fidélité et haute-fidélité, avec quantification d'incertitude. Deux stratégies testées sur équations de Navier-Stokes 2D : apprentissage direct et résiduel, ce dernier surpassant le premier.

Papers Raisonnement Évaluations

SIG

HYP

arXiv cs.AI·10 juin

From Context-Aware to Conflict-Aware: Generalizing Contrastive Decoding for Knowledge Conflict in LLMs

Article arXiv proposant une généralisation des méthodes de décodage contrastif pour gérer les conflits entre contexte externe et priors paramétriques dans les LLM. Introduit le paradigme « conflict-aware » et la méthode Adaptive Regime Routing (ARR) qui route dynamiquement entre régimes selon les signaux de conflit, améliorant la résistance EM de <6% à 16-33% sur TriState-Bench.

Raisonnement RAG Évaluations

SIG

HYP

arXiv cs.CL·10 juin

Hidden Consensus:Preference-Validity Compression in Human Feedback

Étude sur l'agrégation des retours humains en RLHF : réduire les jugements hétérogènes à une seule récompense scalaire masque les désaccords culturels, linguistiques ou normatifs légitimes. Analyse de 321 événements de préférence en Malaisie : 79% des prompts contiennent plusieurs réponses acceptables que l'agrégation par majorité élimine. Propose une approche préservant la pluralité des interprétations valides.

Reinforcement learning Alignement Évaluations

SIG

HYP

arXiv cs.LG·10 juin

QSplitFL: Capability Aware Deep Q-Learning for Optimal Split Point Selection in Split Federated Learning

QSplitFL propose un framework Deep Q-Network pour sélectionner automatiquement le point de division optimal dans le Split Federated Learning. Utilisant des métriques matérielles légères (CPU, mémoire, batterie, latence réseau) plutôt que les poids du modèle, l'approche avec architecture DQN par comité améliore la convergence sur MNIST, Fashion-MNIST, CIFAR-10/100 avec CNN, ResNet50, MobileNetV4, ConvNeXt.

Reinforcement learning Papers Benchmarks

SIG

HYP

arXiv cs.CL·10 juin

Where You Inject Diversity Matters: A Unified Framework for Diverse Generation

Framework unifié pour caractériser les méthodes de génération diverse au test-time. Les auteurs proposent l'injection de diversité au niveau des spécifications intermédiaires, améliorant la diversité de sortie sur 5 tâches et 4 modèles tout en maintenant la qualité. Analyse des facteurs clés : diversité des sources et transmission vers la sortie finale.

Prompt engineering Raisonnement Génération de code

SIG

HYP

arXiv cs.LG·10 juin

SPACE: Source-free Proxy Anchor Concept Erasure for MLLMs

SPACE est un framework de machine unlearning source-free pour MLLMs, permettant d'effacer des concepts sensibles sans accès aux données visuelles originales. Deux étapes : sélection de proxy anchors guidée par texte (TPAS) et isolation sémantique dual-constraint (DCSI). Validé sur 6 datasets avec performance comparable aux méthodes data-dependent.

Sécurité IA Alignement Papers

SIG

HYP

arXiv cs.CL·10 juin

ParaBridge: Bridging Paralinguistic Perception and Dialogue Behavior in Speech Language Models

ParaBridge est une méthode d'auto-distillation qui enseigne aux Speech Language Models à utiliser les indices paralinguistiques (ton, émotion, bruit) dans le dialogue. Sur Qwen3-Omni-thinking, elle augmente VoxSafeBench SAR de 14,6% à 40,3% et améliore EchoMind de 3,27 à 3,92, tout en préservant les capacités générales.

Voix Raisonnement Fine-tuning

SIG

HYP