Page 77 sur 192

ToutHaut signalRécent

7679 articles

G^2C-MT: Graph-Guided Context Selection for Document-Level Machine Translation

G²C-MT propose une sélection de contexte guidée par graphe pour la traduction automatique au niveau du document. Le système modélise les dépendances discursives entre paragraphes via un graphe léger et utilise une marche aléatoire biaisée en profondeur pour extraire des chemins de contexte. Testé sur DeepSeek-V3, Gemini-2.5-Flash-lite et Qwen-2.5/3, l'approche surpasse les baselines sur plusieurs domaines.

Papers Benchmarks DeepSeek

SIG

HYP

arXiv cs.AI·3 juin

Uncertainty-Aware Clarification in LLM Agents with Information Gain

Framework pour agents LLM opérant sous instructions ambiguës. Propose une métrique Information Gain Reward mesurant l'utilité des questions de clarification via mise à jour bayésienne. Validation sur τ-Bench : +3.7% de taux de succès vs baseline sans clarification, +0.3 étapes d'interaction.

Agents IA Raisonnement Évaluations

SIG

HYP

arXiv cs.LG·3 juin

QUIVER: Quantum-Informed Views for Enhanced Representations in Large ML Models

QUIVER enrichit les modèles ML classiques avec des vues quantiques basées sur la matrice d'information de Fisher quantique, extraite de circuits quantiques variationnels. Testé sur QM9 (propriétés moléculaires) et JetClass (LHC), le paradigme améliore les performances sans nécessiter du matériel quantique tolérant aux fautes.

Benchmarks Papers Raisonnement

SIG

HYP

arXiv cs.CL·3 juin

Economy of Minds: Emerging Multi-Agent Intelligence with Economic Interactions

Des chercheurs proposent une économie d'agents où les IA se coordonnent via des enchères et des échanges de paiements, sans contrôle centralisé. Inspirée par la théorie économique de Hayek, cette approche génère des stratégies de raisonnement multi-étapes émergentes et surpasse les baselines sur cinq tâches (raisonnement mathématique, recherche financière, optimisation de systèmes distribués).

Multi-agents Agents IA Raisonnement

SIG

HYP

arXiv cs.CL·3 juin

Coherence Maximization Improves Pluralistic Alignment

Une méthode appelée Internal Coherence Maximization (ICM) génère automatiquement des exemples pour aligner les modèles IA sur des valeurs humaines diverses, sans supervision humaine extensive. Testée sur quatre benchmarks, ICM égale la performance des labels manuels. La cohérence des exemples améliore la généralisation même à précision égale, particulièrement pour les personas sous-représentées.

Alignement Prompt engineering Papers

SIG

HYP

arXiv cs.LG·3 juin

Qift: Shift-Friendly No-Zero W2 Post-Training Quantization for Rotated W2A4/KV4 LLM Inference

Qift propose un nouvel ensemble de niveaux de quantification sans zéro pour W2A4/KV4 ({±0.5, ±1.5}) basé sur la rotation Hadamard. Sans entraînement ni codebook appris, cette méthode améliore la perplexité sur LLaMA-2-7B et LLaMA-3.1-8B comparée aux niveaux standards {-2,-1,0,+1}, tout en réduisant l'écart avec W3A4 en précision mixte.

Llama Benchmarks

SIG

HYP

arXiv cs.CL·3 juin

Small RL Controller, Large Language Model: RL-Guided Adaptive Sampling for Test-Time Scaling

Méthode RL pour contrôler l'échantillonnage adaptatif au test-time sur LLM. Un contrôleur léger entraîné en RL décide dynamiquement d'arrêter ou continuer l'échantillonnage, équilibrant exactitude, latence et coût. Formulation MDP avec interprétation Lagrangienne. Surpasse ASC et ESC sur les trade-offs.

Reinforcement learning Raisonnement Évaluations

SIG

HYP

arXiv cs.LG·3 juin

Spectral-Progressive Thought Flow for Lightweight Multimodal Reasoning

SpecFlow propose un cadre léger de raisonnement spatial multimodal utilisant l'espace cosinus discret pour représenter les pensées visuelles intermédiaires. Via guidance sans classificateur, les pensées textuelles autogénératives dirigent les mises à jour visuelles sans expansion de contexte. Résultat : réduction jusqu'à 2,1× des coûts de calcul et cache KV avec performance compétitive.

Raisonnement Vision Multi-agents

SIG

HYP

arXiv cs.CL·3 juin

PhotoCraft: Agentic Reasoning with Hierarchical Self-Evolving Memory for Deep Image Search

PhotoCraft propose un système de mémoire hiérarchique pour agents de recherche d'images. Le système combine mémoire de travail, épisodique et sémantique pour maintenir la cohérence logique sur plusieurs étapes de raisonnement. Tests sur DISBench montrent des gains jusqu'à 18,5% en récupération contextuelle.

Agents IA Vision RAG

SIG

HYP

arXiv cs.CL·3 juin

Do Value Vectors in Deep Layers Need Context from the Residual Stream?

Les chercheurs proposent Bank of Values (BoV), une méthode remplaçant les vecteurs de valeur contextuels par des vecteurs sans contexte stockés comme paramètres creux dans les derniers tiers des couches. Sur modèles 135M et 780M, BoV améliore la perte de validation et les performances sur 21 benchmarks avec moins de calcul et mémoire.

Papers Benchmarks Raisonnement

SIG

HYP

arXiv cs.LG·3 juin

Auditable Climate Risk Intelligence from Fragmented ESG Data: Deterministic Orchestration and Imbalance-Aware Learning for Scope 1-3 Validation

Framework d'orchestration déterministe pour valider les données ESG fragmentées (Scope 1-3) avec détection d'anomalies temporelles, apprentissage d'ensemble imbalancé et traçabilité d'audit. Benchmark synthétique calibré sur GHG Protocol, PCAF, ISSB. Évaluation sur métriques de classification, calibration et complétude de chaîne de provenance.

Benchmarks Évaluations Reinforcement learning

SIG

HYP

arXiv cs.LG·3 juin

Regime-Arrival Uncertainty in Generalization Bounds under Distribution Shift

Article théorique sur les bornes de généralisation sous changements de distribution. Propose un cadre pour quantifier le risque supplémentaire quand le ratio d'états calmes vs crises diffère entre entraînement et déploiement, avec décomposition exacte et bornes minimax. Testé sur 25 ans d'indices boursiers.

Papers Benchmarks Évaluations

SIG

HYP

arXiv cs.AI·3 juin

Visual Graph Scaffolds for Structural Reasoning in Large Language Models

Étude montrant que les graphes visuels aident les LLM à organiser le raisonnement multi-sauts mieux que leur représentation textuelle. Les graphes structurés en mind maps guident le modèle sans indices directs, contrairement aux graphes aplatis en texte. L'avantage persiste après fine-tuning supervisé et distillation KL.

Raisonnement Papers

SIG

HYP

arXiv cs.AI·3 juin

Distilling Answer-Set Programming Rules from LLMs for Neurosymbolic Visual Question Answering

Méthode pour extraire des règles Answer-Set Programming (ASP) depuis des LLM afin d'améliorer le Visual Question Answering (VQA). L'approche utilise des exemples de datasets VQA pour guider le LLM à étendre une théorie de raisonnement initiale, avec validation par le solveur ASP. Démontre l'efficacité sur plusieurs datasets avec peu d'exemples.

Vision Raisonnement Papers

SIG

HYP

arXiv cs.CL·3 juin

Hallucinations as Orthogonal Noise: Inference-Time Manifold Alignment via Dynamic Contextual Orthogonalization

Nouvelle méthode d'inférence DCO (Dynamic Contextual Orthogonalization) pour réduire les hallucinations dans les LLM. Basée sur l'hypothèse que les hallucinations sont du bruit orthogonal au manifold sémantique du residual stream. Testée sur Llama-3 (8B/70B) avec gains sur XSum, NQ-Swap, IFEval et TriviaQA.

Llama Raisonnement Alignement

SIG

HYP

arXiv cs.LG·3 juin

$\Psi$-Bench: Evaluating Persona-Sensitive Influencing in Persuasive Dialogues

Ψ-Bench est un benchmark évaluant la capacité des LLMs à influencer des utilisateurs via dialogue persuasif. 10 modèles frontière testés sur 3 scénarios réalistes. Accès aux profils utilisateur améliore performance de 18,24%. Code disponible.

Benchmarks Prompt engineering Agents IA

SIG

HYP

arXiv cs.CL·3 juin

Linguistic Productivity in Large Language Models: Models Coerce, but do not Preempt

Étude sur la productivité linguistique dans les LLM : les modèles reproduisent l'entrenchissement (structures fréquentes) mais échouent à implémenter la préemption (absence observée de structures). Les grands modèles gèrent la coercition contextuelle mais surpassent les patterns jamais vus dans les données.

Papers Raisonnement Évaluations

SIG

HYP

arXiv cs.LG·3 juin

Improvise, Adapt, Overcome: An On-The-Fly Multifidelity Algorithm for Efficient Machine Learning

Algorithme multifidélité adaptatif pour l'apprentissage machine en chimie quantique. Détermine dynamiquement la composition du dataset en interrogeant les échantillons à chaque niveau de fidélité. Réduit les coûts de génération de données jusqu'à 30× vs méthode monofidélité et 5× vs MFML standard sur énergies de cluster couplé et énergies d'excitation.

Benchmarks Papers Fine-tuning

SIG

HYP

arXiv cs.LG·3 juin

Representational Capacity: Geometric Limits on Feature Representation in Transformer Language Models

Étude théorique sur les limites géométriques de la représentation de features dans les transformers. Les auteurs établissent un cadre basé sur les hypothèses de représentation linéaire et superposition, montrant que la capacité représentationnelle dépend du ratio vecteurs/dimensions (k/d) plutôt que du nombre brut. Analyse de dizaines de modèles open-source révèle deux classes selon la contrainte d'orthogonalité ε.

Papers Raisonnement Benchmarks

SIG

HYP

arXiv cs.CL·3 juin

The Ghost Annotator: a Framework to Explore Human Label Variation in Content Moderation through Conformal Prediction

Framework combinant prédiction conforme et représentation collaborative pour analyser le comportement des LLM face aux annotateurs humains en modération de contenu. Introduit la métrique Ghost Prediction pour quantifier les divergences modèle-humains. Évaluation sur 4 LLM et 4 datasets révèle que les grands modèles sont plus confiants sur textes sans alignement humain, avec biais démographique structurel.

Évaluations Sécurité IA Alignement

SIG

HYP

arXiv cs.LG·3 juin

Mitigating Spurious Correlations with Memorization-Guided Dataset De-Biasing

Méthode pour atténuer les corrélations spurieuses dans les datasets en utilisant un scoring d'échantillons en deux étapes qui démêle la dynamique d'apprentissage des features causales et spurieuses. L'approche sélectionne 10% des données d'entraînement tout en surpassant les techniques de débiaisage existantes.

Évaluations Fine-tuning Papers

SIG

HYP

arXiv cs.LG·3 juin

Learning Coherent Representations: A Topological Approach to Interpretability

Nouvelle approche topologique pour l'interprétabilité des réseaux de neurones profonds. Les auteurs introduisent la « cohérence », une propriété géométrique où chaque neurone répond à des régions contiguës de l'espace d'état. Ils proposent Coh, une fonction objectif différentiable basée sur la variance de Fréchet, validée sur MNIST et les embeddings BERT.

Papers Embeddings

SIG

HYP

arXiv cs.CL·3 juin

Conditional Hypothesis Generation for LLM-Based Text Analysis with Researcher-Specified Covariates

Méthode de génération d'hypothèses conditionnelles pour l'analyse textuelle par LLM, intégrant des covariables spécifiées par les chercheurs. Résout les problèmes de déséquilibre de strates et d'inversion de signe via interactions features-covariables et rééquilibrage inverse-fréquence. Validation sur données synthétiques et réelles en sciences sociales computationnelles.

Prompt engineering Évaluations Papers

SIG

HYP

arXiv cs.AI·3 juin

Do Real-World Datasets Contain Natural Experiments? An Empirical Study Using Causal Feature Selection

Étude empirique sur la détection de « natural experiments » (interventions implicites) dans des datasets réels via découverte causale et sélection de features. Les auteurs valident sur données synthétiques puis évaluent 50+ datasets réels, montrant que traiter les données comme interventionnelles plutôt qu'observationnelles améliore les performances.

Benchmarks Papers

SIG

HYP

arXiv cs.CL·3 juin

HyperPatch: Sequential Knowledge Editing Under n-ary Structural Drift

HyperPatch propose une méthode de modification de connaissances séquentielles pour LLMs basée sur des hypergraphes. Elle résout le problème de « N-ary Structural Drift » où les mises à jour complexes fragmentent les relations. Sur MQuAKE-CF et MQuAKE-T, gains de 96,24% et 21,06% en précision par rapport aux baselines.

Papers Benchmarks Raisonnement

SIG

HYP

arXiv cs.CL·3 juin

Fully Automated Identification of Lexical Alignment and Preference-Stage Shifts in Large Language Models

Deux métriques automatisées évaluent le désalignement lexical des LLM : Lexical Alignment Score détecte la surutilisation de termes ('suggest', 'additionally', 'strategy'), Triangulated Preference Shift quantifie l'impact du RLHF. Testées sur 6 familles (Falcon, Gemma, Llama, Mistral, OLMo, Yi) via abstracts PubMed, sans annotation manuelle.

Alignement Évaluations Reinforcement learning

SIG

HYP

arXiv cs.CL·3 juin

A cross-domain tropical species dataset with Chinese vernacular names and CITES source links

Dataset de 410 499 espèces tropicales couvrant plantes, aquatiques et animaux de compagnie. Intègre identifiants taxonomiques (GBIF, NCBI, iNaturalist, etc.), ajoute ontologie cross-domaine, noms vernaculaires chinois (99,50% de couverture) avec provenance explicite, et liens CITES. Déposé sur Zenodo.

Benchmarks Open source

SIG

HYP

arXiv cs.AI·3 juin

Perceive Before Reasoning: A Pre-Reasoning Perception Framework for Efficient and Reliable Proactive Mobile Agents

Un framework deux-étapes (PRPF) pour agents mobiles proactifs sépare la perception (décider d'intervenir) du raisonnement (comment aider). Un percepteur léger filtre les faux positifs, activant le reasoner MLLM seulement si nécessaire. Réduit les faux déclenchements et améliore l'efficacité sur le benchmark ProactiveMobile.

Agents IA Vision Raisonnement

SIG

HYP

arXiv cs.LG·3 juin

A Nonmonotone Gradient-Based Algorithm for Symmetric Nonnegative Matrix Factorization and Graph Clustering

SNMPBB, première adaptation des méthodes de Barzilai-Borwein non-monotones au problème de factorisation matricielle symétrique non-négative (Symmetric NMF). Démontre 6× d'accélération vs SymANLS sur données synthétiques. Extensions pour clustering de graphes (Graph-SNMPBB) et problèmes large-scale (LAI-SNMPBB) avec convergence globale prouvée.

Benchmarks Papers

SIG

HYP

arXiv cs.LG·3 juin

Filter, Then Reweight: Rethinking Optimization Granularity in On-Policy Distillation

FiRe-OPD propose une distillation on-policy (OPD) à granularité fine combinant filtrage de trajectoires et repondération douce de tokens. Validé sur AIME 2024 (+6.25 en strong-to-weak) et Miner (+18.81 en multi-teacher), la méthode surpasse les approches token-level récentes en stabilité et performance.

Reinforcement learning Fine-tuning Papers

SIG

HYP

arXiv cs.AI·3 juin

CORE: Conflict-Oriented Reasoning for General Multimodal Manipulation Detection

CORE est un framework qui entraîne les MLLMs à détecter les fake news multimodales en identifiant les conflits sémantiques ou physiques entre modalités. Utilisant un corpus annoté (CAC) avec facteurs de conflit, CORE généralise à des manipulations inédites en few-shot ou zero-shot, surpassant les méthodes existantes.

Vision Raisonnement Évaluations

SIG

HYP

arXiv cs.LG·3 juin

Binary Road Surface Classification Using Machine Learning on Production Vehicle Signals During Cruising

Méthode ML pour classifier en temps réel l'état de la route (grip sec/humide vs glissance neige/glace) à partir de signaux véhicule en croisière. Framework feature-based et end-to-end utilisant vitesses roues, couples, accélération longitudinale, angle braquage, vitesse de lacet. Validation sur données route publique.

Reinforcement learning Benchmarks Vision

SIG

HYP

arXiv cs.CL·3 juin

On the Persistent Effects of Lexicality in Large Language Mod

Étude arXiv sur les représentations des LLM : le chevauchement lexical influence les embeddings plus que le contenu sémantique, persiste à travers les couches et architectures, et dégrade les performances en résumé et édition de modèles.

Papers Raisonnement Évaluations

SIG

HYP

Reddit r/MachineLearning·3 juin

MiniMax dropped a new attention architecture. [N]

MiniMax introduit une nouvelle architecture d'attention (MSA) supportant nativement 1M tokens sans complexité quadratique. Approche « KV outer gather Q » offrant 4× plus rapide que Flash-Sparse-Attention, réduction compute à 1/20e, 9× speedup prefilling, 15× decoding. Premier modèle open-weight combinant coding frontier, 1M contexte et multimodalité native.

Raisonnement Génération de code Vision

SIG

HYP

Simon Willison·2 juin

datasette-agent-micropython 0.1a0

Release de datasette-agent-micropython 0.1a0. Permet à Datasette Agent de générer et exécuter du code Python en toute sécurité via sandbox WebAssembly. GPT-5.5 n'a pas réussi à s'échapper du sandbox en tests.

Agents IA Génération de code Open source

SIG

HYP

ActuIA·2 juin

Qwen et DeepSeek : Pékin scelle leurs données d'entraînement, l'AI Act les réclame

Depuis juin 2026, les autorités numériques européennes utilisant Qwen ou DeepSeek doivent se conformer à l'AI Act qui exige la divulgation des données d'entraînement. Pékin refuse de les communiquer, créant un conflit réglementaire majeur entre l'UE et les fournisseurs chinois.

Qwen DeepSeek Régulation

SIG

HYP

Hacker News (AI)·2 juin

Microsoft's MAI-Code-1-Flash Scores 51% SWE-Bench Pro with Just 5B Active Params

Microsoft déploie MAI-Code-1-Flash, un modèle de 5B paramètres actifs qui atteint 51% sur SWE-Bench Pro. Cette architecture compacte démontre des performances compétitives en résolution de tâches de génie logiciel complexes.

Génération de code Benchmarks Open source

SIG

HYP

The Decoder·2 juin

OpenAI expands Codex with role-specific plugins to build a general-purpose app for non-developers

OpenAI élargit Codex avec des plugins spécialisés pour l'analyse de données, la vente et la banque d'investissement. 5 millions d'utilisateurs hebdomadaires, dont 20% non-développeurs. Ce segment croît 3x plus vite que les développeurs.

OpenAI Génération de code Business

SIG

HYP

Reddit r/LocalLLaMA·2 juin

Using Gemma 4 E4B with the LiteRT engine - ~2.4x speedup over Q4 GGUF in text generation, image processing roughly the same

Gemma 4 E4B en format LiteRT avec moteur Google atteint 157.2 tok/s en génération de texte, 2.4× plus rapide que Q4 GGUF (66.3 tok/s) grâce à la prédiction multi-tokens (MTP). Captionnage d'images : gain marginal de 1.1× car le goulot est l'encodeur vision. Testé sur RTX 4060 Ti 16GB.

Gemini Génération de code Vision

SIG

HYP

Reddit r/LocalLLaMA·2 juin

I trained a 75M parameter LLM from scratch on 18B tokens and it beats a model almost double its size

KeyLM, un modèle de 75M paramètres entraîné sur 18B tokens, surpasse SmolLM-135M-Instruct sur IFEval (17.85 vs 17.15) malgré une taille moitié moindre et 30x moins de données. Architecture standard : GQA, RoPE, SwiGLU, 24 couches, entraîné sur FineWeb-Edu, Wikipedia, Reddit et autres données publiques.

Open source Benchmarks Génération de code

SIG

HYP