Page 21 sur 192

ToutHaut signalRécent

7679 articles

AERIC: Anticipatory Hidden-State Monitoring for Implicit Harmful Dialogue

AERIC est un moniteur de sécurité léger (387 paramètres) qui détecte les dialogues nuisibles implicites en analysant les états cachés pendant le décodage, sans passe forward supplémentaire. Sur DiaSafety et Harmful Advice, il améliore l'AUROC de 0.683→0.714 et 0.822→0.858. Le déploiement ajoute seulement 2.34% de latence contre 79.40% pour Qwen3Guard-Stream-4B.

Sécurité IA Alignement Raisonnement

SIG

HYP

arXiv cs.AI·26 mai

When Correct Beliefs Collapse: Epistemic Resilience of LLMs under Clinical Pressure

Étude arXiv montrant que les LLMs abandonnent des diagnostics corrects sous pression en dialogue clinique multi-tour, malgré une bonne performance aux benchmarks médicaux. Les auteurs proposent Med-Stress (test de stabilité des croyances), RBED (défense inférence) et R-FT (fine-tuning de résilience) pour améliorer la robustesse sur 9 modèles frontière.

Sécurité IA Alignement Évaluations

SIG

HYP

arXiv cs.LG·26 mai

Spectral Probe-Circuits: A Three-Step Recipe for Identifying Attention-Head Circuits in Pretrained Transformers

Méthode pour identifier les circuits d'attention-heads dans les transformers pré-entraînés via un signal spectral (participation ratio intégré temporellement), un filtrage par motifs de tâche, et une ablation de groupe. Validée sur 51M à 7B paramètres, deux architectures, quatre pipelines. Découverte : circuit d'induction de 2-6 heads causalement nécessaire dans tous les modèles (94-100% de drop après ablation).

Papers Raisonnement Évaluations

SIG

HYP

arXiv cs.CL·26 mai

WhenLoss: Diagnosing Write and Retrieval Bottlenecks in Long-Context Memory Systems

WhenLoss propose un protocole diagnostic pour identifier les goulots d'étranglement dans les systèmes de mémoire long-contexte. Expected Predictive Compression (EPC) utilise un LLM pour anticiper les questions futures et préserver les preuves minimales lors de l'écriture. Sur LongMemEval (500 questions), EPC atteint 0.49 en score CSM vs 0.44 pour le meilleur baseline, réduisant l'écart d'écriture à 0.04.

RAG Raisonnement Benchmarks

SIG

HYP

arXiv cs.AI·26 mai

Methods for Formal Verification of Agent Skills: Three Layers Toward a Mechanically Checkable Capability-Containment Proof

Article de vérification formelle pour les compétences d'agents IA. Propose trois méthodes composables : analyse statique par interprétation abstraite, système de types raffinés pour les appels d'outils, et model-checking SMT borné. Implémentation open-source en JavaScript (framework enclawed) avec 53 tests unitaires.

Agents IA Sécurité IA Raisonnement

SIG

HYP

arXiv cs.AI·26 mai

QUIVER: A Formal Framework for Quantifying Perturbation Propagation and Bifurcation in Compound AI Systems

QUIVER est un framework formel pour mesurer la propagation des perturbations dans les pipelines LLM en graphe. Il définit des matrices de sensibilité, la divergence de trajectoire, les seuils de bifurcation et la fidélité de distribution. Validé sur 8 200+ traces instrumentées couvrant trois architectures distinctes.

Agents IA Évaluations Papers

SIG

HYP

arXiv cs.AI·26 mai

LGMT: Logic-Grounded Metamorphic Testing for Evaluating the Reasoning Reliability of LLMs

LGMT est un framework d'évaluation sans oracle basé sur la logique du premier ordre pour tester la fiabilité du raisonnement des LLMs. En dérivant des relations métamorphiques d'équivalences logiques formelles, il crée des cas de test sémantiquement invariants. Expériences sur 6 LLMs SOTA révèlent des défauts cachés non détectés par les benchmarks statiques traditionnels.

Raisonnement Évaluations Benchmarks

SIG

HYP

arXiv cs.CL·26 mai

Direct Preference Optimization for English-Mandarin Code-Switching Speech Recognition in Audio LLMs

Des chercheurs appliquent Direct Preference Optimization (DPO) pour améliorer la transcription code-switching anglais-mandarin dans les Audio LLMs. Trois modes d'échec identifiés : omission de langue, traduction au lieu de transcription, hallucination. Entraînement sur 100K paires (570 heures) réduit le MER jusqu'à 89,6% (in-distribution) et 20,0% (out-of-distribution).

Reinforcement learning Alignement Voix

SIG

HYP

arXiv cs.LG·26 mai

A Large-Scale Dataset and Benchmark: Do Protein-Ligand Models Learn Binding Sites or Just Binding Likelihood?

InteractBind, un dataset de ~100k paires protéine-ligand avec benchmark, évalue si les modèles localisent les sites de liaison ou prédisent simplement la probabilité de liaison. Huit modèles testés montrent une prédiction binaire forte mais une localisation faible des sites, révélant des lacunes dans l'interprétabilité physique.

Benchmarks Papers Évaluations

SIG

HYP

arXiv cs.CL·26 mai

Document Classification Pattern Recognition via Information Fusion: A Systematic Review of Multimodal and Multiview Representation Approaches

Revue systématique de 139 études sur la fusion d'informations pour la classification de documents. Méta-analyse révélant que la fusion multimodale améliore la précision de +5,28 points (p=0,0016) et la fusion multivue de +4,67% en précision. Critique majeure : seulement 11,8% des études multimodales et 23,3% des études multivue utilisent des tests statistiques, compromettant la reproductibilité.

Benchmarks Évaluations Papers

SIG

HYP

arXiv cs.CL·26 mai

Faithful or Fabricated? A Causal Framework for Rationalization Bias in LLM Judges

Étude sur les biais de rationalisation chez les juges LLM. Les chercheurs testent si les explications des modèles restent stables quand des indices non-pertinents sont modifiés (verbosité, confiance). Ils proposent PROOF-BEFORE-PREFERENCE pour améliorer l'invariance aux indices et réduire l'ancrage des explications.

Évaluations Raisonnement Alignement

SIG

HYP

arXiv cs.CL·26 mai

End-to-End Intracortical Speech Decoding from Neural Activity

Décodage de la parole à partir d'enregistrements intracorticaux chez un patient atteint de SLA, sans modèle de langage externe. Un décodeur Conformer end-to-end atteint 23,80% de taux d'erreur caractère sur données de validation. Les erreurs proviennent principalement de la segmentation des limites de mots.

Raisonnement Benchmarks Sécurité IA

SIG

HYP

arXiv cs.CL·26 mai

Side-by-side Comparison Amplifies Dialect Bias in Language Models

Étude arXiv montrant que les modèles de langage amplifient les biais dialectaux (AAVE vs anglais standard) lors de comparaisons côte à côte de tweets, bien plus qu'en évaluation isolée. Le fine-tuning par équité contrefactuelle réduit partiellement le biais en isolation mais échoue en contexte contrastif, révélant une faille majeure des évaluations actuelles.

Benchmarks Sécurité IA Alignement

SIG

HYP

arXiv cs.CL·26 mai

Temporal Concept Drift in Legal Judgment Prediction: Neural Baselines Across Three Epochs of Ukrainian Court Decisions

Étude de la dérive temporelle en NLP juridique sur 428K décisions de cours ukrainiennes (2008-2026). Quatre modèles transformers (XLM-RoBERTa, variantes légales) montrent une dégradation sévère en transfert forward (−27,2 pp macro-F1) mais robustesse en backward transfer. L'apprentissage continu chronologique élimine l'oubli catastrophique.

Benchmarks Fine-tuning Papers

SIG

HYP

arXiv cs.LG·26 mai

Feature Lottery? A Bifurcation Theory of Concept Emergence

Théorie de bifurcation pour détecter en temps réel l'émergence de représentations structurées dans les réseaux de neurones. Un ratio dynamique β(t)/βc(t) basé sur la Hessienne de la perte prédit quatre régimes de transition distincts (SAE sur Pythia, SSL CIFAR, grokking arithmétique). À 5% de l'entraînement, la pureté précoce des atomes prédit la convergence finale avec 12x le baseline.

Papers Raisonnement Fine-tuning

SIG

HYP

arXiv cs.LG·26 mai

Signs Beat Floats: Low-Rank Double-Binary Adaptation for On-Device Fine-Tuning

LoRDBA remplace les facteurs de faible rang des adaptateurs LoRA par des vecteurs binaires avec échelles canal-wise, réduisant l'empreinte mémoire de plus de 10× tout en maintenant la qualité fp16 LoRA. Surpasse les baselines low-bit à taille égale avec surcharge latence préfill ≤8% et surcharge mémoire d'entraînement ~1.6× LoRA fp16.

Fine-tuning

SIG

HYP

arXiv cs.LG·26 mai

PromptAudit: Auditing Prompt Sensitivity in LLM-Based Vulnerability Detection

PromptAudit évalue l'impact des stratégies de prompting sur la détection de vulnérabilités par LLM. Sur 5 modèles open-weight et 1 000 CVE (6 074 samples), le chain-of-thought standard surpasse les autres approches, tandis que few-shot aide certains modèles. L'adaptive chain-of-thought réduit le recall, self-consistency crée trop d'abstention.

Prompt engineering Évaluations Sécurité IA

SIG

HYP

arXiv cs.LG·26 mai

LLMs Show No Signs Of Individuated Metacognition

Analyse de 20 LLMs frontier sur 6 benchmarks : la confiance exprimée par les modèles ne reflète pas leurs capacités individuelles. Décomposition par analyse factorielle tétrachorique révèle une matrice de confiance de rang quasi-un. Les modèles partagent un axe de difficulté commune et diffèrent surtout par leurs seuils de décision. Aucune preuve de métacognition individuée verbalisée significative.

Évaluations Benchmarks Raisonnement

SIG

HYP

arXiv cs.LG·26 mai

Fourier Feature Pyramids for Physics-Informed Neural Networks

Beignet, une nouvelle architecture de réseau de neurones pour résoudre les équations aux dérivées partielles (EDP), remplace les embeddings Fourier aléatoires des PINNs par une pyramide Fourier multi-résolution entraînable. Le modèle calcule efficacement les dérivées spatiales via FFT et atteint une précision supérieure avec moins de paramètres que les méthodes PINN existantes.

Papers Benchmarks Raisonnement

SIG

HYP

arXiv cs.LG·26 mai

CurveRL: Principled Distribution-Aware Context Reweighting for LLM Reasoning

CurveRL propose une approche de réépondération de prompts basée sur des transformations de quantiles pour l'apprentissage par renforcement avec récompenses vérifiées (RLVR). La méthode assigne des poids selon le rang et la densité des taux de réussite plutôt que leurs valeurs absolues, surpassant GRPO sur plusieurs benchmarks.

Raisonnement Reinforcement learning Papers

SIG

HYP

Reddit r/MachineLearning·25 mai

DCGAN inference on a microcontroller: 12.6M parameters, 512KB SRAM, 26-second generation, pure C [P]

DCGAN 12.6M paramètres exécuté sur microcontrôleur RISC-V CH32H417 (512KB SRAM). Génération 64×64 visages de chats en 26 secondes, moteur C pur avec quantization int8. Poids streamés depuis carte SD via double buffering. Vecteur z seeded par 200 bytes de données quantiques (ANU QRNG). Aucun framework existant (TFLite, CMSIS NN) — implémentation from scratch.

Génération de code Benchmarks Open source

SIG

HYP

Reddit r/LocalLLaMA·25 mai

Full Attention Strikes Back: Transferring Full Attention into Sparse within Hundred Training Steps

RTPurbo transforme les LLMs full-attention en modèles sparse en quelques centaines d'étapes d'entraînement. La méthode exploite trois observations : seuls certains heads nécessitent l'attention complète, la récupération long-range utilise un sous-espace 16D, et la sélection de tokens est query-dépendante. Résultats : 9.36x speedup prefill à 1M contexte, 2.01x speedup decode, précision préservée.

Raisonnement Benchmarks Infrastructure

SIG

HYP

Reddit r/LocalLLaMA·25 mai

NuExtract3 released: open-weight 4B VLM for Markdown, OCR and structured extraction (self-hostable)

Numind publie NuExtract3, un VLM open-weight de 4B paramètres basé sur Qwen3.5-4B (licence Apache-2.0). Le modèle extrait des données structurées et convertit documents/images en Markdown. Entraîné 3 jours sur 8xH100, il supporte PDFs, formulaires, tableaux avec quantifications multiples (GPTQ, W8A8, FP8, Q4, Q6) pour auto-hébergement à partir de 4GB VRAM.

Qwen Vision Open source

SIG

HYP

Reddit r/LocalLLaMA·25 mai

OSCAR RotationZoo - Offline Spectral Covariance-Aware Rotation for 2-bit KV Cache Quantization

OSCAR RotationZoo fournit des matrices de rotation pré-calculées pour la quantification INT2 du cache KV. La méthode compresse la mémoire KV d'un facteur ~7× avec une perte de précision inférieure à 1 chiffre sur GPQA pour modèles de raisonnement dense (Qwen3-4B, Qwen3-8B, GLM-4.7). Code et rotations disponibles sur HuggingFace.

Benchmarks Open source Qwen

SIG

HYP

The Decoder·25 mai

Google Deepmind's AlphaProof Nexus solves decades-old math problems for a few hundred dollars

AlphaProof Nexus de Google DeepMind a résolu autonomement neuf problèmes ouverts d'Erdős, dont deux non résolus depuis 56 ans, pour quelques centaines de dollars par problème. Le système utilise le compilateur Lean pour vérifier automatiquement chaque étape de preuve, avec un taux de succès de 2,5%.

DeepMind Raisonnement Benchmarks

SIG

HYP

arXiv cs.AI·25 mai

Energy per Successful Goal: Goal-Level Energy Accounting for Agentic AI Systems

A-LEMS propose une métrique d'énergie pour systèmes agentic : Energy per Successful Goal (EpG) au lieu d'énergie par inférence. Sur 8 familles de tâches, workflows agentic consomment 4,33x plus d'énergie que exécution linéaire (888,1 J vs 205,3 J). L'overhead vient de l'orchestration, pas du calcul.

Agents IA Benchmarks Évaluations

SIG

HYP

arXiv cs.LG·25 mai

PACE: Two-Timescale Self-Evolution for Small Language Model Agents

PACE est un framework d'auto-évolution pour agents basés sur petits modèles de langage (4B-14B paramètres). Il coordonne l'affinement de prompts avec des mises à jour de logique de contrôle via validation, sans accès à des modèles frontière. Sur 12 combinaisons backbone-benchmark, PACE améliore les agents SLM vanille de +9.2% et les baselines d'évolution mono-mode de +5.4%.

Agents IA Prompt engineering Raisonnement

SIG

HYP

arXiv cs.AI·25 mai

SciAtlas: A Large-Scale Knowledge Graph for Automated Scientific Research

SciAtlas est un graphe de connaissances académique à grande échelle intégrant 43M articles de 26 disciplines, 157M entités et 3B triplets. Il propose un algorithme de récupération neuro-symbolique avec rappel tri-chemin et réclassement graphique pour améliorer la recherche sémantique et réduire les coûts d'inférence des agents IA en recherche scientifique automatisée.

Agents IA RAG Benchmarks

SIG

HYP

arXiv cs.CL·25 mai

When AI Takes Sides on Questions of Faith: Persistent Asymmetries in AI-Mediated Faith Guidance

Étude de 20 modèles LLM commerciaux et open-source sur 182 paires religieuses. Les modèles montrent des asymétries persistantes : ils favorisent conversions vers catholicisme, bahaïsme, sikhisme et découragent conversions vers athéisme, agnosticisme, Témoins de Jéhovah. Grok 4.20 présente les asymétries les plus fortes. Patterns reproductibles indépendamment de la formulation.

Llama GPT Alignement

SIG

HYP

arXiv cs.AI·25 mai

EVE-Agent: Evidence-Verifiable Self-Evolving Agents

EVE-Agent est un agent auto-évolutif qui génère ses propres questions, réponses et preuves vérifiables sans annotations humaines. Un vérificateur de preuves récompense les spans textuels selon leur contribution marginale à la réponse correcte. Le curriculum d'entraînement devient auditable et fiable sans oracles externes.

Agents IA Raisonnement RAG

SIG

HYP

arXiv cs.AI·25 mai

GENSTRAT: Toward a Science of Strategic Reasoning in Large Language Models

GENSTRAT introduit un benchmark d'évaluation pour le raisonnement stratégique des LLM via des jeux de cartes générés procéduralement. Évaluation de 9 modèles (GPT-5, Claude, Gemini-3.1-Pro) sur 36 000+ matchs. Méthodologie décomposant les compétences sur 6 axes et mesurant la volatilité locale (jaggedness) pour diagnostiquer les déploiements réels.

Benchmarks Raisonnement GPT

SIG

HYP

arXiv cs.AI·25 mai

Co-ReAct: Rubrics as Step-Level Collaborators for ReAct Agents

Co-ReAct intègre des rubriques d'évaluation au niveau de chaque étape pour guider les agents ReAct dans les tâches de recherche multi-étapes. Un générateur de rubriques entraîné avec GRPO optimise une corrélation de rang Spearman multi-juges. Amélioration mesurée sur DeepResearchBench et SQA-CS-V2 avec modèles 8B/14B et frontier.

Agents IA Raisonnement Reinforcement learning

SIG

HYP

arXiv cs.AI·25 mai

RMA: an Agentic System for Research-Level Mathematical Problems

RMA est un système multi-agent pour résoudre des problèmes mathématiques de niveau recherche. Il décompose la preuve en modules spécialisés (analyse, recherche bibliographique, vérification) coordonnés par des agents initializer, proposer et verifier. Sur le benchmark First Proof (10 problèmes), RMA résout 8/10 problèmes et surpasse GPT-5.2R et Aletheia.

Agents IA Multi-agents Raisonnement

SIG

HYP

arXiv cs.CL·25 mai

Learnability-Informed Fine-Tuning of Diffusion Language Models

Nouvelle méthode LIFT pour l'entraînement fin des modèles de langage par diffusion (DLMs). L'analyse montre que le SFT classique ignore la learnability des tokens selon le masquage. LIFT aligne l'apprentissage avec les étapes de diffusion : tokens faciles quand l'input est masqué, tokens difficiles avec plus de contexte. Gains jusqu'à 3x sur AIME'24/25 vs baselines SFT.

Fine-tuning Raisonnement Benchmarks

SIG

HYP

arXiv cs.CL·25 mai

Query-Adaptive Semantic Chunking for Retrieval-Augmented Generation: A Dynamic Strategy with Contextual Window Expansion

QASC (Query-Adaptive Semantic Chunking) améliore la segmentation de documents pour RAG en intégrant les requêtes utilisateur au moment du chunking. Via scoring de similarité cosinus, expansion contextuelle et agrégation de scores, QASC atteint F1=0.85, soit +18-27% vs chunking fixe et +8-12% vs méthodes sémantiques/agentic sur 100 documents techniques et 200 requêtes.

RAG Benchmarks Papers

SIG

HYP

arXiv cs.CL·25 mai

RAS: Reflection-Augmented Scaling with In-Context Learning for Executable Cypher Query Generation

RAS (Reflection-Augmented Scaling) améliore la génération de requêtes Cypher en exploitant les messages d'erreur du système via apprentissage en contexte. Sur trois datasets Neo4j et cinq modèles spécialisés en code, RAS réduit le taux d'erreur d'exécution de 41–50% (n=5), surpassant l'échantillonnage indépendant (32–38%).

Génération de code Raisonnement Benchmarks

SIG

HYP

arXiv cs.CL·25 mai

How Far Will They Go? Red-Teaming Online Influence with Large Language Models

Étude de red-teaming sur 30+ LLMs open-source (10 familles, 5 pays) mesurant leur capacité à générer du contenu politique biaisé via des jailbreaks. Résultats : asymétries systématiques (biais gauche), contraction des Overton Windows avec la taille du modèle, variations régionales marquées, efficacité variable des jailbreaks selon les familles.

Sécurité IA Alignement Open source

SIG

HYP

arXiv cs.CL·25 mai

A Proactive Multi-Agent Dialogue Framework for Assessing Social Language Disorder Traits in Autism

TPA (Think, Plan, Ask) est un framework multi-agent qui guide les LLM à sélectionner proactivement des stratégies de questionnement pour évaluer les troubles du langage social (SLD) dans l'autisme. Testé sur 484 épisodes cliniques (ADOS-2), TPA atteint 82,1% de couverture des traits SLD vs 65,5% pour les cliniciens, avec une efficacité diagnostique supérieure (AUCC: 0,628 vs 0,458).

Agents IA Multi-agents Raisonnement

SIG

HYP

arXiv cs.CL·25 mai

Same Model, Different Weakness: How Language and Modality Reshape the Jailbreak Attack Surface in Frontier MLLMs

Étude de red-teaming multilingue sur quatre MLLMs (Claude Sonnet 4.5, GPT-5, Pixtral Large, Qwen Omni) révélant que la vulnérabilité aux jailbreaks varie selon la langue. Les attaques par rôle-play sont moins efficaces en espagnol mexicain, tandis que les attaques visuelles le deviennent plus. Les classements de sécurité ne se conservent pas entre langues.

Sécurité IA Alignement Évaluations

SIG

HYP

arXiv cs.CL·25 mai

Positional Failures in Long-Context LLMs: A Blind Spot in Reasoning Benchmarks

Audit de 11 benchmarks de raisonnement long-contexte : aucun ne contrôle la position de la tâche cible, le contenu de remplissage et la longueur du contexte. Évaluation de 9 LLMs avec Context Rot Evaluation (CRE) révèle des chutes drastiques de précision quand la tâche passe de fin à milieu (ex: Mimo-v2-Flash -88pp à 64K). Les modèles plus récents montrent moins de vulnérabilité positionnelle.

Benchmarks Raisonnement Évaluations

SIG

HYP