Page 2 sur 135

ToutHaut signalRécent
5379 articles
arXiv cs.CL·

Fixing FOLIO and MALLS: Verified Annotations and an LLM-assisted Framework to Focus Human Relabeling

Audit systématique des benchmarks FOLIO et MALLS révélant 39% et 36% d'erreurs dans les formalisations FOL. Les auteurs publient des annotations corrigées et un framework LLM pour guider la relabélisation manuelle, permettant d'atteindre 90% de précision en révisant <24% des instances. Tests sur Gemma 31B, Qwen3-30B et GPT-4o-mini montrent des gains de +9 à +22 points.

BenchmarksÉvaluationsRaisonnement
SIG
82
HYP
15
arXiv cs.CL·

CSRP: Chain-of-Thought Reasoning for Chinese Text Correction via Reinforcement Learning with Efficiency-Aware Rewards

CSRP, un framework en trois étapes pour la correction d'erreurs grammaticales chinoises, combine pré-entraînement continu (5.9M échantillons), fine-tuning avec Chain-of-Thought, et optimisation de politique avec récompenses conscientes de l'efficacité. Atteint 50.99 F₀.₅ sur NACGEC et surpasse GPT-4 en correction orthographique (59.61 F1).

Reinforcement learningRaisonnementFine-tuning
SIG
82
HYP
15
arXiv cs.CL·

A Multi-Domain Red Teaming Framework for Safety, Robustness, and Fairness Evaluation of Medical Large Language Models

Framework de red teaming multi-domaine évaluant 11 LLMs sur 690 scénarios cliniques. Résultats : variance substantielle (scores 0.791–0.984), défaillances critiques masquées par la précision moyenne, amplification d'erreur 10-20% sur tâches d'équité. Approche hybride (automatisée + validation humaine) nécessaire.

Sécurité IAÉvaluationsBenchmarks
SIG
82
HYP
15
arXiv cs.CL·

Linear Ensembles Wash Away Watermarks: On the Fragility of Distributional Perturbations in LLMs

Des chercheurs démontrent que les watermarks statistiques dans les LLM sont vulnérables aux ensembles linéaires. En moyennant les distributions de probabilité de 3-5 modèles, les perturbations introduites par les watermarks s'annulent. La méthode WASH (Watermark Attenuation via Statistical Hybridisation) supprime la détection sur 6 schémas de watermarking testés, réduisant les z-scores de 5-300 à <2 (seuil: 4).

Sécurité IAAlignementPapers
SIG
82
HYP
25
arXiv cs.AI·

Industrializing Prediction-Powered Inference: The GLIDE Library for Reliable GenAI and Agentic Systems Evaluation

GLIDE est une bibliothèque Python open-source unifiant les méthodes de prediction-powered inference (PPI++, Stratified PPI, Predict-Then-Debias) pour évaluer les systèmes agentic. Elle combine annotations humaines et jugements LLM en estimations sans biais avec intervalles de confiance valides, réduisant les coûts d'annotation tout en maintenant la précision.

Agents IAÉvaluationsOpen source
SIG
82
HYP
18
arXiv cs.LG·

Counterfactual Evaluation Reveals Hidden Capability Profiles in Clinical LLMs and Agents

Un nouveau métrique d'évaluation contrefactuelle (CSS) révèle que six modèles de frontier classés similairement sur des métriques traditionnelles se rangent dans l'ordre inverse selon leur capacité à adapter les recommandations cliniques face à des mutations de cas oncologiques. Tous les modèles échouent sur les changements de statut chirurgical, un défaut invisible aux métriques de couverture.

BenchmarksÉvaluationsAgents IA
SIG
82
HYP
18
arXiv cs.LG·

VeriGate: Verifier-Gated Step-Level Supervision for GRPO

VeriGate étend GRPO en combinant récompenses de vérificateur et supervision au niveau des étapes. La méthode utilise un modèle de récompense de processus (PRM) pour assigner du crédit granulaire aux tokens, évitant l'effondrement du gradient quand toutes les trajectoires reçoivent la même récompense. Sur MATH avec Qwen2.5-Instruct (1.5B/7B), VeriGate améliore la précision de ~20% et ~12% respectivement.

RaisonnementReinforcement learningPapers
SIG
82
HYP
18
arXiv cs.LG·

When LLMs Learn to Be Consistently Wrong: A Multi-Model Study of Linear Representations of Synthetic Deception

Étude multi-modèles (Pythia-1.4B, Gemma-2, Qwen2.5-7B, Llama-3.1-8B) sur la représentation linéaire de la malhonnêteté synthétique. Des sondes linéaires détectent le mensonge avec AUC ≥0.99 dès les couches 1-3. Les représentations de malhonnêteté se consolident progressivement en couches profondes, avec implications pour la surveillance basée sur l'activation.

PapersSécurité IAAlignement
SIG
82
HYP
15
arXiv cs.LG·

LongDS-Bench: On the Failure of Long-Horizon Agentic Data Analysis

LongDS-Bench évalue la capacité des agents IA à maintenir un contexte analytique sur des horizons longs. Le benchmark contient 68 tâches d'analyse de données multi-tours (2 225 tours) basées sur des notebooks Kaggle réels. Les meilleurs modèles atteignent seulement 48,45% de précision, avec une chute de 47 points entre les tours précoces et tardifs. Les erreurs long-horizon représentent 52-69% des échecs.

Agents IABenchmarksÉvaluations
SIG
82
HYP
15
Reddit r/LocalLLaMA·

Flash Attention for llama.cpp on RDNA3: 47% less KV VRAM than Vulkan f16 K, KLD almost losselss on F16 K / q4_0 V. Part 1.

Optimisation Flash Attention pour llama.cpp sur GPU RDNA3 : réduction de 47% de la VRAM KV par rapport à Vulkan f16. Packing 8-bit des K-values dans instructions GPU natives sudot4, sans quantization lossy. À 128k contexte avec MTP draft : 21.76 GiB vs 23.18 GiB (gain 1.42 GiB). Qualité préservée : KLD moyen 0.00455 (q4_0 V), 97.06% top-token identiques.

LlamaGénération de codeBenchmarks
SIG
82
HYP
15
Reddit r/MachineLearning·

Making LLMs tell you how confident they really are through probe-targeted fine tuning.[R]

Recherche sur le fine-tuning ciblé par probe (LoRA) pour calibrer la confiance verbale des LLM. Les modèles détectent internement les réponses correctes (0.76–0.88 AUROC) mais affichent 99% de confiance en sortie. Fine-tuning sur 8 modèles (7B–70B) avec activation patching causal (ρ=0.976). Code et pré-enregistrement disponibles.

Fine-tuningRaisonnementAlignement
SIG
82
HYP
18
arXiv cs.AI·

BenchTrace: A Benchmark for Testing Reflection Ability and Controlled Evolution in LLM Agents

BenchTrace est un benchmark pour évaluer la capacité d'auto-évolution des agents LLM. Basé sur 1,821 épisodes annotés couvrant six tâches, il mesure la qualité de la réflexion et teste si les agents évitent les erreurs passées. Expériences sur Qwen3-32B et GPT-4.1 : taux de réussite <30% en réflexion, oubli des leçons antérieures et généralisation faible.

Agents IABenchmarksRaisonnement
SIG
82
HYP
15
arXiv cs.LG·

Sequential Physics-Constrained Neural Operator Forward Modeling for the $\textit{Norne}$ Reservoir System

Framework mathématique pour surrogate modeling de réservoirs pétroliers (Norne, 46×112×22 grille) via Fourier Neural Operators (FNO) et variante physics-informed (PINO). Validation empirique : R²>0.99 (pétrole), R²>0.90 (gaz), R²≈0.80 (pression) sur 3298 jours. Speedup 10⁴× vs simulateur OPM, ensemble 1000 membres en <1 min sur GPU B200.

BenchmarksPapers
SIG
82
HYP
15
arXiv cs.CL·

MechELK: A Mechanistic Interpretability Framework for Eliciting Latent Knowledge in Large Language Models

MechELK est un framework d'interprétabilité méchaniste pour extraire les connaissances latentes des LLM. En trois étapes (localisation via SAE, vérification par probing causal, élicitation par ingénierie de représentation), il atteint 84,7% de précision sur TruthfulQA, surpassant CCS de 6,2% et détecte 78,3% des connaissances cachées quand la sortie du modèle est incorrecte.

RaisonnementSécurité IAAlignement
SIG
82
HYP
25
arXiv cs.LG·

A Simple State Space Model Excels at Multivariate Time Series Classification

Étude systématique comparant les modèles d'espace d'état (SSM) pour la classification de séries temporelles. S4D surpasse les variantes Mamba en précision et efficacité. Les auteurs proposent MS4 et MS4N, versions légères de S4D avec projection linéaire et mélange de canaux. Évaluation sur 59 datasets (MONSTER, UEA) : MS4N égale des modèles 10× plus grands en paramètres.

BenchmarksPapersRaisonnement
SIG
82
HYP
15