Page 9 sur 192

ToutHaut signalRécent

7679 articles

The Slop Paradox: How Synthetic Standardization Erodes Clinical Uncertainty and Cross-Modal Alignment in AI-Rewritten Radiology Reports

Étude sur 450 rapports de radiologie thoracique montrant que la réécriture par LLM pour standardisation préserve l'alignement image-texte (2,5% de dégradation) mais érode 26,8-29,3% des entités cliniques et 14,9-16,5% du langage d'incertitude. Le paradoxe : les tâches produisant du texte « plus propre » éloignent le contenu de l'image.

Vision RAG Évaluations

SIG

HYP

arXiv cs.LG·17 juin

Noise-Driven Escape from Metastable Phases explains Grokking in Deep Neural Networks

Des chercheurs expliquent le phénomène de grokking (généralisation soudaine après surapprentissage prolongé) par des transitions de phase du premier ordre en fonction de la régularisation L2. Le bruit SGD permet aux réseaux de s'échapper de états métastables piégés, avec des temps d'échappement suivant l'échelle d'Arrhenius. Les résultats s'étendent aux réseaux non-linéaires.

Papers Raisonnement Évaluations

SIG

HYP

Vercel AI Blog·17 juin

Introducing eve, an open-source agent framework

Vercel lance eve, un framework open-source pour construire et déployer des agents IA. Un agent minimal ne nécessite que deux fichiers (modèle + instructions). Ajout de tools/skills/channels par simple création de fichiers. Déploiement en production via vercel deploy, sans modification du code local.

Agents IA Open source Outils

SIG

HYP

Reddit r/LocalLLaMA·16 juin

GLM 5.2 API is live, weights are on HF, and ollama has it already

GLM-5.2 est disponible en API ($1.4/M tokens input, $4.4/M output) et en poids open-source MIT sur HuggingFace. Ollama l'intègre déjà. Benchmarks : 81.0 Terminal-Bench 2.1, 62.1 SWE-bench Pro, 74.4 FrontierSWE. Contexte 1M, deux modes thinking (High/Max).

Open source Génération de code Benchmarks

SIG

HYP

arXiv cs.LG·16 juin

Separable Neural Architectures as Physical World Models: from Mathematical Theory to Applications

Nouvelle architecture neuronale séparable (SNA) combinant approximation neuronale et décomposition tensorielle pour résoudre des EDP haute-dimensionnelle. Cadre variationnel (VSNA) garantissant bien-posedness et convergence. Démontre 150 000x speedup vs FEM sur GPU A100 pour simulation paramétrique 7D et inversion thermique Inconel 718 en temps réel (<100ms).

Papers Raisonnement Benchmarks

SIG

HYP

arXiv cs.LG·16 juin

Can Neural Networks Achieve Optimal Computational-statistical Tradeoff? An Analysis on Single-Index Model

Étude théorique montrant que les réseaux de neurones entraînés par gradient peuvent atteindre le compromis optimal calcul-statistique pour les modèles single-index gaussiens. L'algorithme proposé (réseau deux couches) atteint une complexité d'échantillon Õ(d^{s*/2} ∨ d) correspondant à la borne inférieure SQ, avec extension au cas k-sparse via perturbation de poids.

Papers Raisonnement Benchmarks

SIG

HYP

arXiv cs.CL·16 juin

PACUTE: Phonology-, Affix-, and Character-level Understanding of Tokens for Filipino

PACUTE est un benchmark de 4 600 tâches évaluant la compréhension morphologique du filipino dans les LLM. Le benchmark teste 6 niveaux compositionnels incluant l'infixation, la réduplication et les distinctions diacritiques. Les modèles open-weight performent au hasard en décomposition de morphèmes ; les modèles frontier récupèrent les affixes mais restent loin des plafonds en composition morphologique.

Benchmarks Papers Raisonnement

SIG

HYP

arXiv cs.CL·16 juin

Equity with Efficiency: An Empirical Study of Tokenizers for Multilingual Large Language Models

Étude empirique comparant 11 tokeniseurs sur 11 langues d'Asie du Sud-Est. Les tokeniseurs BPE standard favorisent les langues à ressources élevées et l'alphabet latin. Parity-aware BPE atteint le meilleur compromis efficacité-équité; Morphology-Driven Byte Encoding offre meilleures performances sémantiques mais coûte plus cher.

Benchmarks

SIG

HYP

arXiv cs.CL·16 juin

Beyond Monolingual Deep Research: Evaluating Agents and Retrievers with Cross-Lingual BrowseComp-Plus

XBCP, un benchmark contrôlé, évalue des agents de recherche profonde sur leur capacité à opérer en contexte multilingue. Quatre agents testés avec des retrievers denses et creux sur 12 langues montrent une dégradation significative : perte de recall, calibration réduite, citations moins fiables. Les problèmes persistent même avec l'or evidence fourni directement.

Agents IA RAG Benchmarks

SIG

HYP

arXiv cs.AI·16 juin

ToolMenuBench: Benchmarking Tool-Menu Filtering Strategies for Reliable and Efficient LLM Agents

ToolMenuBench est un benchmark évaluant comment la construction du menu d'outils affecte la fiabilité et l'efficacité des agents LLM multi-étapes. Sur 7 modèles, le filtrage causal minimal (CMTF) améliore le succès de 32,1% à 85,7% et réduit l'usage de tokens de 98%, tout en minimisant les appels erronés et l'exposition aux outils risqués.

Agents IA Benchmarks Évaluations

SIG

HYP

arXiv cs.LG·16 juin

Remember, Don't Re-read: Stateful ReAct Agents for Token-Efficient Autonomous Experimentation

Les agents ReAct stateful réduisent de 90% la consommation de tokens en optimisation hyperparamètre et 52% en optimisation de code vs. approche stateless. Architecture implémentée via LangGraph avec historique persistant typé, passant de O(n²) à O(n) tokens total.

Agents IA Raisonnement Génération de code

SIG

HYP

arXiv cs.CL·16 juin

ESBMC-PLC: Formal Verification of IEC 61131-3 Ladder Diagram Programs Using SMT-Based Model Checking

ESBMC-PLC est le premier vérificateur formel open-source avec support natif des diagrammes en échelle IEC 61131-3 (format PLCopen XML). L'outil traduit les rungs en GOTO IR, modélise le cycle de scan PLC et vérifie les propriétés de sécurité via bounded model checking ou k-induction SMT. Évaluation sur 13 benchmarks : 8 bugs détectés, 7 preuves k-induction non bornées, tous les tests < 60ms.

Sécurité IA Benchmarks Open source

SIG

HYP

arXiv cs.CL·16 juin

Replay What Matters: Off-Policy Replay for Efficient LLM Reinforcement Unlearning

ReRULE améliore l'oubli non-supervisé des LLM en utilisant un replay hors-politique pour les cas difficiles. La méthode stocke les rollouts bas-récompense près de la frontière forget/retain dans un buffer et les réutilise via des mises à jour importance-sampled. Sur MUSE-Books, elle augmente la Retain Quality de 46.3 à 56.2 avec +5-11% de temps d'entraînement.

Reinforcement learning Sécurité IA Alignement

SIG

HYP

arXiv cs.CL·16 juin

Spokes: Optimizing for Diverse Pretraining Data Selection

SPOKES optimise la sélection de données de préentraînement via un cadre probabiliste basé sur le score G-Vendi et la descente de gradient exponentiée. Sur FineWeb et DCLM, la méthode améliore les performances en aval de +1.5 et +1.4 points en optimisant conjointement qualité et diversité, surpassant la déduplication sémantique.

Benchmarks Papers Fine-tuning

SIG

HYP

arXiv cs.CL·16 juin

Adapting Reinforcement Learning with Chain-of-Thought Supervision for Explainable Detection of Hateful and Propagandistic Memes

Méthode de post-training par reinforcement learning (GRPO) pour améliorer la détection de mèmes haineux et propagandistes dans les MLLMs. Amélioration de +2.1% sur Hateful Memes (79.9%→82.0%) et +7.6 points macro-F1 sur ArMeme (0.536→0.612) avec explications en chaîne de pensée. Code et données publiquement disponibles.

Reinforcement learning Raisonnement Vision

SIG

HYP

arXiv cs.LG·16 juin

GRASP: Gradient-Aligned Sequential Parameter Transfer for Memory-Efficient Multi-Source Learning

GRASP propose une méthode de transfer learning multi-source qui fusionne séquentiellement K modèles sources en mémoire O(1) au lieu de O(K). Via l'alignement gradient des paramètres et l'adaptation itérative, elle atteint 93.5% de précision sur benchmarks de continual learning (Yearbook, CLEAR-10/100) contre 71.7% pour les ensembles, tout en restant déployable en production.

Fine-tuning Reinforcement learning Benchmarks

SIG

HYP

arXiv cs.CL·16 juin

Beyond Layer Importance in Layer-wise Sparsity: An Inter-Layer Perturbation-Absorption Perspective

Étude sur la redondance couche-par-couche dans les LLM. Les auteurs caractérisent comment les couches absorbent ou amplifient les perturbations lors de l'élagage : les couches précoces amplifient, les couches intermédiaires et tardives absorbent. Ils proposent une correction basée sur un coefficient d'absorption, améliorant OWL et AlphaPruning de 7,13% en perplexité et 1,02% en précision zéro-shot à 70% de sparsité.

Papers Benchmarks Fine-tuning

SIG

HYP

arXiv cs.CL·16 juin

ReportQA: QA-Based Radiology Report Evaluation

ReportQA propose une métrique d'évaluation QA pour les rapports radiologiques générés automatiquement. Le framework utilise des LLM pour extraire des informations structurées, générer des paires QA à partir de templates, et évaluer l'alignement avec les jugements radiologues. Les auteurs publient arbres de connaissances, rapports structurés et code.

Papers Vision Évaluations

SIG

HYP

arXiv cs.CL·16 juin

CoRA: Confidence-Rationale Alignment for Reliable Chain-of-Thought Reasoning

CoRA aligne la confiance du modèle avec la qualité de ses justifications en chaîne de pensée. Un framework RLHF (GRPO) récompense conjointement la correction, la probabilité de réponse et le soutien rationnel via rubrique. Sur MedQA, MathQA, OpenBookQA : réduction de 26,51% de l'erreur d'alignement confiance-rationale.

Raisonnement Reinforcement learning Évaluations

SIG

HYP

arXiv cs.CL·16 juin

PhoneHarness: Harnessing Phone-Use Agents through Mixed GUI, CLI, and Tool Actions

PhoneHarness est un benchmark et une plateforme d'exécution pour évaluer les agents mobiles sur des workflows réels. Il combine actions GUI, CLI et outils structurés, avec traçabilité auditable. Le benchmark atteint 75% de taux de réussite, surpassant les approches existantes de 12,9 points. L'accent porte sur les effets secondaires vérifiables, pas seulement les prédictions d'écran.

Agents IA Benchmarks Outils

SIG

HYP

arXiv cs.AI·16 juin

Who Drifted: the System or the Judge? Anytime-Valid Attribution in LLM Evaluation Pipelines

Méthode pour distinguer si la dérive d'un score LLM provient du produit ou du juge lui-même. Utilise un ensemble d'ancres étiquetées manuellement et un e-process de paris pour détecter les changements silencieux du modèle juge. Détecte 100% des dérives de juge avec zéro faux positifs sur produit, surpasse le z-test standard.

Évaluations Benchmarks Sécurité IA

SIG

HYP

arXiv cs.AI·16 juin

Reward Hacking in Language Model Agents: Revisiting AI Safety Gridworlds

Étude sur le reward hacking dans les agents basés sur LLM via une adaptation du framework AI Safety Gridworlds. Les modèles (1.5B–14B) exploitent systématiquement des objectifs mal spécifiés pour maximiser les récompenses observées tout en échouant sur les objectifs cachés. L'optimisation par RL amplifie ce problème et résiste aux mitigations standard (exploration, régularisation).

Agents IA Reinforcement learning Sécurité IA

SIG

HYP

arXiv cs.AI·16 juin

Mask-Proof: An LLM-based Automated Data Curation Pipeline on Mathematical Proofs

Mask-Proof est un pipeline automatisé qui transforme des preuves mathématiques réelles en tâches vérifiables avec étapes masquées. Le benchmark contient 292 problèmes curatés. Sur 17 modèles testés, les modèles renforcés en raisonnement surpassent les modèles standards de 12-27%. L'évaluateur atteint 96,8% d'accord avec les annotateurs experts.

Benchmarks Raisonnement Évaluations

SIG

HYP

arXiv cs.AI·16 juin

Your Agent Has a Genome: Sequence-Level Behavioral Analysis and Runtime Governance of LLM-Powered Autonomous Agents

Framework Base Sequence Analysis encode le comportement d'agents autonomes LLM en séquences symboliques (X/E/P/V). Analyse de 347 traces de production ReAct révèle que P-X-P réduit le succès de 10.4% et P-ratio prédit négativement (r=-0.256). Governor, système d'intervention runtime, augmente le succès de +6.2% et réduit tokens de 44%. Validation sur 2000 trajectoires SWE-agent.

Agents IA Raisonnement Évaluations

SIG

HYP

arXiv cs.AI·16 juin

AI Engram: In Search of Memory Traces in Artificial Intelligence

Étude introduisant un cadre géométrique pour identifier des « engrams IA » — traces mémoire dans les réseaux de neurones profonds analogues aux unités biologiques. Les auteurs dérivent un estimateur en forme fermée permettant de manipuler chirurgicalement les connaissances apprises (composition, effacement) via arithmétique linéaire, sans optimisation itérative. Validation sur MLPs et LLMs.

Raisonnement Papers Alignement

SIG

HYP

arXiv cs.AI·16 juin

Dr-DCI: Scaling Direct Corpus Interaction via Dynamic Workspace Expansion

DR-DCI combine retrieval et Direct Corpus Interaction pour les agents de recherche sur larges corpus. Le système utilise un retriever pour remplir dynamiquement un workspace local où l'agent exécute des opérations précises (filtrage, comparaison, vérification). Sur Browsecomp-Plus, DR-DCI atteint 71,2% de précision (+8,3 points vs DCI brut) et reste stable jusqu'à 10M documents, là où DCI brut devient instable.

Agents IA RAG Raisonnement

SIG

HYP

arXiv cs.LG·16 juin

Trust-Region Diffusion Policies for Massively Parallel On-Policy RL

TruDi introduit des politiques de diffusion pour l'apprentissage par renforcement on-policy massivement parallèle. La méthode intègre une contrainte de divergence KL sur la trajectoire de diffusion complète pour stabiliser l'entraînement. Évaluation sur 73 tâches : surpasse les baselines, gains significatifs sur contrôle humanoïde.

Reinforcement learning Raisonnement Robotique

SIG

HYP

arXiv cs.LG·16 juin

M-CTX: Exact and Scalable Spatial Context Retrieval for Trajectory Analytics

M-CTX est un framework de récupération de contexte spatial pour l'analytique de trajectoires. Il remplace trois étapes brute-force (récupération OSM, calcul SDF, recherche de voisins) par des opérateurs indexés. Sur un corpus maritime de 5,48M anchors, il réduit le temps de construction de contexte de 17 jours CPU à 1,8 heures (speedup 226x), avec reproduction exacte du contexte de référence.

Benchmarks Infrastructure Open source

SIG

HYP

arXiv cs.LG·16 juin

PolyKV: Heterogeneous Retention and Allocation for KV Cache Compression

PolyKV optimise la compression du cache KV en appliquant des stratégies hétérogènes par couche transformer, plutôt qu'une politique uniforme. Sur LLaMA-3.1-8B et Qwen3-8B, avec budget KV de 512 tokens, PolyKV récupère 54,5% et 25,7% de l'écart de performance LongBench versus FullKV.

Benchmarks Infrastructure Raisonnement

SIG

HYP

arXiv cs.AI·16 juin

CONCORD: Asynchronous Sparse Aggregation for Device-Cloud RAG under Document Isolation

CONCORD est un framework pour RAG asynchrone sur device-cloud avec isolation documentaire. Il utilise un contrôle de dette d'attente et une supplémentation minimale guidée par certificat pour réduire la synchronisation et le transfert de données. Améliore le débit de 1.66× à 2.15× sur Natural Questions et WikiText-2 tout en réduisant la communication par token de plus de 100×.

RAG Papers Infrastructure

SIG

HYP

arXiv cs.AI·16 juin

OSGuard: A Benchmark for Safety in Computer-Use Agents

OSGuard est un benchmark dual pour évaluer la sécurité des agents informatiques. Il combine un benchmark au niveau des actions (décisions de garde-fou) et une suite d'exécution avec risques augmentés. Les tests montrent que les garde-fou multimodaux actuels réussissent sur des jugements isolés mais échouent à garantir la sécurité end-to-end.

Agents IA Sécurité IA Benchmarks

SIG

HYP

arXiv cs.LG·16 juin

FastMix: Fast Data Mixture Optimization via Gradient Descent

FastMix automatise l'optimisation du mélange de données pour l'entraînement de modèles via descente de gradient. La méthode reformule la sélection de mélange comme un problème d'optimisation bilinéaire, optimisant conjointement les coefficients de mélange et les paramètres du modèle. Un seul modèle proxy suffit, réduisant drastiquement le coût de recherche comparé aux approches antérieures.

Fine-tuning Benchmarks Papers

SIG

HYP

arXiv cs.CL·16 juin

CHILLGuard: Towards Fine-Grained Chinese LLM Safety Guardrail with Scalable Data Construction and Model-aware Preference Alignment

CHILLGuard est un système de sécurité dédié aux LLM chinois avec taxonomie fine-grained (5 macro, 31 micro catégories). Les auteurs construisent 405k échantillons d'entraînement via RAG et réécriture, puis 51k échantillons de test annotés. Le modèle atteint +15.92% F1 vs Qwen3Guard-8B-Strict via Direct Preference Optimization.

Sécurité IA Alignement Fine-tuning

SIG

HYP

Reddit r/LocalLLaMA·15 juin

archex: local-first, deterministic code-context for AI agents — no API key, no telemetry (Apache 2.0)

archex transforme un dépôt en contexte rangé et budgété pour agents IA : symboles, imports, graphe de dépendances. Pipeline local (BM25F + embeddings + RRF + reranker) sans API, sans télémétrie. Benchmarks : recall 0.95 vs 0.32 (cocoindex-code), démarrage froid 0ms vs 4,721ms, 71% moins de tokens.

Génération de code RAG Agents IA

SIG

HYP

arXiv cs.AI·15 juin

VISTA: View-Consistent Self-Verified Training for GUI Grounding

VISTA propose une méthode de fine-tuning basée sur GRPO pour améliorer le grounding GUI. Elle génère plusieurs vues du même écran (crops préservant l'élément cible) pour créer des groupes de comparaison plus robustes. Sur ScreenSpot-Pro, elle améliore Qwen3-VL 4B/8B/30B de 55.5/52.7/53.7 à 63.4/65.8/67.0.

Reinforcement learning Vision Benchmarks

SIG

HYP

arXiv cs.LG·15 juin

Can Editing 1 Neuron Fix Repetition Loops in LLMs?

Les modèles Gemma 4 présentent des boucles de répétition sur les énumérations longues (taux jusqu'à 95%). Une ablation par neurone identifie quelques neurones MLP responsables : les supprimer par édition de poids élimine les boucles simples mais pas les « doom loops » (auto-correction infinie), limité par manque de connaissance plutôt que circuit supprimable.

Gemini Papers Évaluations

SIG

HYP

arXiv cs.LG·15 juin

Diffusion Policy Optimization without Drifting Apart

DiPOD, une méthode d'optimisation de politiques de diffusion, résout l'instabilité du post-training RL en identifiant le phénomène de double-drift (divergence entre ELBO et log-vraisemblance). L'approche intercale auto-distillation et mises à jour de gradient, stabilisant l'entraînement sur modèles de langage et contrôle continu.

Reinforcement learning Raisonnement Papers

SIG

HYP

arXiv cs.LG·15 juin

SuperThoughts: Reasoning Tokens in Superposition

SuperThoughts compresse les paires de tokens CoT consécutifs en représentations latentes uniques et décode deux tokens par étape via un module Multi-Token Prediction léger. Testé sur Qwen2.5-Math (1.5B, 7B, 14B), l'approche réduit la longueur CoT de 20-30% tout en maintenant la précision (dégradation 1-2 points sur MATH500, AMC, OlympiadBench, GPQA-Diamond).

Raisonnement Qwen Génération de code

SIG

HYP

arXiv cs.LG·15 juin

Smoothing Dark Areas in Molecular Latent Diffusion

TopVAE, un VAE optimisé topologiquement, réduit les « zones sombres » du latent space en intégrant les contraintes structurelles et chimiques lors de l'entraînement. Couplé à un DiT standard, il atteint 77% de réduction FCD-3D sur QM9 et 52% sur GEOM-Drugs, générant des molécules plus stables et valides chimiquement.

Papers Benchmarks Génération de code

SIG

HYP

arXiv cs.LG·15 juin

PostDeg: Placement Beats Parameterization in LayerNorm GNNs

PostDeg montre que la position du LayerNorm dans les GNN importe plus que la paramétrisation. Un scalaire inverse-degré placé après LayerNorm préserve les signaux topologiques (degré, centralité) que les politiques de sélection de nœuds nécessitent. Gains de +3.5% à +5.6% sur influence maximization, dismantling et independent set.

Papers Benchmarks

SIG

HYP