Page 3 sur 192

ToutHaut signalRécent

7679 articles

The Weight Norm Sets the Grokking Timescale: A Causal Delay Law

Étude causale sur le grokking : l'intervalle avant généralisation dépend de la norme des poids. Sous décroissance de poids libre, les réseaux grockent à une norme critique Wc stable (CV 1-2%). En fixant la norme à ρ×Wc, le délai suit T_grok ∝ exp(α·ρ) avec α≈7.5 (R²=0.996 sur 4 moduli). La norme contrôle le délai 19× plus que le taux d'apprentissage.

Raisonnement Papers Benchmarks

SIG

HYP

arXiv cs.CL·15 juin

Harsher on Male? Evaluating LLMs on Gender-Asymmetric Moral Framing Across Diverse Conflict Scenarios

GAMA-Bench, un benchmark de 1 298 scénarios appairés, révèle une asymétrie systématique : les LLMs appliquent des standards de réponse plus sévères aux hommes qu'aux femmes pour le même comportement répréhensible. Les acteurs masculins reçoivent des cadres plus punitifs et blâmants, tandis que les actrices bénéficient de réponses plus thérapeutiques. Le pattern persiste sur 10 modèles et tous les types de scénarios.

Évaluations Sécurité IA Alignement

SIG

HYP

Reddit r/LocalLLaMA·13 juin

ZONOS2: real-time TTS with 8B params, 900M active, and high-fidelity voice cloning

Zyphra publie ZONOS2, un modèle TTS open-source (Apache 2.0) avec 8B paramètres et 900M actifs en inférence. Sparse MoE spécialisé en clonage vocal zéro-shot haute-fidélité (44.1 kHz DAC). Score Prosody 88.7, surpassant Qwen 3 TTS (87.6) et ElevenLabs V3 (83.2). Traité sur 6M+ heures audio, lit UTF-8 brut sans phonémiseur.

Voix Open source Benchmarks

SIG

HYP

Reddit r/LocalLLaMA·12 juin

MiniMax Sparse Attention (MSA)

MiniMax introduit MSA (Sparse Attention), une attention éparse par blocs construite sur GQA pour traiter des contextes ultra-longs (jusqu'à 1M tokens). Sur un modèle 109B multimodal, MSA réduit le calcul d'attention par token de 28.4x à 1M contexte, avec speedups de 14.2x en prefill et 7.6x en decoding sur H800. Code et modèle MiniMax-M3 disponibles.

Raisonnement Infrastructure Open source

SIG

HYP

Reddit r/LocalLLaMA·12 juin

Open sourcing InfiniteKV: a KV cache that files old tokens as 104-byte searchable records in RAM or on disk instead of deleting them. Mistral-7B answered from token 76,747, 2.3x past its trained window. Colab demo

InfiniteKV compresse le KV cache en enregistrements de 104 bytes indexables stockés en RAM ou sur disque, au lieu de supprimer les anciens tokens. Mistral-7B répond correctement à token 76,747 (2.3× sa fenêtre d'entraînement de 32,768). Un million de tokens nécessite ~3 GB au lieu de 122 GB.

Open source Infrastructure Llama

SIG

HYP

arXiv cs.CL·12 juin

MARD: Mirror-Augmented Reasoning Distillation for Mechanism-Level Drug-Drug Interaction Prediction

MARD est un modèle de 7B paramètres pour prédire les interactions médicamenteuses au niveau mécanistique (enzyme, axe pharmacodynamique). Utilise distillation de raisonnement avec DPO pondéré par récompense de processus et récupération mécanisme-aware. Sur DrugBank avril 2026 : +13.9pp vs meilleure baseline, +6.7pp vs GPT-4o, avec généralisation robuste aux paires de médicaments inédites.

Raisonnement Fine-tuning Reinforcement learning

SIG

HYP

arXiv cs.CL·12 juin

LEDGER: A Long-Context Benchmark of Corporate Annual Reports for Grounded Financial Retrieval and Extraction

LEDGER est un benchmark de 4 999 rapports annuels d'entreprises numérisés pour évaluer les capacités long-contexte des LLM en finance. Le corpus inclut 31 KPIs financiers consolidés, 118 048 questions de retrieval TREC-style, et des tâches d'extraction sur documents denses. Étude de cas : corrélation entre rhétorique CEO et impact marché post-publication.

Benchmarks RAG Raisonnement

SIG

HYP

arXiv cs.CL·12 juin

Rigel: Reverse-Engineering the Metal 4.1 Tensor Compute Path on the Apple M4 Max GPU

Rigel caractérise empiriquement le chemin de calcul tensoriel Metal 4.1 sur Apple M4 Max. Les chercheurs découvrent que l'opération matmul2d fp8 (E4M3) est émulée, non accélérée (0.94x le débit fp16), exécutée sur les shader cores GPU sans datapath matriciel dédié, et accumule en ≥fp32. Un kernel GEMM fusionné gagne +6.5-12.9% en régime cache-resident.

Benchmarks Infrastructure Génération de code

SIG

HYP

arXiv cs.AI·12 juin

OpenMedQ: Broad Open Pretraining for Medical Vision-Language Models

OpenMedQ est un modèle vision-langage médical préentraîné sur 14 datasets (~3.35M échantillons) couvrant pathologie, radiologie, microscopie et QA clinique. Il atteint 75.9 BLEU-1 sur PathVQA (surpassant Med-PaLM M 562B) et 0.757 macro-F1 moyen sur 8 benchmarks de classification médicale non vus.

Vision Benchmarks Open source

SIG

HYP

arXiv cs.AI·12 juin

Arbor: Tree Search as a Cognition Layer for Autonomous Agents

Arbor est un framework multi-agent introduisant la recherche arborescente comme couche de cognition pour agents autonomes. Validé sur l'optimisation d'inférence LLM full-stack, il associe un agent Orchestrator et un agent Critic avec architecture de poids et contrepoids. Arbor atteint 193% d'amélioration Pareto throughput-latency vs baselines optimisées, contre 33% pour un agent seul qui s'écroule en quelques heures.

Agents IA Multi-agents Raisonnement

SIG

HYP

arXiv cs.AI·12 juin

Pythagoras-Prover: Advancing Efficient Formal Proving via Augmented Lean Formalisation

Pythagoras-Prover est une famille open-source de prouveurs Lean efficaces (4B et 32B paramètres, incluant un prototype diffusion). Via curriculum SFT et Augmented Lean Formalisation (ALF), le modèle 4B surpasse DeepSeek-Prover-V2-671B sur MiniF2F-Test (86.1% vs 82.4%) avec 167x moins de paramètres. Le 32B atteint 93.0% sur MiniF2F-Test et résout 93/672 problèmes PutnamBench.

Raisonnement Génération de code Benchmarks

SIG

HYP

arXiv cs.CL·11 juin

AI Coding Agents Can Reproduce Social Science Findings

SocSci-Repro-Bench, un benchmark de 221 tâches en sciences sociales, évalue la capacité des agents IA à reproduire des résultats publiés. Claude Code surpasse Codex, avec des taux de reproduction nettement supérieurs aux benchmarks existants. Les agents identifient aussi les questions de recherche et ne mémorisent pas principalement les résultats.

Claude Code Benchmarks Génération de code

SIG

HYP

arXiv cs.AI·11 juin

INFRAMIND: Infrastructure-Aware Multi-Agent Orchestration

INFRAMIND est un framework pour l'orchestration multi-agent qui intègre l'état réel de l'infrastructure (files d'attente GPU, cache KV, latences). Via planification adaptative, routage par étape et ordonnancement intelligent, il optimise la sélection de modèles et topologies sous charge concurrente. Résultats : +7.6pp de précision à faible charge, latence 7x inférieure, 99.9% de conformité SLO en surcharge.

Multi-agents Agents IA Reinforcement learning

SIG

HYP

arXiv cs.LG·11 juin

ProHiFlo: Hierarchical Flow Matching with Functional Guidance for De Novo Protein Generation

ProHiFlo est un framework de flow matching hiérarchique pour la génération de protéines de novo. Il combine génération coarse-to-fine (squelette puis atomes), guidance fonctionnelle via prédicteurs pré-entraînés, et architecture SE(3)-équivariante. Sur le scaffolding de sites actifs enzymatiques, ProHiFlo atteint 58,9% de succès vs 41,2% pour RFDiffusion, avec 4× moins d'étapes d'échantillonnage.

Papers Benchmarks Raisonnement

SIG

HYP

arXiv cs.CL·11 juin

ISE: An Execution-Grounded Recipe for Multi-Turn OS-Agent Trajectories

ISE est un paradigme de synthèse en trois étapes pour générer des trajectoires d'agents OS multi-tours avec exécution réelle. 43 956 intents structurés, 23 132 trajectoires (8,12 tours utilisateur en moyenne), exécution live en sandbox. Fine-tuning Qwen3-8B sur ISETrace : ClawEval 19,3→37,7 pass@1, surpasse GPT-4o zéro-shot et Qwen3-32B.

Agents IA Benchmarks Génération de code

SIG

HYP

arXiv cs.CL·11 juin

Energy-Efficient On-Device RAG on a Mobile NPU: System Design and Benchmark on Snapdragon X Elite

Première implémentation complète d'un pipeline RAG sur NPU mobile (Snapdragon X Elite Hexagon). Tous les stages (embedding, reranking, génération LLM) tournent on-device. Sur benchmark Wikipedia 120 requêtes : 18.1x plus rapide en prefilling LLM, 4.0x moins d'énergie système que CPU, qualité réponses identique (GPT-4.1 judge : 9.32 vs 8.95 CPU).

RAG Embeddings

SIG

HYP

Reddit r/LocalLLaMA·10 juin

FlashMemory-DeepSeek-V4: Lightning Index Ultra-Long Context via Lookahead Sparse Attention

FlashMemory-DeepSeek-V4 introduit Lookahead Sparse Attention (LSA), un paradigme d'inférence qui réduit l'empreinte mémoire KV cache à 13,5% du baseline sur contextes ultra-longs (500K tokens). Un Neural Memory Indexer prédit les demandes futures et conserve uniquement les chunks critiques en GPU, sans charger le modèle backbone complet. Résultats : +0,6% de précision moyenne sur LongBench-v2, LongMemEval, RULER.

DeepSeek Raisonnement Benchmarks

SIG

HYP

arXiv cs.CL·10 juin

CodeAlchemy: Synthetic Code Rewriting at Scale

CodeAlchemy génère 500B+ tokens de données synthétiques via 5 stratégies (CodeEnhance, CodeQA, CodeDev, CodeDialogue, CodeTrace) à partir de code public dans 15 langues. CodeTrace instrumente 1.3M+ fichiers pour capturer flux de contrôle et connaissance de bibliothèques. Les modèles 3B surpassent des modèles 10x plus grands (Gemma-3 27B, Granite-4.0 32B) : 83.5% HumanEval, 63.2% MBPP.

Génération de code Benchmarks Fine-tuning

SIG

HYP

arXiv cs.AI·10 juin

ComBench: A Benchmark for Rigorous Proof Reasoning and Constructive Realization in Olympiad-Level Combinatorics

ComBench est un benchmark de 100 problèmes de combinatoire niveau Olympiade pour évaluer le raisonnement mathématique des LLM. Il distingue problèmes d'analyse (preuves rigoureuses) et de construction (constructions explicites). Les meilleurs modèles atteignent 65,4% en moyenne et 75,3% en Best@4. Kimi-K2.6 surpasse GPT-4o sur les constructions mais le cède sur les preuves.

Benchmarks Raisonnement Évaluations

SIG

HYP

arXiv cs.CL·10 juin

Less Context, More Accuracy: A Bi-Temporal Memory Engine for LLM Agents Where a Lean Retrieved Context Beats the Full History

Engram, un moteur mémoire open-source pour agents LLM, utilise un modèle bi-temporel avec graphe de connaissances pour dépasser la baseline full-context. Sur LongMemEval_S (500 questions), la configuration lean récupère ~9.6k tokens et atteint 83.6% vs 73.2% pour l'historique complet (+10.4 points, p<10^-6), avec 8x moins de tokens.

Agents IA Raisonnement Benchmarks

SIG

HYP

arXiv cs.LG·10 juin

IntentKV: Cross-Turn Intent-Aware KV Cache Pruning for Agent Inference

IntentKV est une technique de pruning du cache KV pour agents LLM multi-tours. Elle maintient une mémoire d'intention cross-turn et utilise une règle memory-attention pour scorer les tokens historiques. Sur Qwen2.5-14B avec budget 8k, elle réduit les pics de tokens de 92.3k à 20.5k (−77.8%) et les lectures KV de 411M à 31M (−92.6%) sans perte d'exactitude significative.

Agents IA Raisonnement Infrastructure

SIG

HYP

Simon Willison·9 juin

Initial impressions of Claude Fable 5

Anthropic lance Claude Fable 5 et Claude Mythos 5 avec 1M tokens de contexte, 128k tokens max en sortie, knowledge cutoff janvier 2026. Fable 5 inclut des garde-fous stricts ; Mythos 5 sans classifieurs de sécurité. Tarification : $10/M input, $50/M output (2× Opus 4.5-4.8). Willison rapporte performances solides après 5.5h de tests.

Claude Anthropic Benchmarks

SIG

HYP

arXiv cs.LG·9 juin

ResearchClawBench: A Benchmark for End-to-End Autonomous Scientific Research

ResearchClawBench évalue la capacité des agents IA à conduire des recherches scientifiques autonomes sur 40 tâches couvrant 10 domaines. Claude Code atteint 21.5/100, Claude-Opus 20.7/100. Les défaillances concentrent sur les protocoles expérimentaux, l'appariement des preuves et les lacunes conceptuelles.

Benchmarks Agents IA Claude

SIG

HYP

arXiv cs.AI·9 juin

UniQL: Towards Dialect-Universal Benchmarking for Text-to-SQL

UniQL est un benchmark de 24 544 requêtes SQL couvrant 16 dialectes différents (MySQL, PostgreSQL, T-SQL, etc.) pour évaluer la généralisation des modèles de langage en text-to-SQL. Les expériences montrent que les LLM actuels échouent à généraliser entre dialectes, avec performance variable selon le système de base de données.

Benchmarks Génération de code Évaluations

SIG

HYP

arXiv cs.LG·9 juin

Offline Reinforcement Learning for Plasma Control in Nuclear Fusion: Codebase and Benchmark

RL4F est un benchmark open-source d'apprentissage par renforcement hors-ligne pour le contrôle du plasma dans la fusion nucléaire. Basé sur des données historiques du tokamak DIII-D, il évalue des méthodes imitation learning et offline RL sur quatre tâches de suivi multi-actuateurs (rotation, densité, température, pression). Les méthodes offline model-based RL obtiennent les meilleures performances moyennes.

Reinforcement learning Benchmarks Open source

SIG

HYP

Reddit r/LocalLLaMA·9 juin

ggml-webgpu: Improve prefill speeds for k-quants + refactor matmul for Q4/Q5/Q8 and k-quants by yomaytk · Pull Request #24225 · ggml-org/llama.cpp

PR llama.cpp améliore les performances matmul pour k-quants via WebGPU. Speedups mesurés sur M2 Pro : Q2_K 2.44x, Q3_K 3.27-3.78x, Q4_K 1.34-1.36x, Q5_K 1.33x, Q6_K 1.44-1.52x en prefill (pp512).

Open source Infrastructure Benchmarks

SIG

HYP

Reddit r/LocalLLaMA·9 juin

I fine-tuned Parakeet 0.6B for medical ASR — open weights, local Mac/CUDA/CPU

Fine-tuning de Parakeet 0.6B pour la transcription médicale en poids ouverts (CC-BY-4.0). Omi Med STT v1 atteint 2.37% M-WER (erreurs sur termes cliniques) vs 8.36% du modèle de base, avec 145× RTFx. Runtime multi-plateforme (MLX/NeMo/GGUF). Benchmark sur 1,513 clips médicaux : surpasse Whisper Large v3 Turbo et Qwen3 ASR en précision clinique.

Open source Génération de code Benchmarks

SIG

HYP

arXiv cs.AI·8 juin

AEGIS: A Backup Reflex for Physical AI

AEGIS détecte les étapes à haut risque dans les tâches de manipulation robotique longue-horizon en analysant les activations gelées d'une politique faible. Lors de détection, le contrôle bascule vers une politique plus forte. Sur LIBERO-Spatial, AEGIS récupère 10,1% des trajectoires perdues (vs 4,6% pour escalade aveugle), en n'activant la politique forte que sur 38% des étapes.

Robotique Raisonnement Évaluations

SIG

HYP

arXiv cs.CL·8 juin

HKJudge: A Legal Discourse-Annotated Corpus for Interpreting What Courts Find, How They Reason, and What They Rule

HKJudge est le premier corpus annoté au niveau phrase pour l'analyse du discours juridique. Il contient ~290k phrases et ~6.5M tokens de jugements criminels de Hong Kong, annotés par des experts en linguistique juridique. Deux tâches benchmark : classification de rôles rhétoriques (26 catégories) et extraction d'éléments légaux. Évaluation sur modèles BERT, LLMs open-source et commerciaux.

Benchmarks Papers Fine-tuning

SIG

HYP

arXiv cs.CL·8 juin

Improving Cross-Lingual Factual Recall via Consistency-Driven Reinforcement Learning

PolyFact, un dataset de 100K questions factuelles multilingues sur Wikidata couvrant 12 langues, évalue trois approches pour améliorer la cohérence factuelle cross-lingue dans Qwen-2.5-7B et OLMo-2-1124-7B. GRPO surpasse le fine-tuning supervisé en réduisant la spécialisation linguistique dans les couches MLP et têtes d'attention, favorisant des représentations cross-lingues partagées.

Benchmarks Reinforcement learning Qwen

SIG

HYP

arXiv cs.LG·8 juin

MacArena: Benchmarking Computer Use Agents on an Online macOS Environment

MacArena est un benchmark de 421 tâches sur 50 applications macOS, évaluant les agents de computer use sur l'environnement natif Apple Silicon. Les résultats montrent que les modèles performants sur Linux régressent de 26% sur macOS, révélant que les benchmarks existants ne capturent pas la complexité réelle des interfaces graphiques multiplateformes.

Agents IA Benchmarks Vision

SIG

HYP

arXiv cs.AI·6 juin

Agents' Last Exam

Agents' Last Exam (ALE) est un benchmark évaluant les agents IA sur des tâches réelles et économiquement valorisables sur long horizon. Développé avec 250+ experts, il couvre 1K+ tâches dans 13 secteurs industriels non-physiques. Le taux de réussite moyen est 2,6% sur le niveau le plus difficile.

Agents IA Benchmarks Évaluations

SIG

HYP

arXiv cs.AI·6 juin

LeanMarathon: Toward Reliable AI Co-Mathematicians through Long-Horizon Lean Autoformalization

LeanMarathon est un système multi-agent pour l'autoformalization fiable de mathématiques de recherche en Lean. Il utilise un blueprint évolutif (fichier Lean servant de squelette de preuve, graphe de preuve en langage naturel et registre partagé) coordonné par quatre agents spécialisés. Sur deux articles récents couvrant quatre problèmes d'Erdős, il formalise sept théorèmes sans sorry et prouve 258 lemmes.

Raisonnement Agents IA Multi-agents

SIG

HYP

Reddit r/MachineLearning·5 juin

TinyTPU: SystemVerilog systolic array compiled to WASM, running live in browser - RTL golden-verified against numpy [P]

TinyTPU est un réseau systolique 4×4 en SystemVerilog compilé en WebAssembly avec visualisation interactive dans le navigateur. L'outil permet d'observer l'exécution réelle du matériel : chargement des poids, flux diagonal de la matrice A, accumulation des sommes partielles. Trois niveaux pédagogiques : cellule MAC isolée, array complet 4×4, et tiling pour matrices plus grandes.

Infrastructure Benchmarks Open source

SIG

HYP

arXiv cs.LG·5 juin

Alpha-RTL: Test-Time Training for RTL Hardware Optimization

Alpha-RTL introduit TTT-RTL, un framework d'apprentissage par renforcement au moment du test pour optimiser la génération RTL par LLM. Sur RTLLM v2.0 (Nangate 45nm), TTT-RTL réduit le produit PPA de 65,1% vs référence et surpasse les baselines gelées de 26,1%. Sur XuanTie C910 FPU (Sky130), réduction ADP de 59,4%. Contrôleur KL-budget adaptatif stabilise les mises à jour de politique.

Génération de code Reinforcement learning Benchmarks

SIG

HYP

arXiv cs.CL·5 juin

The Granularity Gap: A Multi-Dimensional Longitudinal Audit of Sycophancy in Gemini Models

Audit longitudinal de la sycophantie dans six variantes Gemini (2.0, 2.5, 3.0) sur 73 prompts adversariaux. 27,2 % des réponses contiennent du contenu sycophantique substantiel (Likert ≥2), masqué par les métriques binaires. Gen 2.5 régresse (2,64 vs 1,90 Gen 2.0), Gen 3.0 se rétablit (2,01). Corrélation négative forte (rho=-0,63) entre sycophantie et véracité.

Gemini Sécurité IA Alignement

SIG

HYP

arXiv cs.CL·5 juin

LANTERN: Layered Archival and Temporal Episodic Retrieval Network for Long-Context LLM Conversations

LANTERN est une couche mémoire légère qui archive chaque tour de conversation et restaure les détails pertinents après compaction via récupération hybride, sans appels LLM et avec <25ms de latence. Sur 94 conversations multi-tours (1 894 faits validés), LANTERN-Rerank récupère 78,3% des faits perdus, surpassant MemGPT (72,4%, p<0.0001) avec coût d'inférence réduit.

RAG Raisonnement Benchmarks

SIG

HYP

arXiv cs.CL·5 juin

CHASE: Adversarial Red-Blue Teaming for Improving LLM Safety using Reinforcement Learning

CHASE est un framework de red-blue teaming co-évolutif qui entraîne un attaquant et un défenseur via GRPO pour améliorer la robustesse des LLM contre les attaques par réécriture de prompts (persona modulation, framing fictionnel). Évalué sur BeaverTails et JailbreakBench, il réduit le score StrongREJECT de 43,2% sans faux refus sur prompts bénins.

Sécurité IA Alignement Reinforcement learning

SIG

HYP

arXiv cs.LG·5 juin

Dominant-Layer ZO: A Single Layer Dominates Zeroth-Order Fine-Tuning of LLMs

Une étude révèle qu'en optimisation zeroth-order (ZO) pour fine-tuner les LLM, une seule couche de décodage domine l'adaptation. Fine-tuner cette couche dominante seule égale ou surpasse le fine-tuning ZO complet sur LLaMA2-7B et Qwen3-8B, avec accélération jusqu'à 4.52×. La couche dominante est identifiable avant entraînement via analyse des outliers d'activation.

Fine-tuning Raisonnement Benchmarks

SIG

HYP

arXiv cs.LG·5 juin

Policy-Conditioned Counterfactual Credit for Verifiable Reinforcement Learning of Long-Horizon Language Agents

CVT-RL, un algorithme de gradient de politique avec récompenses vérifiables denses, améliore l'apprentissage par renforcement des agents de langage long-horizon. Sur QA, ALFWorld, ScienceWorld et tâches web/outils, le succès passe de 71,8% (RL non-causal) à 78,9%, le F1 des preuves de 78,9 à 82,8, et le hacking mesuré de 7,2% à 3,9%. Les tests statistiques donnent p<0,01 après correction de Holm.

Reinforcement learning Agents IA Raisonnement

SIG

HYP