mai 2026

3149 articles

Toward Reliable Design of LLM-Enabled Agentic Workflows: Optimizing Latency-Reliability-Cost Tradeoffs

Article arXiv analysant les compromis latence-fiabilité-coût dans les workflows multi-agents LLM. Propose des modèles de performance pour agents LLM et non-LLM, une politique d'allocation de tokens par water-filling, et caractérise la fiabilité optimale via shadow prices sous contraintes de latence et coût.

Agents IA Multi-agents Raisonnement

SIG

HYP

arXiv cs.CL·26 mai

Found in Conversation: LLMs Teach Themselves to Close the Multi-Turn Gap

Found in Conversation (FiC) est un framework d'entraînement où les LLMs s'auto-enseignent à combler l'écart multi-tour (Lost-in-Conversation). Via View-Asymmetric Self-Distillation, le modèle distille entre une vue single-turn (teacher) et multi-turn (student). Testé sur Llama, Qwen, Phi, OLMo (3B-14B), FiC récupère 92-100% des performances single-turn.

Llama Qwen Fine-tuning

SIG

HYP

arXiv cs.CL·26 mai

Structure-Aware RAG: Structured Retrieval Augmented Generation from Noisy Data for Conversational Agents

SA-RAG utilise des tables structurées comme représentation intermédiaire pour améliorer la RAG en conversationnel. Un framework de génération de métadonnées améliore la qualité des tables à partir de données bruitées. Validation et optimisation par préférence directe surpassent les baselines RAG sur deux datasets réels.

RAG Agents IA Papers

SIG

HYP

arXiv cs.AI·26 mai

In Search of the Ingredients of Open-Endedness: Replicating Picbreeder with Large Vision-Language Models

Chercheurs répliquent Picbreeder (plateforme d'évolution interactive d'images) en remplaçant utilisateurs humains par Vision Language Models (VLMs). Résultats montrent différences qualitatives avec baseline humain. Étude des facteurs causaux : bruit exploratoire, diversité comportementale entre agents, mémoire des actions passées.

Vision Agents IA Open source

SIG

HYP

arXiv cs.CL·26 mai

How Much Structure Do LLMs Need? Evaluating LLMs for Bibliometric Cluster Description

Étude évaluant 6 pipelines LLM pour générer des descriptions de clusters bibliométriques. Sur 100 analyses publiées, les LLMs produisent des descriptions sémantiquement proches des versions humaines mais hallucinent des références et échouent à inférer la structure bibliométrique seuls. Performance optimale en workflow hybride : algorithmes définissent clusters, LLMs génèrent descriptions lisibles.

Benchmarks Évaluations RAG

SIG

HYP

arXiv cs.AI·26 mai

Fuzzy, Neutrosophic, and Uncertain Graph Theory: Properties and Applications

Ouvrage systématique sur la théorie des graphes sous incertitude, couvrant modèles flous, neutrosophiques et apparentés. Traite structures fondamentales, classes de graphes, digraphes incertains, hypergraphes, graphes dynamiques. Applications : graphes moléculaires, systèmes décisionnels, réseaux de neurones graphiques, graphes de connaissances, cartes cognitives.

Benchmarks Papers

SIG

HYP

arXiv cs.LG·26 mai

Federated Learning over Human-Body Communication for On-Body Edge Intelligence: A Survey, Taxonomy, and BODYFED-HBC Scheduling Vignette

Article de synthèse sur l'intersection entre la communication intra-corporelle (HBC) et l'apprentissage fédéré pour les réseaux de capteurs portables. Propose une taxonomie des déploiements FL (intra-corps, corps-hub, multi-utilisateur, cloud clinique) et introduit BODYFED-HBC, une architecture de référence avec algorithme de planification et simulation reproductible basée sur des données publiques.

Benchmarks

SIG

HYP

arXiv cs.AI·26 mai

LC-ERD: Mining Latent Logic for Self-Evolving Reasoning via Consistency-Regulated Reward Decomposition

LC-ERD est un framework d'auto-alignement pour LLM qui mine les structures logiques latentes via décomposition de récompenses régulées. Il résout trois défis : le bruit d'étiquetage par biais mimétique, la supervision grossière et l'effondrement distributionnel. Utilise un Potentiel Logique Variationnel et décomposition multi-agent basée sur le principe IGM.

Raisonnement Reinforcement learning Alignement

SIG

HYP

arXiv cs.CL·26 mai

DRInQ: Evaluating Conversational Implicature with Controlled Context Variation

DRInQ est un benchmark pour évaluer le raisonnement pragmatique des LLM sur l'implicature conversationnelle. Les chercheurs montrent une asymétrie génération-inférence : les modèles génèrent des scénarios pragmatiques plausibles mais échouent à récupérer l'implication intended à l'inférence. Le prompting structuré améliore l'alignement pour les petits modèles.

Benchmarks Raisonnement Évaluations

SIG

HYP

arXiv cs.CL·26 mai

SEAL: Synergistic Co-Evolution of Agents and Learning Environments

SEAL est un framework de co-évolution fermée pour agents LLM utilisant des outils. Il collecte des trajectoires vérifiables, diagnostique les échecs au niveau des tours, et utilise ces signaux pour adapter simultanément l'environnement d'apprentissage et la politique de l'agent. Avec 400 exemples, SEAL gagne +8.25 à +26.25 points sur trois backbones et transfère bien hors-distribution.

Agents IA Reinforcement learning Raisonnement

SIG

HYP

arXiv cs.AI·26 mai

Right-Sizing Communication and Recommendation Set Size in AI-Assisted Search

Article théorique sur l'optimisation de l'interaction utilisateur-système de recommandation IA. Modélise le coût de communication (précision du message utilisateur) et le coût de recherche (taille de l'ensemble de recommandations). Pour d grand, caractérise comment la précision optimale et la taille de l'ensemble dépendent des paramètres de coût sous deux schémas d'échantillonnage.

Agents IA RAG

SIG

HYP

arXiv cs.CL·26 mai

Toxicity in Twitch Chats: An LLM-Based Analysis Across Gaming Communities

Analyse de 20 millions de messages de chat Twitch (4 452 streams, 7 genres) avec un LLM en classification zéro-shot. 2,4% des messages classés toxiques selon la taxonomie Twitch (harcèlement, discrimination, contenu sexuel, profanité). F1=94,5% sur TextDetox. Les jeux MOBA affichent 3,2% de toxicité, les jeux de sport 2%. Variations significatives intra-genre révélant des normes communautaires spécifiques.

Sécurité IA Évaluations Benchmarks

SIG

HYP

arXiv cs.CL·26 mai

CUNY at CLPsych 2026: A Pipeline Approach to Classification and Summarization of Mental Health Changes

CUNY propose un pipeline pour la tâche CLPsych 2026 : classification d'états mentaux via ensemble de trois LLM open-weight (vote majoritaire), prédiction de changements par classifieurs supervisés, et résumé de dynamiques émotionnelles par in-context learning augmenté. Classement : 1er (Task 1.1), 4e (1.2, 2), 3e (3.1).

Benchmarks Raisonnement Open source

SIG

HYP

arXiv cs.CL·26 mai

Decompose-and-Refine: Structured Legal Question Answering with Parametric Retrieval

DaR (Decompose-and-Refine) est un framework pour répondre à des questions juridiques complexes en décomposant la question en sous-questions atomiques et en générant des requêtes paramétriques alignées sur le texte statutaire. Évalué sur KoBLEX (benchmark coréen multi-hop), avec Qwen3-32B et Gemma3-27B, DaR améliore la précision de récupération et la qualité des réponses en réduisant les hallucinations.

Raisonnement RAG Qwen

SIG

HYP

arXiv cs.CL·26 mai

Direct Preference Optimization for English-Mandarin Code-Switching Speech Recognition in Audio LLMs

Des chercheurs appliquent Direct Preference Optimization (DPO) pour améliorer la transcription code-switching anglais-mandarin dans les Audio LLMs. Trois modes d'échec identifiés : omission de langue, traduction au lieu de transcription, hallucination. Entraînement sur 100K paires (570 heures) réduit le MER jusqu'à 89,6% (in-distribution) et 20,0% (out-of-distribution).

Reinforcement learning Alignement Voix

SIG

HYP

arXiv cs.CL·26 mai

Guarded Repair for Harm-Aware Post-hoc Replacement of LLM Mathematical Reasoning

GuardedRepair est un framework de réparation post-hoc pour le raisonnement mathématique des LLM qui sélectivement corrige les traces erronées sans casser les réponses correctes. Sur GSM8K (95.60% → 96.89%), il fixe 17 erreurs sans cas broken-correct mesurés. Sur ASDiv faible, 78.40% → 87.60%.

Raisonnement Évaluations Sécurité IA

SIG

HYP

arXiv cs.CL·26 mai

Raon-Speech Technical Report

Raon-Speech est un modèle de langage parlé 9B multilingue (anglais/coréen) capable de comprendre et générer la parole tout en préservant les capacités textuelles. Entraîné sur 1,38M heures de données, il surpasse 8 modèles audio comparables (Qwen2.5-Omni, Fun-Audio-Chat) sur 42 benchmarks. Raon-SpeechChat ajoute la conversation full-duplex temps réel via 119K heures de dialogue.

Voix Benchmarks Open source

SIG

HYP

arXiv cs.CL·26 mai

EchoDistill:Alignment Noisy-to-Clean Self-Distillation for Robust Audio LLMs

EchoDistill propose une méthode d'auto-distillation alignée pour renforcer la robustesse des modèles audio-LLM face au bruit. Un étudiant bruyant est optimisé via GRPO en utilisant un enseignant audio-propre comme référence sémantique. Résultats : +4.18% GSR sous bruit fort vs baseline, +3.02% Acc sur Qwen-Omni.

Reinforcement learning Fine-tuning

SIG

HYP

arXiv cs.CL·26 mai

QUEST: Training Frontier Deep Research Agents with Fully Synthetic Tasks

QUEST est une famille de modèles open-source (2B à 35B) entraînés comme agents de recherche profonde via une pipeline de synthèse de données et RL. Avec seulement 8K tâches synthétiques, QUEST égale ou surpasse les systèmes propriétaires sur 8 benchmarks de recherche, excelle en citation et synthèse de rapports. Code, données et modèles publiés.

Agents IA Reinforcement learning Open source

SIG

HYP

arXiv cs.CL·26 mai

An Interactive Paradigm for Deep Research

SteER est un framework pour la recherche approfondie interactive utilisant les LLM. Il introduit des points de contrôle interprétables permettant à l'utilisateur de corriger la trajectoire mid-process via une formulation coût-bénéfice. Résultats : +22,80% sur l'alignement vs baselines, préféré par les lecteurs dans 85%+ des cas.

Agents IA Raisonnement RAG

SIG

HYP

arXiv cs.CL·26 mai

SLAP: Stratified Loss-based Pruning for On-Policy Data-Efficient Instruction Tuning

SLAP est une méthode de sélection de données pour l'instruction tuning qui évalue la learnability au niveau des batches plutôt qu'individuellement. Via sampling stratifié et optimisation de distance relative, elle atteint les performances du dataset complet avec 20-40% moins de données sur LLaMA, ChatGLM et tâches variées (dialogue, traduction, QA).

Fine-tuning Llama Benchmarks

SIG

HYP

arXiv cs.CL·26 mai

AERIC: Anticipatory Hidden-State Monitoring for Implicit Harmful Dialogue

AERIC est un moniteur de sécurité léger (387 paramètres) qui détecte les dialogues nuisibles implicites en analysant les états cachés pendant le décodage, sans passe forward supplémentaire. Sur DiaSafety et Harmful Advice, il améliore l'AUROC de 0.683→0.714 et 0.822→0.858. Le déploiement ajoute seulement 2.34% de latence contre 79.40% pour Qwen3Guard-Stream-4B.

Sécurité IA Alignement Raisonnement

SIG

HYP

arXiv cs.CL·26 mai

Document Classification Pattern Recognition via Information Fusion: A Systematic Review of Multimodal and Multiview Representation Approaches

Revue systématique de 139 études sur la fusion d'informations pour la classification de documents. Méta-analyse révélant que la fusion multimodale améliore la précision de +5,28 points (p=0,0016) et la fusion multivue de +4,67% en précision. Critique majeure : seulement 11,8% des études multimodales et 23,3% des études multivue utilisent des tests statistiques, compromettant la reproductibilité.

Benchmarks Évaluations Papers

SIG

HYP

arXiv cs.AI·26 mai

Accelerating Long-Tail Generation in Synchronous RLHF Training via Adaptive Tensor Parallelism

PAT, une méthode de parallélisme tensoriel adaptatif, optimise l'étape de génération en RLHF synchrone. Elle reconfigure dynamiquement la parallélisation pendant le décodage pour compenser le déséquilibre de longueur de réponses. Implémentée sur SGLang/VeRL, PAT réduit la latence de génération jusqu'à 34,6% sur LLaMA3.1-8B et Qwen3-14B.

Reinforcement learning Infrastructure Benchmarks

SIG

HYP

arXiv cs.CL·26 mai

Grammatically-Guided Sparse Attention for Efficient and Interpretable Transformers

Nouvelle approche de sparse attention utilisant les rôles grammaticaux (POS tags) pour réduire la complexité quadratique des Transformers. Deux stratégies de masquage testées sur SST-2 avec DistilBERT : hard mask (0.8200) et soft mask (0.8165) maintiennent la performance du full attention (0.8200) tout en réduisant le coût computationnel.

Raisonnement Évaluations Papers

SIG

HYP

arXiv cs.LG·26 mai

PromptAudit: Auditing Prompt Sensitivity in LLM-Based Vulnerability Detection

PromptAudit évalue l'impact des stratégies de prompting sur la détection de vulnérabilités par LLM. Sur 5 modèles open-weight et 1 000 CVE (6 074 samples), le chain-of-thought standard surpasse les autres approches, tandis que few-shot aide certains modèles. L'adaptive chain-of-thought réduit le recall, self-consistency crée trop d'abstention.

Prompt engineering Évaluations Sécurité IA

SIG

HYP

arXiv cs.LG·26 mai

Cascade-KDE: Robust Time-Series Restoration under Out-of-Distribution Impulse Corruptions

Cascade-KDE est une méthode sans apprentissage pour restaurer les séries temporelles corrompues par du bruit gaussien et des pics aberrants. Elle estime une densité spatio-temporelle, applique une troncature robuste pour limiter l'influence des anomalies, puis affine via cascade exponentielle. Testée sur ECG et dégradation batterie, elle préserve les pics de dérivée mieux que les filtres classiques.

Benchmarks Évaluations

SIG

HYP

arXiv cs.CL·26 mai

AstroMind: A High-Fidelity Benchmark for Spacecraft Behavior Reasoning Based on Large Language Models

AstroMind est un benchmark pour évaluer le raisonnement des LLM sur le comportement des engins spatiaux. Basé sur des simulations astrodynamiques haute fidélité, il teste l'inférence d'intention, l'estimation de paramètres de manœuvre et l'évaluation des menaces. Qwen3 (32B) excelle en inférence d'intention, QwQ (32B) en évaluation de menaces, GPT-OSS (20B) en qualité de raisonnement.

Benchmarks Raisonnement Qwen

SIG

HYP

arXiv cs.LG·26 mai

Parameter Efficient Multi-Class Intelligent Scheduling for Multimodal Online Distributed Industrial Anomaly Detection

Framework MODIAD pour la détection d'anomalies industrielles multimodales en environnement distribué et en ligne. Propose un algorithme SMG pour l'ordonnancement multi-classe et une stratégie REC-LoRA réduisant l'overhead computationnel. Validé sur MVTec 3D-AD et Eyecandies.

Benchmarks Fine-tuning Vision

SIG

HYP

arXiv cs.AI·26 mai

MAPLE: Multi-State Aggregated Policy Evaluation for AlphaZero in Imperfect-Information Games

MAPLE, une méthode de recherche arborescente, étend AlphaZero aux jeux à information imparfaite en agrégeant les évaluations de politique et valeur de plusieurs états du monde. Testé sur Phantom Go et Dark Hex, MAPLE surpasse le baseline PIMC-AlphaZero avec des gains Elo de 291 et 136.

Raisonnement Reinforcement learning Benchmarks

SIG

HYP

arXiv cs.AI·26 mai

Neuro-Inspired Inverse Learning for Planning and Control

Framework neuro-inspiré pour la planification et le contrôle embodié. L'Inverter utilise l'Inverse Learning (IL) pour générer des séquences d'actions multi-étapes. Améliore les baselines offline-RL et diffusion-planner sur D4RL (+24.2% en moyenne) avec 100-1000x moins de calcul à l'inférence. Application : synthèse de portes quantiques avec fidélité GRAPE en 1000x plus rapide.

Raisonnement Reinforcement learning Robotique

SIG

HYP

arXiv cs.LG·26 mai

CAFD: Concept-Aware DNN Fault Detection using VLMs

CAFD est une méthode de détection de défauts pour DNNs combinant signaux du modèle, features de distance et un nouveau Concept Failure Ratio (CFR) basé sur Vision-Language Models. Évalué sur ImageNet et trois modèles, CAFD surpasse 5 baselines avec +18.3% d'amélioration moyenne en Fault Detection Rate.

Vision Évaluations Benchmarks

SIG

HYP

arXiv cs.LG·26 mai

Truthful Online Preference Aggregation for LLM Fine-Tuning in Mobile Crowdsourcing

Papier arXiv proposant un mécanisme d'agrégation en ligne pour aligner les LLM avec le feedback humain en crowdsourcing mobile. Le système incite les travailleurs à rapporter honnêtement leurs préférences via un jeu bayésien dynamique, réduisant le regret de O(T) à O(√T) sur T slots temporels.

Fine-tuning Reinforcement learning Papers

SIG

HYP

arXiv cs.LG·26 mai

Spectral Probe-Circuits: A Three-Step Recipe for Identifying Attention-Head Circuits in Pretrained Transformers

Méthode pour identifier les circuits d'attention-heads dans les transformers pré-entraînés via un signal spectral (participation ratio intégré temporellement), un filtrage par motifs de tâche, et une ablation de groupe. Validée sur 51M à 7B paramètres, deux architectures, quatre pipelines. Découverte : circuit d'induction de 2-6 heads causalement nécessaire dans tous les modèles (94-100% de drop après ablation).

Papers Raisonnement Évaluations

SIG

HYP

arXiv cs.AI·26 mai

Towards trustworthy agentic AI: a comprehensive survey of safety, robustness, privacy, and system security

Enquête complète sur la fiabilité des systèmes d'IA agentive (LLM augmentés de planification, outils, mémoire). Examine sécurité, robustesse, confidentialité et sécurité système. Propose métriques unifiées, benchmarks et stratégies d'atténuation par étape du workflow agent. Identifie défis ouverts : agents auto-évolutifs, vérification runtime, personnalisation préservant la confidentialité.

Agents IA Sécurité IA Benchmarks

SIG

HYP

arXiv cs.CL·26 mai

Word Class Representations Spontaneously Emerge from Successor Representations Trained on Natural Language

Des chercheurs entraînent des réseaux de neurones sur WikiText-103 (103M tokens) en utilisant les Successor Representations (SR) du RL pour prédire les distributions de mots futurs. Sans supervision linguistique explicite, des catégories grammaticales (noms, verbes, adjectifs) émergent spontanément et deviennent séparables par clustering non supervisé, organisées selon l'horizon prédictif.

Papers Raisonnement Embeddings

SIG

HYP

arXiv cs.LG·26 mai

From One-Pass SGD to Data Reuse: Mini-Batch Scaling Laws in Sketched Linear Regression

Étude théorique des lois d'échelle pour la régression linéaire esquissée avec mini-batches. Analyse comparée de SGD one-pass, SGD multi-pass avec et sans remplacement. Résultat clé : variance en O(min(M,(T_eff*γ)^(1/a))/(B*T_eff)), réduction 1/B en régime multi-pass sans remplacement, fluctuation nulle à B=N.

Papers Benchmarks Reinforcement learning

SIG

HYP

arXiv cs.CL·26 mai

Improving the Completeness and Comparability of Segment Disclosures: A Large Language Model Approach

Un framework basé sur LLM extrait les divulgations de segments des formulaires 10-K pour améliorer la complétude et la comparabilité des données financières. Le système utilise RAG pour intégrer les informations entre plusieurs périodes et entreprises, démontrant son efficacité pour l'analyse longitudinale et l'alignement géographique cross-firm.

RAG Benchmarks

SIG

HYP

arXiv cs.LG·26 mai

Filtered Posterior Mean Collections: A Unified Framework for Analytical Models of Diffusion Generalization

Cadre unifié (FPMC) modélisant les fonctions de débruitage des diffusion models. Consolide approches existantes via vecteurs de précision, poids de réponse et distributions sources. Améliore performance par relaxations souples et augmentations de distributions.

Génération d'images Papers Benchmarks

SIG

HYP

arXiv cs.LG·26 mai

Agent-ToM: Learning to Monitor Autonomous LLM Agents via Theory-of-Mind Reasoning

Agent-ToM est un framework d'apprentissage pour surveiller les agents LLM autonomes via le raisonnement Theory-of-Mind. Il infère les croyances, intentions et déviations comportementales des agents pour détecter les comportements malveillants cachés. Évalué sur SHADE-Arena et CUA-SHADE-Arena, il surpasse les baselines d'ensemble tout en utilisant un pipeline de vérification à deux appels.

Agents IA Sécurité IA Raisonnement

SIG

HYP

arXiv cs.LG·26 mai

Knowledge Graph Modulated Deep Learning for Limited-Sample Clinical Data Analysis

Graph-in-Graph (GiG) intègre des graphes de connaissances biologiques dans l'apprentissage profond pour l'analyse clinique avec données limitées. Testé sur ~9 700 patients et 5 tâches (détection cancer, diagnostic prostate, classification pan-cancer), GiG surpasse les méthodes existantes, avec gains jusqu'à 49 points de macro-F1 en contexte limité.

Papers Benchmarks RAG

SIG

HYP

arXiv cs.LG·26 mai

Rethinking Continual Anomaly Detection on the Edge: Benchmarking Under Realistic Industrial Conditions

Nouvel article arXiv proposant DINOSaur, méthode sans entraînement pour la détection d'anomalies continue en environnement industriel. Combine backbone DINOv3 gelé, mémoire coreset indexée spatialement et scoring d'anomalies restreint. Atteint zéro oubli, surpasse tous les baselines sur 5 protocoles, inférence <100ms sur Jetson Orin Nano avec adaptation on-device <30s.

Benchmarks Vision

SIG

HYP

arXiv cs.LG·26 mai

Mixture of Complementary Agents for Robust LLM Ensemble

Étude sur la sélection optimale de modèles dans les ensembles d'LLM. Les auteurs reframent le choix des proposeurs comme un problème de sélection combinatoire basé sur la complémentarité plutôt que l'exactitude seule. Algorithmes gloutons testés sur un ensemble étiqueté réduit pour équilibrer performance et coût computationnel.

Multi-agents Évaluations Benchmarks

SIG

HYP

arXiv cs.LG·26 mai

Generative Representation Learning on Hyper-relational Knowledge Graphs via Masked Discrete Diffusion

KREPE, une méthode d'apprentissage génératif pour graphes de connaissances hyper-relationnels, utilise la diffusion discrète masquée pour générer des faits complets à partir de requêtes partiellement observées. Unifie prédiction de liens et génération de faits dans un seul cadre, surpassant les baselines LLM sur les benchmarks standard.

Papers Benchmarks Raisonnement

SIG

HYP

arXiv cs.LG·26 mai

Iterative Refinement Neural Operators are Learned Fixed-Point Solvers: A Principled Approach to Spectral Bias Mitigation

IRNO (Iterative Refinement Neural Operator) améliore les opérateurs neuronaux en ajoutant un module d'affinement itératif basé sur la théorie des points fixes. Une perte spectrale progressive cible explicitement les erreurs haute fréquence. Résultats : 56% d'amélioration sur flux turbulent, réduction d'erreur de 1.48-2.04% en haute fréquence sur Active Matter.

Papers Benchmarks Raisonnement

SIG

HYP

arXiv cs.LG·26 mai

LLM-AutoSciLab: Closed-Loop Scientific Discovery via Active Experimentation with LLMs

LLM-AutoSciLab propose un cadre de découverte scientifique en boucle fermée couplant génération d'hypothèses, sélection d'expériences et raffinement de mécanismes. Évalué sur ActiveSciBench (57 tâches de cinétique enzymatique, 45 réseaux de régulation génique), le système atteint 67,6% de précision symbolique et 2-5x meilleure efficacité d'échantillonnage que les baselines.

Raisonnement Agents IA Benchmarks

SIG

HYP

arXiv cs.LG·26 mai

Verified SHAP: Provable Bounds for Exact Shapley Values of Neural Networks

Algorithme pour calculer des bornes exactes sur les valeurs SHAP de réseaux de neurones en exploitant la vérification neuronale. Réduit la complexité exponentielle et scale à des espaces de recherche bien plus grands que les méthodes exactes existantes.

Évaluations Papers Raisonnement

SIG

HYP

arXiv cs.LG·26 mai

ChaosBench-Logic v2: Evaluating LLM Logical Reasoning over Dynamical Systems at Scale

ChaosBench-Logic v2 est un benchmark de 40 886 questions évaluant le raisonnement logique de 14 LLM sur 165 systèmes dynamiques. Le protocole CARE révèle des défaillances critiques : le raisonnement sur les transitions de régime reste quasi-aléatoire (MCC=0.05), tandis que la déduction FOL atteint MCC=0.52. Qwen 2.5-32B surpasse les modèles propriétaires en diagnostics d'indicateurs.

Benchmarks Raisonnement Qwen

SIG

HYP

arXiv cs.LG·26 mai

Riemannian Archetypal Analysis: Interpretable non-linear data analysis on deformed star distributions

Nouvelle approche d'analyse archétypale sur variétés riemanniennes avec géométrie pullback data-driven. Combine interprétabilité de l'analyse archétypale classique et flexibilité des modèles non-linéaires via distributions en étoile déformées. Tests sur MNIST montrent géodésiques significatives et projections de débruitage géométriquement conscientes.

Papers Raisonnement

SIG

HYP

arXiv cs.LG·26 mai

Feature Lottery? A Bifurcation Theory of Concept Emergence

Théorie de bifurcation pour détecter en temps réel l'émergence de représentations structurées dans les réseaux de neurones. Un ratio dynamique β(t)/βc(t) basé sur la Hessienne de la perte prédit quatre régimes de transition distincts (SAE sur Pythia, SSL CIFAR, grokking arithmétique). À 5% de l'entraînement, la pureté précoce des atomes prédit la convergence finale avec 12x le baseline.

Papers Raisonnement Fine-tuning

SIG

HYP

arXiv cs.LG·26 mai

Algometrics: Forecasting Under Algorithmic Feedback

Un cadre théorique (algometrics) analyse les risques de déploiement des modèles prédictifs dans les marchés algorithmiques, où les prédictions modifient les données futures. Les auteurs prouvent que le risque de déploiement n'est pas identifiable à partir de données historiques seules, et que les classements de modèles peuvent s'inverser sous crowding.

Benchmarks Papers

SIG

HYP

arXiv cs.LG·26 mai

A lift for input-convex neural network training

Nouvelle méthode d'entraînement pour les réseaux de neurones input-convexes (ICNN) via une hypernetwork non-contrainte qui émet les poids inter-couches. Approche inspirée des lifts de problèmes inverses, elle contourne les limitations du gradient descent projeté et de la reparamétrisation softplus. Résultats sur estimation de densités log-concaves et flots normalisants convexes montrent convergence améliorée.

Papers Raisonnement Reinforcement learning

SIG

HYP

arXiv cs.LG·26 mai

Interdomain Attention: Beyond Token-Level Key-Value Memory

Interdomain Attention fusionne transformers et state space models via méthodes kernel : les features d'attention sont projetées sur des fonctions de base maintenues par un SSM, permettant une attention query-conditionnée sur état fixe. Sur FineWeb-Edu (125M-1.3B), surpasse les baselines softmax à 1.3B en perplexité et commonsense, avec comportement length-flat jusqu'à 3.5x le contexte d'entraînement.

Raisonnement Benchmarks Papers

SIG

HYP

arXiv cs.AI·26 mai

From Accuracy to Auditability: A Survey of Determinism in Financial AI Systems

Étude sur la reproductibilité des systèmes IA en finance réglementée (crédit, fraude, blanchiment). Identifie trois sources de non-déterminisme : variance des explications post-hoc (modèles tabulaires), échantillonnage stochastique (graphes), divergence batch-dépendante (LLM agents). Propose framework d'évaluation avec métriques RBO, D_cos, TDI, PSD pour audit.

Évaluations Sécurité IA Régulation

SIG

HYP

arXiv cs.AI·26 mai

Why We Need World Models for AGI: Where LLMs Fail and How World Models May Outperform

Article arXiv argumentant que les LLM échouent en raisonnement causal et planification long-horizon faute de modèles du monde. Les auteurs introduisent Latent Dynamics Inference (LDI) et Flux, un environnement de raisonnement séquentiel en langage naturel. Agents RL avec accès à l'espace latent atteignent 79% de taux de victoire vs 11% pour LLM, révélant des défaillances en suivi d'état persistant.

Raisonnement Reinforcement learning Papers

SIG

HYP

arXiv cs.AI·26 mai

Reason--Imagine--Act: Closed-Loop LLM Decision Making with World Models for Autonomous Driving

RIA couple un LLM avec un world model pour la conduite autonome. À chaque étape, le LLM propose des actions, le world model valide via rollouts court-horizon, et un safety scorer sélectionne l'action la plus sûre. Sur CARLA (1000 épisodes) : 80,05% route completion, 51,10% arrival rate, 0,20% collision rate.

Raisonnement Agents IA Benchmarks

SIG

HYP

arXiv cs.AI·26 mai

EvoSci: A Bio-Inspired Multi-Agent Framework for the Evolution of Scientific Discovery

EvoSci est un framework multi-agent bio-inspiré pour la découverte scientifique utilisant des LLM. Il intègre évolution, graphes de connaissances et agents spécialisés (mentor, chercheur, reviewer) pour générer, évaluer et affiner itérativement des idées de recherche. Sur des sujets réels, EvoSci atteint un score peer-review ICLR de 4.90 et classement Top-10 de 54%.

Multi-agents Agents IA Raisonnement

SIG

HYP

arXiv cs.AI·26 mai

BoxLitE: A Faithful Knowledge Base Embedding Based on Convex Optimization

BoxLitE est un modèle d'embedding de base de connaissances pour DL-Lite^H utilisant l'optimisation convexe. Il mappe les concepts à des régions convexes dans un espace vectoriel pour représenter les hiérarchies ontologiques. Pour toute KB DL-Lite^H satisfiable, BoxLitE produit un embedding faiblement fidèle.

Embeddings Raisonnement Papers

SIG

HYP

arXiv cs.AI·26 mai

DRIVE: Modeling Skills at the Reasoning and Interaction Levels for Web Agents under Continual Learning

DRIVE est un framework de modélisation duale pour agents web en apprentissage continu. Il sépare les expériences en skills de raisonnement (logique transférable entre sites) et skills d'interaction (opérations exécutables spécifiques). Sur WebArena, DRIVE atteint 52,8% de taux de succès, +7,3pp vs baseline.

Agents IA Raisonnement Papers

SIG

HYP

arXiv cs.AI·26 mai

BODHI: Precise OS Kernel Specification Inference

BODHI, une méthode de prompting par connaissance de domaine, améliore la génération automatique de spécifications de noyaux OS via LLM. Testée sur 9 modèles (Anthropic, Mistral, Amazon, DeepSeek, Meta, Alibaba), elle atteint 96.73% Pass@1 avec Claude Opus 4.6, contre 55.10% en baseline, en structurant la traduction C-to-Python par catégories de patterns.

Prompt engineering Benchmarks Génération de code

SIG

HYP

arXiv cs.AI·26 mai

Practical Quantum CIM Empowerment via All-Domestic-Core Agentic Large Model

Intégration d'une machine Ising cohérente (CIM) pompée par laser femtoseconde avec un système multi-agent LLM via LangGraph/LangChain. Les modèles de langage calibrent automatiquement les modèles QUBO/Ising, itèrent les poids de contrainte et valident les schémas. Implémentation entièrement sur modèles et hardware domestiques chinois.

Agents IA MCP Raisonnement

SIG

HYP

arXiv cs.AI·26 mai

A Dynamical Framework for Cognitive Processes Based on Transformations and Semantic Equivalence

Framework dynamique pour modéliser les processus cognitifs via systèmes de rétroaction. Les états cognitifs évoluent selon X_{t+1} = π(F(f(X_t))) où f décrit transformations internes, F mappages interprétatifs, π enforce équivalence sémantique. Formulation catégorique et analyse de stabilité par points fixes. Application linguistique : interprétation context-dépendante comme trajectoire vers classe sémantique stable.

Raisonnement Papers

SIG

HYP

arXiv cs.AI·26 mai

How Much Thinking is Enough? Quantifying and Understanding Redundancy in LLM Reasoning

Étude quantifiant la redondance dans le raisonnement des LLM : 61-93% des étapes de pensée peuvent être supprimées sans affecter la réponse correcte. Analyse sur 4 modèles frontier et 2 benchmarks mathématiques (MATH-500). La redondance est structurelle, liée aux récompenses indépendantes de la longueur, non un artefact modèle-spécifique.

Raisonnement Benchmarks Papers

SIG

HYP

arXiv cs.CL·26 mai

CSP-Atlas: Concept-Specific Neural Circuits in a Sparse Python Transformer

Une étude identifie 106 circuits neuronaux dédiés dans un transformateur sparse 8-couches entraîné sur du code Python. Les circuits se structurent selon des principes computationnels (atomicité, ambiguïté lexicale) plutôt que sémantiques. 62,5% des neurones les plus actifs aux couches intermédiaires sont concept-spécifiques pour les construits AST.

Génération de code Raisonnement Papers

SIG

HYP

arXiv cs.CL·26 mai

Measuring the Depth of LLM Unlearning via Activation Patching

Nouvelle métrique UDS (Unlearning Depth Score) pour évaluer si les connaissances sont vraiment effacées dans les LLM. Via activation patching, UDS mesure la profondeur mécanique de l'oubli couche par couche. Évaluation sur 150 modèles et 8 méthodes : UDS surpasse 20 métriques existantes en fidélité et robustesse.

Sécurité IA Alignement Évaluations

SIG

HYP

arXiv cs.LG·26 mai

LLMs Show No Signs Of Individuated Metacognition

Analyse de 20 LLMs frontier sur 6 benchmarks : la confiance exprimée par les modèles ne reflète pas leurs capacités individuelles. Décomposition par analyse factorielle tétrachorique révèle une matrice de confiance de rang quasi-un. Les modèles partagent un axe de difficulté commune et diffèrent surtout par leurs seuils de décision. Aucune preuve de métacognition individuée verbalisée significative.

Évaluations Benchmarks Raisonnement

SIG

HYP

arXiv cs.AI·26 mai

Low-Cost Labels, Reliable Choices: Rollout-Calibrated Hyper-Heuristics for Job Shop Scheduling

Hyper-heuristiques assistées par apprentissage pour le Job Shop Scheduling (JSSP). Le sélecteur proposé utilise des labels normalisés par regret, une estimation d'incertitude KNN contextuelle et une porte qui n'agit que si le gain prédit dépasse une marge ajustée. Réduit RPD moyen de Random-HH d'un ordre de magnitude sur instances synthétiques.

Reinforcement learning Benchmarks Papers

SIG

HYP

arXiv cs.AI·26 mai

EvoCode-Bench: Evaluating Coding Agents in Multi-Turn Iterative Interactions

EvoCode-Bench évalue 13 agents de codage sur 26 tâches avec 5-15 tours itératifs. Les agents doivent maintenir un codebase fonctionnel face à des changements de spécifications. Résultat : écart de 22-40 points entre performance single-round (SR) et multi-tour (MT@4), avec succès <50% en multi-tour et dégradation progressive (taux de réussite divisé par 2 au tour 5).

Génération de code Agents IA Benchmarks

SIG

HYP

arXiv cs.AI·26 mai

HyperGuide: Hyperbolic Guidance for Efficient Multi-Step Reasoning in Large Language Models

HyperGuide utilise la géométrie hyperbolique pour guider le raisonnement multi-étapes dans les LLM. Une tête légère projette les états cachés dans l'espace hyperbolique, où la distance à l'origine encode la proximité de la solution. Un adaptateur bas-rang est affiné interactivement. Gains constants sur plusieurs benchmarks, plus importants pour les chaînes de raisonnement profondes.

Raisonnement Fine-tuning

SIG

HYP

arXiv cs.CL·26 mai

Distinguishing Right from Wrong in Debates: Attribution Analysis of Chinese Harmful Memes

Nouvel article arXiv sur la détection interprétable de mèmes nuisibles en chinois. Les auteurs créent Ex-ToxiCN-MM, premier dataset d'explications avec interprétations opposées (nuisible/non-nuisible), et C-HarmKB, base de connaissances culturelles chinoises. Ils proposent RIKE, framework d'analyse d'attribution avec modules AKE et RIR, surpassant les baselines. Code et données open-sourcés.

Vision Sécurité IA Évaluations

SIG

HYP

arXiv cs.CL·26 mai

Generating Legal Commentaries from Case Databases via Retrieval, Clustering, and Generation

Pipeline automatisé transformant 4.555 décisions du Tribunal fédéral allemand en commentaires juridiques. Extraction de chunks, résumé du raisonnement, embedding et clustering. LLMs génèrent titres et sections enrichies de citations, fusionnées en commentaires cohérents. Évaluation sur 5 dimensions (pertinence, fidélité des citations, distinction des clusters, ordre logique).

RAG Génération de code Évaluations

SIG

HYP

arXiv cs.CL·26 mai

Unveil: Unified Visual-Textual Integration and Distillation for Multi-modal Document Retrieval

Unveil est un framework d'embedding visual-textuel pour la récupération de documents multi-modaux. Il intègre features textuelles et visuelles via distillation de connaissance, transférant les capacités sémantiques d'un modèle visual-textuel vers un modèle purement visuel. Résultats : amélioration de la précision et de l'efficacité de retrieval sans parsing.

RAG Embeddings Vision

SIG

HYP

arXiv cs.CL·26 mai

WhenLoss: Diagnosing Write and Retrieval Bottlenecks in Long-Context Memory Systems

WhenLoss propose un protocole diagnostic pour identifier les goulots d'étranglement dans les systèmes de mémoire long-contexte. Expected Predictive Compression (EPC) utilise un LLM pour anticiper les questions futures et préserver les preuves minimales lors de l'écriture. Sur LongMemEval (500 questions), EPC atteint 0.49 en score CSM vs 0.44 pour le meilleur baseline, réduisant l'écart d'écriture à 0.04.

RAG Raisonnement Benchmarks

SIG

HYP

arXiv cs.CL·26 mai

Temporal Concept Drift in Legal Judgment Prediction: Neural Baselines Across Three Epochs of Ukrainian Court Decisions

Étude de la dérive temporelle en NLP juridique sur 428K décisions de cours ukrainiennes (2008-2026). Quatre modèles transformers (XLM-RoBERTa, variantes légales) montrent une dégradation sévère en transfert forward (−27,2 pp macro-F1) mais robustesse en backward transfer. L'apprentissage continu chronologique élimine l'oubli catastrophique.

Benchmarks Fine-tuning Papers

SIG

HYP

arXiv cs.CL·26 mai

Improving Labeling Consistency with Detailed Constitutional Definitions and AI-Driven Evaluation

Méthode pour améliorer la cohérence des étiquetages automatisés en modération de contenu. Les auteurs proposent un workflow où une IA rédige des « constitutions » détaillées par catégorie (harcèlement, discours haineux, crime non-violent), puis un LLM frontier les interprète pour générer les étiquettes. Résultat : réduction de l'incohérence cross-modèle jusqu'à 57x vs définitions paragraphes.

Évaluations Sécurité IA Alignement

SIG

HYP

arXiv cs.CL·26 mai

Phonetic Modeling of Dialectal Variation in Vietnamese Speech

Cadre phonétique conscient des dialectes pour la reconnaissance vocale vietnamienne. Décompose les syllabes en composants phonétiques structurés mappés à des représentations IPA spécifiques aux dialectes. Sur UIT-ViMD, égale les performances de wav2vec2-base-vi-250h avec moins de paramètres et sans préentraînement externe.

SIG

HYP

arXiv cs.CL·26 mai

Side-by-side Comparison Amplifies Dialect Bias in Language Models

Étude arXiv montrant que les modèles de langage amplifient les biais dialectaux (AAVE vs anglais standard) lors de comparaisons côte à côte de tweets, bien plus qu'en évaluation isolée. Le fine-tuning par équité contrefactuelle réduit partiellement le biais en isolation mais échoue en contexte contrastif, révélant une faille majeure des évaluations actuelles.

Benchmarks Sécurité IA Alignement

SIG

HYP

arXiv cs.CL·26 mai

End-to-End Intracortical Speech Decoding from Neural Activity

Décodage de la parole à partir d'enregistrements intracorticaux chez un patient atteint de SLA, sans modèle de langage externe. Un décodeur Conformer end-to-end atteint 23,80% de taux d'erreur caractère sur données de validation. Les erreurs proviennent principalement de la segmentation des limites de mots.

Raisonnement Benchmarks Sécurité IA

SIG

HYP

arXiv cs.CL·26 mai

Teaching Through Analogies: A Modular Pipeline for Educational Analogy Generation

Pipeline modulaire pour générer des analogies éducatives en quatre étapes (source, sous-concepts, explication, évaluation). Évaluation de 12 LLMs sur deux datasets annotés (SCAR, ParallelPARC). Les sous-concepts améliorent la qualité des explications et la précision de la récupération. Claude Sonnet 4.6 aligne mieux avec les classements humains qu'avec les scores absolus.

Claude Papers Évaluations

SIG

HYP

arXiv cs.LG·26 mai

Overcoming "Physics Shock" in Earth Observation A Heteroscedastic Uncertainty Framework for PINN-based Flood Inference

Un cadre PINN avec incertitude hétéroscédastique pour la cartographie des inondations à partir de données SAR. Le modèle Attention-Gated FNO-UNet intègre un protocole Warm-Start et modélise l'incertitude aléatoire pour éviter la divergence de gradient (« Physics Shock »). Sur Sen1Floods11 : +25% IoU vs baselines déterministes, avec bornes de confiance calibrées.

Papers Raisonnement Évaluations

SIG

HYP

arXiv cs.LG·26 mai

Signs Beat Floats: Low-Rank Double-Binary Adaptation for On-Device Fine-Tuning

LoRDBA remplace les facteurs de faible rang des adaptateurs LoRA par des vecteurs binaires avec échelles canal-wise, réduisant l'empreinte mémoire de plus de 10× tout en maintenant la qualité fp16 LoRA. Surpasse les baselines low-bit à taille égale avec surcharge latence préfill ≤8% et surcharge mémoire d'entraînement ~1.6× LoRA fp16.

Fine-tuning

SIG

HYP

arXiv cs.LG·26 mai

TUBE: Tangent Upper Bound on Evidence for Discrete Diffusion Language Models

TUBE est une borne supérieure variationnelle sur la log-vraisemblance pour les modèles de diffusion discrets. Contrairement aux ELBO existantes, TUBE admet un estimateur Monte Carlo sans biais et s'applique aux modèles de diffusion masqués, ARMs d'ordre quelconque et leurs variantes par blocs. Les expériences montrent que les modèles de diffusion restent strictement en dessous des ARMs en vraisemblance exacte.

Papers Benchmarks Évaluations

SIG

HYP

arXiv cs.CL·26 mai

Faithful or Fabricated? A Causal Framework for Rationalization Bias in LLM Judges

Étude sur les biais de rationalisation chez les juges LLM. Les chercheurs testent si les explications des modèles restent stables quand des indices non-pertinents sont modifiés (verbosité, confiance). Ils proposent PROOF-BEFORE-PREFERENCE pour améliorer l'invariance aux indices et réduire l'ancrage des explications.

Évaluations Raisonnement Alignement

SIG

HYP

arXiv cs.LG·26 mai

Towards Verifiable Transformers: Solver-Checkable Circuit Explanations

Framework Verifiable Transformers convertissant circuits Transformer en propriétés vérifiables par solveur SMT. Extraction de circuits task-localisés et vérification formelle d'équivalence fonctionnelle, nécessité des arêtes, invariance et robustesse. Démonstration sur tâches symboliques et GPT-2 scale avec architecture SMT-représentable (Signed L1 BandNorm, sparsemax, LeakyReLU).

Raisonnement Sécurité IA Papers

SIG

HYP

arXiv cs.CL·26 mai

Discovering Lexical Gaps Using Embeddings from Multilingual LLMs

Cadre automatisé pour détecter les lacunes lexicales (mots inexistants dans certaines langues) via embeddings de LLMs multilingues. Sur paires de traduction coréen-anglais, 4000 espaces d'embedding testés montrent que les mots lacunaires ont un alignement sémantique cross-lingue plus faible. Classifieurs logistiques atteignent AUC 0.81-0.76 et récupèrent 18/19 et 26/27 mots lacunaires.

Embeddings Benchmarks Papers

SIG

HYP

Le Big Data·26 mai

MiniCPM5-1B : cette minuscule IA de 0,5 Go enterre déjà des modèles bien plus gros

MiniCPM5-1B, modèle de 1 milliard de paramètres pesant 0,5 Go, surpasse des modèles significativement plus volumineux. Démontre qu'efficacité et performance ne nécessitent pas une taille massive.

Open source Benchmarks

SIG

HYP

Hacker News (AI)·26 mai

SK Group chairman says memory chip shortage will last until 2030

Le président de SK Group prévoit une pénurie de puces mémoire jusqu'en 2030. Cette déclaration intervient alors que la demande en semiconducteurs pour l'IA reste très élevée.

Infrastructure

SIG

HYP

Reddit r/LocalLLaMA·26 mai

Added direct model downloads right from the UI in Anubis OSS - if anyone would help test that would be great

Anubis OSS v3.6, app macOS pour benchmarker les LLMs locaux (Ollama, LM Studio, MLX), ajoute téléchargement direct de modèles depuis l'UI. Disponible via Homebrew et téléchargement direct. Appel à tests sur Apple Silicon. GPL-3.0, open-source, leaderboard avec 400+ runs.

Open source Outils Benchmarks

SIG

HYP

Reddit r/LocalLLaMA·26 mai

New local model reaching near frontier on PII removal at 9 ms CPU inference

Un nouveau modèle local atteint des performances proches de l'état de l'art pour la suppression d'informations personnelles (PII) avec une inférence CPU de 9 ms. L'auteur sollicite des retours sur le projet.

Open source Génération de code Sécurité IA

SIG

HYP

Vercel AI Blog·26 mai

Sandbox persistence is now GA

Vercel Sandboxes active la persistance des fichiers par défaut en GA. Les snapshots sont automatiques, les sandboxes reprennent depuis le dernier état sauvegardé. Nouvelles méthodes : fork(), getOrCreate(), delete(), tags personnalisés et hooks de cycle de vie.

Outils Infrastructure

SIG

HYP

Vercel AI Blog·26 mai

Vercel Domains now supports price sorting and availability filtering

Vercel Domains ajoute le tri par prix et le filtrage par disponibilité. Les domaines moins chers s'affichent en premier, les domaines indisponibles sont repoussés en bas des résultats.

Outils

SIG

HYP

Vercel AI Blog·26 mai

Microfrontends routing now applies to vc alias and branch domains

Vercel déploie un update sur le routage des Microfrontends. Les alias créés avec `vc alias` héritent désormais de la config de routage complète. Les domaines assignés à une branche routent maintenant vers cette branche dans tous les projets du Microfrontend, pas seulement le projet propriétaire.

Infrastructure Outils

SIG

HYP

Vercel AI Blog·26 mai

Firecrawl joins the Vercel Marketplace

Firecrawl intègre la Vercel Marketplace. Les équipes Vercel peuvent désormais utiliser ce service pour extraire des données web structurées destinées aux agents IA et applications, sans gérer l'infrastructure de crawling. Capacités : conversion en markdown/HTML/données structurées, recherche web, interaction avec pages dynamiques.

Agents IA RAG Outils

SIG

HYP

Simon Willison·25 mai

Notes on Pope Leo XIV's encyclical on AI

Le Vatican publie l'encyclique Magnifica Humanitas du Pape Léon XIV sur l'IA et la dignité humaine. Le document traite de l'éthique de l'intégration de l'IA dans la société moderne, en référence à l'encyclique Rerum novarum de 1891 sur le capital et le travail. Léon XIV y aborde les défis posés par cette nouvelle révolution industrielle.

Régulation Sécurité IA Alignement

SIG

HYP

Hacker News (AI)·25 mai

Using AI to write better code more slowly

Article explorant le paradoxe de l'IA pour la programmation : les outils génèrent du code plus rapidement mais incitent à des pratiques contre-productives. L'auteur préconise une approche délibérée privilégiant la qualité et la compréhension sur la vitesse brute.

Génération de code Prompt engineering

SIG

HYP

Hacker News (AI)·25 mai

Cox Media fined after bragging it spied on users through their phones

Cox Media a été condamnée à une amende après avoir reconnu avoir espionné les utilisateurs via leurs téléphones. L'entreprise a collecté des données de localisation sans consentement explicite.

Régulation Sécurité IA

SIG

HYP

Reddit r/MachineLearning·25 mai

Aiki my local Wikipedia Retrieval-Augmented Generation system [R]

Aiki est un outil léger de RAG local permettant de discuter avec Wikipedia hors ligne. Il télécharge et segmente les articles Wikipedia, utilise un retriever TF-IDF + cosine similarity personnalisé, supporte l'expansion de requêtes via liens Wikipedia, et génération optionnelle de réponses par LLM. Dépendances minimales, exécution entièrement locale.

RAG Recherche vectorielle Open source

SIG

HYP

Reddit r/LocalLLaMA·25 mai

Update on 12x32gb sxm v100 cluster / local AI for legal drafting

Un avocat partage son retour d'expérience sur un cluster de 12 V100-SXM2 32GB pour le traitement juridique local. Après avoir abandonné vLLM pour les modèles MoE (incompatibilité GPU Volta), il utilise llama.cpp avec des modèles comme Gemma-4-26B et Qwen3.5-122B. Les modèles denses sur V100 sont inefficaces (~20-28 tok/s) ; les MoE atteignent 50-113 tok/s en décodage sur contextes longs.

Llama Open source Infrastructure

SIG

HYP

Reddit r/LocalLLaMA·25 mai

ThriftAttention: Selective Mixed Precision for Long-Context FP4 Attention

ThriftAttention propose une technique de précision mixte sélective pour optimiser l'attention FP4 sur contextes longs. La méthode réduit la consommation mémoire et accélère l'inférence en appliquant différentes précisions selon les zones d'attention critiques.

Llama Fine-tuning Infrastructure

SIG

HYP

Reddit r/LocalLLaMA·25 mai

Using Local LLMs for Generating Custom Interactive Recursive Textbooks on the Fly

Un utilisateur de r/LocalLLaMA présente une méthode pour générer des manuels scolaires interactifs et récursifs personnalisés en temps réel avec des LLM locaux. Le projet exploite la capacité des modèles à adapter le contenu pédagogique dynamiquement selon les besoins de l'apprenant.

Open source Outils RAG

SIG

HYP