Topic

#RAG

Le RAG (Retrieval-Augmented Generation) est une technique qui connecte un LLM à une base de documents externe pour générer des réponses fondées sur des sources réelles. Par exemple, LlamaIndex permet de construire des pipelines RAG en indexant ses propres données pour les interroger via un modèle de langage.

40Articles

6Sources

71Signal moyen

arXiv cs.CL·18 juin

Redact or Keep? A Fully Local AI Cascade for Educational Dialogue De-Identification

Framework local de dé-identification pour dialogues éducatifs. Cascade à deux étages : proposeur union (encodeurs légers + règles déterministes) génère candidats PII, puis reviewer binaire Redact/Keep utilise contexte et rôle du locuteur. Atteint 0.958 F1 macro sur transcriptions tutoriel math, surpasse LLM commercial (0.706) et baseline locale (0.767), s'exécute sur laptop unique.

RAG Sécurité IA Papers

SIG

HYP

arXiv cs.CL·18 juin

MCompassRAG: Topic Metadata as a Semantic Compass for Paragraph-Level Retrieval

MCompassRAG améliore les systèmes RAG en utilisant des métadonnées de sujets comme guide sémantique pour la récupération de paragraphes. La méthode enrichit les représentations de chunks avec des signaux au niveau des sujets dans le même espace d'embedding et entraîne un retrieveur léger par distillation LLM. Sur six benchmarks, elle gagne 8,24% en efficacité informationnelle avec 5× moins de latence.

RAG Embeddings Benchmarks

SIG

HYP

arXiv cs.CL·18 juin

PEC-Home: Interpretation of Progressively Elliptical Commands in Smart Homes

PEC-Home est un dataset simulé pour interpréter les commandes elliptiques progressives dans les maisons intelligentes. Les assistants actuels (GPT-4o inclus) échouent à exécuter correctement ces commandes abrégées dues à l'accumulation de contexte partagé, même avec accès à l'historique de dialogue.

Agents IA Benchmarks RAG

SIG

HYP

arXiv cs.CL·18 juin

ScholarSum: Student-Teacher Abstractive Summarization via Knowledge Graph Reasoning and Reflective Refinement

ScholarSum propose un cadre hiérarchique basé sur graphes de connaissances pour la résumé abstractif scientifique. Le système organise les documents en unités sémantiques cohérentes, génère un brouillon initial, puis l'affine via un processus itératif de vérification et de réécriture pour assurer cohérence logique et fidélité factuelle.

Papers RAG Raisonnement

SIG

HYP

arXiv cs.CL·18 juin

Improving Medical Communication using Rubric-Guided Counterfactual Recommendations

Pipeline de recommandations contrefactuelles guidées par LM pour améliorer la communication médicale en télémédecine textuelle. Le système identifie des features interprétables (ton, personnalisation, clarté, complétude) et recommande des changements minimaux de communication prédits pour augmenter le feedback positif (+6.41% en moyenne). Les modifications préservent le contenu médical et le contrôle du médecin.

Raisonnement Évaluations RAG

SIG

HYP

arXiv cs.AI·18 juin

ProfiLLM: Utility-Aligned Agentic User Profiling for Industrial Ride-Hailing Dispatch

ProfiLLM est un pipeline LLM agentic déployé chez DiDi pour extraire des profils utilisateurs sémantiques à partir de logs comportementaux massifs. Le système utilise 27 outils analytiques pour miner les données et génère des profils alignés sur l'utilité prédictive, atteignant +6.14% d'amélioration AUC et +0.47% de GMV en test A/B.

Agents IA Llama RAG

SIG

HYP

arXiv cs.CL·18 juin

CoreMem: Riemannian Retrieval and Fisher-Guided Distillation for Long-Term Memory in Dialogue Agents

CoreMem propose une architecture mémoire pour agents dialogues personnalisés sur appareils edge (8 GB VRAM). Utilise la métrique Fisher-Rao pour la récupération (remplaçant la similarité cosinus) et la distillation de tokens guidée par Fisher pour la compression. Gains de +4.51 pp en raisonnement open-domain et +4.17 pp en raisonnement temporel sur LOCOMO et LongMemEval-S.

Agents IA RAG Embeddings

SIG

HYP

arXiv cs.CL·18 juin

Lost in a Single Vector: Improving Long-Document Retrieval with Chunk Evidence Aggregation

DICE améliore la récupération de documents longs en fragmentant le texte, encodant chaque chunk indépendamment, puis agrégant les vecteurs en une seule représentation. Sur LongEmbed, les gains atteignent 90.0 pour Dream Passkey >4k (vs 30.0) et 74.0 pour Needle >4k (vs 23.3). L'approche réduit l'indice de dilution d'évidence (EDI) dans 92.8% des cas.

RAG Embeddings Recherche vectorielle

SIG

HYP

arXiv cs.CL·18 juin

Efficient Financial Language Understanding via Distillation with Synthetic Data

Framework de distillation avec données synthétiques pour l'analyse de sentiment financier. Transfert de connaissances d'un modèle teacher instruction-tuned vers des modèles compacts. Sélection de seeds par clustering pour générer des données synthétiques via few-shot prompting. Le modèle compact surpasse le teacher sur textes complexes/bruyants avec supervision minimale.

Fine-tuning RAG Prompt engineering

SIG

HYP

arXiv cs.AI·18 juin

CaVe-VLM-CoT: An Interpretable Vision-Language Model Framework

CaVe-VLM-CoT est un framework agentic-RAG modulaire qui réduit les hallucinations des VLMs via une pipeline fermée à 5 étapes (Extractor, Retriever, Solver, Citation Injector, Verifier). Les réclamations non fondées déclenchent une re-retrieval ciblée. 23 métriques composantes et CaVeScore mesurent la fidélité des citations et l'ancrage multimodal. Résultats : 87,1% accuracy sur ScienceQA, 55,2% sur MMMU.

Vision RAG Agents IA

SIG

HYP

arXiv cs.AI·18 juin

Decoupling Search from Reasoning: A Vendor-Agnostic Grounding Architecture for LLM Agents

Decoupled Search Grounding (DSG) découple la recherche du raisonnement via une passerelle compatible MCP. Sur SimpleQA, FreshQA et HotpotQA, DSG atteint 86,1% de précision (vs 87,7% natif) avec 91% de coût réduit et 68% de latence inférieure. En production e-commerce, DSG réduit le coût de recherche de 98% tout en maintenant la précision.

Agents IA MCP RAG

SIG

HYP

Reddit r/LocalLLaMA·17 juin

We built an open source UI kit for document RAG/agents

Extend publie un kit UI open source (MIT) pour RAG et agents documentaires : 15 composants pour visualiser PDF, DOCX, XLSX avec citations par bounding box, upload de fichiers, e-signature. Construit en interne, éprouvé sur millions de pages/jour, maintenu activement.

RAG Agents IA Open source

SIG

HYP

GitHub Trending·17 juin

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> DeusData /</span> codebase-memory-mcp

Serveur MCP d'intelligence de code haute performance. Indexe les bases de code dans un graphe de connaissances persistant en millisecondes. Support de 158 langages, requêtes sub-ms, 99% moins de tokens. Binaire statique unique, zéro dépendance.

MCP Génération de code RAG

SIG

HYP

GitHub Trending·17 juin

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> infiniflow /</span> ragflow

RAGFlow est un moteur RAG open-source fusionnant retrieval-augmented generation et capacités d'agents pour créer une couche de contexte supérieure aux LLM.

RAG Agents IA Open source

SIG

HYP

arXiv cs.CL·17 juin

MLLP-VRAIN UPV system for the IWSLT 2026 Simultaneous Speech Translation task

Le groupe MLLP-VRAIN participe à IWSLT 2026 en traduction simultanée parole-parole avec Parakeet et Qwen 3.5. Système en cascade utilisant des politiques adaptatives et RAG pour enrichir la génération. Amélioration de +5.82 XCOMET-XL sur En→De vs année précédente.

Qwen RAG Génération de code

SIG

HYP

arXiv cs.CL·17 juin

The Slop Paradox: How Synthetic Standardization Erodes Clinical Uncertainty and Cross-Modal Alignment in AI-Rewritten Radiology Reports

Étude sur 450 rapports de radiologie thoracique montrant que la réécriture par LLM pour standardisation préserve l'alignement image-texte (2,5% de dégradation) mais érode 26,8-29,3% des entités cliniques et 14,9-16,5% du langage d'incertitude. Le paradoxe : les tâches produisant du texte « plus propre » éloignent le contenu de l'image.

Vision RAG Évaluations

SIG

HYP

arXiv cs.AI·17 juin

When Rules Learn: A Self-Evolving Agent for Legal Case Retrieval

Un agent LLM auto-évolutif génère itérativement des règles de réécriture de requêtes pour améliorer BM25 en récupération de cas juridiques. Testé sur LeCaRD-v2 (benchmark chinois), le framework surpasse les baselines sans entraînement paramétrique, en exploitant l'évaluation automatique et l'élimination de règles inefficaces.

Agents IA Raisonnement Benchmarks

SIG

HYP

arXiv cs.AI·17 juin

FlowRAG: Synergizing Explicit Reasoning via Frequency-Aware Multi-Granularity Graph Flow

FlowRAG améliore la récupération augmentée par graphe (GraphRAG) via un graphe hétérogène multi-granularité (passages, résumés, phrases, entités) et un module de flux pondéré par fréquence. Cela renforce le rappel sémantique et le raisonnement explicite sur les tâches multi-sauts complexes.

RAG Raisonnement Benchmarks

SIG

HYP

arXiv cs.CL·17 juin

MODE-RAG: Manifold Outlier Diagnosis and Energy-based Retrieval-Augmented Generation Evaluation

MODE-RAG est un système multi-agent basé sur l'énergie libre variationnelle pour réduire les hallucinations dans les systèmes de génération augmentée par récupération multimodale. Il utilise MCTS, perturbations logit et des agents spécialisés pour router les requêtes à haut risque et vérifier les faits. Les auteurs introduisent ModeVent, un sous-ensemble du dataset MultiVent, pour évaluer la robustesse.

RAG Multi-agents Vision

SIG

HYP

arXiv cs.AI·17 juin

Brick-DICL: Dynamic In-Context Learning for Automated Brick Schema Classification

Brick-DICL propose un framework de dynamic in-context learning en deux étapes pour classifier automatiquement les points BMS selon le schéma Brick (936 classes). Combine metadata-RAG et class-RAG pour enrichir les connaissances des LLMs, avec filtrage multi-modèles pour réduire l'effort de vérification manuelle.

RAG Prompt engineering Raisonnement

SIG

HYP

arXiv cs.AI·17 juin

DecoSearch: Complexity-Aware Routing and Plan-Level Repair for Text-to-SQL

DecoSearch est un framework sans entraînement pour la traduction texte-vers-SQL qui route les requêtes selon leur complexité. Un sélecteur de schéma élagué la base de données, un jugeur LLM décide si décomposition est nécessaire, et un DAG résout les sous-questions atomiques. Atteint 70,53% sur BIRD et 88,31% sur Spider avec DeepSeek, surpassant les baselines sans entraînement.

Génération de code Raisonnement RAG

SIG

HYP

arXiv cs.AI·17 juin

DiagFlowBench: Evaluating How Language Models Handle Off-Procedure Inputs in Grounded Diagnostic Dialogue

DiagFlowBench évalue comment les modèles de langage gèrent les requêtes hors-procédure dans le diagnostic industriel. Un dataset de 1 676 conversations multi-tours basées sur 50 flowcharts de diagnostic révèle que les modèles sélectionnent souvent une étape réelle mais inadéquate plutôt que d'halluciner, créant une vulnérabilité : des conseils plausibles mais incorrects.

Benchmarks Évaluations Raisonnement

SIG

HYP

Le Big Data·16 juin

Meta donne un gros coup d’IA à Facebook… en exploitant les publications publiques

Meta intègre l'IA dans Facebook via un nouveau mode de recherche exploitant les publications publiques. La plateforme promet des réponses plus rapides aux requêtes utilisateurs.

Meta AI RAG

SIG

HYP

arXiv cs.AI·16 juin

CONCORD: Asynchronous Sparse Aggregation for Device-Cloud RAG under Document Isolation

CONCORD est un framework pour RAG asynchrone sur device-cloud avec isolation documentaire. Il utilise un contrôle de dette d'attente et une supplémentation minimale guidée par certificat pour réduire la synchronisation et le transfert de données. Améliore le débit de 1.66× à 2.15× sur Natural Questions et WikiText-2 tout en réduisant la communication par token de plus de 100×.

RAG Papers Infrastructure

SIG

HYP

arXiv cs.AI·16 juin

Dr-DCI: Scaling Direct Corpus Interaction via Dynamic Workspace Expansion

DR-DCI combine retrieval et Direct Corpus Interaction pour les agents de recherche sur larges corpus. Le système utilise un retriever pour remplir dynamiquement un workspace local où l'agent exécute des opérations précises (filtrage, comparaison, vérification). Sur Browsecomp-Plus, DR-DCI atteint 71,2% de précision (+8,3 points vs DCI brut) et reste stable jusqu'à 10M documents, là où DCI brut devient instable.

Agents IA RAG Raisonnement

SIG

HYP

arXiv cs.AI·16 juin

Semantics-Enhanced Retrieval-Augmented Time Series Forecasting

SERAF, un framework de prévision de séries temporelles, combine récupération de segments historiques et descriptions textuelles auto-générées. Approche multimodale testée sur 7 datasets réels pour améliorer les prédictions au-delà de la simple similarité numérique.

RAG Benchmarks Papers

SIG

HYP

arXiv cs.AI·16 juin

ChatPlanner: A Large Language Model Framework for Personalized Public Transit Routing

ChatPlanner est un framework utilisant des LLMs fine-tunés avec RAG pour extraire les préférences utilisateur en langage naturel et les intégrer dans un algorithme d'optimisation de trajets en transport public. Évalué sur 8 personas et 5 contextes, le système combine fine-tuning (structure de sortie) et RAG (contexte spécifique) pour identifier des solutions ignorées par les planificateurs existants.

RAG Fine-tuning Prompt engineering

SIG

HYP

arXiv cs.CL·16 juin

Context Compression Is Not One Thing: Readable Symbolic Re-expression vs. Coherent Summary at Matched Budget

Telegraph English, un format symbolique lisible, réécrit les passages récupérés en déclarations entité-relation structurées pour la compression de contexte. Sur MuSiQue, TwoWiki et HotpotQA, il surpasse trois baselines à budget égal (suppression, troncature, sous-échantillonnage) de 13-20 points F1, et dépasse les résumés en prose cohérente sur le dataset le plus difficile.

RAG Raisonnement Benchmarks

SIG

HYP

arXiv cs.CL·16 juin

ReportQA: QA-Based Radiology Report Evaluation

ReportQA propose une métrique d'évaluation QA pour les rapports radiologiques générés automatiquement. Le framework utilise des LLM pour extraire des informations structurées, générer des paires QA à partir de templates, et évaluer l'alignement avec les jugements radiologues. Les auteurs publient arbres de connaissances, rapports structurés et code.

Papers Vision Évaluations

SIG

HYP

arXiv cs.CL·16 juin

Beyond Monolingual Deep Research: Evaluating Agents and Retrievers with Cross-Lingual BrowseComp-Plus

XBCP, un benchmark contrôlé, évalue des agents de recherche profonde sur leur capacité à opérer en contexte multilingue. Quatre agents testés avec des retrievers denses et creux sur 12 langues montrent une dégradation significative : perte de recall, calibration réduite, citations moins fiables. Les problèmes persistent même avec l'or evidence fourni directement.

Agents IA RAG Benchmarks

SIG

HYP

arXiv cs.CL·16 juin

Few-Shot Biomedical Relation Extraction with Large Language Models: A Viable Alternative to Supervised Learning?

Étude comparative du few-shot biomedical relation extraction avec LLMs vs apprentissage supervisé sur BioREDirect. Classification pairwise vs génération jointe : F1=0.44 (few-shot) vs 0.56 (supervisé) en micro-F1, mais 0.45 vs 0.38 en macro-F1. LLMs surpassent le baseline sur les relations rares.

Prompt engineering Benchmarks RAG

SIG

HYP

arXiv cs.AI·16 juin

Hierarchical Modeling of ICD Codes in EHR Foundation Models

Étude sur l'intégration de la hiérarchie ICD-10-CM dans les modèles de fondation EHR. Les auteurs comparent deux approches : augmentation de séquences BERT avec tokens hiérarchiques et injection de hiérarchie dans des représentations graphiques. Expériences sur MIMIC-IV et eICU montrent que l'encodage explicite de la hiérarchie améliore les prédictions en domaine et en transfert cross-dataset.

Papers Embeddings RAG

SIG

HYP

arXiv cs.AI·16 juin

Agentic Retrieval and Reinforcement Learned Equation Chains: A Controlled Generation Framework for Complex and Novel Physics Word Problems

ARVRE combine apprentissage par renforcement hors-ligne, RAG agentic et LLM pour générer des problèmes de physique complexes et solvables. La première étape construit des chaînes d'équations valides via temporal-difference learning ; la seconde convertit ces chaînes en questions naturelles. Évaluations humaines et automatiques montrent une supériorité en complexité, nouveauté et solvabilité.

Agents IA RAG Reinforcement learning

SIG

HYP

arXiv cs.CL·16 juin

Privacy-Preserving Text Sanitization for Distributed Agents Collaboration via Disentangled Representations

DiSan, un framework de sanitization préservant la vie privée, factorise le texte en deux sous-espaces : un préservant la sémantique métier et un contenant les signatures stylistiques. Sur un benchmark RAG multi-agent distribué, DiSan réduit l'exposition PII de 20× tout en maintenant 83% de fidélité, et abaisse l'attribution stylométrique Enron de 73,2% (TF-IDF) et 70,6% (sonde neurale).

Multi-agents RAG Sécurité IA

SIG

HYP

arXiv cs.CL·16 juin

T-Mem: Memory That Anticipates, Not Archives

T-Mem propose une architecture de mémoire conversationnelle long-terme qui dépasse les limites de similarité lexicale et vectorielle. Le système introduit des « triggers » (déclencheurs) écrits au moment du stockage pour couvrir deux modes de rappel : descriptif (surface features) et associatif (arcs sémantiques latents). T-Mem atteint l'état de l'art sur LoCoMo et LoCoMo-Plus.

Agents IA RAG Benchmarks

SIG

HYP

arXiv cs.CL·16 juin

Encode Errors: Representational Retrieval of In-Context Demonstrations for Multilingual Grammatical Error Correction

Méthode de récupération de démonstrations in-context basée sur les représentations d'erreurs grammaticales (GER) pour la correction grammaticale multilingue. Sur 8 modèles open-source 8B, les résultats égalent GPT-4o-mini et Deepseek2.5. Pour les langues peu dotées, amélioration F₀.₅ jusqu'à 1.20× vs baseline.

RAG Prompt engineering Benchmarks

SIG

HYP

arXiv cs.CL·16 juin

Transfer Learning for FHIR Questionnaire Terminology Binding

Étude de retrieval pour lier automatiquement des codes LOINC à des questionnaires FHIR en santé. Six méthodes testées (TF-IDF, MiniLM, BioBERT, BioLORD, fine-tuning contrastif, GPT reranker) sur 97 314 codes. BioLORD (encodeur pré-entraîné sur ontologies biomédicales) atteint R@1=0.185 sans données spécifiques ; fine-tuning contrastif obtient R@5=0.389. Augmentation GPT dégrade les performances.

Embeddings Fine-tuning RAG

SIG

HYP

Reddit r/MachineLearning·15 juin

Cleo: trying to fit full analyst behavior in a 2B model [P]

Cleo est un fine-tune de Qwen 2B-Base conçu pour les tâches text-to-SQL. Le modèle intègre entraînement, évaluation et inférence dans un même système unifié, avec couche de sécurité SQL, gestion des dialectes et comportement de clarification. Code, modèle et datasets sont open-source.

Qwen Fine-tuning Génération de code

SIG

HYP

Reddit r/LocalLLaMA·15 juin

archex: local-first, deterministic code-context for AI agents — no API key, no telemetry (Apache 2.0)

archex transforme un dépôt en contexte rangé et budgété pour agents IA : symboles, imports, graphe de dépendances. Pipeline local (BM25F + embeddings + RRF + reranker) sans API, sans télémétrie. Benchmarks : recall 0.95 vs 0.32 (cocoindex-code), démarrage froid 0ms vs 4,721ms, 71% moins de tokens.

Génération de code RAG Agents IA

SIG

HYP

Reddit r/LocalLLaMA·15 juin

I made a private on-device LLM app for Android (notes + recall, nothing leaves the phone)

Développeur propose une app Android exécutant un LLM entièrement on-device pour prendre des notes et les interroger par IA. Aucune donnée ne quitte le téléphone. Recherche testeurs bêta (8GB+ RAM recommandé), gratuit, en closed testing Google Play.

Open source Outils RAG

SIG

HYP