Topic

#Embeddings

Les embeddings sont des représentations numériques (vecteurs) de données textuelles, visuelles ou audio, capturant leur sens sémantique. Par exemple, le modèle text-embedding-3-small d'OpenAI convertit des phrases en vecteurs pour la recherche ou la similarité.

40Articles
6Sources
69Signal moyen
Reddit r/LocalLLaMA·

Building a free, offline LLM “tutor” grounded in one university textbook — RAG, LoRA, or both? Sanity check wanted

Un développeur cherche à construire un tuteur IA hors ligne gratuit basé sur un manuel universitaire. Architecture envisagée : RAG comme composant principal (chunking, embedding, retrieval avec citations page/section) + LoRA optionnelle pour le style pédagogique. Questions sur le choix du modèle (Qwen, Gemma), la gestion des structures complexes (figures, équations), et le packaging pour utilisateurs non-techniques.

RAGFine-tuningOpen source
SIG
35
HYP
00
arXiv cs.CL·

Model-Based Quality Assessment for Massively Multilingual Parallel Data

Étude de l'évaluation automatique de données bilingues massives : décomposition en deux tâches (évaluation du parallélisme via embeddings multilingues, estimation de qualité sans référence). Benchmark de 4 modèles d'embeddings et 9 évaluateurs sur FLORES-200 couvrant 6 654 paires de langues. Résultat clé : aucun modèle n'est fiable universellement ; une approche direction-aware est nécessaire.

BenchmarksEmbeddingsÉvaluations
SIG
78
HYP
00
arXiv cs.LG·

When Softmax Fails at the Top: Extreme Value Corrections for InfoNCE

InfoNCE, l'objectif standard du contrastive learning, repose sur une hypothèse statistique mal alignée avec les embeddings normalisés modernes. Les auteurs proposent WEINCE, une modification simple utilisant la théorie des valeurs extrêmes et des statistiques batch en ligne pour corriger les logits softmax, sans paramètres supplémentaires. Améliorations consistantes sur 5 benchmarks vision.

PapersBenchmarksEmbeddings
SIG
72
HYP
00
arXiv cs.CL·

Cognitive-Linguistic Indicators of Depression in Online Communities: Analysed by DistilBERT and Holographic Reduced Representation

Étude combinant features linguistiques cognitives (pronoms première personne, mots absolutistes, émotions négatives) avec embeddings DistilBERT et Holographic Reduced Representation pour détecter la dépression dans des posts Reddit. Le modèle hybride atteint F1=0.94 vs 0.80 pour TF-IDF baseline, AUC=0.981.

EmbeddingsBenchmarksPapers
SIG
72
HYP
00
arXiv cs.CL·

Generalistic or Specific Embeddings, Which is Better? An Empirical Study on Search for Clinical Coding in Non-English Languages

Étude comparative d'embeddings génériques vs spécialisés pour la recherche clinique multilingue (ICD-10-CM). Un bi-encoder fine-tuné sur données synthétiques Gemini (6 langues) surpasse BioBERT-ST : R@5=0.822 vs 0.790, avec gains majeurs en portugais (+0.115). Recette open-source pour retrievers médicaux basés sur LLM.

EmbeddingsRAGBenchmarks
SIG
78
HYP
00
arXiv cs.AI·

Vector Linking via Cross-Model Local Isometric Consistency

Méthode pour établir des correspondances entre vecteurs d'embeddings produits par différents encodeurs. Exploite la cohérence géométrique locale des encodeurs contrastifs entraînés indépendamment : les distances courtes sont préservées à un facteur d'échelle près. Utilise un hachage géométrique itératif basé sur des ancres appairées pour récupérer les liens vectoriels. Code disponible.

EmbeddingsRecherche vectorielleBenchmarks
SIG
72
HYP
00
arXiv cs.CL·

CanLegalRAGBench: Evaluating Retrieval-Augmented Generation on Canadian Case Law

CanLegalRAGBench est un benchmark d'évaluation pour systèmes RAG appliqués au droit canadien, basé sur des requêtes réalistes et des réponses annotées par des experts. L'étude révèle que les modèles d'embedding open-source rivalisent avec les modèles fermés, mais identifie des hallucinations dans 8-29% des réponses générées, non supportées par les documents récupérés.

RAGEmbeddingsÉvaluations
SIG
78
HYP
00
arXiv cs.AI·

Better Later Than Sooner: Neuro-Symbolic Knowledge Graph Construction via Ontology-grounded Post-extraction Correction

Framework neuro-symbolique pour construire des graphes de connaissances (KG) corrigés post-extraction selon des contraintes ontologiques. Combine extraction ouverte, canonicalization par embedding, et correction LLM ciblée des violations. Réduit les appels LLM et améliore la cohérence du KG pour le QA multi-hop et les opérations symboliques (agrégation, énumération).

RAGRaisonnementEmbeddings
SIG
72
HYP
00
Reddit r/LocalLLaMA·

I built an enforcement layer for AI coding agents using a local knowledge graph and hybrid RAG

Writ est une couche d'application pour agents de codage IA utilisant un graphe de connaissances Neo4j local et RAG hybride. Un pipeline de récupération en 5 étapes (BM25, similarité vectorielle HNSW, traversée de graphe, fusion de rangs réciproques) filtre les règles pertinentes. 30 scripts bash appliquent l'exécution : pas de code sans plan approuvé, tests obligatoires, analyse statique requise.

Agents IAGénération de codeRAG
SIG
72
HYP
00
Reddit r/LocalLLaMA·

losing my mind fine-tuning jina-v5 for a legal corpus

Un utilisateur fine-tune Jina-v5 sur un corpus juridique slovaque depuis un mois sans succès. Le modèle échoue à capturer les nuances syntaxiques du slovaque, notamment sur des cas ambigus (« krádež » vs « prepadnutie »). Il a testé plusieurs approches : génération de requêtes par LLM, injection de chunks similaires, logit mining avec Qwen 3.5-397B, mais les fine-tunes surpassent mal la base.

EmbeddingsFine-tuningRAG
SIG
35
HYP
00
Reddit r/MachineLearning·

A new dataset with more that 100M hi-quality, curated images, with captions and meta data! [P]

MONET, un dataset Apache 2.0 de 104,9 millions d'images haute qualité avec captions et métadonnées, publié sur Hugging Face. Construit à partir de 2,9 milliards d'images et raffiné. Accompagné d'un paper, d'outils de visualisation UMAP, d'un moteur de recherche texte/image et d'une codebase pour entraîner des modèles T2I.

Génération d'imagesEmbeddingsOpen source
SIG
75
HYP
00
arXiv cs.CL·

BioELX: Cross-lingual Biomedical Entity Linking via Alias-based Retrieval and LLM Ranking

BioELX est un système de liaison d'entités biomédicales multilingues en deux étapes sans données d'entraînement annotées. Il enrichit SapBERT avec des alias multilingues Wikidata et utilise un LLM pour la désambiguïsation contextuelle. Sur cinq benchmarks, il atteint +19.2 Recall@1 sur XL-BEL, avec gains majeurs pour langues peu dotées (turc +21.6, coréen +22.1, thaï +30.8).

BenchmarksPapersRAG
SIG
78
HYP
00
arXiv cs.LG·

Tackling Multimodal Learning Challenges with Mixture-of-Expert: A Survey

Enquête systématique sur l'application des Mixture-of-Experts (MoE) au apprentissage multimodal. Analyse MoE sous trois angles : moteur efficace (scalabilité, réduction redondance), apprenant en représentation (alignement multi-expert), adaptateur modulaire (déséquilibre modalités, données manquantes). Identifie lacunes : routage interprétable, communication experts, intégration modalités, apprentissage continu.

VisionEmbeddingsPapers
SIG
65
HYP
00
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> meilisearch /</span> meilisearch

Meilisearch est un moteur de recherche API ultra-rapide offrant une recherche hybride alimentée par l'IA pour sites et applications.

Recherche vectorielleEmbeddingsOutils
SIG
45
HYP
00
arXiv cs.CL·

Hubness, Not Anisotropy, Drives Cross-Lingual Retrieval Asymmetry in Multilingual Embedding Models

Étude sur l'asymétrie de récupération cross-lingue dans 5 modèles multilingues (Gemini, Mistral, OpenAI, Qwen). Analyse de 6 518 expressions idiomatiques en anglais, bengali, hindi et arabe. Résultat : la « hubness » (concentration de vecteurs) est le principal facteur causal (49,5% de dominance), bien plus que l'anisotropie. La correction CSLS ferme 63,5% de l'écart de réciprocité.

EmbeddingsBenchmarksMulti-agents
SIG
82
HYP
00
Reddit r/MachineLearning·

Added a Chrome Dino-style game to my research tool's pipeline wait screen driven by real SSE events [P]

ScholarScout v1.5.3 ajoute un jeu Chrome Dino au écran d'attente du pipeline (2-3 min). Un hibou pixel traverse une forêt en parallaxe ; chaque point de papier spawné correspond à un vrai événement SSE backend (600ms d'intervalle). Couleurs = source (arXiv blanc, PubMed vert, Crossref violet). Nouvelles fonctionnalités : clustering k-means sur embeddings, synthèse par cluster, gestion de fraîcheur des papiers.

OutilsRAGEmbeddings
SIG
65
HYP
00
Reddit r/MachineLearning·

[P] I built a system that lets you ask questions about any GitHub repo and get answers grounded in the actual source code [P]

GitRAG permet de poser des questions sur n'importe quel repo GitHub public et obtient des réponses ancrées dans le code source avec chemins de fichiers et numéros de lignes. Le système combine parsing AST, embeddings denses, index BM25, fusion RRF et reranking Cohere avant génération via llama-3.3-70b sur Groq. Supporte 15+ langages.

RAGEmbeddingsGénération de code
SIG
72
HYP
00
arXiv cs.CL·

Discovering Lexical Gaps Using Embeddings from Multilingual LLMs

Cadre automatisé pour détecter les lacunes lexicales (mots inexistants dans certaines langues) via embeddings de LLMs multilingues. Sur paires de traduction coréen-anglais, 4000 espaces d'embedding testés montrent que les mots lacunaires ont un alignement sémantique cross-lingue plus faible. Classifieurs logistiques atteignent AUC 0.81-0.76 et récupèrent 18/19 et 26/27 mots lacunaires.

EmbeddingsBenchmarksPapers
SIG
72
HYP
00
arXiv cs.CL·

Word Class Representations Spontaneously Emerge from Successor Representations Trained on Natural Language

Des chercheurs entraînent des réseaux de neurones sur WikiText-103 (103M tokens) en utilisant les Successor Representations (SR) du RL pour prédire les distributions de mots futurs. Sans supervision linguistique explicite, des catégories grammaticales (noms, verbes, adjectifs) émergent spontanément et deviennent séparables par clustering non supervisé, organisées selon l'horizon prédictif.

PapersRaisonnementEmbeddings
SIG
75
HYP
00
arXiv cs.CL·

Unveil: Unified Visual-Textual Integration and Distillation for Multi-modal Document Retrieval

Unveil est un framework d'embedding visual-textuel pour la récupération de documents multi-modaux. Il intègre features textuelles et visuelles via distillation de connaissance, transférant les capacités sémantiques d'un modèle visual-textuel vers un modèle purement visuel. Résultats : amélioration de la précision et de l'efficacité de retrieval sans parsing.

RAGEmbeddingsVision
SIG
72
HYP
00
arXiv cs.CL·

A Comparative Evaluation of Structural Topic Models and BERTopic for Short, Open-Ended Survey Responses

Comparaison de Structural Topic Models (STM) et BERTopic pour analyser des réponses courtes à des enquêtes ouvertes. BERTopic produit une cohérence thématique supérieure, renforcée par l'augmentation contextuelle (stratégie introduite pour enrichir les réponses très courtes). STM offre meilleure support pour l'analyse inférentielle des covariables, BERTopic pour l'interprétabilité.

EmbeddingsBenchmarksPapers
SIG
72
HYP
00
arXiv cs.LG·

Uncovering the Latent Potential of Deep Intermediate Representations

Étude sur la distribution non-monotone d'informations pertinentes aux tâches dans les couches intermédiaires des modèles fondamentaux. Propose LOES (Layer-wise Optimal Embedding Selection), méthode spectrale identifiant les sous-espaces discriminants, et GeoReg, régularisation géométrique stabilisant les représentations lors du fine-tuning. Gains croissants avec la profondeur du modèle.

Fine-tuningEmbeddingsPapers
SIG
72
HYP
00
arXiv cs.LG·

RADAR: Relative Angular Divergence Across Representations

RADAR est une métrique géométrique pour estimer la transférabilité cross-domaine dans les modèles de fondation. Elle analyse l'évolution couche par couche des représentations en mesurant les alignements angulaires et les changements de distance. Évaluée sur classification de sentiment cross-lingue et classification d'images cross-domaine, RADAR rivalise avec les métriques existantes.

BenchmarksVisionEmbeddings
SIG
72
HYP
00
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> qdrant /</span> qdrant

Qdrant est une base de données vectorielle haute performance conçue pour les applications IA à grande échelle. Disponible en open-source et en cloud.

Recherche vectorielleEmbeddingsInfrastructure
SIG
45
HYP
00
arXiv cs.CL·

A Comparative Study of Language Models for Khmer Retrieval-Augmented Question Answering

Étude comparative de systèmes RAG pour le khmer. BGE-M3 surpasse Jina-Embeddings-v3 et Qwen3-Embedding en dense retrieval (Hit Rate@3: 0.285). Évaluation de 5 générateurs (Qwen3, Qwen3.5, Sailor2, SeaLLMs-v3, Llama-SEA-LION-v2) sur 200 QA pairs avec 6 métriques RAGAS. Aucun modèle ne domine tous les critères; le choix du retriever reste le goulot d'étranglement.

RAGEmbeddingsBenchmarks
SIG
72
HYP
00