Topic

#Embeddings

Les embeddings sont des représentations numériques (vecteurs) de données textuelles, visuelles ou audio, capturant leur sens sémantique. Par exemple, le modèle text-embedding-3-small d'OpenAI convertit des phrases en vecteurs pour la recherche ou la similarité.

40Articles

7Sources

69Signal moyen

arXiv cs.CL·18 juin

Morpheus: A Morphology-Aware Neural Tokenizer and Word Embedder for Turkish

Morpheus est un tokeniseur neural morphologie-aware pour le turc agglutinant. Le modèle utilise une programmation dynamique Poisson-binomial différentiable pour segmenter les morphèmes avec une compression de 1.425 bits/caractère et un alignement morphologique MorphScore F1 de 0.61 (vs ~0.32 pour les tokeniseurs subword). Lossless par construction : decode(encode(w)) = w.

Embeddings Papers Open source

SIG

HYP

arXiv cs.CL·18 juin

CoreMem: Riemannian Retrieval and Fisher-Guided Distillation for Long-Term Memory in Dialogue Agents

CoreMem propose une architecture mémoire pour agents dialogues personnalisés sur appareils edge (8 GB VRAM). Utilise la métrique Fisher-Rao pour la récupération (remplaçant la similarité cosinus) et la distillation de tokens guidée par Fisher pour la compression. Gains de +4.51 pp en raisonnement open-domain et +4.17 pp en raisonnement temporel sur LOCOMO et LongMemEval-S.

Agents IA RAG Embeddings

SIG

HYP

arXiv cs.CL·18 juin

Lost in a Single Vector: Improving Long-Document Retrieval with Chunk Evidence Aggregation

DICE améliore la récupération de documents longs en fragmentant le texte, encodant chaque chunk indépendamment, puis agrégant les vecteurs en une seule représentation. Sur LongEmbed, les gains atteignent 90.0 pour Dream Passkey >4k (vs 30.0) et 74.0 pour Needle >4k (vs 23.3). L'approche réduit l'indice de dilution d'évidence (EDI) dans 92.8% des cas.

RAG Embeddings Recherche vectorielle

SIG

HYP

arXiv cs.CL·18 juin

MCompassRAG: Topic Metadata as a Semantic Compass for Paragraph-Level Retrieval

MCompassRAG améliore les systèmes RAG en utilisant des métadonnées de sujets comme guide sémantique pour la récupération de paragraphes. La méthode enrichit les représentations de chunks avec des signaux au niveau des sujets dans le même espace d'embedding et entraîne un retrieveur léger par distillation LLM. Sur six benchmarks, elle gagne 8,24% en efficacité informationnelle avec 5× moins de latence.

RAG Embeddings Benchmarks

SIG

HYP

arXiv cs.CL·17 juin

Examining the Limits of Word2Vec with Toki Pona

Étude de Word2Vec sur Toki Pona, langue construite de ~130 mots. Entraînement sur 1,4M phrases (7,95M tokens). Comparaison de deux modèles : avec et sans tokens non-Toki Pona (noms propres, emprunts). Résultat : les tokens rares rapprochent les mots similaires ; Word2Vec fonctionne même avec vocabulaire extrêmement réduit, grâce aux patterns distributionnels.

Embeddings Papers Benchmarks

SIG

HYP

arXiv cs.AI·16 juin

Fusion is not one-size-fits-all: Cross-Modal Representation Alignment for Time-to-Event Modeling

Framework de fusion multimodale pour prédire le temps jusqu'à un événement clinique (mortalité PE, résultats CVD) en alignant représentations CT et données EHR longitudinales via modèles fondation. Quatre stratégies testées (late fusion, contrastive alignment, cross-attention, co-attention) sur 3,099-2,951 patients. Fusion contrastive améliore l'indice de concordance de 1,5-5,4% vs unimodal.

Benchmarks Embeddings Vision

SIG

HYP

arXiv cs.CL·16 juin

AthDGC: An Open Diachronic Greek Treebank with Indo-European Parallels

AthDGC est un treebank de dépendances en grec ancien et moderne couvrant 8 périodes (archaïque à moderne) sous schéma PROIEL XML 2.0. Alignement multilingue du Nouveau Testament avec latin, gotique, slavon et arménien. Annotation via Stanford Stanza, alignement phrase via LaBSE, alignement mot via multilingual-BERT. v0.4 en accès ouvert.

Benchmarks Open source Embeddings

SIG

HYP

arXiv cs.AI·16 juin

Hierarchical Modeling of ICD Codes in EHR Foundation Models

Étude sur l'intégration de la hiérarchie ICD-10-CM dans les modèles de fondation EHR. Les auteurs comparent deux approches : augmentation de séquences BERT avec tokens hiérarchiques et injection de hiérarchie dans des représentations graphiques. Expériences sur MIMIC-IV et eICU montrent que l'encodage explicite de la hiérarchie améliore les prédictions en domaine et en transfert cross-dataset.

Papers Embeddings RAG

SIG

HYP

arXiv cs.CL·16 juin

Transfer Learning for FHIR Questionnaire Terminology Binding

Étude de retrieval pour lier automatiquement des codes LOINC à des questionnaires FHIR en santé. Six méthodes testées (TF-IDF, MiniLM, BioBERT, BioLORD, fine-tuning contrastif, GPT reranker) sur 97 314 codes. BioLORD (encodeur pré-entraîné sur ontologies biomédicales) atteint R@1=0.185 sans données spécifiques ; fine-tuning contrastif obtient R@5=0.389. Augmentation GPT dégrade les performances.

Embeddings Fine-tuning RAG

SIG

HYP

Reddit r/MachineLearning·15 juin

Concept-Vector: A design framework for human-interpretable word embeddings [P]

Concept-Vector propose un cadre de design pour transformer les embeddings de mots en vecteurs interprétables par l'humain, où chaque composante représente des aspects sémantiques, syntaxiques ou statistiques avec des labels lisibles. Projet de design de données sans validation empirique sur modèles, partagé pour retours critiques.

Embeddings Papers

SIG

HYP

arXiv cs.LG·15 juin

Numbers Already Carry Their Own Embeddings

AOE (Adelic operation-preserved embeddings) est une représentation sans entraînement qui encode les nombres en préservant structure additive et multiplicative via signatures p-adiques. Plug-and-play, elle atteint 100% sur le benchmark Weaving Pattern et améliore les performances en combinatoire algébrique sans retraining spécifique.

Embeddings Benchmarks Papers

SIG

HYP

arXiv cs.AI·15 juin

Hyperdimensional computing for structured querying on tabular data embeddings

Approche utilisant Hyperdimensional Computing (HDC) et Holographic Reduced Representations pour embeddings de données tabulaires. Dérive des seuils de similarité interprétables pour requêtes structurées (égalité/inégalité), évalue sur deux datasets réels contre baseline EmbDI. HDC détecte fiablement les requêtes sans résultats.

Embeddings Recherche vectorielle Papers

SIG

HYP

arXiv cs.CL·15 juin

Fusing Stylometric and Embedding Systems to Estimate Authorship Likelihood Ratios in Japanese

Première application du cadre de rapport de vraisemblance (likelihood ratio) à l'attribution d'auteur en japonais. Fusion de systèmes stylométriques et d'embeddings de modèles de langage pré-entraînés sur ~1000 caractères de blogs. Le système fusionné améliore la discrimination (log-likelihood-ratio cost: 0.32484) tout en maintenant une bonne calibration.

Embeddings Benchmarks Papers

SIG

HYP

arXiv cs.LG·12 juin

Bernstein-Schur Kernels: Random Features by Sketched Modulation and Radial Randomization

Kernels de Bernstein-Schur : construction de random features combinant sketching de modulation finie et randomisation radiale via échelle de Bernstein-Widder. Dimension de features Dm sans coût O(d²) de la modulation exacte. Garanties de variance exacte et bornes d'opérateur contrôlées par dimension intrinsèque, avec applications au kernel ridge regression.

Papers Benchmarks Embeddings

SIG

HYP

arXiv cs.CL·11 juin

Energy-Efficient On-Device RAG on a Mobile NPU: System Design and Benchmark on Snapdragon X Elite

Première implémentation complète d'un pipeline RAG sur NPU mobile (Snapdragon X Elite Hexagon). Tous les stages (embedding, reranking, génération LLM) tournent on-device. Sur benchmark Wikipedia 120 requêtes : 18.1x plus rapide en prefilling LLM, 4.0x moins d'énergie système que CPU, qualité réponses identique (GPT-4.1 judge : 9.32 vs 8.95 CPU).

RAG Embeddings

SIG

HYP

arXiv cs.LG·11 juin

Bernstein-Schur Kernels: Random Features by Sketched Modulation and Radial Randomization

Kernels de Bernstein-Schur : construction de random features combinant sketching de modulation finie et randomisation de facteurs radiaux complètement monotones. Dimension des features = Dm (sketch size m × radial draws D), sans dépendance O(d²). Garanties : non-biais, bornes operator-norm contrôlées par dimensions intrinsèques, stabilité spectrale pour kernel ridge regression.

Papers Benchmarks Embeddings

SIG

HYP

arXiv cs.AI·10 juin

One Token per Multimodal Evidence: Latent Memory for Resource-Constrained QA

Latent Memory remplace chaque élément de mémoire (texte/image) par un unique token latent compressé, réduisant la consommation de tokens du générateur de 3-10x. Entraîné avec objectifs de reconstruction, contrastif et distillation, le système atteint des performances compétitives sur HotpotQA et benchmarks multimodaux tout en diminuant la pression mémoire.

RAG Embeddings Vision

SIG

HYP

arXiv cs.AI·10 juin

A Unified Multi-Modal Framework for Intelligent Financial Systems: Integrating Reinforcement Learning, High-Frequency Trading, and Game-Theoretic Approaches with Cross-Modal Sentiment Analysis

Framework unifié intégrant PPO, prédiction time-series, in-context learning, théorie des jeux et analyse de sentiment cross-modal pour systèmes financiers. Résultats : +23.7% optimisation portefeuille, -31.2% erreur trading haute fréquence, +18.9% recommandations, +27.4% convergence Nash, +15.6% sentiment analysis.

Reinforcement learning Benchmarks Raisonnement

SIG

HYP

arXiv cs.AI·10 juin

Cross-Modal Knowledge Distillation without Paired Data: Theoretical Foundation and Algorithm

Nouvelle méthode de distillation de connaissances cross-modal sans données appariées. Le framework établit une relation distributionnelle entre modèles teacher et student, identifiant deux quantités clés : l'alignement des features et l'alignement des labels. Amélioration significative sur benchmarks multimodaux.

Papers RAG Embeddings

SIG

HYP

Reddit r/LocalLLaMA·9 juin

Semantic distance as routing layer: an on-device, serverless alternative to the central-index model

Prototype décentralisé utilisant des embeddings locaux (EmbeddingGemma-300M) pour remplacer les index centralisés. Les appareils communiquent en peer-to-peer, classent les contenus par distance sémantique (cosine similarity) sans serveur ni ranking global. Extension proposée aux agents IA découvrant mutuellement leurs besoins/offres par proximité sémantique.

Embeddings Agents IA Open source

SIG

HYP

GitHub Trending·9 juin

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> chroma-core /</span> chroma

Chroma est une infrastructure de recherche vectorielle pour applications IA. Le projet GitHub trending propose des outils de stockage et requête de vecteurs d'embeddings pour RAG et systèmes basés sur des modèles de langage.

Recherche vectorielle Embeddings RAG

SIG

HYP

Reddit r/MachineLearning·8 juin

Why I stopped using semantic embeddings for tool selection and switched back to BM25 [D]

Un développeur d'agents a abandonné les embeddings sémantiques pour la sélection d'outils au profit de BM25. Avec 140 outils MCP en production, la similarité cosinus sur descriptions courtes (<50 tokens) échouait (64% accuracy) : les discriminants clés (noms spécifiques) se diluaient dans l'espace embedding. BM25 sur projection texte plate atteint 81% top-1.

Agents IA MCP RAG

SIG

HYP

Reddit r/LocalLLaMA·8 juin

Used local Ollama (gemma4:e4b + nomic-embed-text) to bulk-generate AI summaries for 4300 arXiv papers and push them to a remote Cloudflare DB — pipeline walkthrough

Développeur a construit ArxivExplorer, moteur de recherche sémantique arXiv avec résumés générés par IA. Pipeline local utilise Ollama : gemma4:e4b (8B) pour résumés structurés JSON, nomic-embed-text (137M) pour embeddings 768-dim. 4300 papiers traités, taux succès ~95%, stockage via Cloudflare D1/Vectorize. REST API 100× plus rapide que wrangler.

RAG Embeddings Open source

SIG

HYP

Reddit r/MachineLearning·8 juin

Memanto vs SQLite R_A_G Benchmark Results - Cloud vs Local Memory Systems [P]

Benchmark comparatif entre Memanto (système mémoire cloud) et SQLite RAG custom sur le dataset LoCoMo. Memanto atteint 90% de précision en 1.878s vs 80% en 2.680s pour SQLite. L'analyse révèle que SQLite souffre de limites API (HTTP 429), tandis que Memanto bénéficie d'une architecture découplée résiliente aux quotas partagés.

RAG Benchmarks Recherche vectorielle

SIG

HYP

arXiv cs.AI·8 juin

Zero-Shot Embedding Drift Detection: A Lightweight Defense Against Prompt Injections in LLMs

ZEDD (Zero-Shot Embedding Drift Detection) détecte les injections de prompts en mesurant les décalages sémantiques dans l'espace d'embedding entre entrées bénignes et suspectes. Sans accès aux internals du modèle ni réentraînement, la méthode atteint >93% de précision sur Llama 3, Qwen 2, Mistral avec <3% de faux positifs.

Sécurité IA Embeddings Prompt engineering

SIG

HYP

arXiv cs.AI·8 juin

Trading Engagement for Sustainability: Carbon-Aware Re-ranking for E-commerce Recommendations

Étude sur les systèmes de recommandation e-commerce intégrant l'empreinte carbone des produits. Les chercheurs estiment les PCF manquantes via recherche sémantique et prompting LLM, puis appliquent un re-ranking post-hoc sur BPR, NeuMF et LightGCN. Sur Amazon Reviews (3 catégories), des réductions carbone substantielles sont possibles avec coût d'engagement minimal.

RAG Embeddings

SIG

HYP

GitHub Trending·7 juin

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> RyanCodrai /</span> turbovec

TurboVec est un index vectoriel construit sur TurboQuant, écrit en Rust avec liaisons Python. Optimisé pour les recherches vectorielles haute performance.

Recherche vectorielle Embeddings Open source

SIG

HYP

GitHub Trending·7 juin

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> RyanCodrai /</span> turbovec

TurboVec est un index vectoriel construit sur TurboQuant, écrit en Rust avec liaisons Python. Optimisé pour la recherche vectorielle haute performance.

Recherche vectorielle Embeddings Open source

SIG

HYP

arXiv cs.CL·5 juin

Multilingual Coreference Resolution via Cycle-Consistent Machine Translation

Méthode de résolution de coréférence multilingue utilisant la traduction automatique cyclique (anglais → langue cible → anglais) pour générer des données d'entraînement. La qualité des traductions est validée via similarité cosinus en espace latent BERT. Gains significatifs sur 4 langues peu dotées en ressources.

Benchmarks Embeddings Papers

SIG

HYP

arXiv cs.CL·5 juin

Predict and Reconstruct: Joint Objectives for Self-Supervised Language Representation Learning

Nouvelle approche de pré-entraînement combinant MLM (Masked Language Modeling) et JEPA (Joint Embedding Predictive Architecture) pour les encodeurs texte. Modèle hybride entraîné sur Wikipedia anglais avec budget identique. Résultats : embeddings plus uniformes (-0.16 vs -0.05), géométrie spectrale riche, meilleur équilibre sémantique-lexical sur benchmarks GLUE.

Papers Fine-tuning Embeddings

SIG

HYP

Hacker News (AI)·4 juin

Inside FAISS: Billion-Scale Similarity Search

Article technique sur FAISS, la bibliothèque Meta pour la recherche de similarité à l'échelle du milliard. Couvre l'architecture interne, les algorithmes d'indexation et les optimisations pour requêtes massives.

Recherche vectorielle Embeddings Infrastructure

SIG

HYP

Reddit r/LocalLLaMA·4 juin

I Built a Practical Guide to LLM Engineering: RAG, Retrieval, Rerankers, and Evaluation

Guide pratique open-source sur les patterns d'ingénierie LLM : RAG, recherche hybride, rerankers, évaluation. Couvre pré-filtrage, scoring en mémoire vs bases vectorielles, batching, nettoyage. Exemples Python inclus. L'auteur souligne que la qualité du harness d'ingénierie égale celle du modèle pour les solutions en production.

RAG Recherche vectorielle Embeddings

SIG

HYP

arXiv cs.CL·4 juin

Fine-grained Fragment Retrieval in Multi-modal Long-form Dialogues

Nouvelle approche FFR pour récupérer des fragments cohérents multi-énoncés et multi-images dans les dialogues longs multimodaux. Deux modèles : F2RVLM (génération + RL avec récompenses multi-objectifs) pour fragments uniques, FFRS (indexation + retrieval deux étapes) pour corpus. Dataset MLDR créé, résultats supérieurs sur benchmarks.

RAG Vision Embeddings

SIG

HYP

arXiv cs.LG·4 juin

KODA: Contrastive Representation Comparison and Alignment for Vision-Language Foundation Models

KODA est un framework kernel-based pour comparer et aligner les représentations de modèles vision-langage (CLIP, SigLIP). La méthode identifie des sous-ensembles d'échantillons faiblement groupés dans une représentation mais fortement groupés dans une autre, via optimisation contrainte et approximations low-rank. Code disponible.

Vision Embeddings Benchmarks

SIG

HYP

arXiv cs.LG·4 juin

Training-Free Lexical-Dense Fusion for Conversational-Memory Retrieval

Étude de fusion lexicale-dense sans entraînement pour la récupération en mémoire conversationnelle longue. Fusion score-level de late-interaction dense + BM25 améliore Hit@1 de +8.8 à +17.2 points sur six encodeurs (Hit@1 0.752 avec e5-large-v2). Reranker cross-encoder web dégrade les résultats (-6.9 pp). Analyse montre division du travail : dense excelle sur questions multi-hop/temporelles, BM25 sur adversariales.

RAG Embeddings Benchmarks

SIG

HYP

Reddit r/LocalLLaMA·3 juin

Mellum & Granite Embedding models are ready on llama.cpp

Mellum et Granite, deux modèles d'embedding, sont désormais disponibles sur llama.cpp. Deux pull requests intègrent leur support dans le framework.

Embeddings Open source Outils

SIG

HYP

arXiv cs.CL·3 juin

SEA-Embedding: Open and Reproducible Text Embeddings for Southeast Asia

SEA-Embedding est un pipeline d'embeddings textuels open-source et reproductible pour les langues d'Asie du Sud-Est, entraîné uniquement sur données publiques. L'étude analyse trois facteurs clés : composition des données, objectif d'entraînement et initialisation de l'encodeur. Résultats SOTA sur SEA-BED.

Embeddings Open source Papers

SIG

HYP

arXiv cs.LG·3 juin

Learning Coherent Representations: A Topological Approach to Interpretability

Nouvelle approche topologique pour l'interprétabilité des réseaux de neurones profonds. Les auteurs introduisent la « cohérence », une propriété géométrique où chaque neurone répond à des régions contiguës de l'espace d'état. Ils proposent Coh, une fonction objectif différentiable basée sur la variance de Fréchet, validée sur MNIST et les embeddings BERT.

Papers Embeddings

SIG

HYP

arXiv cs.LG·3 juin

CL-DMDF:Dynamic Multimodal Data Fusion Model Based on Contrastive Learning

CL-DMDF propose un modèle de fusion multimodale dynamique basé sur l'apprentissage contrastif, conçu pour gérer les modalités manquantes ou incertaines. Le modèle introduit un mécanisme d'attention bi-dimensionnel (features et modalités) et un module d'apprentissage contrastif centroïde pour améliorer la discrimination. Validé sur trois datasets.

Embeddings Papers

SIG

HYP

arXiv cs.LG·3 juin

Cross-Modal Contrastive Learning of ECG and Angiography Representations for Severe Stenosis Classification

StenCE, un framework de préentraînement par contrastive learning, détecte les signes de sténose coronarienne sévère à partir d'ECG non-invasifs. Évalué sur plusieurs seuils de sévérité, le modèle surpasse les approches antérieures et permet une stratification précoce des patients sans symptômes.

Vision Embeddings Benchmarks

SIG

HYP