Topic

#Recherche vectorielle

La recherche vectorielle consiste à retrouver des données similaires en comparant leurs représentations numériques (embeddings) dans un espace mathématique. Pinecone, par exemple, est une base de données spécialisée dans ce type de recherche.

29Articles
10Sources
68Signal moyen
arXiv cs.AI·

Vector Linking via Cross-Model Local Isometric Consistency

Méthode pour établir des correspondances entre vecteurs d'embeddings produits par différents encodeurs. Exploite la cohérence géométrique locale des encodeurs contrastifs entraînés indépendamment : les distances courtes sont préservées à un facteur d'échelle près. Utilise un hachage géométrique itératif basé sur des ancres appairées pour récupérer les liens vectoriels. Code disponible.

EmbeddingsRecherche vectorielleBenchmarks
SIG
72
HYP
00
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> meilisearch /</span> meilisearch

Meilisearch est un moteur de recherche API ultra-rapide offrant une recherche hybride alimentée par l'IA pour sites et applications.

Recherche vectorielleEmbeddingsOutils
SIG
45
HYP
00
Reddit r/MachineLearning·

Aiki my local Wikipedia Retrieval-Augmented Generation system [R]

Aiki est un outil léger de RAG local permettant de discuter avec Wikipedia hors ligne. Il télécharge et segmente les articles Wikipedia, utilise un retriever TF-IDF + cosine similarity personnalisé, supporte l'expansion de requêtes via liens Wikipedia, et génération optionnelle de réponses par LLM. Dépendances minimales, exécution entièrement locale.

RAGRecherche vectorielleOpen source
SIG
45
HYP
00
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> qdrant /</span> qdrant

Qdrant est une base de données vectorielle haute performance conçue pour les applications IA à grande échelle. Disponible en open-source et en cloud.

Recherche vectorielleEmbeddingsInfrastructure
SIG
45
HYP
00
arXiv cs.CL·

Beyond Semantic Similarity: A Two-Phase Non-Parametric Retrieval Workflow for Corporate Credit Underwriting

Système RAG deux phases pour l'analyse de crédit corporate : phase 1 combine recherche lexicale et dense multilingue ; phase 2 applique contrôleur adaptatif et scoring LLM-as-Judge basé sur l'utilité analytique plutôt que similarité sémantique. Déploiement on-premise sur corpus multilingue propriétaire. En production : temps d'analyse réduit de plusieurs heures à 3 minutes pour 800+ analystes.

RAGRecherche vectorielleEmbeddings
SIG
82
HYP
00
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> lance-format /</span> lance

Lance est un format lakehouse ouvert pour l'IA multimodale. Convertit depuis Parquet en 2 lignes de code avec accès aléatoire 100x plus rapide, indexation vectorielle et versioning. Compatible Pandas, DuckDB, Polars, PyArrow, PyTorch.

Recherche vectorielleEmbeddingsOpen source
SIG
72
HYP
00
arXiv cs.AI·

Surface-Form Neural Sparse Retrieval: Robust Fuzzy Matching for Industrial Music Search

Amazon Music déploie un système de récupération neurale sparse robuste pour la recherche musicale à grande échelle. Le système gère les fautes de frappe, transpositions et variations phonétiques avec 91,4% de recall@10 sur 6M documents, surpassant les trigrammes (57,7%). Architecture inference-free avec tokenization subword granulaire (max 3 chars) et zéro latence en ligne.

RAGEmbeddingsRecherche vectorielle
SIG
78
HYP
00