Topic

#Mistral

Mistral est une entreprise française fondée en 2023 qui développe des modèles de langage open-weight performants et accessibles. Son modèle Mistral 7B, publié librement, a démontré qu'un modèle compact pouvait rivaliser avec des modèles bien plus grands sur de nombreuses tâches.

28Articles
11Sources
64Signal moyen
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> EricLBuehler /</span> mistral.rs

mistral.rs est un framework d'inférence LLM optimisé pour la vitesse et la flexibilité. Projet open-source permettant l'exécution efficace de modèles de langage.

MistralOpen sourceInfrastructure
SIG
65
HYP
00
arXiv cs.AI·

LightTransfer: Your Long-Context LLM is Secretly a Hybrid Model with Effortless Adaptation

LightTransfer transforme les modèles de langage (LLaMA, Mistral, QwQ-STILL) en architectures hybrides sans entraînement. La méthode identifie les couches « paresseuses » et remplace leur attention complète par une attention en streaming, réduisant les coûts de cache KV. Résultats : jusqu'à 2,17× d'amélioration de débit avec <1,5% de perte sur LongBench et 53,3% sur AIME24.

LlamaMistralQwen
SIG
78
HYP
00
arXiv cs.CL·

LightTransfer: Your Long-Context LLM is Secretly a Hybrid Model with Effortless Adaptation

LightTransfer transforme les modèles de langage (LLaMA, Mistral, QwQ-STILL) en architectures hybrides sans entraînement. La méthode identifie les couches « paresseuses » et remplace leur attention complète par une attention en streaming, réduisant les coûts de cache KV. Résultats : jusqu'à 2,17× d'amélioration de débit avec <1,5% de perte sur LongBench et 53,3% sur AIME24.

LlamaMistralQwen
SIG
78
HYP
00