Topic

#Llama

Llama est une famille de grands modèles de langage open-weight développée par Meta AI, utilisable en recherche et en production. Par exemple, Llama 3 peut être exécuté localement ou affiné sur des données personnalisées via Hugging Face Transformers.

40Articles

5Sources

59Signal moyen

arXiv cs.AI·18 juin

ARIADNE: Agnostic Routing for Inference-time Adapter DyNamic sElection

ARIADNE est un framework sans entraînement pour sélectionner dynamiquement des adaptateurs au moment de l'inférence. Il représente chaque adaptateur par des centroïdes calculés à partir des embeddings de son ensemble d'entraînement. Testé sur Llama 3.2 1B avec 23 tâches NLP, il récupère 97,44% des performances optimales et atteint 89,7% de précision sur 44 tâches.

Fine-tuning Llama Benchmarks

SIG

HYP

arXiv cs.AI·18 juin

ProfiLLM: Utility-Aligned Agentic User Profiling for Industrial Ride-Hailing Dispatch

ProfiLLM est un pipeline LLM agentic déployé chez DiDi pour extraire des profils utilisateurs sémantiques à partir de logs comportementaux massifs. Le système utilise 27 outils analytiques pour miner les données et génère des profils alignés sur l'utilité prédictive, atteignant +6.14% d'amélioration AUC et +0.47% de GMV en test A/B.

Agents IA Llama RAG

SIG

HYP

Reddit r/LocalLLaMA·17 juin

llama.cpp now supports model management (downloading etc) via API

llama.cpp intègre la gestion de modèles via API (PR #23976). Téléchargement et chargement/déchargement à la demande depuis un répertoire. Interface utilisateur prévue. Déploiement et gestion du cycle de vie complets via API seule.

Llama Open source Infrastructure

SIG

HYP

Reddit r/LocalLLaMA·17 juin

llama.cpp - how to free up even more space on your GPU

llama.cpp optimise la gestion mémoire GPU. Les paramètres clés : --no-mmproj-offload libère 1GB pour modèles vision, --cache-type-k/v réduit KV cache de 50-75%, --spec-draft-n-max=2 optimise speculative decoding. Flash attention activé par défaut. Testé sur Qwen 3.6-27B avec contexte 150k sur RTX 3090.

Llama Open source Infrastructure

SIG

HYP

Reddit r/LocalLLaMA·17 juin

Local models went from mostly useless to actually useful really fast. What changed?

Les modèles locaux sont passés d'outils marginaux à des solutions viables en un an. Gemma, Qwen, GLM, Kimi remplacent désormais certains appels API pour le code, les documents privés et les workflows locaux, bien que le gap persiste sur les tâches complexes nécessitant planification et correction d'erreurs.

Llama Open source Qwen

SIG

HYP

Reddit r/LocalLLaMA·17 juin

Elias in the Lighthouse, Again? Diagnosing Low Diversity in LLM Stories

Analyse de la faible diversité narrative dans les histoires générées par LLM. L'auteur examine pourquoi les modèles produisent des récits répétitifs avec des personnages et structures similaires, malgré des prompts variés.

Llama Prompt engineering Évaluations

SIG

HYP

Hacker News (AI)·16 juin

GPT‑NL: a sovereign language model for the Netherlands

GPT-NL est un modèle de langage souverain entraîné pour le néerlandais, développé aux Pays-Bas. Le projet vise à réduire la dépendance aux modèles américains et à préserver l'indépendance technologique linguistique.

Open source Llama

SIG

HYP

Reddit r/LocalLLaMA·16 juin

Glimmer 1 - Glint Research. A foundational 10,000 parameter language model

Glint Research présente Glimmer 1, un modèle de langage fondationnel de 10k paramètres entraîné sur 500K tokens de FineWeb-Edu. Architecture standard Llama avec 16 dimensions cachées, 2 couches, 4 têtes d'attention et fenêtre de contexte de 512 tokens. Benchmarks : arc_easy 25.46%, wikitext-2 perplexité 14.73 (byte).

Llama Open source Benchmarks

SIG

HYP

Reddit r/LocalLLaMA·16 juin

[Article] The Case For Open-Weight Models And Why We Can't Trust Frontier Labs | provos.org

Article argumentant pour les modèles open-weight face aux labs frontier. Critique la concentration du pouvoir chez quelques entreprises et plaide pour l'accessibilité et la transparence des poids de modèles IA.

Open source Llama Alignement

SIG

HYP

Reddit r/LocalLLaMA·16 juin

Nex-N2 Pro is the real deal

N2 Pro (rebrandé Rio-3.5) démontre des performances solides en benchmarks de code sur macOS 128GB. L'utilisateur rapporte une cohérence 100% sans hallucinations sur des tests privés llama.cpp, surpassant les modèles testés précédemment sauf GPT-5.x.

Llama Génération de code Benchmarks

SIG

HYP

Reddit r/LocalLLaMA·16 juin

A fast, optimised, and open source application for running local AI easily (made for Apple Silicon only)

AeroLLM, application open source optimisée pour Apple Silicon, permet d'exécuter localement des LLM, TTS et STT via une interface graphique. Utilise MLX pour l'inférence native, télécharge les modèles depuis Hugging Face avec recommandations RAM, expose une API optionnelle. Version 0.1.0 disponible.

Open source Outils Llama

SIG

HYP

arXiv cs.AI·16 juin

Frame-Conditioned Moral Computation in LLaMA 3.1-8B-Instruct: A Mechanistic Interpretability Audit of Ethical Reasoning

Audit de mécanismes internes du modèle LLaMA 3.1-8B-Instruct sur 54 prompts moraux utilisant Transluce. Découverte d'un « Situational Anchor Effect » : les représentations domaine-spécifiques dominent indépendamment du contenu éthique. L'éthique reste constante en capacité mais très sensible au cadre interprétatif du prompt. Identification d'un neurone candidat (L16/N3837) stable en température.

Llama Alignement Évaluations

SIG

HYP

Reddit r/LocalLLaMA·16 juin

Nex2 mini Phase Twin - 16gb footprint, 30b model

Nex2 mini Phase Twin : modèle 30B optimisé pour 16GB VRAM. Conçu pour les cartes Intel A770, fonctionne sur une seule GPU et s'améliore avec deux. Atteint 89 tok/s sur A770 16GB. Calibrage automatique selon le matériel.

Open source Llama Génération de code

SIG

HYP

Reddit r/LocalLLaMA·15 juin

UI/svg block rendering by ServeurpersoCom · Pull Request #24080 · ggml-org/llama.cpp

Pull request #24080 sur llama.cpp ajoute le rendu de blocs UI/SVG. La démonstration vidéo montre des capacités de rendu SVG intégrées au projet.

Llama Open source Outils

SIG

HYP

arXiv cs.LG·15 juin

Efficient On-Device Diffusion LLM Inference with Mobile NPU

llada.cpp est le premier framework d'inférence optimisé pour les NPU mobiles accélérant les diffusion LLMs sur smartphones. Trois techniques réduisent la latence : Multi-Block Speculative Decoding, Dual-Path Progressive Revision, et Swap-Optimized Memory Runtime. Sur LLaDA-8B, gains de 17x-42x vs CPU baseline.

Llama Génération de code Infrastructure

SIG

HYP

arXiv cs.LG·15 juin

Small LLMs: Pruning vs. Training from Scratch

Étude comparative du pruning vs. entraînement from scratch sur Llama-3.1-8B (ratios 0.5–0.8, 6 méthodes). Le pruning surpasse l'initialisation aléatoire avec budget tokens égal, mais cet avantage s'érode avec plus de tokens. Le pruning fin conserve un gain même avec budget illimité ; le pruning structuré grossier peut être rattrapé par l'entraînement from scratch.

Llama Benchmarks Papers

SIG

HYP

Reddit r/LocalLLaMA·14 juin

EAGLE support merged into llama.cpp

Le support EAGLE a été fusionné dans llama.cpp. EAGLE est une technique d'accélération de l'inférence pour les modèles de langage qui réduit la latence en prédisant plusieurs tokens en parallèle.

Llama Génération de code Infrastructure

SIG

HYP

Hacker News (AI)·14 juin

Cloud-based LLM gold rush is ending

Le boom des LLM cloud touche à sa fin. Les coûts d'inférence baissent, la concurrence s'intensifie et les marges se compriment. Les fournisseurs doivent innover au-delà du simple accès API pour survivre.

Business Llama OpenAI

SIG

HYP

Reddit r/LocalLLaMA·14 juin

Introducing the Heretic Grimoire: The takedown-resilient, local-first backup system that keeps uncensored models available forever

Heretic annonce un système de sauvegarde décentralisé pour les modèles locaux non censurés. Les modèles sont compressés à 9 KB, permettant le stockage sur téléphone. Le projet crée une infrastructure résiliente face aux takedowns, avec site officiel et documentation redondante.

Open source Llama Sécurité IA

SIG

HYP

Reddit r/LocalLLaMA·13 juin

#24260 merged Llama.cpp Arch Cohere-Moe Support Added

Le PR #24260 de llama.cpp ajoute le support de l'architecture Cohere-MoE. Les utilisateurs testent les modèles North Mini Code, plus compacts (3GB de moins en Q8) que Qwen 3.6 27B pour l'inférence locale sur homelab.

Llama Open source Génération de code

SIG

HYP

Reddit r/LocalLLaMA·13 juin

A single federal order switched off the best cloud model overnight. Clearest case for running local I've seen yet.

Un modèle cloud frontier a été suspendu globalement en 48h après un ordre du Commerce américain limitant l'accès aux ressortissants étrangers. L'incident illustre le risque de dépendance aux services cloud : un modèle local 70B reste opérationnel sans interruption, plus lent mais autonome.

Open source Régulation Llama

SIG

HYP

Reddit r/LocalLLaMA·13 juin

llama-launcher v1.3 release -> Bayesian Optimisation

llama-launcher v1.3 ajoute une optimisation bayésienne via Optuna pour tuner automatiquement les paramètres de llama-server. L'outil rapporte jusqu'à 15% d'amélioration de vitesse sur Gemma 12B MTP sans intervention manuelle.

Llama Outils Open source

SIG

HYP

Reddit r/LocalLLaMA·13 juin

Some thoughts on decentralized model sharing: What models should we share, and how?

Discussion sur la distribution décentralisée des modèles LLM open-source. L'auteur propose de prioriser le partage des modèles de base non-quantifiés (fp16/bf16) plutôt que les variantes dérivées, arguant que les modèles de base sont les données primaires essentielles à préserver face aux restrictions croissantes des éditeurs fermés.

Open source Llama Infrastructure

SIG

HYP

Reddit r/LocalLLaMA·12 juin

PWA Support has been merged

Le support PWA a été fusionné dans llama.cpp (PR #23871). L'interface web du serveur llama peut désormais s'installer comme une app native sur bureau/écran d'accueil, avec mode fenêtre autonome et icônes appropriées.

Llama Open source Outils

SIG

HYP

Reddit r/LocalLLaMA·12 juin

Comparing dual-GPU inference speed between llama.cpp row/tensor split and ik_llama graph split

Benchmark dual-GPU (2× RTX 3080 20GB) comparant llama.cpp (row/tensor split) vs ik_llama (graph split) sur Qwen3.6-27B-Q8_0. Row split : 1732 t/s prompt, 23 t/s génération, VRAM 18.2/18.5 GB. Tensor et graph split non détaillés dans l'extrait.

Llama Benchmarks Génération de code

SIG

HYP

Reddit r/LocalLLaMA·12 juin

Not All MTP Assistants Are Created Equal

Expérience avec MTP (Multi-Token Prediction) en speculative decoding sur llama.cpp. Les assistants MTP ne sont pas interchangeables : même nom et architecture ne garantissent pas les mêmes performances. Gemma 4 26B Q4 : ~30 t/s → 55-62 t/s avec le bon assistant. Les modèles assistants non quantifiés surpassent les versions Q4 (~10 t/s plus rapides).

Llama Génération de code Benchmarks

SIG

HYP

Reddit r/LocalLLaMA·12 juin

EAGLE3 has landed in llama.cpp

EAGLE3 intégré à llama.cpp après 6 mois de développement. Le modèle assistant reçoit des indications du modèle principal, contrairement à MTP où il opère indépendamment.

Llama Open source

SIG

HYP

Reddit r/LocalLLaMA·12 juin

Open sourcing InfiniteKV: a KV cache that files old tokens as 104-byte searchable records in RAM or on disk instead of deleting them. Mistral-7B answered from token 76,747, 2.3x past its trained window. Colab demo

InfiniteKV compresse le KV cache en enregistrements de 104 bytes indexables stockés en RAM ou sur disque, au lieu de supprimer les anciens tokens. Mistral-7B répond correctement à token 76,747 (2.3× sa fenêtre d'entraînement de 32,768). Un million de tokens nécessite ~3 GB au lieu de 122 GB.

Open source Infrastructure Llama

SIG

HYP

Reddit r/LocalLLaMA·12 juin

LLM context compression at 16x beats KV cache

Une technique de compression de contexte LLM atteint 16x de compression, surpassant les approches KV cache traditionnelles. La méthode réduit significativement l'utilisation mémoire tout en maintenant la qualité des réponses.

Llama

SIG

HYP

arXiv cs.AI·12 juin

Zero-source LLM Hallucination Detection with Human-like Criteria Probing

HCPD, une méthode de détection d'hallucinations sans accès aux internals du modèle ou références externes. Un agent LLM décompose adaptativement son jugement en critères pondérés et interprétables, aligné par supervision faible sur la cohérence sémantique. Code disponible.

Llama Agents IA Évaluations

SIG

HYP

arXiv cs.CL·12 juin

Localizing Anchoring Pathways in Language Models

Étude des mécanismes internes d'ancrage numérique dans les modèles de langage. Les chercheurs localisent les circuits responsables des biais d'ancrage (où des nombres hors contexte influencent les réponses) dans Qwen et Llama 7B-8B. Les méthodes au niveau des arêtes capturent mieux ce signal que les méthodes au niveau des nœuds.

Qwen Llama Raisonnement

SIG

HYP

Reddit r/LocalLLaMA·12 juin

PSA: Test your "threads" argument in llama.cpp (+80% performance in my case)

Benchmark llama.cpp sur CPU Intel 250K Plus : optimiser l'argument --threads améliore les performances de +80% (49 → 88 tok/s). 16 threads optimal vs 6 threads (P-cores uniquement). Avec 18 cores, baisse de performance sans throttling détecté.

Llama Génération de code Infrastructure

SIG

HYP

Reddit r/LocalLLaMA·11 juin

advice for dual-gpu asymmetric

Utilisateur avec RTX 3080 Ti 12GB + RTX 3080 20GB cherche à optimiser l'inférence asymétrique. Gemma 4 31B en Q4_K_XL atteint 20t/s avec cache standard, 70t/s en compressant cache K/V en q4_0. Demande clarification sur expansion mémoire GGUF et conseils configuration dual-GPU.

Llama Génération de code Infrastructure

SIG

HYP

Reddit r/LocalLLaMA·11 juin

Reviewing speed optimizations on llamacpp for large MoE models on multiGPU rigs? (fitparams vs -ngl/-ncmoe vs other flags, P2P, overclocking)

Discussion sur les optimisations de vitesse pour llama.cpp avec modèles MoE sur multi-GPU. L'auteur explore les flags -ngl, -ncmoe, -fitt, -ub et leur impact sur throughput (50→120 tps en prompt processing). Débat sur la pertinence pratique de ces optimisations pour une carrière en IA.

Llama Open source Infrastructure

SIG

HYP

Reddit r/LocalLLaMA·11 juin

NVFP4 with llama.cpp - FAQs?

Discussion communautaire sur NVFP4 dans llama.cpp. Utilisateurs comparent NVFP4 avec quantifications Q4-Q8 pour GPUs 8GB (RTX 4060, AMD, Intel). Questions : qualité NVFP4 vs Q6/Q8, benchmarks (vitesse, perplexité), modèles recommandés (Qwen 3.5-9B, Gemma-4-12B). Ressources : listes HuggingFace NVFP4 et GGUFs.

Llama Open source Benchmarks

SIG

HYP

Reddit r/LocalLLaMA·11 juin

Minimax M3 open weights release planned for Friday

Minimax annonce la sortie en open weights de son modèle M3 prévue vendredi. Le modèle sera accessible en poids ouverts, permettant aux développeurs de l'utiliser localement sans restrictions propriétaires.

Open source Llama

SIG

HYP

arXiv cs.AI·11 juin

AutoMine Solution for AV2 2026 Scenario Mining Challenge

AutoMine, une méthode de mining de scénarios basée sur LLM et VLM, extrait des scénarios critiques des logs de conduite autonome. Utilise l'augmentation de prompts et des fonctions atomiques robustes. Score HOTA-Temporal de 36.38 à la compétition Argoverse 2 CVPR 2026.

Llama Vision Génération de code

SIG

HYP

arXiv cs.AI·11 juin

A Lightweight Multi-Agent Framework for Automated Concrete Barrier Design

Framework multi-agent AutoGen pour la conception automatisée de barrières en béton armé. Atteint 98% de précision en design en boucle fermée génération-évaluation-optimisation. Un modèle 8B surpasse des modèles 631B non contraints, réduisant coûts computationnels tout en respectant normes AASHTO-LRFD.

Multi-agents Agents IA Llama

SIG

HYP

arXiv cs.CL·11 juin

Calibration Drift Under Reasoning: How Chain-of-Thought Budgets Induce Overconfidence in Large Language Models

Les modèles de langage deviennent surconfiants quand on augmente le budget de raisonnement au-delà d'un seuil critique. Ce phénomène, appelé Calibration Drift Under Reasoning (CDUR), est étudié sur Llama-3.1-8B et Llama-3.3-70B. Les auteurs proposent CABStop, une règle d'arrêt calibrée pour arrêter le raisonnement quand la confiance diverge de l'exactitude réelle.

Llama Raisonnement Évaluations

SIG

HYP

arXiv cs.LG·11 juin

Dual-Stance Evaluation of Sycophancy: The Structure of Agreement and the Limits of Intervention

Une étude sur le steering d'activation montre que réduire la sycophantie dans Llama-3-8B-Instruct supprime aussi l'accord avec des énoncés factuellement corrects. Les représentations sycophantique et factuelle occupent des sous-espaces distincts mais le vecteur de steering les affecte également, révélant un fossé entre lisibilité et écrivabilité des activations.

Llama Alignement Sécurité IA

SIG

HYP