Topic

#Llama

Llama est une famille de grands modèles de langage open-weight développée par Meta AI, utilisable en recherche et en production. Par exemple, Llama 3 peut être exécuté localement ou affiné sur des données personnalisées via Hugging Face Transformers.

40Articles
7Sources
65Signal moyen
arXiv cs.CL·

Fast-dLLM++: Fr\'{e}chet Profile Decoding for Faster Diffusion LLM Inference

Fast-dLLM++ améliore l'inférence des modèles de diffusion LLM en remplaçant la sélection de tokens par confiance homogène par un décodage basé sur le profil Fréchet. Sans entraînement supplémentaire, cette méthode exploite les profils de confiance hétérogènes pour paralléliser davantage de tokens, gagnant jusqu'à 37% de débit sur GSM8K, MATH, HumanEval et MBPP avec LLaDA-8B.

LlamaGénération de codeBenchmarks
SIG
78
HYP
00
arXiv cs.CL·

SENSE: Semantic Embedding Navigation with Soft-gated Evaluation for Retrieval-based Speculative Decoding

SENSE améliore le décodage spéculatif basé sur la récupération en utilisant les états cachés du modèle cible pour l'alignement sémantique. Un module d'évaluation soft-gated valide l'équivalence sémantique plutôt que les formes de surface. Sur LLaMA et Qwen, SENSE atteint 4.09 longueur d'acceptation moyenne et 3.26x d'accélération.

LlamaQwenRaisonnement
SIG
78
HYP
00
arXiv cs.CL·

ImmigrationQA: A Source-Grounded Dataset and Small-Model Adaptation for U.S. Immigration Law

ImmigrationQA : dataset de 17 058 paires QA source-grounded sur le droit d'immigration américain (13 sous-domaines). Fine-tuning d'un Llama 3.2 3B avec LoRA sur corpus de 10 056 documents validés. Modèle fine-tuné : 1.08/3.0 (16.8% correct) vs Llama 3 8B base : 0.85/3.0 (4% correct), amélioration relative 27%. Coût : ~29$. Dataset, modèle et code publics.

LlamaFine-tuningRAG
SIG
78
HYP
00
arXiv cs.AI·

When LLM Reward Design Fails: Diagnostic-Driven Refinement for Sparse Structured RL

Étude arXiv sur l'affinage itératif des fonctions de récompense générées par LLM pour RL sparse structuré. Les auteurs identifient deux modes de défaillance dominants (reward flooding, incompréhension sémantique) et proposent un raffinement diagnostique guidé par taxonomie. Résultats : DoorKey-8x8 passe de 2,3% à 97,6%, KeyCorridor de 31,2% à 86,7%. Limites : méthode restreinte à PPO et tâches sparse structurées.

Reinforcement learningLlamaPrompt engineering
SIG
72
HYP
00
arXiv cs.LG·

Bounded Behavioral Indistinguishability for Black-Box LLM Distillation

Étude de la distillation de LLM en boîte noire via la notion de « bounded behavioral indistinguishability ». Les auteurs évaluent des paires Qwen et Llama avec une suite de 5 000 prompts, montrant que LoRA améliore la similarité sémantique (0.788→0.862 pour Qwen, 0.814→0.874 pour Llama) mais laisse subsister des différences comportementales détectables par adversaires.

Fine-tuningÉvaluationsSécurité IA
SIG
72
HYP
00
Reddit r/LocalLLaMA·

Flash Attention for llama.cpp on RDNA3: 47% less KV VRAM than Vulkan f16 K, KLD almost losselss on F16 K / q4_0 V. Part 1.

Optimisation Flash Attention pour llama.cpp sur GPU RDNA3 : réduction de 47% de la VRAM KV par rapport à Vulkan f16. Packing 8-bit des K-values dans instructions GPU natives sudot4, sans quantization lossy. À 128k contexte avec MTP draft : 21.76 GiB vs 23.18 GiB (gain 1.42 GiB). Qualité préservée : KLD moyen 0.00455 (q4_0 V), 97.06% top-token identiques.

LlamaGénération de codeBenchmarks
SIG
82
HYP
00
Reddit r/LocalLLaMA·

Speed difference between Windows 11 and Linux with llama.cpp: a myth when using medium and large MoE models

Benchmark llama.cpp comparant Windows 11 et Linux (Ubuntu 26.04) sur GPU Nvidia (RTX 5080 + 2× RTX 5060 Ti). Aucune différence significative de performance : Qwen 3.5 122B atteint PP 300/TG 28 (Windows) vs PP 290/TG 28.5 (Linux) ; Qwen 3.5 397B : PP 140/TG 16 vs PP 150/TG 15.2. Tests répétés 4 fois avec llama.cpp récent incluant optimisation VRAM.

LlamaQwenBenchmarks
SIG
72
HYP
00
arXiv cs.LG·

When LLM Reward Design Fails: Diagnostic-Driven Refinement for Sparse Structured RL

Étude sur l'échec de la conception de récompenses par LLM en RL sparse structuré. Les auteurs identifient deux modes de défaillance dominants (reward flooding, incompréhension sémantique) et proposent un raffinement itératif guidé par diagnostics. Sur MiniGrid, DoorKey-8x8 passe de 2,3% à 97,6% de succès; KeyCorridor de 31,2% à 86,7%. La taxonomie des défaillances est le mécanisme principal.

Reinforcement learningLlamaPrompt engineering
SIG
72
HYP
00
arXiv cs.AI·

Robust and Efficient Guardrails with Latent Reasoning

COLAGUARD, un modèle de garde-fou, transfère le raisonnement de sécurité multi-étapes dans un espace latent continu via un curriculum d'entraînement par étapes. Évalué sur 10 tâches de modération et 8 benchmarks de sécurité, il améliore macro-F1 de 8,24 points sur Llama Guard 3, égale GuardReasoner en performance tout en offrant 12,9X d'accélération et 22,4X de réduction d'usage de tokens.

Sécurité IARaisonnementÉvaluations
SIG
78
HYP
00
arXiv cs.LG·

Label-Free Reinforcement Learning via Cross-Model Entropy

Cross-Model Entropy (CME) propose un signal de récompense sans labels pour l'entraînement RL des LLM post-training. CME utilise la log-vraisemblance moyenne des réponses sous un modèle vérificateur indépendant, évitant l'auto-cohérence et le reward hacking. Intégré à GRPO, CME atteint 52,5–71,4% de taux de victoire ajustés sur UltraFeedback/AlpacaEval 2.0 sur Qwen, Llama, Gemma, OLMo.

Reinforcement learningLlamaQwen
SIG
78
HYP
00
arXiv cs.CL·

Keyphrase Generative Representation of Youth Crisis Conversations Beyond Static Taxonomies

Analyse de 703 975 conversations SMS de jeunes en crise (Kids Help Phone, 2018-2023). Introduction de Keyphrase Generative Representation (KGR), un LLM contraint générant des phrases-clés spécifiques au contexte. Taxonomie étendue de 19 à 39 labels avec précision 0.96. KGR identifie 81% de phrases-clés pertinentes et améliore le workflow de recherche thématique (+0.45 en précision vs processus manuel).

LlamaPrompt engineeringRAG
SIG
72
HYP
00
arXiv cs.LG·

InfoQuant: Shaping Activation Distributions for Low-Bit LLM Quantization

InfoQuant propose une méthode de quantification post-entraînement (PTQ) sans entraînement pour les LLM. Elle utilise Peak Suppression Orthogonal Transformation (PSOT) pour transformer les activations en distributions plus faciles à quantifier. Sur LLaMA-2 13B en W4A4KV4, elle préserve 97% de la précision et réduit l'écart de performance de 42% par rapport à l'état de l'art.

LlamaPapersBenchmarks
SIG
82
HYP
00