RSS

Reddit r/LocalLLaMA

https://www.reddit.com/r/LocalLLaMA/

Reddit r/LocalLLaMA·

Why do we benchmark quants on perplexity and prose but never on tool call validity?

Un utilisateur de r/LocalLLaMA soulève que les benchmarks de quantification se concentrent sur la perplexité et la qualité prose, mais ignorent la validité des appels d'outils. Il hypothèse que les erreurs de quantification dégradent les sorties structurées (JSON, schémas) plus tôt que le texte libre, rendant les métriques actuelles inadéquates pour les cas d'usage agentiques.

BenchmarksAgents IAÉvaluations
SIG
35
HYP
15
Reddit r/LocalLLaMA·

1-bit Bonsai Image 4B and Ternary Bonsai Image 4B Image Generation for Local Devices with just 0.93 GB and 1.21 GB respectively of Diffusion Transformer Footprint. So tiny!

Bonsai Image 4B propose des modèles de génération d'images quantifiés (1-bit et ternaire) pesant respectivement 0,93 GB et 1,21 GB. Ces versions compressées de Diffusion Transformer s'exécutent sur appareils locaux avec empreinte mémoire minimale.

Génération d'imagesOpen sourceOutils
SIG
45
HYP
65
Reddit r/LocalLLaMA·

Building a free, offline LLM “tutor” grounded in one university textbook — RAG, LoRA, or both? Sanity check wanted

Un développeur cherche à construire un tuteur IA hors ligne gratuit basé sur un manuel universitaire. Architecture envisagée : RAG comme composant principal (chunking, embedding, retrieval avec citations page/section) + LoRA optionnelle pour le style pédagogique. Questions sur le choix du modèle (Qwen, Gemma), la gestion des structures complexes (figures, équations), et le packaging pour utilisateurs non-techniques.

RAGFine-tuningOpen source
SIG
35
HYP
15
Reddit r/LocalLLaMA·

I spent months inside verl (an RL post-training framework), forked it, then stopped. Wrote up the internals, the tooling a fork costs, and a nasty NCCL bug.

Un chercheur ayant travaillé plusieurs mois sur verl (framework RL post-training de ByteDance) détaille ses internals : orchestration des boucles RLHF, pattern single-controller, structures de données (DataProto), et un bug NCCL découvert. Fork abandonné mais expérience documentée pour la communauté.

Reinforcement learningAgents IAOpen source
SIG
65
HYP
15
Reddit r/LocalLLaMA·

A lightweight, real-time multilingual ASR router that runs on local hardware

Système de routage ASR multilingue léger pour matériel local, utilisant Zipformer, Silero VAD et SpeechBrain. Dirige l'audio entre modèles monolingues spécialisés (~100M paramètres) plutôt qu'un seul modèle massif. Atteint 13% WER sur code-switching inter-énoncés, surpassant les APIs cloud. Limitation connue : 41% WER en intra-énoncés. Repo open-source disponible.

VoixOpen sourceOutils
SIG
78
HYP
25
Reddit r/LocalLLaMA·

I was a Data Scientist for 10 years before becoming a quadriplegic. For the past 3 months, I built VibeETL from scratch: A lightning-fast, visual Alteryx alternative powered by Polars & React Flow.

VibeETL : plateforme ETL visuelle open-source construite en 3 mois par un ancien data scientist. Backend Polars + Rust, frontend React Flow avec algorithme BFS natif. Zéro dépendance externe, exécution Python sandboxée (30s timeout). Alternatif léger à Alteryx.

Open sourceOutilsInfrastructure
SIG
72
HYP
45
Reddit r/LocalLLaMA·

I bolted an 8-arm reasoning MoE onto a frozen 1.4B Mamba backbone on a single RTX 3060. Here’s the mechanistic autopsy of what broke and what worked.

Un chercheur a construit Mamba-Titan-1.4B-Reasoning (2.54B params MoE) sur RTX 3060 en gelant un backbone Mamba-1 1.4B et en ajoutant 8 experts entraînables. Entraîné sur traces CoT DeepSeek, le modèle a développé un mécanisme de « vault door » : le token </think> s'isole à la plus petite norme (1.991 vs 4.742 moyenne) pour contrôler la terminaison du raisonnement latent.

RaisonnementFine-tuningOpen source
SIG
78
HYP
35
Reddit r/LocalLLaMA — flux IA · Signal IA