Page 73 sur 192

ToutHaut signalRécent

7679 articles

dvlt.cu: inference engine written from scratch in CUDA/C++ for NVIDIA's DVLT 3D transformer model

dvlt.cu est un moteur d'inférence CUDA/C++ minimaliste (5MB) pour le modèle DVLT 3D de NVIDIA. Zéro dépendance Python/PyTorch, utilise cuBLASLt et cuTLASS, charge 117M paramètres en bf16. Sortie visualisable en HTML (nuages de points + poses caméra).

Génération de code Vision Open source

SIG

HYP

Reddit r/LocalLLaMA·6 juin

KV cache quant benchmarks: KVarN 6-bit matches q8_0, 4-bit matches q5_0. Massive!

KVarN, une technique de quantification KV cache, égale la précision des quants d'un bit supérieur : 6-bit KVarN rivalise avec q8_0, 4-bit avec q5_0. Benchmarks sur Qwen 27B 64k context montrent gains VRAM significatifs. Implémentation dans BeeLlama v0.3.2 (fork llama.cpp). Traitement prompt plus lent actuellement.

Llama Benchmarks Open source

SIG

HYP

Reddit r/LocalLLaMA·6 juin

Gemma 4 QAT Q4_0 Bench on Strix Halo

Benchmark de Gemma 4 QAT Q4_0 (quantization-aware training) sur APU Strix Halo via llama.cpp Vulkan/RADV. Modèles testés : 12B (6.50 GiB), 26B-A4B (13.45 GiB), 31B (16.44 GiB). QAT préserve mieux le comportement du modèle original qu'une quantification post-entraînement. Têtes assistant QAT converties en GGUF pour meilleure acceptation.

Gemini Open source Benchmarks

SIG

HYP

GitHub Trending·6 juin

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> IBM /</span> mcp-context-forge

IBM lance mcp-context-forge, une passerelle IA et registre proxy pour MCP, A2A et APIs REST/gRPC. Unifie les endpoints avec découverte centralisée, garde-fous et gestion. Optimise l'appel d'agents et d'outils, supporte les plugins.

MCP Agents IA Outils

SIG

HYP

Reddit r/LocalLLaMA·6 juin

The Gap Between Claude and Local: Can a Self-Hosted Coding Agent Compete?

Comparaison pratique entre Claude Opus 4.7 et des modèles locaux (OpenCode) pour un agent de codage. Test sur une suite Playwright E2E (Laravel 12 + Livewire) : Claude génère 203 tests sans compaction de contexte (1M tokens), l'agent local plafonne à 140 tests avec 4 compactions sur 24GB RTX 4090. Conclusion : viable mais pas quotidien ; la qualité du plan prédit celle de l'implémentation.

Claude Agents IA Génération de code

SIG

HYP

The Decoder·6 juin

New open-source voice model listens nonstop and decides every 0.4 seconds whether to speak or stay silent

Un modèle vocal open-source écoute en continu et décide toutes les 0.4 secondes s'il doit parler ou rester silencieux. Contrairement à GPT-4o ou Qwen3.5-Omni, Audio Interaction traite transcription, traduction et chat en flux unique, détectant bruits ambiants (toux). Code, poids et données d'entraînement disponibles sur GitHub sous licence Apache 2.0.

Voix Open source Agents IA

SIG

HYP

The Decoder·6 juin

Qwen3.7-Plus is Alibaba's bid to turn multimodal AI into a full-blown autonomous agent

Alibaba lance Qwen3.7-Plus, un modèle multimodal capable d'opérer autonomement sur interface graphique et générer du code. Dans une démonstration, l'agent a développé une app d'apprentissage de vocabulaire en 11 heures, produisant 10 000+ lignes de code sur 1 000 appels. Modèle propriétaire, prix inférieur aux modèles occidentaux.

Qwen Agents IA Vision

SIG

HYP

arXiv cs.AI·6 juin

Step-by-Step Optimization-like Reasoning in LLMs over Expanding Search Spaces

OPT* est une famille de tâches d'optimisation pour entraîner le raisonnement pas-à-pas des LLM sur des espaces de recherche croissants. Les auteurs proposent deux régimes : optimisation en ligne guidée par solveur (utilisant un oracle de valeur) et RL hors ligne basé sur la recherche. L'entraînement améliore le raisonnement d'optimisation itérative.

Raisonnement Reinforcement learning Benchmarks

SIG

HYP

arXiv cs.AI·6 juin

GuardNet: Ensemble Strategies of Shallow Neural Networks for Robust Prompt Injection and Jailbreak Detection

GuardNet est un système de garde-fou basé sur un ensemble de réseaux de neurones peu profonds (BiLSTMs, 47M paramètres) pour détecter les attaques par injection de prompt et jailbreak sur LLMs. L'approche privilégie la diversité des exemples et le calibrage des seuils plutôt que la taille du modèle. Performance : AUROC 0.747 sur dataset aveugle (n=200), F1 0.92 sur benchmark propriétaire, latence ~50ms CPU.

Sécurité IA Benchmarks Llama

SIG

HYP

arXiv cs.AI·6 juin

SciVisAgentSkills: Design and Evaluation of Agent Skills for Scientific Data Analysis and Visualization

SciVisAgentSkills propose une collection de compétences réutilisables pour augmenter les agents de codage (Codex, Claude Code) dans l'analyse et la visualisation de données scientifiques. Évalué sur 108 tâches multi-étapes avec SciVisAgentBench, le framework améliore les performances en encodant l'expertise spécifique aux outils ParaView, napari, VMD et TTK.

Agents IA Génération de code Benchmarks

SIG

HYP

arXiv cs.AI·6 juin

SentinelBench: A Benchmark for Long-Running Monitoring Agents

SentinelBench est un benchmark open-source pour évaluer les agents IA sur des tâches de monitoring long terme (minutes à heures). Il contient 100 tâches dans 10 environnements web synthétiques (email, calendriers, finance, réseaux professionnels). Le benchmark mesure le temps de réaction, l'utilisation de ressources et la complétion de tâches, révélant le compromis entre réactivité et coût.

Agents IA Benchmarks Évaluations

SIG

HYP

arXiv cs.AI·6 juin

EpiEvolve: Self-Evolving Agents for Streaming Pandemic Forecasting under Regime Shifts

EpiEvolve est un agent auto-évolutif qui adapte un modèle LLM de prévision épidémiologique en streaming sans modifier ses poids. Via mémoire épisodique hiérarchique et réflexion sur les erreurs, il atteint 0.629 de précision sur les hospitalisations COVID-19 (vs 0.561 pour le modèle statique), réduisant le délai de récupération après changement de régime de 5 à 2 semaines.

Agents IA Raisonnement Benchmarks

SIG

HYP

arXiv cs.AI·6 juin

An interpretable and trustworthy AI framework for large-scale longitudinal structure-pain association studies using data from the Osteoarthritis Initiative (OAI)

Framework IA combinant deep learning pour prédiction MOAKS (score OA du genou) et modélisation statistique longitudinale. Sur 2,175 genoux (Osteoarthritis Initiative), amélioration MCC : BML 0.69→0.91, cartilage 0.45→0.80, extrusion méniscale 0.59→0.89. Deux trajectoires de douleur identifiées ; lésions osseuses, perte cartilagineuse et extrusion méniscale associées à progression rapide (OR 1.62-2.50).

Vision Évaluations Sécurité IA

SIG

HYP

arXiv cs.AI·6 juin

Self-Commitment Latency: A Reward-Free Probe for Prompted Implicit Hacking

Nouvelle méthode pour détecter le « reward hacking » implicite dans les LLM sans modèle de récompense. La métrique « self-commitment latency » mesure à quel point tôt un contexte de raisonnement s'engage vers la réponse finale du modèle. Test sur Qwen2.5-3B avec GSM8K : AUROC 0.878 pour détecter les contextes avec raccourcis de prompt.

Raisonnement Sécurité IA Alignement

SIG

HYP

arXiv cs.AI·6 juin

I Know What You Meme, Even If it Emerged Today: Understanding Evolving Memes through Open-World Knowledge Acquisition

Cadre Query Retrieve Conclude pour interpréter les mèmes multimodaux émergents via acquisition de connaissances open-web. Identifie les lacunes de savoir, récupère des preuves externes, synthétise des connaissances contextuelles. Benchmark curé 2024-2026 avec annotations. Améliore compréhension et détection sur trois datasets.

Vision RAG Benchmarks

SIG

HYP

arXiv cs.AI·6 juin

Harnessing Generalist Agents for Contextualized Time Series

TimeClaw est un framework d'agents IA généralistes pour l'analyse de séries temporelles contextualisées. Il équipe les agents LLM de outils temporels exécutables, d'une évolution des capacités basée sur l'expérience et d'une mémoire multimodale épisodique. Évalué sur des benchmarks couvrant énergie, finance, météo et trafic.

Agents IA Raisonnement MCP

SIG

HYP

arXiv cs.AI·6 juin

Insurance of Agentic AI

Article académique proposant un cadre d'assurance pour les systèmes IA agentiques. Identifie les risques spécifiques (hallucinations, injections de prompts, erreurs décisionnelles autonomes, dérive de modèle) et développe une architecture d'assurance multi-couches intégrant cyber, responsabilité civile produit et couvertures IA dédiées, inspirée de l'évolution de l'assurance cyber.

Agents IA Sécurité IA Régulation

SIG

HYP

arXiv cs.AI·6 juin

Residual Modeling for High-Fidelity Learned Compression of Scientific Data

Nouvelle approche de compression sans perte pour données scientifiques massives. Les auteurs proposent LBRC et NGLR, deux codeurs résiduels qui améliorent les méthodes GAE existantes de 30-60% (LBRC) et 10-40% supplémentaires (NGLR) sur E3SM, JHTDB, ERA5 avec précision 10^-6 à 10^-4 NRMSE. NGLR ajoute un prédicteur neuronal causal pour réduire l'entropie.

Benchmarks Papers

SIG

HYP

arXiv cs.AI·6 juin

Uncertainty Aware Functional Behavior Prediction and Material Fatigue Assessment for Circular Factory

Cadre de prédiction fonctionnelle avec quantification d'incertitude pour évaluer la réutilisabilité de produits retournés en usine circulaire. Combine encodeur convolutif + LSTM pour prédire 9 variables fonctionnelles (moyenne/variance gaussienne) et analyse de fatigue matériau par éléments finis. Précision 96,52% sur tests retenus.

Reinforcement learning Évaluations Benchmarks

SIG

HYP

arXiv cs.AI·6 juin

GITCO: Gated Inference-Time Context Optimization in TSFMs

GITCO optimise à l'inférence le contexte d'entrée des modèles fondamentaux de séries temporelles (TSFMs) pour réduire la dégradation causée par les patches anomaliques. Le framework à trois composants (Gate, Router, Critic) supprime les patches nuisibles sans mise à jour de poids, réalisant -1.95% MASE sur TimesFM 2.5 sur 53 datasets GIFT-Eval.

Benchmarks Papers Raisonnement

SIG

HYP

Simon Willison·6 juin

Running Python code in a sandbox with MicroPython and WASM

Simon Willison a publié micropython-wasm, un package alpha pour exécuter du code Python en sandbox via MicroPython et WebAssembly. L'outil sécurise l'exécution de plugins dans Datasette, LLM et sqlite-utils en isolant le code malveillant ou bugué sans accès aux fichiers, réseau ou ressources système.

Open source Génération de code Sécurité IA

SIG

HYP

Hugging Face Blog·5 juin

Thousand Token Wood: shipping a multi-agent economy on a 3B model

Hugging Face déploie une économie multi-agent sur un modèle 3B (3 milliards de paramètres). Le système « Thousand Token Wood » permet à des agents autonomes d'interagir, négocier et échanger des ressources dans un environnement simulé avec contraintes de tokens limitées.

Multi-agents Agents IA Open source

SIG

HYP

Reddit r/LocalLLaMA·5 juin

Gemma 4 QAT benchmark results (AMD 7900 XTX): faster, less VRAM, no quality loss

Benchmark QAT (Quantization-Aware Training) de Gemma 4 sur AMD 7900 XTX : le modèle 12B QAT est 45% plus rapide que Q8_0 (176s vs 323s), économise 5.7GB VRAM, qualité identique. Les 26B et 31B QAT offrent aussi des gains de vitesse (1.3x-1.5x) sans dégradation de qualité.

Gemini Benchmarks Open source

SIG

HYP

Reddit r/LocalLLaMA·5 juin

Running Qwen3.6-35B-A3B on a laptop RTX 4060 (8GB) — what worked, what didn't, and a surprising speculative-decoding result

Utilisateur optimise Qwen3.6-35B-A3B (MoE 35B/3B actifs) sur RTX 4060 8GB. Configuration finale : --no-mmap critique (11→43 tok/s), ≥1.5GB VRAM libre obligatoire, CPU bottleneck dominant. Speculative decoding +26% (contradictoire vs benchmarks communautaires). Architecture hybride (10 couches attention + 40 GDN) explique résultats contre-intuitifs.

Qwen Génération de code Fine-tuning

SIG

HYP

Reddit r/LocalLLaMA·5 juin

I built a iOS app to benchmark GGUF models on your iPhone/iPad

GenBench est une app iOS gratuite pour télécharger, exécuter et benchmarker des modèles GGUF sur iPhone/iPad via llama.cpp + Metal. Mesure tok/s, latence first-token, mémoire pic. Leaderboard global. Supporte texte et vision (MiniCPM-V). Exemples : SmolLM2 1.7B ~35 tok/s sur iPhone 16 Pro, Qwen2.5 3B ~20 tok/s sur iPhone 15 Pro.

Open source Outils Benchmarks

SIG

HYP

Reddit r/LocalLLaMA·5 juin

Maybe KV cache offload to RAM isn't bad

Utilisateur llama.cpp démontre que l'offload KV cache vers RAM (option -nkvo) peut être avantageux. Sur RTX 5060 Ti 16GB + 32GB DDR5, avec Qwen 3.6 27B (IQ4_XS) : offload permet contexte 65k en f16 natif (19 tps pic) vs quantization q4_0 + 58 couches GPU (23 tps). Contexte 128k possible avec 63 couches GPU, vitesse stable. Trade-off performance acceptable pour flexibilité.

Qwen Open source Infrastructure

SIG

HYP

Reddit r/LocalLLaMA·5 juin

model: Granite4 Vision by gabe-l-hart · Pull Request #23545 · ggml-org/llama.cpp

Granite Vision 4.1 4B est un modèle vision-langage compact (4B paramètres) spécialisé dans l'extraction de documents structurés : graphiques, tableaux et paires clé-valeur. Intégration dans llama.cpp via pull request #23545.

Vision Open source Outils

SIG

HYP

Reddit r/LocalLLaMA·5 juin

Unsloth just dropped MTP GGUF weights for Gemma 4!

Unsloth a publié des poids GGUF MTP pour Gemma 4 en trois tailles : 31B, 26B-A4B et 12B, avec quantifications Q8, F16 et BF16 disponibles sur Hugging Face.

Gemini Open source Outils

SIG

HYP

Reddit r/LocalLLaMA·5 juin

I implemented KVarN in my llama.cpp fork and ran KLD benchmarks. It's promising!

Implémentation de KVarN (quantification KV-cache de Huawei) dans llama.cpp fork. Compression 3-5× du cache KV avec amélioration de vitesse. Benchmarks KLD montrent qualité q5 à 4-bit, q4 à 3.5-bit. Disponible en BeeLlama.cpp v0.3.2 avec flags --cache-type-k/v kvarn4.

Llama Benchmarks Open source

SIG

HYP

Reddit r/LocalLLaMA·5 juin

Microsoft should've released something like Qwen3.6-27B / Gemma-4-31B already. They released MAI models now

Microsoft lance 7 modèles MAI : MAI-Thinking-1 (1T params, 256K contexte) rivalise avec les meilleurs modèles de sa classe en ingénierie logicielle ; MAI-Code-1-Flash (5B params actifs) intégré à GitHub Copilot et VS Code ; MAI-Image-2.5 pour texte-vers-image et édition ; MAI-Transcribe-1.5 (SOTA, 5x plus rapide) ; MAI-Voice-2 pour synthèse vocale. Pas de poids ouverts annoncés, licences propriétaires.

Génération de code Raisonnement Vision

SIG

HYP

Reddit r/LocalLLaMA·5 juin

[NEW MODEL] SupraLabs just released a new model! - Supra-50M-Reasoning

SupraLabs publie Supra-50M-Reasoning, version raisonnement du modèle Supra-50M-Instruct. Fine-tuné sur 500 échantillons synthétiques générés par Qwen3 1.7B pendant 6 epochs, il produit une chaîne de pensée avant chaque réponse. Modèle et dataset open-source disponibles.

Open source Raisonnement Fine-tuning

SIG

HYP

Le Big Data·5 juin

Lassie lève 35 millions de dollars afin d’automatiser les opérations des PME avec l’IA

Lassie lève 35 millions de dollars auprès d'Andreessen Horowitz pour accélérer le développement de ses agents IA destinés à automatiser les opérations des PME.

Agents IA Business Financements

SIG

HYP

Reddit r/LocalLLaMA·5 juin

RTX Pro 4500 Blackwell Performance Numbers

Benchmark utilisateur du RTX Pro 4500 Blackwell 32GB vs RTX 5060 Ti 16GB. Le Pro 4500 offre ~2x plus de performance sur modèles denses, 3-6x sur traitement de prompt MoE, 1.8-2.6x sur génération de tokens. Avantage clé : modèles entiers en VRAM sans quantification KV.

Infrastructure Benchmarks

SIG

HYP

Reddit r/LocalLLaMA·5 juin

Here is my llama.cpp NVFP4/MXFP6 GGUF quantizer tool

Outil de quantification GGUF open-source (MIT) pour créer des modèles NVFP4 et MXFP6. Utilise imatrix et logits KLD pour évaluer et combiner plusieurs méthodes de quantification par couche. Démontre de meilleures performances que ModelOpt sur Qwen 27B. Inclut rapports détaillés et validation reproductible.

Llama Open source Outils

SIG

HYP

arXiv cs.CL·5 juin

AURA: Intent-Directed Probing for Implicit-Need Surfacing in Situated LLM Agents

AURA est un système d'agents LLM situés qui détecte les besoins implicites au-delà de la requête littérale. Entre la perception de scène et l'utilisation d'outils, il génère un IntentFrame structuré avec un score d'écart pour contrôler le budget de sondage. Sur un benchmark de 100 requêtes, AURA améliore la couverture des besoins implicites de +0.07 (p < 10^-6) par rapport à ReAct.

Agents IA Raisonnement Évaluations

SIG

HYP

arXiv cs.LG·5 juin

GOTabPFN: From Feature Ordering to Compact Tokenization for Tabular Foundation Models on High-Dimensional Data

GOTabPFN introduit une méthode de compression de features pour les modèles tabulaires fondamentaux en régimes haute-dimensionnelle/faible-échantillon. Graph-guided Ordering with Local Refinement (GO-LR) ordonne les features, puis Neuro-Inspired Subunit Compression les agrège en meta-features. Résultats : stabilité et précision améliorées sous contrainte de tokens sur benchmarks tabulaires.

Benchmarks Fine-tuning Papers

SIG

HYP

arXiv cs.CL·5 juin

Improving Heart-Focused Medical Question Answering in LLMs via Variance-Aware Rubric Rewards with GRPO

Étude sur l'optimisation de modèles LLM pour le diagnostic cardiaque via GRPO et récompenses basées sur rubrique. Une approche Variance-Aware améliore Qwen3-14B de 0.362 à 0.502 en précision et 0.532 à 0.668 en F1 sur HealthBench, rivalisant avec GPT-OSS-120B.

Reinforcement learning Qwen Fine-tuning

SIG

HYP

arXiv cs.CL·5 juin

InfoShield: Privacy-Preserving Speech Representations for Mental Health Screening via Information-Theoretic Optimization

InfoShield minimise l'information mutuelle entre représentations vocales et attributs sensibles (genre, âge) pour le dépistage de dépression. TimeAwareMINE avec attention cross-modale réduit l'inférence de genre de 92,6% à 55,5% et d'âge de 55,7% à 30,3%, avec F1=0,784 sur Androids Corpus.

Voix Sécurité IA Papers

SIG

HYP

arXiv cs.CL·5 juin

From Scoring to Explanations: Evaluating SHAP and LLM Rationales for Rubric-based Teaching Quality Assessment

Framework d'interprétabilité pour l'évaluation automatique de transcriptions pédagogiques basée sur des rubriques. Combine attributions SHAP avec rationales générées par LLM. Sur 6k segments annotés : modèles fine-tunés surpassent les LLMs en précision mais compressent les scores ; SHAP identifie les phrases déterminantes avec transfert robuste entre architectures, contrairement aux rationales LLM.

Évaluations Raisonnement Papers

SIG

HYP

arXiv cs.LG·5 juin

Towards Unified and Data-Efficient Prognostics and Health Management with Tabular Foundation Models

Un framework applique des modèles fondationnels tabulaires à des séries temporelles industrielles pour la prédiction de durée de vie utile restante et le diagnostic. Convertissant les signaux en lignes tabulaires, ces modèles surpassent les transformers et arbres boostés sur des tâches PHM hétérogènes avec efficacité données élevée.

Benchmarks Papers Raisonnement

SIG

HYP