Page 71 sur 192

ToutHaut signalRécent

7679 articles

Pipeline parallelism in llama.cpp may be wasting your VRAM

llama.cpp active par défaut le pipeline parallelism qui consomme 4x plus de VRAM sans gain de vitesse. Désactiver avec -DGGML_SCHED_MAX_COPIES=1 réduit l'allocation mémoire sans impact sur les performances (testé sur Vulkan avec Qwen 27B).

Llama Open source Infrastructure

SIG

HYP

Reddit r/LocalLLaMA·8 juin

Qwen3.6-35B-A3B tool calling benchmark: ByteShape vs. Unsloth GGUFs, KV cache quants & long context performance

Benchmark qualitatif de tool calling sur Qwen3.6-35B-A3B comparant quantifications ByteShape vs. Unsloth, avec tests KV cache (q8_0, q4_0) et contexte long. Résultat : pas de gagnant clair ByteShape/Unsloth ; q8_0 sans coût, q4_0 dégradé ; contexte long réduit performance tool calling.

Qwen Benchmarks Open source

SIG

HYP

Reddit r/LocalLLaMA·8 juin

An Implementation of NanoQuant: A flexible binary quantization method

NanoQuant est une méthode de quantification post-entraînement qui compresse les modèles transformers denses à 1-bit et sub-1-bit par poids. L'implémentation utilise une factorisation en matrices binaires avec vecteurs d'échelle, permettant des ratios de compression jusqu'à 16x sur matrices f16. Une étape de fine-tuning est nécessaire pour aligner les sorties quantifiées.

Open source Papers Fine-tuning

SIG

HYP

Reddit r/MachineLearning·8 juin

Levi: Run AlphaEvolve on your Claude Code/Codex for dirt cheap [P]

LEVI est un système open-source inspiré d'AlphaEvolve pour l'optimisation de code et de prompts, 35x moins cher que les frameworks existants. Il utilise des modèles plus petits (Qwen-30B) avec une architecture de recherche intelligente et un routage adaptatif entre modèles petits et grands, réduisant les appels coûteux à Claude Opus.

Génération de code Prompt engineering Open source

SIG

HYP

Reddit r/LocalLLaMA·8 juin

OpenEnv is now owned by HF, Torch, Prime Intellect, Unsloth, Modal, Mercor, and more! Use it for training agents.

OpenEnv, outil pour créer des environnements d'exécution agentic (terminaux, navigateurs, etc.), devient open source sous coordination d'un comité incluant Hugging Face, Meta-PyTorch, Unsloth, Modal, Prime Intellect et Nvidia. Soutenu par PyTorch Foundation, vLLM, Stanford et 15+ organisations majeures.

Agents IA Open source Reinforcement learning

SIG

HYP

Reddit r/LocalLLaMA·8 juin

[3090] Gemma4 QAT + MTP quick TPS numbers [TLDR 1.2-1.8x better]

Gemma 4 avec QAT et MTP atteint 70-80 tok/s sur RTX 3090 (vs 40 tok/s avant), soit 1.2-1.8x plus rapide. Configuration : Gemma 4 12B/31B, draft-MTP, contexte 40960, Q4_K_XL + Q8_0 KV cache. Support multimodal et réponse vocale quasi-instantanée.

Gemini Génération de code Benchmarks

SIG

HYP

Google DeepMind·8 juin

Measuring the impact of learning with AI in Sierra Leone and beyond

Un essai contrôlé randomisé en Sierra Leone montre que la fonctionnalité Guided Learning de Gemini augmente l'engagement et accélère l'apprentissage des élèves.

Gemini Évaluations

SIG

HYP

Reddit r/LocalLLaMA·8 juin

kv-cache : avoid kv cells copies by ggerganov · Pull Request #24277 · ggml-org/llama.cpp

Fusion d'une optimisation KV-cache dans llama.cpp réduisant les copies de cellules. Améliore les performances MTP pour Gemma-4. Disponible à partir du commit b9551.

Open source Infrastructure Génération de code

SIG

HYP

Reddit r/LocalLLaMA·8 juin

Been watching real adversarial input hit my detection API for six months. Here's what's actually landing.

Analyse de 6 mois d'attaques réelles contre une API de détection d'injections de prompts (Bordair). Trois patterns dominent : configurations multi-tours invisibles isolément, exploitation du momentum conversationnel, et redéfinition de rôles exploitant l'utilité du modèle. Les classifieurs single-message échouent systématiquement. Défenses stateful recommandées.

Prompt engineering Sécurité IA Agents IA

SIG

HYP

Reddit r/LocalLLaMA·8 juin

vllm-doctor — a CLI tool to diagnose and monitor vLLM inference servers

vllm-doctor est un outil CLI open-source qui diagnostique les serveurs vLLM en analysant les métriques Prometheus. Il détecte la pression de queue, les latences TTFT/TPOT élevées, la saturation du cache KV et propose des recommandations avec niveaux de confiance.

Outils Open source Infrastructure

SIG

HYP

Reddit r/MachineLearning·8 juin

Memanto vs SQLite R_A_G Benchmark Results - Cloud vs Local Memory Systems [P]

Benchmark comparatif entre Memanto (système mémoire cloud) et SQLite RAG custom sur le dataset LoCoMo. Memanto atteint 90% de précision en 1.878s vs 80% en 2.680s pour SQLite. L'analyse révèle que SQLite souffre de limites API (HTTP 429), tandis que Memanto bénéficie d'une architecture découplée résiliente aux quotas partagés.

RAG Benchmarks Recherche vectorielle

SIG

HYP

arXiv cs.AI·8 juin

A Study of Parallel Continuous Local Search

Étude du Continuous Local Search (CLS) parallèle pour résoudre des problèmes SAT avec contraintes pseudo-booléennes symétriques. Les auteurs relaxent le problème en optimisation continue sur hypercube et montrent que les contraintes redondantes peuvent ralentir la convergence, que CLS fonctionne bien en sous-solveur hybride, et que la convergence stagne rapidement sur des objectifs saddle-dense.

Raisonnement Benchmarks

SIG

HYP

arXiv cs.AI·8 juin

StainFlow: Entity-Stain Tracking and Evidence Linking for Process Rewards in GUI Agents

StainFlow est un modèle de récompense de processus pour agents GUI basé sur le suivi d'entités (« stain tracking »). Il décompose objectivement les tâches en phases via l'évolution des états d'entités visuelles, et construit dynamiquement des fenêtres de preuve pour évaluer les étapes clés. Résultats : +3,2% de succès RL et +1,8% de précision sur AndroidWorld et OGRBench.

Agents IA Reinforcement learning Évaluations

SIG

HYP

arXiv cs.AI·8 juin

Declarative Skills for AI Agents in Knowledge-Grounded Tool-Use Workflows

Étude comparative de trois paradigmes d'orchestration pour agents IA en workflows de service client : agents déclaratifs (skills en langage naturel), agents impératifs (machines d'état), et baseline non-scaffoldé. Tests sur 5 LLMs et 2 régimes de retrieval. Résultat : la qualité du retrieval est le goulot dominant ; les skills déclaratifs améliorent la précision sur tâches procédurales quand le retrieval est bon.

Agents IA RAG Prompt engineering

SIG

HYP

arXiv cs.AI·8 juin

Exploring Agentic Tool-Calling Decisions via Uncertainty-Aligned Reinforcement Learning

TRUST, une méthode de reinforcement learning, améliore les décisions d'appel d'outils des agents LLM en intégrant la quantification d'incertitude dans la conception des récompenses. Testée sur plusieurs benchmarks, elle réduit les invocations d'outils non supportées et les hallucinations tout en maintenant des estimations d'incertitude fiables.

Agents IA Reinforcement learning Raisonnement

SIG

HYP

arXiv cs.AI·8 juin

Teaching the Way, Not the Answer: Privileged Tutoring Distillation for Multimodal Policy Optimization

PTD-PO, un framework de distillation de politique pour optimiser les modèles vision-langage (2B-8B paramètres) via renforcement. Fournit une supervision dense au niveau des tokens sans exposer la réponse, utilisant des indices structurés (attention spatiale, étapes de raisonnement) et une divergence Jensen-Shannon Top-K pour stabiliser l'apprentissage.

Vision Reinforcement learning Raisonnement

SIG

HYP

arXiv cs.AI·8 juin

Front-to-Attractors: Modifying the Front-to-Front Heuristic in Bidirectional Search

Nouvel algorithme de recherche bidirectionnelle : front-to-attractors (F2A) réduit les évaluations par paires de 11.2x vs front-to-front (F2F) tout en maintenant l'optimalité. F2A utilise un ensemble dynamique d'attracteurs au lieu d'évaluer tous les états de la frontière opposée, réduisant les expansions de nœuds de 4.8x vs front-to-end.

Raisonnement Benchmarks

SIG

HYP

arXiv cs.AI·8 juin

Beyond Post-hoc Explanation: Toward Glassbox AI via Probabilistic Mediation

Article proposant une architecture « Glassbox » pour rendre les LLM transparents dans les contextes institutionnels critiques (santé, droit, administration). Au lieu d'explications post-hoc instables, utiliser des réseaux bayésiens comme couches de médiation ante-hoc pour encoder la connaissance de domaine, les hypothèses causales et les dépendances probabilistes avant l'inférence.

Raisonnement Sécurité IA Alignement

SIG

HYP

arXiv cs.AI·8 juin

Off-Policy Evaluation with Strategic Agents via Local Disclosure

Méthode d'évaluation hors-politique (OPE) face à des agents stratégiques qui modifient leurs covariables en réaction à la politique. Les auteurs proposent de révéler les informations pré-stratégiques via explications post-hoc, construisent un estimateur doublement robuste et établissent la convergence sous une hypothèse de distribution log-normale.

Reinforcement learning Évaluations Alignement

SIG

HYP

arXiv cs.AI·8 juin

The Sim-to-Real Gap of Foundation Model Agents: A Unified MDP Perspective

Les agents basés sur des modèles de fondation souffrent d'un écart sim-to-réel. Cet article formalise le problème via le cadre MDP (observation, action, transition, récompense) et propose d'adapter les solutions classiques de la robotique (randomisation de domaine). Exemple : l'appel d'outils multilingue révèle des écarts d'espace d'observation causant des actions invalides malgré une intention sémantique correcte.

Agents IA Raisonnement Sécurité IA

SIG

HYP

arXiv cs.CL·8 juin

Didact: A Cross-Domain Capability Discovery System for Defence

Didact est un système prototype intégrant rapports de défense et documents politiques australiens avec un graphe de connaissances issu de publications de recherche. Il utilise RAG et conversations en langage naturel pour faciliter la découverte de capacités technologiques fragmentées. Une "Evidence Rail" interactive visualise les sources et relations entre éléments.

RAG Agents IA Outils

SIG

HYP

arXiv cs.AI·8 juin

Trading Engagement for Sustainability: Carbon-Aware Re-ranking for E-commerce Recommendations

Étude sur les systèmes de recommandation e-commerce intégrant l'empreinte carbone des produits. Les chercheurs estiment les PCF manquantes via recherche sémantique et prompting LLM, puis appliquent un re-ranking post-hoc sur BPR, NeuMF et LightGCN. Sur Amazon Reviews (3 catégories), des réductions carbone substantielles sont possibles avec coût d'engagement minimal.

RAG Embeddings

SIG

HYP

arXiv cs.CL·8 juin

An Expanded Synthetic Conversation Dataset for Multi-Turn Smishing Detection

COVA-X, un dataset synthétique étendu de 10,985 conversations multi-tours pour détecter les arnaques par SMS ciblant les aînés. Longformer surpasse XGBoost (79.71% accuracy vs 78.43%), confirmant que les transformers nécessitent des corpus conversationnels plus larges. Pipeline amélioré réduisant les artefacts de 67.1% à 46.5%.

Benchmarks Sécurité IA Papers

SIG

HYP

arXiv cs.AI·8 juin

Human Adults and LLMs as Scientists: Who Benefits from Active Exploration?

Étude comparative montrant que l'exploration active améliore significativement le raisonnement causal conjonctif chez les adultes humains, contrairement aux paradigmes passifs. Les LLMs modernes atteignent des performances proches des humains en précision d'inférence, mais avec des stratégies d'exploration moins efficaces et des écarts conjonctif-disjonctif similaires.

Raisonnement Évaluations

SIG

HYP

arXiv cs.CL·8 juin

The Dark Regulome: Disentangling Predictability from Regulation in Genomic Foundation Models

Étude des fondations génomiques pour identifier les éléments régulateurs du génome non-codant (dark regulome) dans les gliomes. Les auteurs séparent la prédictibilité de séquence de la régulation réelle via résidualisation-permutation sur trois modèles (Caduceus-Ph, HyenaDNA, Enformer). Résultat : horizon régulateur proximal de 10kb, enrichissement 3.3× en eQTL cérébraux, mais hiérarchie LM non reproductible.

Benchmarks Papers Raisonnement

SIG

HYP

arXiv cs.CL·8 juin

Progress-SQL: Improving Reinforcement Learning for Text-to-SQL via Progressive Rewards

Progress-SQL propose un cadre d'apprentissage par renforcement multi-tour pour la génération Text-to-SQL. La méthode introduit un arbre de diagnostic guidé par oracle (ODT) qui abstrait les requêtes SQL au niveau des clauses et fournit des récompenses progressives mesurant l'amélioration du SQL initial au final. Évaluée sur BIRD, Spider et variantes robustesse.

Reinforcement learning Génération de code Raisonnement

SIG

HYP

arXiv cs.AI·8 juin

A Geometric Gaussian Mixture Representation of Plane Curves

Représentation probabiliste de courbes planes via mélange gaussien. Les auteurs proposent une approximation polygonale avec incertitude normale, transformée en modèle de mélange gaussien (GMM) qui préserve la géométrie locale. Applicable aux courbes lisses, fermées, ouvertes et auto-intersectantes, avec applications en CAO incertaine, modélisation d'obstacles robotiques et planification de trajectoires.

Papers Robotique Raisonnement

SIG

HYP

arXiv cs.LG·8 juin

FAIR-Calib: Frontier-Aware Instability-Reweighted Calibration for Post-Training Quantization of Diffusion Large Language Models

FAIR-Calib propose une méthode de quantification post-entraînement (PTQ) pour les modèles de langage diffusifs (dLLMs). Le framework en deux étapes protège les décisions fragiles à la frontière d'écriture en pondérant les états cachés instables, sans rollouts diffusion coûteux. Résultats sur LLaDA et Dream (W4A4) montrent réduction des erreurs de quantification.

Llama Fine-tuning Papers

SIG

HYP

arXiv cs.CL·8 juin

Quantifying Media Representation Dynamics Across 25 Years of News Reporting on Policing-related Deaths

Analyse computationnelle de 4 000 articles canadiens sur les décès liés à la police (25 ans). Le modèle PerspectiveGap révèle que les perspectives de bureaucrates d'État apparaissent 3× plus que celles du public (familles, témoins, avocats). Les comptes rendus officiels sont cliniques ; les discours civils chargés émotionnellement. La représentation civile augmente récemment.

Papers Benchmarks

SIG

HYP

arXiv cs.LG·8 juin

Towards Serverless Semi-Decentralized Federated Learning with Heterogeneous Optimizers

Nouvelle approche de federated learning décentralisé (SSD-FL) sans serveur persistant. Utilise une phase d'initialisation D2D légère suivie d'entraînement entièrement serverless avec formation de clusters. Intègre optimiseurs ML hétérogènes et régularisation basée sur graphe réseau. Améliore vitesse de convergence et efficacité de communication.

SIG

HYP

arXiv cs.LG·8 juin

Flatland: The Adventures of Gradient Descent with Large Step Sizes

Article théorique sur la convergence de la descente de gradient avec grands pas d'apprentissage. Les auteurs définissent formellement les « grands » pas en ne requérant que la continuité locale de Lipschitz du gradient, conçoivent des méthodes adaptatives du premier ordre qui opèrent à la limite de stabilité dès le début, et montrent que rechercher la platitude globale trop tôt ralentit la convergence.

Reinforcement learning Raisonnement

SIG

HYP

arXiv cs.LG·8 juin

Performance Variation in Deep Reinforcement Learning

Étude sur la variabilité des performances en apprentissage par renforcement profond. Les auteurs critiquent les méthodes conventionnelles de mesure d'incertitude et proposent des statistiques basées sur les percentiles (min-max IPR). Trois cas d'étude : LayerNorm réduit la variation dans PPO mais pas SAC ; TD-MPC2 montre moins de variation que PPO/SAC ; DQN et Rainbow présentent une variabilité similaire sur Atari.

Reinforcement learning Benchmarks Évaluations

SIG

HYP

arXiv cs.LG·8 juin

Product units in gated recurrent units improve nuclear-mass prediction

Chercheurs proposent AM-PU-GRU, variante de GRU intégrant interactions multiplicatives et transformations product-unit en domaine complexe pour prédire masses nucléaires. Sur AME2016/2020 : RMSE interpolation 0.227±0.004 MeV, extrapolation 0.179±0.015 MeV. Surpasse modèles ML existants et baselines GRU réelles.

Benchmarks Papers

SIG

HYP

arXiv cs.CL·8 juin

When Better Codebooks Are Not Enough: Predictive Performance and Behavioral Reliability in LLM Political Event Coding

Étude sur le codage d'événements politiques avec LLM : une meilleure précision ne garantit pas la fiabilité comportementale. Des codebooks experts optimisés (définitions claires, exemples, contexte) améliorent les performances, mais les modèles échouent les tests de fiabilité sous variations contrôlées (noms de labels, ordre, mappings). La précision seule ne suffit pas pour les applications en sciences sociales.

Évaluations Raisonnement Prompt engineering

SIG

HYP

arXiv cs.CL·8 juin

CAF-Gen: A Multi-Agent System for Enriching Argumentation Structures

CAF-Gen est un système multi-agent qui enrichit les structures argumentatives extraites du texte en modèles conformes au Carneades Argumentation Framework (CAF). Un agent créateur génère des structures enrichies validées par un agent critique dans une boucle itérative, améliorant la qualité et la stabilité structurelle par rapport aux modèles génératifs mono-pass.

Multi-agents Raisonnement Papers

SIG

HYP

arXiv cs.CL·8 juin

When to Think Deeply: Inhibitory Deliberation for LLM Reasoning

IDPR est un framework qui décide dynamiquement quand invoquer le raisonnement lent dans les LLM. Un contrôleur d'inhibition analyse la réponse rapide (confiance, marge logit, coût) et supprime ou valide avant slow reasoning. Sur 5000 exemples math, IDPR utilise slow reasoning sur 8.20% des cas et améliore la précision de 47.90% à 48.92%.

Raisonnement Évaluations Reinforcement learning

SIG

HYP

arXiv cs.CL·8 juin

Modular Monolingual Adaptation using Pretrained Language Models

Approche modulaire pour adapter des modèles de langage préentraînés à des langues peu dotées en ressources. Au lieu de réentraîner le modèle complet, les auteurs remplacent les tokens, gèlent les embeddings correspondants et ajustent le reste. Tests sur l'écossais, l'irlandais et le quechua (8.5k exemples) montrent des gains sur les tâches NLU (mask filling, NER, POS).

Fine-tuning Open source

SIG

HYP

arXiv cs.CL·8 juin

Evidence Graph Consistency in Retrieval-Augmented Generation: A Model-Dependent Analysis of Hallucination Detection

Nouvelle méthode Evidence Graph Consistency (EGC) pour détecter les hallucinations dans les systèmes RAG. Testée sur 5,767 réponses de 6 LLMs (Llama-2, GPT-4, GPT-3.5, Mistral-7B), elle révèle que la cohérence structurelle des graphes d'évidence fonctionne inversement selon les familles de modèles, invalidant son usage comme signal universel.

RAG Benchmarks Papers

SIG

HYP

arXiv cs.CL·8 juin

PromptPrint: Behavioral Biometrics Through Natural Language Prompting in LLMs

PromptPrint étudie l'identification d'utilisateurs via leurs prompts LLM. Sur 20,680 prompts de 1,034 utilisateurs, les représentations lexicales surpassent les encodeurs sémantiques. Les patterns de vocabulaire et syntaxe forment une biométrie comportementale stable mais vulnérable aux paraphrases sémantiques.

Papers Sécurité IA Évaluations

SIG

HYP

arXiv cs.CL·8 juin

Explain Like I'm 5 or Whatever I Choose: Evaluating the Interactive Potential of Language Model Responses

Étude d'évaluation de LLMs (GPT-5.1, GPT-5 mini, Claude Sonnet 4.5 + Thinking, DeepSeek-V3.1) sur leur capacité à générer plusieurs réponses à une même requête scientifique en variant la complexité du langage. Sur 98 requêtes, Claude Sonnet 4.5 ne maintient une complexité cohérente que 46% du temps. Framework d'évaluation basé sur étude formative avec 16 participants.

Évaluations Claude GPT

SIG

HYP