Page 61 sur 147

ToutHaut signalRécent
5861 articles
arXiv cs.CL·

The Efficiency Frontier: A Unified Framework for Cost-Performance Optimization in LLM Context Management

Cadre unifié pour optimiser le coût-performance de la gestion du contexte dans les LLM. Évalue conjointement performance, coût en tokens et réutilisation du prétraitement sur 5000 instances HotpotQA. Réduit l'usage de tokens de 25% à performance comparable (F1≈0.78) et atteint 50% de réduction de coût avec compression mémoire.

RAGBenchmarksInfrastructure
SIG
72
HYP
18
arXiv cs.AI·

EDGE-OPD: Internalizing Privileged Context with Evidence Guided On-Policy Distillation

EDGE-OPD améliore la distillation on-policy auto-supervisée (OPSD) en utilisant des rollouts guidés et un masque d'évidence pour transférer efficacement un contexte privilégié (persona, fait privé, solution détaillée) sans dégrader les capacités générales du modèle. Les expériences montrent que l'OPSD standard échoue sur les identités rares, tandis que EDGE-OPD réussit.

Reinforcement learningFine-tuningRaisonnement
SIG
72
HYP
15
arXiv cs.CL·

What Training Data Teaches RL Memory Agents: An Empirical Study of Curriculum Effects in Memory-Augmented QA

Étude empirique sur l'effet du curriculum d'entraînement sur les agents RL avec mémoire externe en dialogue multi-session. Trois conditions testées (LoCoMo seul, LoCoMo + LongMemEval, LongMemEval seul) montrent que la composition des données façonne les compétences spécialisées plutôt que la performance globale. Le curriculum mixte obtient le meilleur F1 global.

Reinforcement learningAgents IARaisonnement
SIG
72
HYP
15
arXiv cs.LG·

Latent Cache Flow: Model-to-Model Communication Without Text

Latent Cache Flow (LCF) permet la communication directe entre modèles de langage via des représentations latentes comprimées au lieu du texte. L'approche réduit la taille de l'adaptateur à 4% de celle de Cache-to-Cache (C2C) et gère les contextes différents en transmettant un résumé des informations nouvelles. LCF atteint 23% de précision supérieure et 8.5x plus rapide que la communication textuelle.

Agents IAMulti-agentsRaisonnement
SIG
72
HYP
25
arXiv cs.LG·

Approximate Machine Unlearning through Manifold Representation Forgetting Guided by Self Mode Connectivity

ManiF-SMC propose une méthode d'oubli machine basée sur la manipulation des représentations manifold. L'approche utilise une perte triplet avec marges adaptatives guidées par la connectivité de mode pour éloigner les échantillons supprimés de leurs centroïdes originaux. Expériences sur 4 datasets montrent une efficacité comparable aux méthodes état-de-l'art.

PapersSécurité IAAlignement
SIG
72
HYP
15
arXiv cs.LG·

WeCon: An Efficient Weight-Conditioned Neural Solver for Multi-Objective Combinatorial Optimization Problems

WeCon est un solveur neuronal pour problèmes d'optimisation combinatoire multi-objectifs (MOCOPs). Il introduit des blocs Gated Residual Fusion pour mieux intégrer poids et features, un bloc Residual Fusion en décodeur, et une méthode Efficient Preference Optimization. Sur 4 variantes MOCOP, WeCon égale POCCO-W en HyperVolume tout en réduisant le temps d'inférence de 40%.

BenchmarksRaisonnement
SIG
72
HYP
18
arXiv cs.CL·

DFKI-MLT at SemEval-2026 TASK 7: Steering Multilingual Models Towards Cultural Knowledge

DFKI-MLT applique le steering d'activation à des LLM multilingues pour améliorer la conscience culturelle lors de SemEval-2026 Task 7. La méthode ajoute des vecteurs de direction spécifiques à la langue dans le flux résiduel sans mise à jour de paramètres. Résultat : 86,96% de précision en track MCQ (7e/17), mais améliorations modestes et hétérogènes selon les paires langue-région.

Prompt engineeringRaisonnementFine-tuning
SIG
72
HYP
18
arXiv cs.CL·

Knowledge Distillation for Low-Resource Open-source Text-to-SQL Model

Framework de distillation de connaissances pour Text-to-SQL en contexte low-resource. Construit une base de connaissances (sémantique schéma, abréviations, logique métier) injectée en entraînement et inférence. Génère données synthétiques contextualisées. Évalué sur 7 benchmarks : améliore LLMs open-source et fermés, notamment sur données domain-specific.

Génération de codeFine-tuningRAG
SIG
72
HYP
25
Reddit r/LocalLLaMA·

I shipped a windows desktop app for running local LLMs with a button that turns your "no thats wrong" into actual LoRA training data

SEELS, une app desktop Windows pour LLMs locaux, permet de corriger les réponses du modèle via un bouton « Teach » qui accumule les corrections en corpus JSONL, puis lance un fine-tuning LoRA sans terminal. Inclut STT/TTS locaux (Whisper/Piper), dashboard matériel, modèle 0.6B pré-entraîné sur 110 exemples. Version gratuite stable ; tiers pro (génération image/vidéo, MCP) et max (workflows, multi-GPU) en roadmap.

Fine-tuningOpen sourceOutils
SIG
72
HYP
35
Reddit r/MachineLearning·

Vision-capable LLMs vs. OCR for long-document (including charts, images, tables, etc.) QA [D]

Benchmark sur 30 PDFs longs (171 questions) comparant vision-LLMs natifs vs pipelines OCR pour QA documentaire. Claude Sonnet 4.5 utilisé. LlamaCloud premium atteint 59.6% accuracy ($0.1885/query), vision native 52% ($0.2552/query, plus cher). Vision échoue sur graphiques/tableaux; OCR premium plus robuste. Vision-LLM a 7% taux d'échec intrinsèque vs 0% pour OCR après retries.

VisionBenchmarksRAG
SIG
72
HYP
25
Reddit r/LocalLLaMA·

llampart 1.0.0 - I released a standalone local web UI for llama-server with translations, extended settings and a polished conversation sidebar

llampart 1.0.0, interface web locale autonome pour llama-server, lancée en open-source MIT. Offre paramètres étendus, support multilingue (6 langues), barre latérale conversationnelle à deux colonnes, intégration MCP, modes d'interface (sombre/clair/Frosted Glass), import/export local et guide déploiement Caddy.

LlamaOpen sourceOutils
SIG
72
HYP
25
Reddit r/MachineLearning·

Per-pixel bounding-box regression + DBSCAN for handwritten word detection - visual walkthrough of WordDetectorNet [P]

WordDetectorNet utilise une régression par pixel des distances de boîte englobante + DBSCAN pour détecter les mots manuscrits. Chaque pixel classé comme « mot » régresse 4 distances scalaires, générant des milliers de candidats fusionnés via DBSCAN avec distance = 1 − IoU. Architecture : ResNet18 → décodeur FPN → 6 canaux par pixel (2 logits segmentation + 4 distances). Entraîné sur IAM, 448×448 → 224×224.

VisionGénération de codeOpen source
SIG
72
HYP
18
Reddit r/MachineLearning·

I fine-tuned an LLM to be C-3PO to test which training data format works best for persona injection [P]

Expérience de fine-tuning LoRA comparant trois formats de données pour injecter la persona C-3PO : dialogues, énoncés à la première personne, et documents synthétiques Wikipedia. Les énoncés à la première personne surpassent en généralisation. Les documents synthétiques produisent un comportement paradoxal : le modèle connaît le trait d'anxiété mais l'exprime seulement 37% du temps.

Fine-tuningPrompt engineeringPapers
SIG
72
HYP
25
Reddit r/LocalLLaMA·

Did a 30 runs of llama-bench to find optimal settings for my use case (Frigate and HomeAssistant) on my MI60 32gb VRAM GPU - two models tested Gemma4 and Qwen3.6 - Figured I'd share in case it helps anyone else

Utilisateur a exécuté 30 benchmarks llama.cpp sur GPU MI60 32GB pour optimiser Gemma 4 26B Q4_1 et Qwen3 35B Q4_0 dans Frigate et HomeAssistant. Résultats : commandes vocales <1.2s, résumés vidéo <18s. Tests systématiques sur profondeurs KV cache (0, 1000, 6000 tokens) avec 512 tokens prompt et 128 tokens générés.

LlamaBenchmarksGénération de code
SIG
72
HYP
15
Reddit r/MachineLearning·

Interesting tension this week, the same companies racing to go public are also the ones making safety promises [N]

OpenAI et Anthropic accélèrent leurs IPO alors que des études révèlent des failles techniques : les modèles frontier dégradent les performances sur chaînes de tâches longues, les agents avec outils échouent dans plusieurs cas. Tension entre promesses de sécurité et pressions des marchés publics pour la croissance.

Agents IASécurité IABusiness
SIG
72
HYP
45
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> mukul975 /</span> Anthropic-Cybersecurity-Skills

Référentiel de 754 compétences cybersécurité structurées pour agents IA, mappées à 5 frameworks (MITRE ATT&CK, NIST CSF 2.0, MITRE ATLAS, D3FEND, NIST AI RMF). Compatible Claude Code, GitHub Copilot, Cursor, Gemini CLI et 20+ plateformes. 26 domaines de sécurité. Licence Apache 2.0.

Agents IAClaude CodeSécurité IA
SIG
72
HYP
25
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> OpenPipe /</span> ART

OpenPipe/ART : framework d'entraînement par renforcement pour agents multi-étapes. Utilise GRPO pour l'apprentissage en temps réel sur Qwen, GPT-OSS, Llama et autres modèles.

Agents IAReinforcement learningOpen source
SIG
72
HYP
35
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> mukul975 /</span> Anthropic-Cybersecurity-Skills

Référentiel de 754 compétences cybersécurité structurées pour agents IA, mappées à 5 frameworks (MITRE ATT&CK, NIST CSF 2.0, MITRE ATLAS, D3FEND, NIST AI RMF). Compatible Claude Code, GitHub Copilot, Cursor, Gemini CLI et 20+ plateformes. 26 domaines de sécurité. Licence Apache 2.0.

Agents IAClaude CodeSécurité IA
SIG
72
HYP
25
Reddit r/LocalLLaMA·

First AI to Beat Every Human in a Programming Competition - Agentic GRPO Explained

Agentic GRPO, un algorithme RL adapté aux systèmes multi-étapes, permet aux agents IA de battre les humains en compétitions de programmation. L'innovation clé : récompenses immédiates à chaque étape (hypothèse, code, tests, debug) avec correction rétroactive une fois le résultat final connu, au lieu d'attendre la fin du workflow complet.

Agents IAReinforcement learningGénération de code
SIG
72
HYP
45
Reddit r/MachineLearning·

I built a Mamba1 variant I call SM1 with d_state=1 that runs on Blackwell in pure PyTorch [P]

Variante Mamba1 appelée SM1 avec d_state=1 utilisant deux opérations PyTorch natives pour remplacer le selective scan. Solution exacte en forme fermée, pas une approximation. Réduit la mémoire de scan de 16x comparé à Mamba1 (d_state=16). État d'inférence de 14 KB pour modèle 130M, O(1) par token. Entraînement sur 163K fichiers MIDI (2.5B tokens).

Open sourceGénération de codeRaisonnement
SIG
72
HYP
25
Reddit r/MachineLearning·

LQS v3.1 — an open methodology for rating AI training data (multi-oracle consensus + signed certificates) [P]

LQS v3.1 est une méthodologie open-source pour évaluer la qualité des données d'entraînement IA. Elle utilise 19 dimensions (correction des labels, contamination, équité, etc.), un consensus multi-oracle (7 oracles) avec recalibrage par signaux réels, et des certificats Ed25519 vérifiables hors-ligne. Index public gratuit avec 263 datasets notés.

ÉvaluationsOpen sourceSécurité IA
SIG
72
HYP
18