Archives

mai 2026

3146 articles

Reddit r/LocalLLaMA·

Project Blackwell: It Will Work, Eventually — Making an RTX Pro 6000 Run in a Dell R730 at 650K Context

Un utilisateur a réussi à faire fonctionner une RTX Pro 6000 Blackwell dans un serveur Dell PowerEdge R730 de 2016, permettant un contexte de 650k tokens. Le projet a nécessité des modifications firmware, des contournements PCIe et des ajustements physiques pour surmonter les incompatibilités entre l'architecture legacy du serveur et les exigences modernes du GPU.

InfrastructureOpen source
SIG
45
HYP
25
Reddit r/LocalLLaMA·

I compared all specs of the major GPUs/machines that are being used here, because bandwidth is not everything. Some of ya'll need a reality check.

Analyse comparative des GPU/machines pour LLM : critique de l'efficacité réelle des Mac Studio, réévaluation des cartes anciennes (P100, V100, P40) comme alternatives bon marché aux 3090, et appel à distinguer prefill vs generation dans les benchmarks. L'auteur collecte des données de performance et consommation électrique.

BenchmarksInfrastructure
SIG
35
HYP
15
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> ai-boost /</span> awesome-harness-engineering

Liste de ressources pour l'ingénierie des agents IA : outils, patterns, évaluations, mémoire, MCP, permissions, observabilité et orchestration.

Agents IAMCPÉvaluations
SIG
35
HYP
15
The Decoder·

New review paper argues code is how AI agents think and act, not just what they produce

Un article de recherche soutient que le véritable goulot d'étranglement des agents IA autonomes n'est pas le modèle de langage mais la couche logicielle qui l'entoure : outils, mémoire, tests et limites de permissions transforment un modèle sans état en agent fonctionnel. Deepseek construit une équipe dédiée « Harness » à Pékin confirmant cette thèse.

Agents IADeepSeekGénération de code
SIG
65
HYP
35
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> galilai-group /</span> stable-worldmodel

Plateforme open-source pour la recherche et l'évaluation reproductibles de modèles du monde. Fournit une infrastructure standardisée pour entraîner et tester des world models sur des environnements simulés.

Open sourceBenchmarksInfrastructure
SIG
65
HYP
15
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> anthropics /</span> claude-code

Claude Code est un outil de codage agentique en ligne de commande qui comprend votre base de code et exécute des tâches routinières, explique du code complexe et gère les workflows Git via des commandes en langage naturel.

ClaudeClaude CodeAgents IA
SIG
75
HYP
35
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> razvandimescu /</span> numa

numa est un résolveur DNS portable écrit en Rust. Il supporte les domaines locaux .numa, le blocage de publicités et les surcharges pour développeurs.

Open sourceOutilsInfrastructure
SIG
45
HYP
15
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> ogulcancelik /</span> herdr

Herdr est un multiplexeur d'agents IA fonctionnant en terminal. Permet de gérer plusieurs agents simultanément dans une interface ligne de commande.

Agents IAOutils
SIG
35
HYP
25
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> SaladDay /</span> cc-switch-cli

cc-switch-cli est un outil CLI multiplateforme permettant de basculer entre Claude Code, Codex et Gemini. Disponible sur GitHub, il offre une interface unifiée pour gérer plusieurs assistants IA.

Claude CodeOutilsGénération de code
SIG
45
HYP
35
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> millionco /</span> react-doctor

react-doctor est un outil qui détecte les mauvaises pratiques dans le code React. Il fonctionne comme un agent qui analyse et signale les patterns problématiques.

Agents IAGénération de codeOutils
SIG
45
HYP
55
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> ronisarkarexe /</span> story-spark-ai

StorySparkAI est une plateforme open-source permettant de générer et partager plusieurs variations d'histoires à partir d'un seul prompt. Outil destiné aux créatifs.

Open sourcePrompt engineeringOutils
SIG
35
HYP
45
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> Crosstalk-Solutions /</span> project-nomad

Project N.O.M.A.D est un ordinateur de survie autonome et hors ligne intégrant outils critiques, bases de connaissances et IA pour fonctionner sans connexion réseau.

Agents IAOpen source
SIG
35
HYP
55
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> GH05TCREW /</span> pentestagent

PentestAgent est un framework d'agent IA pour les tests de sécurité en boîte noire, supportant les workflows de bug bounty, red-team et penetration testing.

Agents IAOpen source
SIG
45
HYP
35
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> galilai-group /</span> stable-worldmodel

Plateforme open-source pour la recherche et l'évaluation reproductibles de modèles du monde. Fournit une infrastructure standardisée pour entraîner et tester des world models sur des environnements simulés.

Open sourceBenchmarksÉvaluations
SIG
65
HYP
15
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> PaddlePaddle /</span> PaddleOCR

PaddleOCR est un toolkit OCR léger et multilingue (100+ langues) conçu pour convertir documents PDF et images en données structurées exploitables par les LLM.

Open sourceVisionOutils
SIG
65
HYP
35
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> opendatalab /</span> MinerU

MinerU transforme documents complexes (PDF, Office) en markdown/JSON prêts pour LLM et workflows agentic. Outil open-source pour extraction et structuration de données documentaires.

Agents IARAGOpen source
SIG
65
HYP
35
Reddit r/MachineLearning·

Making LLMs tell you how confident they really are through probe-targeted fine tuning.[R]

Recherche sur le fine-tuning ciblé par probe (LoRA) pour calibrer la confiance verbale des LLM. Les modèles détectent internement les réponses correctes (0.76–0.88 AUROC) mais affichent 99% de confiance en sortie. Fine-tuning sur 8 modèles (7B–70B) avec activation patching causal (ρ=0.976). Code et pré-enregistrement disponibles.

Fine-tuningRaisonnementAlignement
SIG
82
HYP
18
arXiv cs.CL·

GPF-LiveNews: A Streaming Evaluation Protocol for Group-Conditioned Framing in Large Language Models

GPF-LiveNews est un protocole d'évaluation en continu pour auditer comment les LLM encadrent les événements d'actualité pour différents publics. Testé sur 23 modèles et 12 cycles de monitoring, il mesure les variations sémantiques et de sentiment selon 42 labels d'identité. Les résultats montrent que les prompts Policy/Action produisent le plus fort mouvement sémantique.

ÉvaluationsSécurité IAAlignement
SIG
72
HYP
18
arXiv cs.CL·

GenesisFunc: Multi-Agent Data Generation for Accurate and Generalizable Function-Calling

GenesisFunc est un pipeline automatisé multi-agent pour générer des données d'entraînement de function-calling. À partir d'outils fiables de benchmarks publics, le système produit des conversations diversifiées avec contrôle qualité multi-étapes. Un modèle 8B fine-tuné sur ces données synthétiques surpasse les modèles open-source similaires en performance in-domain et généralisation out-of-domain.

Multi-agentsGénération de codeFine-tuning
SIG
78
HYP
25
arXiv cs.CL·

Assessing Dutch Syllabification Algorithms and Improving Accuracy by Combining Phonetic and Orthographic Information through Deep Learning

Étude comparative de quatre algorithmes de syllabification du néerlandais (Brandt Corstius, Liang, Trogkanis-Elkan CRF, et un modèle deep learning). Le modèle deep learning combinant informations phonétiques et orthographiques atteint 99,65% de précision (+0,14% vs littérature). Les algorithmes data-driven surpassent l'approche basée sur des règles.

PapersBenchmarksGénération de code
SIG
72
HYP
15
arXiv cs.CL·

How Consistent Are LLM Agents? Measuring Behavioral Reproducibility in Multi-Step Tool-Calling Pipelines

Étude empirique de la reproductibilité comportementale des agents LLM avec tool-calling. Les chercheurs mesurent si un agent sélectionne les mêmes outils, dans le même ordre, avec les mêmes paramètres, lors d'invocations répétées identiques. Focus sur les interfaces structurées avec paramètres typés et effets secondaires.

Agents IABenchmarksSécurité IA
SIG
75
HYP
15
arXiv cs.CL·

Thoughts-as-Planning: Latent World Models for Chain-of-Thoughts Optimization via Reinforcement Planning

Thoughts-as-Planning formalise l'optimisation des chaînes de raisonnement comme un processus de décision séquentielle sur un espace sémantique latent. Le framework apprend un modèle du monde latent simulant l'effet des édits de chaînes de raisonnement sur les sorties, supportant édits multi-échelle (token, segment, instruction) via planification par descente de gradient ou RL.

RaisonnementReinforcement learningPrompt engineering
SIG
72
HYP
28
arXiv cs.CL·

Beyond Recall: Behavioral Specification as an Interpretive Layer for AI Personalization

Chercheurs proposent une « couche interprétative » (Behavioral Specification) pour personnaliser les décisions d'IA selon les préférences utilisateur. Testée sur 14 corpus autobiographiques, elle améliore la précision représentationnelle de 25× avec moins de contexte que le corpus brut, tout en réduisant l'hésitation du modèle. Efficace sur questions d'interprétation, moins sur questions factuelles.

AlignementRAGAgents IA
SIG
72
HYP
18
arXiv cs.CL·

Text-Preserving Lossy Text Compression: A Study of Strategic Deletion and LLM Reconstruction

Étude de compression textuelle lossy où un encodeur supprime stratégiquement des parties du texte et un LLM reconstruit le contenu original. Benchmark de 6 stratégies de suppression (uniforme, fréquence, entropie, optimisation LP, hybrides) sur BBC News. WordFreq offre le meilleur rapport coût/performance ; les méthodes sémantiques brillent en compression modérée ; QLoRA fine-tuning rivalise avec Gemini 2.0 Flash.

BenchmarksRaisonnementFine-tuning
SIG
75
HYP
15