Archives

mai 2026

3147 articles

GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> Aider-AI /</span> aider

Aider est un outil de pair programming IA en ligne de commande. Il permet aux développeurs de collaborer avec une IA directement dans le terminal pour écrire et modifier du code.

Génération de codeOutilsOpen source
SIG
65
HYP
25
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> anthropics /</span> knowledge-work-plugins

Anthropic publie un dépôt open-source de plugins pour Claude destinés aux travailleurs du savoir. Les plugins facilitent l'intégration de Claude dans des workflows de productivité.

ClaudeOutilsOpen source
SIG
65
HYP
20
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> onyx-dot-app /</span> onyx

Onyx est une plateforme IA open-source pour le chat avec support multi-LLM et fonctionnalités avancées. Disponible sur GitHub, elle permet l'intégration de différents modèles de langage.

Open sourceOutilsRAG
SIG
45
HYP
35
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> cheahjs /</span> free-llm-api-resources

Répertoire GitHub listant les ressources gratuites d'inférence LLM accessibles via API. Agrégation de services et endpoints publics pour tester des modèles sans frais.

Open sourceOutilsInfrastructure
SIG
35
HYP
15
The Decoder·

Anthropic may keep supplying Claude to the NSA despite being flagged as a supply chain risk by the Pentagon

Anthropic continuerait de fournir Claude à la NSA malgré un classement comme risque de chaîne d'approvisionnement par le Pentagone. Les agences de renseignement manquent de puces Nvidia Grace Blackwell récentes ; le modèle « Mythos » d'Anthropic fonctionne sur du matériel plus ancien. La clause controversée « any lawful use » n'est pas incluse.

ClaudeAnthropicRégulation
SIG
65
HYP
35
The Decoder·

Researchers let Claude Code discover AI scaling algorithms that humans probably wouldn't have designed

Des chercheurs de UMD, Google et Meta utilisent AutoTTS pour laisser Claude Code découvrir indépendamment des algorithmes de contrôle pour le raisonnement IA. L'algorithme trouvé réduit la consommation de calcul de 70% comparé à la self-consistency standard tout en conservant la précision. La recherche a coûté 40$ et pris 160 minutes.

Claude CodeAgents IARaisonnement
SIG
78
HYP
35
Reddit r/MachineLearning·

Vision-capable LLMs vs. OCR for long-document (including charts, images, tables, etc.) QA [D]

Benchmark sur 30 PDFs longs (171 questions) comparant vision-LLMs natifs vs pipelines OCR pour QA documentaire. Claude Sonnet 4.5 utilisé. LlamaCloud premium atteint 59.6% accuracy ($0.1885/query), vision native 52% ($0.2552/query, plus cher). Vision échoue sur graphiques/tableaux; OCR premium plus robuste. Vision-LLM a 7% taux d'échec intrinsèque vs 0% pour OCR après retries.

VisionBenchmarksRAG
SIG
72
HYP
25
Reddit r/LocalLLaMA·

llampart 1.0.0 - I released a standalone local web UI for llama-server with translations, extended settings and a polished conversation sidebar

llampart 1.0.0, interface web locale autonome pour llama-server, lancée en open-source MIT. Offre paramètres étendus, support multilingue (6 langues), barre latérale conversationnelle à deux colonnes, intégration MCP, modes d'interface (sombre/clair/Frosted Glass), import/export local et guide déploiement Caddy.

LlamaOpen sourceOutils
SIG
72
HYP
25
Reddit r/MachineLearning·

Per-pixel bounding-box regression + DBSCAN for handwritten word detection - visual walkthrough of WordDetectorNet [P]

WordDetectorNet utilise une régression par pixel des distances de boîte englobante + DBSCAN pour détecter les mots manuscrits. Chaque pixel classé comme « mot » régresse 4 distances scalaires, générant des milliers de candidats fusionnés via DBSCAN avec distance = 1 − IoU. Architecture : ResNet18 → décodeur FPN → 6 canaux par pixel (2 logits segmentation + 4 distances). Entraîné sur IAM, 448×448 → 224×224.

VisionGénération de codeOpen source
SIG
72
HYP
18
Reddit r/MachineLearning·

I fine-tuned an LLM to be C-3PO to test which training data format works best for persona injection [P]

Expérience de fine-tuning LoRA comparant trois formats de données pour injecter la persona C-3PO : dialogues, énoncés à la première personne, et documents synthétiques Wikipedia. Les énoncés à la première personne surpassent en généralisation. Les documents synthétiques produisent un comportement paradoxal : le modèle connaît le trait d'anxiété mais l'exprime seulement 37% du temps.

Fine-tuningPrompt engineeringPapers
SIG
72
HYP
25
Reddit r/LocalLLaMA·

Did a 30 runs of llama-bench to find optimal settings for my use case (Frigate and HomeAssistant) on my MI60 32gb VRAM GPU - two models tested Gemma4 and Qwen3.6 - Figured I'd share in case it helps anyone else

Utilisateur a exécuté 30 benchmarks llama.cpp sur GPU MI60 32GB pour optimiser Gemma 4 26B Q4_1 et Qwen3 35B Q4_0 dans Frigate et HomeAssistant. Résultats : commandes vocales <1.2s, résumés vidéo <18s. Tests systématiques sur profondeurs KV cache (0, 1000, 6000 tokens) avec 512 tokens prompt et 128 tokens générés.

LlamaBenchmarksGénération de code
SIG
72
HYP
15
Reddit r/MachineLearning·

Interesting tension this week, the same companies racing to go public are also the ones making safety promises [N]

OpenAI et Anthropic accélèrent leurs IPO alors que des études révèlent des failles techniques : les modèles frontier dégradent les performances sur chaînes de tâches longues, les agents avec outils échouent dans plusieurs cas. Tension entre promesses de sécurité et pressions des marchés publics pour la croissance.

Agents IASécurité IABusiness
SIG
72
HYP
45
Reddit r/LocalLLaMA·

Benchmarked Needle 26M vs Qwen3-0.6B on CPU function calling, 50 queries across 5 difficulty tiers. The 23x smaller model wins on accuracy and is 4.4x faster.

Benchmark CPU de Needle (26M) vs Qwen3-0.6B sur function calling : 50 requêtes, 5 niveaux de difficulté. Needle gagne en précision (72% vs 56% tool_match) et latence (10.9s vs 47.9s). Needle échoue sur la sélection d'outil, Qwen3 sur l'émission de tags. Qwen3 domine sur requêtes multilingues (Hindi, français).

QwenBenchmarksGénération de code
SIG
78
HYP
15
Reddit r/LocalLLaMA·

Apex-Testing: real-world, real repos, agentic coding benchmark (Update)

Apex-Testing, benchmark de codage agentic basé sur 65-70 repos GitHub réels, a été mis à jour à 95% avec les modèles récents. 70 tâches réparties en 8 catégories testent les capacités d'agents IA sur du code production. Classement ELO, métriques de coût/temps et comparaisons disponibles. Qwen 3.7 Max, Deepseek v4 et autres modèles en cours de complétion.

Agents IAGénération de codeBenchmarks
SIG
78
HYP
25
Reddit r/LocalLLaMA·

Llama.cpp VS LiteRT on a custom Xiaomi 12 Pro 24/7 Server (V2 Redesign)

Comparaison llama.cpp vs LiteRT (Google) sur serveur 24/7 custom basé Xiaomi 12 Pro (Snapdragon 8 Gen 1). Llama.cpp : 30.6 t/s prompt, 5.7 t/s génération, charge CPU modérée. LiteRT : génération légèrement plus rapide mais saturation CPU et consommation électrique supérieure. Setup inclut refroidissement cuivre/aluminium, alimentation custom sécurisée, boîtier 3D-imprimé.

LlamaOpen sourceBenchmarks
SIG
65
HYP
25
Reddit r/MachineLearning·

Alignment: Higher order prioritizing over constraints [R]

Un utilisateur de r/MachineLearning rapporte une observation sur le comportement des transformers : les modèles cherchent à clarifier le sens (« clarity seeking ») via leurs vecteurs statistiques, ce qui peut contourner les contraintes de sécurité si un sujet de priorité supérieure est discuté. L'auteur suggère que les contraintes ont un niveau de priorité structurel inférieur aux vecteurs d'alignement du modèle.

AlignementSécurité IARaisonnement
SIG
35
HYP
55
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> multica-ai /</span> multica

Multica est une plateforme open-source de gestion d'agents IA. Elle transforme les agents de codage en coéquipiers : assignation de tâches, suivi de progression, composition de compétences.

Agents IAMulti-agentsGénération de code
SIG
45
HYP
55
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> presenton /</span> presenton

Presenton est un générateur de présentations IA open-source avec API, positionnée comme alternative à Gamma, Beautiful AI et Decktopus. Le projet GitHub propose une solution automatisée pour créer des diapositives.

Open sourceOutils
SIG
35
HYP
55
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> mukul975 /</span> Anthropic-Cybersecurity-Skills

Référentiel de 754 compétences cybersécurité structurées pour agents IA, mappées à 5 frameworks (MITRE ATT&CK, NIST CSF 2.0, MITRE ATLAS, D3FEND, NIST AI RMF). Compatible Claude Code, GitHub Copilot, Cursor, Gemini CLI et 20+ plateformes. 26 domaines de sécurité. Licence Apache 2.0.

Agents IAClaude CodeSécurité IA
SIG
72
HYP
25
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> grpc /</span> grpc-rust

grpc-rust : implémentation native gRPC client/serveur avec support async/await. Projet open-source pour Rust.

Open sourceInfrastructure
SIG
45
HYP
15
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> qdrant /</span> qdrant

Qdrant est une base de données vectorielle haute performance conçue pour les applications IA à grande échelle. Disponible en open-source et en cloud.

Recherche vectorielleEmbeddingsInfrastructure
SIG
45
HYP
35
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> warpdotdev /</span> warp

Warp est un environnement de développement agentique basé sur le terminal. Le projet gagne en popularité sur GitHub Trending.

Agents IAOutilsGénération de code
SIG
35
HYP
55
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> multica-ai /</span> multica

Multica est une plateforme open-source de gestion d'agents IA. Elle transforme les agents de codage en coéquipiers : assignation de tâches, suivi de progression, composition de compétences.

Agents IAMulti-agentsGénération de code
SIG
45
HYP
55
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> linshenkx /</span> prompt-optimizer

Outil open-source d'optimisation de prompts pour améliorer la qualité des requêtes IA et des résultats générés.

Prompt engineeringOutils
SIG
35
HYP
45
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> web-infra-dev /</span> midscene

Midscene est un framework d'automatisation UI piloté par vision et IA. Il fonctionne sur toutes les plateformes et utilise des modèles de vision pour interpréter et interagir avec les interfaces utilisateur.

VisionAgents IAOpen source
SIG
45
HYP
35
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> OpenPipe /</span> ART

OpenPipe/ART : framework d'entraînement par renforcement pour agents multi-étapes. Utilise GRPO pour l'apprentissage en temps réel sur Qwen, GPT-OSS, Llama et autres modèles.

Agents IAReinforcement learningOpen source
SIG
72
HYP
35
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> pydantic /</span> pydantic-ai

Pydantic-AI est un framework pour construire des agents IA utilisant la philosophie Pydantic. Disponible en open-source sur GitHub, il offre une approche structurée pour développer des systèmes multi-agents avec validation de données intégrée.

Agents IAMulti-agentsOpen source
SIG
65
HYP
35
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> crewAIInc /</span> crewAI

CrewAI est un framework open-source pour orchestrer des agents IA autonomes en rôles collaboratifs. Il permet aux agents de travailler ensemble sur des tâches complexes via une intelligence collective.

Agents IAMulti-agentsOpen source
SIG
65
HYP
35
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> databricks-solutions /</span> ai-dev-kit

Databricks publie ai-dev-kit, une boîte à outils pour développer des agents de codage. Le projet, maintenu par Field Engineering, fournit des composants et patterns pour construire des agents IA capables de générer et manipuler du code.

Agents IAGénération de codeOpen source
SIG
65
HYP
25
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> mukul975 /</span> Anthropic-Cybersecurity-Skills

Référentiel de 754 compétences cybersécurité structurées pour agents IA, mappées à 5 frameworks (MITRE ATT&CK, NIST CSF 2.0, MITRE ATLAS, D3FEND, NIST AI RMF). Compatible Claude Code, GitHub Copilot, Cursor, Gemini CLI et 20+ plateformes. 26 domaines de sécurité. Licence Apache 2.0.

Agents IAClaude CodeSécurité IA
SIG
72
HYP
25
Reddit r/LocalLLaMA·

First AI to Beat Every Human in a Programming Competition - Agentic GRPO Explained

Agentic GRPO, un algorithme RL adapté aux systèmes multi-étapes, permet aux agents IA de battre les humains en compétitions de programmation. L'innovation clé : récompenses immédiates à chaque étape (hypothèse, code, tests, debug) avec correction rétroactive une fois le résultat final connu, au lieu d'attendre la fin du workflow complet.

Agents IAReinforcement learningGénération de code
SIG
72
HYP
45
Reddit r/MachineLearning·

Spice: We built an open-sourced decision layer that sits above your AI agents (controls agent actions before execution) [P]

Spice est une couche de décision open-source qui se place au-dessus des agents IA pour contrôler leurs actions avant exécution. Elle observe le contexte, détecte les conflits, simule les options et délègue les tâches aux agents appropriés via une boucle : perception → modèle d'état → simulation → décision → exécution → réflexion.

Agents IAMulti-agentsOpen source
SIG
65
HYP
45
Reddit r/MachineLearning·

I built a Mamba1 variant I call SM1 with d_state=1 that runs on Blackwell in pure PyTorch [P]

Variante Mamba1 appelée SM1 avec d_state=1 utilisant deux opérations PyTorch natives pour remplacer le selective scan. Solution exacte en forme fermée, pas une approximation. Réduit la mémoire de scan de 16x comparé à Mamba1 (d_state=16). État d'inférence de 14 KB pour modèle 130M, O(1) par token. Entraînement sur 163K fichiers MIDI (2.5B tokens).

Open sourceGénération de codeRaisonnement
SIG
72
HYP
25
Reddit r/MachineLearning·

LLMs are just giant probability machines pretending to think [P]

Article pédagogique expliquant les LLMs comme machines probabilistes. Décompose l'architecture (embeddings, positional encoding, attention, feed-forward, LM Head) via un exemple simple : prédire « vault » après « The investor walked to the bank ». Souligne que le LM Head est un vocabulaire géant de tokens candidats et que l'intelligence émerge du scaling de probabilités + contexte + matching mathématique.

RaisonnementPrompt engineering
SIG
35
HYP
45
Reddit r/MachineLearning·

LQS v3.1 — an open methodology for rating AI training data (multi-oracle consensus + signed certificates) [P]

LQS v3.1 est une méthodologie open-source pour évaluer la qualité des données d'entraînement IA. Elle utilise 19 dimensions (correction des labels, contamination, équité, etc.), un consensus multi-oracle (7 oracles) avec recalibrage par signaux réels, et des certificats Ed25519 vérifiables hors-ligne. Index public gratuit avec 263 datasets notés.

ÉvaluationsOpen sourceSécurité IA
SIG
72
HYP
18
Reddit r/LocalLLaMA·

Vector Policy Optimization: Training for Diversity Improves Test-Time Search

Vector Policy Optimization (VPO) est un algorithme RL qui entraîne les modèles de langage à produire des solutions diversifiées en anticipant plusieurs fonctions de récompense vectorielles. VPO remplace l'estimateur d'avantage GRPO et surpasse les baselines RL scalaires sur quatre tâches, avec des gains croissants à mesure que le budget de recherche augmente.

Reinforcement learningRaisonnementGénération de code
SIG
72
HYP
28
Reddit r/LocalLLaMA·

How small can the orchestration model in an agent be? (separating it from code-gen — that obviously wants a big model)

Un développeur teste la taille minimale d'un modèle pour orchestrer une boucle ReAct locale. Qwen3.6-35B-A3B (MoE, ~3B actifs) est son seuil : en dessous, le modèle invente des paramètres d'outils ou généralise mal les appels. Il améliore la précision en exposant les signatures exactes dans le prompt système.

Agents IAQwenPrompt engineering
SIG
65
HYP
15