mai 2026

3149 articles

GitHub Trending·19 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> msitarzewski /</span> agency-agents

Agency-agents : framework open-source pour déployer une agence d'IA multi-agents spécialisés. Chaque agent possède des rôles distincts (frontend, community management, validation) avec processus et livrables définis.

Multi-agents Agents IA Open source

SIG

45

HYP

65

GitHub Trending·19 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> Imbad0202 /</span> academic-research-skills

Dépôt GitHub proposant un workflow de recherche académique intégré à Claude Code. Cycle complet : recherche → rédaction → révision → finalisation. Outil pour structurer la production de contenu académique avec assistance IA.

Claude Code Outils Prompt engineering

SIG

35

HYP

45

GitHub Trending·19 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> obra /</span> superpowers

Superpowers est un framework et une méthodologie de développement logiciel basée sur des agents autonomes. Le projet propose une approche structurée pour construire des systèmes multi-agents.

Agents IA Multi-agents Open source

SIG

35

HYP

45

GitHub Trending·19 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> rtk-ai /</span> rtk

rtk est un proxy CLI en Rust qui réduit la consommation de tokens LLM de 60-90% sur les commandes dev courantes. Binaire unique, zéro dépendance.

Outils Infrastructure Génération de code

SIG

72

HYP

25

GitHub Trending·19 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> rohitg00 /</span> agentmemory

AgentMemory : système de mémoire persistante pour agents IA de codage, basé sur des benchmarks réels. Repo GitHub trending proposant une architecture de stockage et récupération de contexte pour améliorer la continuité des agents autonomes.

Agents IA Génération de code Outils

SIG

45

HYP

35

GitHub Trending·19 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> anthropics /</span> claude-plugins-official

Anthropic publie un répertoire officiel de plugins Claude Code de haute qualité, gérés directement par l'entreprise.

Claude Claude Code Outils

SIG

65

HYP

15

GitHub Trending·19 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> dmtrKovalenko /</span> fff

fff est un toolkit de recherche de fichiers haute performance conçu pour les agents IA, Neovim, Rust, C et NodeJS. Optimisé pour la vitesse et la précision.

Agents IA Outils Open source

SIG

45

HYP

35

GitHub Trending·19 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> screenpipe /</span> screenpipe

Screenpipe (YC S26) enregistre localement et en continu tout ce que l'utilisateur fait, dit et entend pour donner aux IA accès à son expérience. Traitement privé et sécurisé sur l'appareil.

Agents IA Outils Open source

SIG

65

HYP

55

GitHub Trending·19 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> 0xPlaygrounds /</span> rig

Rig est un framework Rust pour construire des applications LLM modulaires et scalables. Le projet gagne en popularité sur GitHub Trending.

Open source Infrastructure Génération de code

SIG

45

HYP

25

GitHub Trending·19 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> rtk-ai /</span> rtk

rtk est un proxy CLI en Rust qui réduit la consommation de tokens LLM de 60-90% sur les commandes dev courantes. Binary unique, zéro dépendance.

Outils Génération de code Infrastructure

SIG

65

HYP

35

GitHub Trending·19 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> git-ai-project /</span> git-ai

git-ai est une extension Git pour tracer le code généré par IA dans les dépôts. Outil open-source permettant d'identifier et de documenter les contributions IA.

Génération de code Outils Open source

SIG

45

HYP

35

GitHub Trending·19 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> Michael-A-Kuykendall /</span> shimmy

Shimmy : serveur d'inférence Rust compatible API OpenAI, sans dépendances Python. Supporte GGUF et SafeTensors, échange de modèles à chaud, découverte automatique, binaire unique. Gratuit.

Open source Infrastructure Génération de code

SIG

72

HYP

35

GitHub Trending·19 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> vercel-labs /</span> agent-browser

Vercel Labs publie agent-browser, un outil CLI d'automatisation de navigateur conçu pour les agents IA. Permet aux agents d'interagir avec des interfaces web.

Agents IA Outils Open source

SIG

65

HYP

25

GitHub Trending·19 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> KeygraphHQ /</span> shannon

Shannon Lite est un pentesteur IA autonome et transparent pour applications web et APIs. Il analyse le code source, identifie les vecteurs d'attaque et exécute des exploits réels pour prouver les vulnérabilités avant la production.

Agents IA Sécurité IA Génération de code

SIG

45

HYP

55

GitHub Trending·19 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> tech-leads-club /</span> agent-skills

Registre de compétences sécurisé et validé pour agents IA de codage professionnels. Permet d'étendre Antigravity, Claude Code, Cursor, Copilot et autres avec confiance.

Agents IA Génération de code Outils

SIG

45

HYP

35

GitHub Trending·19 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> rohitg00 /</span> agentmemory

AgentMemory : système de mémoire persistante pour agents IA de codage, basé sur des benchmarks réels. Repo GitHub visant à améliorer la rétention d'informations et la continuité des agents autonomes.

Agents IA Génération de code Benchmarks

SIG

45

HYP

35

GitHub Trending·19 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> humanlayer /</span> 12-factor-agents

Humanlayer publie un framework de 12 principes pour construire des agents IA en production. Inspiré de la méthodologie 12-factor app, il couvre architecture, observabilité, et gestion des erreurs pour des systèmes fiables.

Agents IA Infrastructure Outils

SIG

65

HYP

25

GitHub Trending·19 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> colbymchenry /</span> codegraph

Codegraph : graphe de connaissances pré-indexé pour Claude Code, Codex, Cursor et OpenCode. Réduit les tokens et appels d'outils, fonctionne 100% en local.

Claude Code Génération de code RAG

SIG

65

HYP

25

GitHub Trending·19 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> heygen-com /</span> hyperframes

Hyperframes est un framework permettant aux agents IA de générer du contenu vidéo via HTML. Outil conçu pour automatiser la création vidéo dans les workflows d'agents.

Agents IA Génération de vidéos Outils

SIG

45

HYP

55

GitHub Trending·19 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> diegosouzapw /</span> OmniRoute

OmniRoute est une passerelle IA gratuite unifiant 160+ fournisseurs via un seul endpoint. Compression RTK+Caveman jusqu'à ~95% d'économies de contexte, auto-fallback intelligent, support MCP/A2A, APIs multimodales, versions Desktop/PWA.

Agents IA MCP Infrastructure

SIG

45

HYP

65

GitHub Trending·19 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> n8n-io /</span> n8n

n8n est une plateforme d'automatisation de workflows en fair-code avec capacités IA natives. Combine construction visuelle et code personnalisé, 400+ intégrations, auto-hébergement ou cloud.

Agents IA Génération de code Open source

SIG

65

HYP

25

GitHub Trending·19 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> K-Dense-AI /</span> scientific-agent-skills

K-Dense-AI publie scientific-agent-skills, une collection de compétences prêtes à l'emploi pour agents IA dans la recherche, sciences, ingénierie, analyse, finance et rédaction.

Agents IA Outils Open source

SIG

45

HYP

35

GitHub Trending·19 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> HKUDS /</span> CLI-Anything

CLI-Anything transforme les interfaces en agents natifs via CLI. Projet open-source visant à rendre tous les logiciels compatibles avec les agents IA.

Agents IA Open source Outils

SIG

45

HYP

55

GitHub Trending·19 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> HKUDS /</span> ViMax

ViMax est un système de génération vidéo agentique intégrant directeur, scénariste, producteur et générateur vidéo. Le projet GitHub propose une architecture multi-agents pour orchestrer la création vidéo de bout en bout.

Agents IA Multi-agents Génération de vidéos

SIG

45

HYP

65

GitHub Trending·19 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> anthropics /</span> claude-plugins-official

Anthropic publie un répertoire officiel de plugins Claude Code de haute qualité, gérés directement par l'entreprise.

Claude Claude Code Outils

SIG

65

HYP

20

GitHub Trending·19 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> NVlabs /</span> Sana

NVIDIA Labs publie Sana, un modèle de diffusion transformer linéaire pour la synthèse d'images haute résolution. Architecture efficace réduisant la complexité computationnelle tout en maintenant la qualité visuelle.

Génération d'images Open source Papers

SIG

75

HYP

25

GitHub Trending·19 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> BigBodyCobain /</span> Shadowbroker

Shadowbroker agrège données publiques (jets privés, satellites espions, séismes) dans une interface unifiée. Permet de connecter des agents IA pour identifier corrélations non détectées. Agrégation open-source de renseignements d'origine ouverte.

Agents IA Open source Outils

SIG

45

HYP

65

GitHub Trending·19 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> Alishahryar1 /</span> free-claude-code

Outil permettant d'utiliser Claude Code gratuitement en ligne de commande, extension VSCode ou Discord avec support vocal, inspiré par OpenClaw.

Claude Code Outils Open source

SIG

35

HYP

55

GitHub Trending·19 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> tirth8205 /</span> code-review-graph

Code-Review-Graph crée un graphe de connaissances local pour Claude Code. Il construit une carte persistante de la base de code, réduisant les tokens de 6,8× sur les reviews et jusqu'à 49× sur les tâches quotidiennes.

Claude Code RAG Génération de code

SIG

72

HYP

45

GitHub Trending·19 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> Imbad0202 /</span> academic-research-skills

Dépôt GitHub proposant un workflow de recherche académique intégré à Claude Code. Cycle complet : recherche → rédaction → révision → finalisation. Outil pour structurer la production de contenu académique avec IA.

Claude Code Outils Prompt engineering

SIG

35

HYP

25

GitHub Trending·19 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> anthropics /</span> skills

Anthropic publie un dépôt public pour les Agent Skills, des composants réutilisables destinés à étendre les capacités des agents IA.

Anthropic Agents IA Open source

SIG

45

HYP

20

GitHub Trending·19 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> unslothai /</span> unsloth

Unsloth Studio est une interface web pour entraîner et exécuter localement des modèles ouverts (Gemma 4, Qwen 3.6, DeepSeek, gpt-oss). Plateforme de fine-tuning et inférence sans infrastructure cloud.

Fine-tuning Open source Outils

SIG

65

HYP

35

GitHub Trending·19 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> ZhuLinsen /</span> daily_stock_analysis

Système d'analyse boursière alimenté par LLM pour marchés chinois, hongkongais et américains. Agrège données de marché en temps réel, actualités et génère décisions via tableau de bord LLM. Exécution automatisée sans frais.

Agents IA RAG Outils

SIG

45

HYP

35

Hacker News (AI)·19 mai

Show HN: AIPS – A Claude Code plugin to stop re-doing AI setup every project

AIPS est un plugin Claude Code qui automatise la configuration initiale des projets IA, éliminant les tâches répétitives de setup. L'outil s'intègre à Claude pour accélérer le démarrage des nouveaux projets.

Claude Code Outils Génération de code

SIG

35

HYP

25

The Decoder·19 mai

Mistral AI acquires Viennese physical AI startup Emmi AI

Mistral AI acquiert Emmi AI, startup viennoise spécialisée en IA physique, pour renforcer son offre auprès des clients industriels européens.

Mistral Robotique Business

SIG

72

HYP

18

Hacker News (AI)·19 mai

Public have more fear than hope on AI and future of work, UK study finds

Une étude britannique révèle que le public craint davantage l'IA qu'il n'en espère, particulièrement concernant l'avenir du travail. Les résultats montrent un sentiment d'inquiétude dominant face aux impacts économiques et sociétaux de l'automatisation.

Régulation Sécurité IA Business

SIG

35

HYP

25

Hacker News (AI)·19 mai

Aislop – deterministic quality gate for AI-generated code (MIT, no LLMs)

Aislop est un outil MIT open-source qui valide la qualité du code généré par IA sans utiliser de LLM. Il fonctionne comme une quality gate déterministe pour filtrer les sorties de générateurs de code.

Génération de code Évaluations Open source

SIG

45

HYP

15

Hacker News (AI)·19 mai

Pope Leo to issue text on human dignity and AI with Anthropic co-founder

Le Pape Léon va publier un texte sur la dignité humaine et l'IA en collaboration avec Dario Amodei, co-fondateur d'Anthropic. Initiative religieuse sur l'éthique de l'IA.

Anthropic Sécurité IA Alignement

SIG

35

HYP

45

Le Big Data·19 mai

Anthropic rachète Stainless, la startup API convoitée par OpenAI et Google

Anthropic acquiert Stainless, startup spécialisée dans les SDK et outils API. Le rachat renforce le contrôle d'Anthropic sur l'infrastructure IA générative, face à la convoitise d'OpenAI et Google.

Anthropic Infrastructure Business

SIG

72

HYP

35

The Decoder·19 mai

Cloudflare says Anthropic's Mythos Preview finds exploit chains that earlier frontier models missed

Cloudflare a testé Mythos Preview d'Anthropic, un modèle IA orienté sécurité, sur plus de 50 de ses dépôts de code dans le cadre du Project Glasswing. Le modèle a détecté des chaînes d'exploitation que les modèles frontière antérieurs avaient manquées.

Anthropic Claude Génération de code

SIG

65

HYP

35

Reddit r/LocalLLaMA·19 mai

Sapient Intelligence releases HRM-Text 1B: 40B tokens, ~$1k pretrain, beats Llama3.2 3B on MATH and DROP

Sapient Intelligence publie HRM-Text 1B : 1B paramètres entraîné sur 40B tokens en 1,9 jours avec ~$1k de budget. Surpasse Llama3.2 3B sur MATH (56.2 vs 48.0) et DROP (82.2 vs 45.2), mais reste en retrait sur MMLU (60.7 vs 64.7 pour Qwen3.5 2B). Modèle spécialisé en raisonnement multi-étapes.

Llama Raisonnement Benchmarks

SIG

72

HYP

45

OpenAI Blog·19 mai

Advancing content provenance for a safer, more transparent AI ecosystem

OpenAI déploie des outils de provenance de contenu : Content Credentials, SynthID et un vérificateur pour identifier et valider les médias générés par IA.

OpenAI Sécurité IA Outils

SIG

72

HYP

28

Hacker News (AI)·19 mai

Legal fail: Don't use AI to sue Facebook users for calling you a bad date

Un avocat a utilisé ChatGPT pour rédiger une plainte contre des utilisateurs Facebook les accusant de diffamation. Le tribunal a rejeté la plainte, jugée sans fondement juridique et générée par IA sans supervision adéquate.

Régulation Sécurité IA

SIG

45

HYP

35

Hacker News (AI)·19 mai

AdminForth – Open-source admin framework with a built-in AI agent [video]

AdminForth est un framework open-source pour construire des interfaces d'administration avec un agent IA intégré. Le projet inclut une démonstration vidéo de ses capacités.

Open source Agents IA Outils

SIG

45

HYP

35

The Decoder·19 mai

Anthropic adds self-hosted sandboxes and MCP tunnels to Claude Managed Agents

Anthropic enrichit Claude Managed Agents avec des sandboxes auto-hébergés et des tunnels MCP. Les entreprises peuvent désormais exécuter les outils de leurs agents IA dans leur propre infrastructure, tout en gardant le contrôle de l'agent chez Anthropic.

Claude Agents IA MCP

SIG

75

HYP

25

Hacker News (AI)·19 mai

The Economist prepares for a two‑track Web: one for humans one for AI agents

The Economist anticipe une bifurcation du Web : une piste pour les humains, une pour les agents IA. Le média prépare ses contenus et stratégies pour cette dualité.

Agents IA Business

SIG

35

HYP

55

The Decoder·19 mai

Elon Musk appeals $134 billion OpenAI loss, calls verdict a "calendar technicality"

Elon Musk a perdu son procès contre OpenAI et Sam Altman. Le jury d'Oakland a rejeté l'affaire en deux heures. Musk réclamait 134 milliards de dollars. Son avocat a réservé le droit d'appel.

OpenAI Régulation

SIG

65

HYP

35

Le Big Data·19 mai

Blackstone et Google investissent dans un nouveau cloud TPU pour accélérer l’IA

Blackstone et Google s'associent pour développer une infrastructure cloud dédiée aux TPU (Tensor Processing Units). Cet investissement vise à accélérer les capacités de calcul pour l'IA, en offrant une alternative aux GPU traditionnels pour l'entraînement et l'inférence de modèles.

Infrastructure DeepMind

SIG

45

HYP

35

Hacker News (AI)·19 mai

eXo MCP server: expose workplace tools to AI agents with OAuth

eXo lance un serveur MCP pour exposer les outils d'entreprise aux agents IA via OAuth. Le projet permet l'intégration sécurisée d'applications métier avec les modèles d'IA, en utilisant le protocole Model Context Protocol.

MCP Agents IA Outils

SIG

45

HYP

25

Hacker News (AI)·19 mai

Anthropic shuts the EU out of its most advanced cyber AI model

Anthropic restreint l'accès à son modèle IA cyber le plus avancé aux utilisateurs de l'UE, probablement en raison des exigences réglementaires européennes. La décision affecte les clients européens qui ne peuvent plus utiliser cette version spécialisée.

Anthropic Régulation Sécurité IA

SIG

35

HYP

45

Hacker News (AI)·19 mai

Mistral AI Acquires EU Physics AI Startup Emmi AI

Mistral AI acquiert Emmi AI, une startup européenne spécialisée en IA pour la physique. L'acquisition renforce les capacités de Mistral dans les domaines scientifiques et techniques.

Mistral Business

SIG

45

HYP

25

Le Big Data·19 mai

Dell et OpenAI lancent Codex en version on-premise pour les entreprises

Dell et OpenAI lancent une version on-premise de Codex pour les entreprises, visant à accélérer le déploiement d'agents IA dans les infrastructures critiques.

OpenAI Agents IA Génération de code

SIG

45

HYP

55

Hacker News (AI)·19 mai

Show HN: Viberia – Civ/Polytopia-like command center for AI agents (BYOK/BYOS)

Viberia est un centre de commande inspiré de Civilization/Polytopia pour orchestrer des agents IA. Interface de gestion multi-agents avec support BYOK (apportez votre clé) et BYOS (apportez votre serveur). Projet open-source présenté sur Hacker News.

Agents IA Multi-agents Outils

SIG

35

HYP

45

Hacker News (AI)·19 mai

Pizza Hut's AI system caused 'cascading' problems and $100M in damages

Le système IA de Pizza Hut a provoqué des défaillances en cascade causant 100 millions de dollars de dégâts. L'incident révèle les risques opérationnels des déploiements IA en production sans garde-fous suffisants.

Sécurité IA Business

SIG

45

HYP

65

Latent Space·19 mai

[AINews] How to land a job at a frontier lab (on Pretraining)

Article sur les stratégies pour décrocher un poste dans un laboratoire IA de pointe, avec focus sur le préentraînement. Publié avant Google I/O.

SIG

35

HYP

25

Hacker News (AI)·19 mai

Korean bill seeks strict watermark mandate on AI-generated content

La Corée du Sud prépare une loi imposant des marquages numériques obligatoires sur tout contenu généré par IA. Le projet vise à identifier clairement les contenus synthétiques et à prévenir les usages malveillants.

Régulation Sécurité IA

SIG

65

HYP

25

Le Big Data·19 mai

Disneyland attaqué en justice pour avoir scanné ses visiteurs à leur insu

Disneyland fait face à une action en justice pour avoir utilisé la reconnaissance faciale sur ses visiteurs sans consentement explicite aux entrées du parc.

Vision Régulation Sécurité IA

SIG

45

HYP

55

Hacker News (AI)·19 mai

Linus Torvalds on the continued flood of AI bug reports

Linus Torvalds commente l'afflux croissant de rapports de bugs générés par l'IA dans le noyau Linux. Il exprime des préoccupations sur la qualité et la pertinence de ces soumissions automatisées.

Sécurité IA Régulation

SIG

35

HYP

25

Vercel AI Blog·19 mai

Gemini 3.5 Flash on AI Gateway

Gemini 3.5 Flash est disponible sur Vercel AI Gateway avec amélioration de la compétence en code, exécution parallèle d'agents, et raisonnement renforcé. Le modèle utilise par défaut le niveau de thinking « medium » pour équilibrer qualité et coût. Intégration via SDK avec support observabilité et routage intelligent.

Gemini Agents IA Génération de code

SIG

72

HYP

28

Hacker News (AI)·19 mai

Bug bounty businesses bombarded with AI slop

Les plateformes de bug bounty sont submergées de rapports générés par IA sans valeur. Des soumissions automatisées et de faible qualité ralentissent les processus de sécurité et réduisent la confiance dans les programmes de vulnérabilités.

Sécurité IA Business

SIG

45

HYP

55

Hacker News (AI)·19 mai

Samaris OS: A Bootable Linux-Based OS with React UI, Rust Daemons and Local AI

Samaris OS est un système d'exploitation Linux bootable avec interface React, daemons Rust et capacités IA locales intégrées. Projet open-source combinant web frontend moderne et backend système performant.

Open source Outils Infrastructure

SIG

35

HYP

45

Reddit r/MachineLearning·19 mai

A Simple Solution to Improve Broken Peer Review System at AI Conferences [R]

Proposition de réforme du système d'évaluation par pairs aux conférences IA : diviser auteurs et relecteurs en deux groupes indépendants pour éliminer les incitations aux rejets réciproques. Les périodes de discussion seraient décalées pour éviter les conflits d'intérêts concurrents.

SIG

35

HYP

15

Hacker News (AI)·19 mai

Windows AI Background Services Are Slowing Down Your PC

Les services IA en arrière-plan de Windows ralentissent les performances des PC. Des utilisateurs signalent une consommation accrue de CPU et mémoire liée aux processus IA intégrés au système d'exploitation.

SIG

35

HYP

55

Hacker News (AI)·19 mai

Mini Shai-Hulud Strikes Again: 314 npm Packages Compromised

314 paquets npm ont été compromis dans une attaque attribuée à Mini Shai-Hulud. Les paquets malveillants contenaient du code d'extraction de données. L'incident soulève des questions sur la sécurité de la chaîne d'approvisionnement logicielle.

Sécurité IA Infrastructure Open source

SIG

65

HYP

45

Hacker News (AI)·19 mai

Linux 7.1-rc4: security list "almost unmanageable" from AI bug reports

Linux 7.1-rc4 : la liste de sécurité devient « quasi ingérable » suite à un afflux de rapports de bugs générés par IA. Les mainteneurs du noyau Linux signalent une surcharge de rapports automatisés de faible qualité.

Sécurité IA Régulation

SIG

45

HYP

35

Hacker News (AI)·19 mai

Standard Chartered to cut roles as AI use increases

Standard Chartered annonce des suppressions de postes liées à l'augmentation de l'utilisation de l'IA. La banque accélère son adoption d'outils d'IA pour automatiser les tâches, impactant ses effectifs.

SIG

35

HYP

25

arXiv cs.AI·19 mai

DARC: Disagreement-Aware Alignment via Risk-Constrained Decoding

DARC est une méthode d'inférence sans réentraînement qui reformule la sélection de réponses comme une optimisation robuste face aux désaccords d'annotateurs. Elle reclasse les candidats en maximisant un objectif de satisfaction robuste aux divergences KL, avec contrôles de déploiement pour limiter le risque entropique sans réentraînement.

Alignement Reinforcement learning Évaluations

SIG

75

HYP

15

arXiv cs.AI·19 mai

Spherical VAE with Cluster-Aware Feasible Regions: Guaranteed Prevention of Posterior Collapse

Nouvelle méthode VAE utilisant la géométrie sphérique et des contraintes cluster-aware pour éliminer mathématiquement l'effondrement postérieur. Transforme les données en coque sphérique, applique K-means, définit une région faisable entre variance intra-cluster et perte d'effondrement. Garantit 100% de prévention d'effondrement sans surcharge computationnelle ni restrictions sur le décodeur.

Papers Évaluations

SIG

75

HYP

25

arXiv cs.AI·19 mai

ARROW: Augmented Replay for RObust World models

ARROW étend DreamerV3 avec un système de replay à deux buffers (court et long terme) pour l'apprentissage par renforcement continu. Testé sur Atari et Procgen, l'algorithme réduit l'oubli catastrophique tout en maintenant le transfert de connaissances, inspiré par la relecture d'expériences dans le cerveau.

Reinforcement learning Papers Benchmarks

SIG

72

HYP

18

arXiv cs.AI·19 mai

Early Pruning for Public Transport Routing

Early Pruning accélère les algorithmes de routage RAPTOR pour les transports publics en pré-triant les connexions de transfert et en éliminant les trajets plus longs qui ne peuvent pas améliorer le meilleur temps d'arrivée. Testé sur les réseaux suisses et londoniens, la technique réduit les temps de requête jusqu'à 57% sans compromettre l'optimalité.

SIG

72

HYP

15

arXiv cs.AI·19 mai

The Expert Strikes Back: Interpreting Mixture-of-Experts Language Models at Expert Level

Étude comparative de l'interprétabilité des architectures Mixture-of-Experts (MoE) vs réseaux denses. Les experts MoE montrent moins de polysémantique neuronale que les FFN denses, particulièrement avec routage sparse. Les experts fonctionnent comme des spécialistes de tâches linguistiques fines (ex: fermeture de crochets LaTeX), pas comme des spécialistes de domaines larges.

SIG

78

HYP

15

arXiv cs.AI·19 mai

CounterRefine: Answer-Conditioned Counterevidence Retrieval for Inference-Time Knowledge Repair in Factual Question Answering

CounterRefine est une couche de réparation légère pour RAG qui traite la première réponse comme une hypothèse à tester. Le système émet des requêtes d'expansion conditionnées par la réponse pour récupérer des preuves spécifiques, puis applique une étape de raffinement KEEP/REVISE validée déterministiquement. Sur SimpleQA, il améliore un baseline RAG de 5,8 points de taux correct.

RAG Raisonnement Évaluations

SIG

75

HYP

15

arXiv cs.AI·19 mai

SkillMOO: Multi-Objective Optimization of Agent Skills for Software Engineering

SkillMOO optimise les bundles de compétences pour agents de codage via recherche multi-objectif (NSGA-II) sur taux de réussite et coût d'inférence. Sur 16 tâches SkillsBench, le framework atteint le meilleur rang de pass rate sur 11/12 tâches non-nulles, réduisant les coûts jusqu'à 31,7% et gagnant jusqu'à 21 points de pourcentage en taux de réussite.

Agents IA Génération de code Benchmarks

SIG

78

HYP

15

arXiv cs.AI·19 mai

Identifying Latent Actions and Dynamics from Offline Data via Demonstrator Diversity

Article théorique sur la récupération d'actions latentes et de dynamiques d'environnement à partir de trajectoires hors ligne sans observations d'actions. Les auteurs exploitent la diversité des démonstrateurs (chacun suivant une politique distincte) pour identifier les noyaux de transition latents via factorisation matricielle non-négative. Identifiabilité prouvée sous conditions de rang et diversité de politique.

Reinforcement learning Papers

SIG

75

HYP

15

arXiv cs.AI·19 mai

Herding CATs: ALARA for Agent Harness Engineering in Portable Composable Multi-Agent Teams

Papier présentant CAT (Context-Agent-Tool), une couche de données pour gérer les équipes multi-agents. Applique le principe ALARA (exposition minimale raisonnable) au contexte. Évalue 22 modèles (0.6B–35B paramètres) sur 115 tâches pratiques via npcsh, un shell CLI. ~2500 exécutions testent opérations fichiers, recherche web, scripting multi-étapes, chaînage d'outils et délégation inter-agents.

Multi-agents Agents IA Outils

SIG

75

HYP

15

arXiv cs.AI·19 mai

Permutation-Consensus Listwise Judging for Robust Factuality Evaluation

PCFJudge, une méthode d'inférence, évalue la factualité en relançant un prompt listwise sur plusieurs ordres de candidats et agrège les scores. Sur RewardBench 2 Factuality, avec K=7 permutations, la précision passe de 86% à 91,33% (GPT-5.4) et 86,33% à 89,67% (Claude Sonnet 4.6).

Évaluations GPT Claude

SIG

72

HYP

18

arXiv cs.AI·19 mai

DSPR: Dual-Stream Physics-Residual Networks for Trustworthy Industrial Time Series Forecasting

DSPR (Dual-Stream Physics-Residual Networks) propose un cadre de prévision de séries temporelles industrielles qui découple les patterns temporels stables des dynamiques résiduelles dépendantes du régime. Via un module de fenêtre adaptative et un graphe dynamique guidé par la physique, le modèle atteint 99% de précision de conservation et 97,2% de ratio de variation totale sur quatre benchmarks industriels.

Benchmarks Raisonnement Infrastructure

SIG

78

HYP

25

arXiv cs.AI·19 mai

ECHO: Efficient Chest X-ray Report Generation with One-step Block Diffusion

ECHO est un modèle de diffusion pour la génération de rapports de radiographie thoracique. Il utilise une distillation conditionnelle directe et un entraînement asymétrique pour générer des rapports en une seule étape par bloc, réduisant la latence d'inférence de 8× tout en améliorant RaTE (+64,33%) et SemScore (+60,58%) par rapport aux méthodes autorégressives.

Vision Génération de code Benchmarks

SIG

75

HYP

25

arXiv cs.AI·19 mai

Stream2LLM: Overlap Context Streaming and Prefill for Reduced Time-to-First-Token (TTFT)

Stream2LLM est un système de serving LLM qui réduit le temps jusqu'au premier token (TTFT) en chevauchant la récupération de contexte avec l'inférence. Le système gère deux modes : append (accumulation progressive) et update (raffinement itératif). Évaluation sur workloads réels montre jusqu'à 11x d'amélioration TTFT.

Infrastructure Raisonnement RAG

SIG

78

HYP

25

arXiv cs.AI·19 mai

Limitations of Sequence-Based Protein Representations for Parkinson's Disease Classification: A Leakage-Free Benchmark

Étude comparative de représentations protéiques (composition acides aminés, k-mers, ProtBERT, descripteurs physicochimiques) pour classifier la maladie de Parkinson. ProtBERT + MLP atteint F1=0.704±0.028, ROC-AUC=0.748±0.047. Les séquences primaires seules montrent un pouvoir discriminant limité; des features structurelles/fonctionnelles sont nécessaires.

Benchmarks Papers Embeddings

SIG

72

HYP

15

arXiv cs.AI·19 mai

Black-Box Optimization From Small Offline Datasets via Meta Learning with Synthetic Tasks

OptBias, un framework de meta-learning, résout l'optimisation black-box hors-ligne avec données limitées. Il génère des tâches synthétiques via processus gaussien pour apprendre un biais d'optimisation réutilisable, puis affine le modèle surrogate sur les petits datasets cibles. Surpasse les baselines sur benchmarks continus et discrets.

Benchmarks Papers

SIG

72

HYP

18

arXiv cs.AI·19 mai

PriHA: A RAG-Enhanced LLM Framework for Primary Healthcare Assistant in Hong Kong

PriHA est un système RAG pour assistant de santé primaire à Hong Kong. Le framework combine un optimiseur de requêtes et une architecture Dual Retrieval Augmented Generation (DRAG) pour récupérer des directives cliniques fragmentées et générer des réponses précises et localisées, surpassant ChatGPT et DeepSeek sur l'exactitude.

RAG Llama Raisonnement

SIG

72

HYP

18

arXiv cs.AI·19 mai

A Lightweight Transformer for Pain Recognition from Brain Activity

Un transformer léger fusionne plusieurs représentations fNIRS via tokenization unifiée pour reconnaître la douleur à partir de l'activité cérébrale. Le modèle préserve caractéristiques spatiales, temporelles et temps-fréquence sur le dataset AI4Pain, offrant performance compétitive avec faible coût computationnel pour inférence temps réel GPU/CPU.

Papers Vision Raisonnement

SIG

72

HYP

18

arXiv cs.CL·19 mai

HINT-SD: Targeted Hindsight Self-Distillation for Long-Horizon Agents

HINT-SD propose une auto-distillation ciblée pour entraîner des agents LLM sur des horizons longs. La méthode utilise l'historique complet de trajectoire pour identifier les actions pertinentes aux échecs et applique la distillation conditionnée par feedback uniquement sur ces spans. Sur BFCL v3 et AppWorld, elle améliore les baselines de 18,80% tout en réduisant le temps par étape d'entraînement de 2,26×.

Agents IA Reinforcement learning Raisonnement

SIG

72

HYP

18

arXiv cs.AI·19 mai

Investigation into In-Context Learning Capabilities of Transformers

Étude empirique systématique des capacités d'apprentissage en contexte des transformers sur des tâches de classification binaire Gaussienne. Les auteurs analysent comment la précision dépend de la dimension d'entrée, du nombre d'exemples en contexte et de la diversité des tâches d'entraînement. Ils caractérisent l'émergence du surapprentissage bénin et identifient les régions paramétriques critiques.

Raisonnement Benchmarks Papers

SIG

72

HYP

15

arXiv cs.AI·19 mai

ClawGym: A Scalable Framework for Building Effective Claw Agents

ClawGym est un framework pour développer des agents capables d'exécuter des workflows multi-étapes sur fichiers locaux et outils persistants. Il inclut ClawGym-SynData (13.5K tâches synthétisées), des modèles fine-tunés par apprentissage supervisé, et ClawGym-Bench (200 instances d'évaluation). Code et ressources disponibles.

Agents IA Reinforcement learning Benchmarks

SIG

78

HYP

25

arXiv cs.AI·19 mai

Unsupervised Denoising of Real Clinical Low Dose Liver CT with Perceptual Attention Networks

Article proposant un framework d'apprentissage non-supervisé pour le débruitage de CT hépatique basse dose. Combine U-Net, mécanismes d'attention et réseaux résiduels avec perte perceptuelle. Validé sur dataset clinique réel avec évaluation par radiologues.

Vision Reinforcement learning

SIG

72

HYP

15

arXiv cs.AI·19 mai

MindMelody: A Closed-Loop EEG-Driven System for Personalized Music Intervention

MindMelody est un système fermé en temps réel qui génère de la musique personnalisée à partir de signaux EEG. Un modèle Transformer-GNN décode l'EEG en états émotionnels (Valence-Arousal), un LLM avec RAG formule des plans d'intervention, et un contrôleur EEG hiérarchique guide la synthèse audio. Une boucle de rétroaction continue adapte les paramètres selon l'EEG de l'utilisateur.

Raisonnement RAG Génération de code

SIG

72

HYP

35

arXiv cs.AI·19 mai

Experiment-as-Code Labs: A Declarative Stack for AI-Driven Scientific Discovery

Experiment-as-Code Labs propose un paradigme où les expériences scientifiques sont encodées en configurations déclaratives compilables vers des APIs d'instruments. Les agents IA formulent des hypothèses, un système effectue analyses de programme et orchestration, puis les expériences s'exécutent via contrôle d'équipements physiques. Stack générique science/lab/instrument-agnostique.

Agents IA Papers Raisonnement

SIG

72

HYP

28

arXiv cs.CL·19 mai

SD-Search: On-Policy Hindsight Self-Distillation for Search-Augmented Reasoning

SD-Search propose une auto-distillation par hindsight pour améliorer les agents de raisonnement augmentés par recherche. Un modèle unique joue deux rôles (étudiant et enseignant) : l'enseignant a accès aux résultats des requêtes passées et guide l'étudiant via divergence Jensen-Shannon au niveau des tokens. Aucun modèle externe ni annotation supplémentaire requise.

Raisonnement Reinforcement learning Agents IA

SIG

78

HYP

15

arXiv cs.AI·19 mai

SlimQwen: Exploring the Pruning and Distillation in Large MoE Model Pre-training

Étude systématique de la compression de modèles MoE (Qwen3-Next-80A3B → 23A2B) via pruning et distillation à l'échelle du préentraînement. Le pruning surpasse l'entraînement from-scratch, la distillation multi-token (MTP) améliore les performances, et les schedules progressifs battent la compression one-shot.

Qwen Fine-tuning Benchmarks

SIG

78

HYP

15

arXiv cs.CL·19 mai

Causal Intervention-Based Memory Selection for Long-Horizon LLM Agents

CMI (Causal Memory Intervention) sélectionne les mémoires pertinentes pour les agents LLM long-horizon via interventions causales contrôlées, plutôt que par similarité sémantique. Un benchmark annoté causalement (Causal-LoCoMo) évalue la robustesse face aux mémoires trompeuses. CMI surpasse les baselines vector, graph, reflection et full-history.

Agents IA Raisonnement Benchmarks

SIG

78

HYP

15

arXiv cs.AI·19 mai

When Does Non-Uniform Replay Matter in Reinforcement Learning?

Étude sur l'efficacité du replay non-uniforme en RL off-policy. Les auteurs identifient trois facteurs clés : volume de replay, récence des transitions et entropie de la distribution d'échantillonnage. Ils proposent Truncated Geometric replay, qui privilégie les expériences récentes tout en maintenant haute entropie, améliorant l'efficacité d'échantillonnage en régimes bas-volume.

Reinforcement learning Benchmarks Papers

SIG

72

HYP

15

arXiv cs.CL·19 mai

How Off-Policy Can GRPO Be? Mu-GRPO for Efficient LLM Reinforcement Learning

Mu-GRPO améliore l'efficacité de GRPO en tolérant une plus grande staleness des rollouts. Le framework organise l'entraînement en 4 stages séquentiels génération-optimisation, réduisant le surcoût système de 2x tout en maintenant les performances sur les benchmarks de raisonnement mathématique.

Reinforcement learning Raisonnement Benchmarks

SIG

78

HYP

15

arXiv cs.CL·19 mai

CasualSynth: Generating Structurally Sound Synthetic Data

CausalSynth est un framework qui génère des données synthétiques respectant les mécanismes causaux du domaine cible. Il combine un Structural Causal Model (SCM) pour générer des squelettes causaux, un LLM comme réalisateur contraint, et une vérification itérative pour corriger les violations structurelles. Testé sur ASIA, ALARM et MIMIC-Struct, il atteint 96% de réalisabilité avec des taux de faux positifs à α=0.05.

Papers Raisonnement Benchmarks

SIG

78

HYP

15

arXiv cs.CL·19 mai

Self-Improving CAD Generation Agents with Finite Element Analysis as Feedback

Agents CAD auto-améliorants utilisant l'analyse par éléments finis (FEA) comme feedback. Les modèles Codex (GPT-5.5) et Claude Code (Opus-4.7) ne produisent aucun artefact valide en première tentative ; seuls ~20% des exigences sont respectées. Deux signaux de supervision (schéma blueprint texte et rendu 21-vues) améliorent la boucle itérative : Box-IoU passe de 0.444 à 0.592 sur S2O.

Agents IA Génération de code Raisonnement

SIG

78

HYP

25

arXiv cs.CL·19 mai

MemRepair: Hierarchical Memory for Agentic Repository-Level Vulnerability Repair

MemRepair est un framework d'agent augmenté par mémoire pour la réparation de vulnérabilités au niveau du dépôt. Il combine trois couches mémoire (History-Fix, Security-Pattern, Refinement-Trajectory) avec une boucle de raffinement itérative. Évalué sur SEC-Bench, PatchEval et Multi-SWE-bench, MemRepair atteint 58.0%, 58.2% et 30.58% de taux de résolution, surpassant OpenHands, SWE-agent et InfCode-C++.

Agents IA Génération de code Sécurité IA

SIG

82

HYP

18

arXiv cs.CL·19 mai

Medical Context Distorts Decisions in Clinical Vision Language Models

Étude arXiv identifiant trois défaillances critiques des vision-language models (VLMs) en contexte clinique : surreliance au texte vs images, dépendance à l'historique clinique non pertinent, sensibilité aux variations de prompt. Tests sur MIMIC-CXR montrent que les décisions VLM sont dominées par la modalité textuelle même avec évidence visuelle disponible.

Vision Sécurité IA Évaluations

SIG

72

HYP

18

arXiv cs.CL·19 mai

QQJ: Quantifying Qualitative Judgment for Scalable and Human-Aligned Evaluation of Generative AI

QQJ est un cadre d'évaluation des systèmes IA génératifs qui combine jugement humain et LLM. Il utilise des rubriques multi-dimensionnelles conçues par experts et calibre les évaluateurs LLM sur un petit ensemble d'annotations de haute qualité. Expériences sur texte et images montrent meilleure alignement avec le jugement humain que les métriques automatiques traditionnelles.

Évaluations Llama Vision

SIG

72

HYP

28

arXiv cs.CL·19 mai

CyberCorrect: A Cybernetic Framework for Closed-Loop Self-Correction in Large Language Models

CyberCorrect formalise l'auto-correction des LLM comme système de contrôle en boucle fermée. Un détecteur d'erreurs tri-modal (auto-cohérence, confiance verbalisée, vérification logique) alimente un contrôleur de correction type-dirigé. Sur CyberCorrect-Bench (440 tâches), le framework atteint 79,8% de précision (+6,2pp vs SOTA) et réduit les sur-corrections de 41%.

Raisonnement Évaluations Papers

SIG

78

HYP

25