Archives

mai 2026

3147 articles

Reddit r/LocalLLaMA·

BeeLlama v0.2.0 – major DFlash update. Single RTX 3090: Qwen 3.6 27B up to 164 tps (4.40x), Gemma 4 31B up to 177.8 tps (4.93x). Prompt processing speed near baseline.

BeeLlama v0.2.0 améliore significativement les performances avec DFlash. Sur RTX 3090 : Qwen 3.6 27B atteint 164 tps (4.40x speedup), Gemma 4 31B 177.8 tps (4.93x). Support complet Gemma 4 31B, réduction overhead DFlash, meilleure gestion prefill et validation draft/target.

QwenOpen sourceGénération de code
SIG
82
HYP
25
Reddit r/LocalLLaMA·

I ran a quantization shootout on Qwen3-Coder and the results are... interesting

Benchmark de quantization sur Qwen3-Coder-Next avec 3× R9700 PRO. UD-Q5_K_M surpasse MXFP4_MOE sur tous les métriques qualité (94% vs 89.4% top-1 accuracy, KL divergence 0.0217 vs 0.0746) avec pénalité vitesse négligeable (~10% en decode). L'approche de précision dynamique d'Unsloth réduit exponentiellement les erreurs cumulatives sur sorties longues.

QwenGénération de codeFine-tuning
SIG
72
HYP
28
Reddit r/LocalLLaMA·

Open source: cloned Rocky's voice from Project Hail Mary in two days, full pipeline + 2:10 of training audio + trained RVC v2 model

Clonage de la voix de Rocky (Project Hail Mary) en deux jours via pipeline open-source. Extraction audio (ffmpeg + demucs), transcription (Whisper), diarization (pyannote), puis entraînement RVC v2 sur 2:10 min audio. Modèle .pth (55MB) et code publics. Comparaison XTTS v2 / YourTTS / RVC v2 / OpenVoice v2.

VoixOpen sourceGénération de code
SIG
72
HYP
28
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> Lum1104 /</span> Understand-Anything

Outil open-source convertissant du code en graphe de connaissances interactif explorable et interrogeable. Compatible Claude Code, Cursor, Copilot, Gemini CLI et autres éditeurs.

Génération de codeOutilsOpen source
SIG
65
HYP
35
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> can1357 /</span> oh-my-pi

Oh-my-pi est un agent IA de codage pour terminal avec édits ancrés par hash, intégration LSP, support Python et navigateur, ainsi que des sous-agents.

Agents IAGénération de codeOutils
SIG
45
HYP
35
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> github /</span> copilot-sdk

GitHub publie un SDK multi-plateforme pour intégrer l'agent Copilot dans des applications et services tiers. Permet aux développeurs d'accéder aux capacités d'IA de Copilot via API standardisée.

Agents IAGénération de codeOutils
SIG
75
HYP
25
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> raine /</span> workmux

Workmux combine les git worktrees et les fenêtres tmux pour faciliter le développement parallèle sans friction. Outil open-source permettant de gérer plusieurs branches de travail simultanément avec une intégration tmux native.

OutilsOpen source
SIG
65
HYP
25
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> yamadashy /</span> repomix

Repomix est un outil qui compresse un dépôt entier en un fichier unique optimisé pour les LLM. Compatible avec Claude, ChatGPT, DeepSeek, Perplexity, Gemini et autres modèles d'IA.

Génération de codeOutilsOpen source
SIG
65
HYP
35
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> abhigyanpatwari /</span> GitNexus

GitNexus est un moteur d'intelligence de code côté client qui fonctionne entièrement dans le navigateur. Il crée un graphe de connaissances à partir d'un dépôt GitHub ou d'un fichier ZIP, avec un agent Graph RAG intégré pour l'exploration de code.

RAGAgents IAGénération de code
SIG
45
HYP
55
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> MemTensor /</span> MemOS

MemOS est un système d'exploitation mémoire auto-évolutif pour LLM et agents IA. Offre mémoire ultra-persistante, récupération hybride et réutilisation de compétences cross-task avec 35,24% d'économies de tokens.

Agents IARAGOpen source
SIG
65
HYP
35
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> anomalyco /</span> opencode

OpenCode est un agent de codage open-source disponible sur GitHub. Le projet propose une solution automatisée pour la génération et l'assistance au code.

Génération de codeAgents IAOpen source
SIG
35
HYP
45
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> phodal /</span> routa

Routa est une plateforme de coordination multi-agent orientée workspace pour le développement IA. Elle intègre des Specs partagées, une orchestration Kanban, et supporte MCP/ACP/A2A sur web et desktop.

Multi-agentsMCPAgents IA
SIG
45
HYP
35
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> awslabs /</span> aidlc-workflows

AWS Labs publie aidlc-workflows, un framework de règles de steering adaptatif pour diriger les agents IA de codage. Le projet fournit des workflows basés sur des règles de cycle de vie piloté par l'IA pour améliorer la qualité et la fiabilité des agents de code.

Agents IAGénération de codeOpen source
SIG
65
HYP
25
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> langchain-ai /</span> langchain

LangChain reste en tête des tendances GitHub. Plateforme d'ingénierie d'agents IA, elle facilite la construction d'applications avec LLM et orchestration multi-composants.

Agents IAOutilsOpen source
SIG
45
HYP
35
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> google-research /</span> timesfm

TimesFM est un modèle fondation préentraîné développé par Google Research pour la prévision de séries temporelles. Le repo GitHub propose une implémentation open-source de ce modèle spécialisé.

DeepMindOpen sourceBenchmarks
SIG
75
HYP
20
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> Tracer-Cloud /</span> opensre

Tracer-Cloud/opensre est un toolkit open-source pour construire des agents IA SRE (Site Reliability Engineering). Permet l'automatisation des tâches d'infrastructure et de fiabilité via des agents intelligents.

Agents IAOpen sourceOutils
SIG
45
HYP
55
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> facebookresearch /</span> sam3

Meta publie le code et les checkpoints de SAM 3 (Segment Anything Model 3). Le repo inclut l'inférence, le fine-tuning et des notebooks d'exemple pour la segmentation d'images.

Meta AIVisionOpen source
SIG
85
HYP
15
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> microsoft /</span> agent-governance-toolkit

Microsoft publie un toolkit de gouvernance pour agents IA autonomes. Inclut application de politiques, identité zero-trust, sandboxing d'exécution et ingénierie de fiabilité. Couvre les 10/10 risques OWASP Agentic Top 10.

Agents IASécurité IAOutils
SIG
75
HYP
25
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> plastic-labs /</span> honcho

Honcho est une bibliothèque mémoire pour construire des agents avec état. Elle permet de gérer la persistance et l'historique des interactions dans des systèmes multi-agents.

Agents IAOpen sourceOutils
SIG
45
HYP
25
Reddit r/MachineLearning·

NuExtract3 released: open-weight 4B VLM for Markdown, OCR and structured extraction (self-hostable) [P]

Numind publie NuExtract3, un VLM open-weight de 4B paramètres basé sur Qwen3.5-4B sous licence Apache-2.0. Le modèle extrait des données structurées de documents complexes (PDFs, formulaires, tableaux, factures) en Markdown ou JSON. Entraîné 3 jours sur 8xH100, il supporte plusieurs quantizations (GPTQ, W8A8, FP8, Q4, Q6) et fonctionne avec 4GB VRAM minimum.

VisionOpen sourceGénération de code
SIG
82
HYP
25
Reddit r/MachineLearning·

One thing that's been bothering me lately: benchmark performance often tells me almost nothing about whether a workflow will survive production usage.[D]

Discussion sur le fossé entre performances en benchmark et robustesse en production. Les systèmes performants échouent face à l'ambiguïté utilisateur, contextes réels complexes et instructions contradictoires. Appel à des méthodes d'évaluation au-delà des pipelines standards.

ÉvaluationsBenchmarks
SIG
45
HYP
25
Simon Willison·

FTC to Require Cox Media Group, Two Other Firms to Pay Nearly $1 Million to Settle Charges They Deceived Customers About “Active Listening” AI-Powered Marketing Service

La FTC condamne Cox Media Group et deux autres entreprises à payer près d'1 million de dollars pour avoir trompé les clients sur un service marketing IA appelé « Active Listening ». Le service prétendait écouter les conversations via les appareils intelligents pour cibler les publicités, mais n'utilisait en réalité aucune donnée vocale.

RégulationSécurité IABusiness
SIG
75
HYP
25
arXiv cs.CL·

Evaluation of Chunking Strategies for Effective Text Embedding in Low-Resource Language on Agricultural Documents

Étude comparative de quatre stratégies de chunking (Recursive, Khmer-Aware, Sentence-Based, LLM-Based) pour RAG sur documents agricoles en khmer. Le chunking Recursive avec 300 caractères obtient les meilleures performances : L2 distance 0.4295, Answer Relevance 0.8663, Khmer IoU 0.6441. Amélioration statistiquement significative vs Sentence-Based (p=0.0121).

RAGEmbeddingsBenchmarks
SIG
72
HYP
15
arXiv cs.CL·

A Comparative Study of Language Models for Khmer Retrieval-Augmented Question Answering

Étude comparative de systèmes RAG pour le khmer. BGE-M3 surpasse Jina-Embeddings-v3 et Qwen3-Embedding en dense retrieval (Hit Rate@3: 0.285). Évaluation de 5 générateurs (Qwen3, Qwen3.5, Sailor2, SeaLLMs-v3, Llama-SEA-LION-v2) sur 200 QA pairs avec 6 métriques RAGAS. Aucun modèle ne domine tous les critères; le choix du retriever reste le goulot d'étranglement.

RAGEmbeddingsBenchmarks
SIG
72
HYP
15
arXiv cs.CL·

Ishigaki-IDS-Bench: A Benchmark for Generating Information Delivery Specification from BIM Information Requirements

Ishigaki-IDS-Bench est un benchmark pour évaluer la génération de fichiers XML Information Delivery Specification (IDS) à partir de spécifications BIM. Sur 166 exemples expert-validés en anglais/japonais, les 10 meilleurs LLMs atteignent 65,6% F1 macro pour l'accord de contenu, mais seulement 27,7% passent l'audit de contenu IDS. Les modèles peinent à générer du XML conforme aux standards IDS et vocabulaire IFC.

BenchmarksGénération de codePapers
SIG
72
HYP
15
arXiv cs.CL·

FlyRoute: Self-Evolving Agent Profiling via Data Flywheel for Adaptive Task Routing

FlyRoute est un framework d'auto-évolution de profils d'agents qui améliore le routage de requêtes en entreprise. Via un mécanisme de flywheel, il collecte des preuves de capacités depuis le trafic réel, distille des descriptions apprises et les injecte dans un routeur LLM avec des succès récupérés par BM25. Sur un dataset propriétaire, FlyRoute passe de 72,57% (zero-shot) à 89,83% de précision après 7,211 requêtes.

Agents IAMulti-agentsPrompt engineering
SIG
75
HYP
25
arXiv cs.CL·

Broadening Access to Transportation Safety Data with Generative AI: A Schema-Grounded Framework for Spatial Natural Language Queries

Un framework utilise un LLM pour traduire des requêtes en langage naturel en opérations spatiales déterministes sur une base de données PostGIS. Testé sur des données de sécurité routière du Massachusetts (accidents, attributs routiers, écoles, arrêts de bus), le système valide 29% des requêtes erronées via une couche de règles, préservant la reproductibilité tout en démocratisant l'accès aux données.

RAGAgents IAÉvaluations
SIG
72
HYP
25
arXiv cs.CL·

Harder to Defend: Towards Chinese Toxicity Attacks via Implicit Enhancement and Obfuscation Rewriting

Étude arXiv sur les attaques de toxicité implicite en chinois (CITA). Framework de red-teaming en trois étapes (apprentissage d'intent nuisible, amélioration d'implicitude, réécriture d'obfuscation) générant des données d'évaluation. Sept détecteurs testés montrent 69,48% de taux d'erreur moyen. Modèle de défense CITD fine-tuné sur données CITA améliore la robustesse.

Sécurité IAAlignementÉvaluations
SIG
72
HYP
18
arXiv cs.AI·

Improving Quantized Model Performance in Qualitative Analysis with Multi-Pass Prompt Verification

Étude sur la quantification de LLaMA-3.1 (8B) pour l'analyse qualitative. Les modèles 8-bit conservent la meilleure précision ; les modèles 4-bit, 3-bit et 2-bit souffrent d'hallucinations. Une méthode de vérification multi-pass réduit les erreurs et stabilise les résultats, rendant les modèles bas-bit viables pour la recherche qualitative.

LlamaPrompt engineeringÉvaluations
SIG
72
HYP
18
arXiv cs.AI·

Neural Estimation of Pairwise Mutual Information in Masked Discrete Sequence Models

Méthode neurale pour estimer l'information mutuelle conditionnelle par paires dans les modèles de diffusion masqués (MDMs). Le framework utilise les états cachés d'un MDM préentraîné et supervision par MI calculée depuis les distributions conditionnelles du modèle. Appliqué à Sudoku et génération de séquences protéiques (ESM-C), réduit les passes forward d'inférence de 3-5x en décodage parallèle guidé par MI.

PapersRaisonnementGénération de code
SIG
72
HYP
18
arXiv cs.AI·

Insights Generator: Systematic Corpus-Level Trace Diagnostics for LLM Agents

Insights Generator est un système multi-agent pour diagnostiquer les défaillances d'agents LLM à l'échelle d'un corpus. Il formule et teste des hypothèses sur les traces d'exécution pour produire des rapports d'insights fondés sur des preuves. Les experts humains utilisant IG améliorent les performances de 30,4pp ; les agents de codage montrent des gains stables.

Agents IAMulti-agentsÉvaluations
SIG
72
HYP
18
arXiv cs.AI·

Playing Devil's Advocate: Off-the-Shelf Persona Vectors Rival Targeted Steering for Sycophancy

Étude sur la réduction de la sycophantie (accord du modèle même quand l'utilisateur se trompe) via des vecteurs de persona off-the-shelf. Les vecteurs orientés vers le doute/scrutin réduisent la sycophantie à 68-98% de l'effet de CAA (Contrastive Activation Addition), tout en maintenant la précision. La sycophantie est une propriété au niveau persona, non une direction unique.

AlignementSécurité IAÉvaluations
SIG
72
HYP
18
arXiv cs.AI·

VBFDD-Agent for Electric Vehicle Battery Fault Detection and Diagnosis: Descriptive Text Modeling of Battery Digital Signals

VBFDD-Agent est un agent de diagnostic de défauts de batterie pour véhicules électriques utilisant des modèles de langage. Le système transforme les signaux de batterie lithium-ion en descriptions textuelles naturelles, intègre la récupération de cas historiques et les manuels de maintenance locaux pour générer des recommandations diagnostiques structurées et interprétables.

Agents IARAGRaisonnement
SIG
72
HYP
28
arXiv cs.AI·

AgentAtlas: Beyond Outcome Leaderboards for LLM Agents

AgentAtlas propose une évaluation multidimensionnelle des agents LLM au-delà des simples taux de succès. L'étude introduit une taxonomie de 6 états de contrôle, une taxonomie d'erreurs à 9 catégories, et audite 15 benchmarks existants. Sur 8 modèles (4 fermés, 4 open-weight), retirer les labels explicites réduit la précision de 14-40 pp, révélant une dépendance forte au prompt.

Agents IABenchmarksÉvaluations
SIG
78
HYP
15
arXiv cs.AI·

AgentCo-op: Retrieval-Based Synthesis of Interoperable Multi-Agent Workflows

AgentCo-op est un framework de synthèse basé sur la récupération qui compose des compétences réutilisables, outils et agents externes en workflows exécutables via des transferts d'artefacts typés. Appliqué à la génomique et aux benchmarks de codage/math, il coordonne des agents spécialisés sans recherche globale de topologie et réduit les coûts par rapport aux baselines multi-agents.

Multi-agentsAgents IAGénération de code
SIG
72
HYP
28
arXiv cs.AI·

Tool-Augmented Agent for Closed-loop Optimization,Simulation,and Modeling Orchestration

COSMO-Agent, un framework RL augmenté d'outils, entraîne des LLM à orchestrer des processus CAD-CAE itératifs. Le système apprend à générer de la géométrie paramétrique, résoudre des simulations et réviser les designs sous contraintes multiples. Dataset industriel de 25 catégories de composants. Les petits LLM entraînés surpassent les modèles fermés en faisabilité et stabilité.

Agents IAReinforcement learningOutils
SIG
78
HYP
25
arXiv cs.LG·

Quantitative coronary calcification analysis for prediction of myocardial ischemia using non-contrast CT calcium scoring

Étude ML sur 1,375 patients : prédiction de l'ischémie myocardique à partir de scans CT calcium non-contrastés. Modèle XGBoost+SHAP combinant score Agatston, 8 features calcium-omics et âge. Résultats : précision 98,9%, sensibilité 79,2%, F1 87,7%. Les calcium-omics améliorent significativement la performance vs variables cliniques seules (p<0,05).

BenchmarksPapers
SIG
72
HYP
15
arXiv cs.LG·

Leveraging Self-Paced Curriculum Learning for Enhanced Modality Balance in Multimodal Conversational Emotion Recognition

Cadre Self-Paced Curriculum Learning (SPCL) pour la reconnaissance d'émotions multimodales en conversations. Mesureur de difficulté dual (niveau énoncé et conversation) guide l'apprentissage des cas faciles aux difficiles. Tests sur IEMOCAP (+1.2% à +6.6% F1) et MELD (+10.4%) montrent amélioration de l'équilibre modalité.

RaisonnementBenchmarks
SIG
72
HYP
18
arXiv cs.LG·

TBP-mHC: full expressivity for manifold-constrained hyper connections through transportation polytopes

TBP-mHC propose une paramétrisation des polytopes de Birkhoff pour les Hyper-Connexions contraintes par variété. La méthode construit des matrices de mélange doublement stochastiques exactes avec (n-1)² degrés de liberté, évitant la normalisation itérative et l'explosion combinatoire. Résultats compétitifs sur le pré-entraînement de modèles de langage avec stabilité améliorée.

PapersRaisonnement
SIG
62
HYP
15
arXiv cs.LG·

Embedding-Based Federated Learning with Runtime Governance for Iron Deficiency Prediction

Déploiement réel d'un pipeline federated learning pour prédire la carence en fer à partir de données de numération formule sanguine. Utilise DeepCBC (modèle fondation haematologie gelé) + FedMAP (agrégation personnalisée). Testé sur deux sites cliniques (AUMC, NHSBT) avec données non-IID. FedMAP améliore ROC-AUC de 0.947→0.959 (AUMC) et 0.856→0.867 (NHSBT) vs entraînement local.

EmbeddingsBenchmarks
SIG
78
HYP
15
arXiv cs.LG·

Calibration, Uncertainty Communication, and Deployment Readiness in CKD Risk Prediction: A Framework Evaluation Study

Étude comparative de 5 classifieurs (régression logistique, random forest, XGBoost, SVM, naive Bayes) sur prédiction du risque de maladie rénale chronique. Tous atteignent AUROC 1.00 en interne (UCI, 400 patients), mais s'effondrent sur MIMIC-IV externe (AUROC 0.48-0.58). Calibration et couverture conforme dégradées drastiquement. Aucun modèle ne satisfait les critères de déploiement clinique.

ÉvaluationsSécurité IA
SIG
75
HYP
15
arXiv cs.CL·

Audience Engagement with Arabic Women's Social Empowerment and Wellbeing: A Decadal Corpus

Corpus de 252 487 posts Facebook arabes (2013-2024) collectés sur 51 660 pages dans 77 pays, couvrant l'autonomisation des femmes et le bien-être social. 267 millions d'interactions utilisateur analysées avec métriques d'engagement (partages, commentaires, réactions). Pipeline automatisé pour identification linguistique, normalisation et nettoyage des métadonnées.

BenchmarksPapers
SIG
72
HYP
15
arXiv cs.CL·

GHI: Graphormer over Conditioned Hypergraph Incidence for Aspect-Based Sentiment Analysis

GHI est un framework basé sur Graphormer pour l'analyse de sentiment basée sur les aspects (ABSA). Il utilise une structure hypergraphe bipartite pour représenter les relations entre tokens et hyperedges, intégrant des signaux linguistiques et sémantiques. Avec 247M paramètres, GHI surpasse DeBERTa sur six benchmarks SemEval et approche les performances de Flan-T5 11B sur ISE.

PapersBenchmarksRaisonnement
SIG
72
HYP
18
arXiv cs.CL·

Psy-Chronicle:A Structured Pipeline for Synthesizing Long-Horizon Campus Psychological Counseling Dialogues

Psy-Chronicle est un framework de génération de données pour synthétiser des dialogues de conseil psychologique sur long horizon. Les auteurs créent CPCD, un dataset chinois de 90 000 dialogues couvrant 100 profils d'étudiants sur un semestre, avec un benchmark évaluant la mémoire long-horizon et le raisonnement causal. Code et données open-sourcés.

PapersBenchmarksOpen source
SIG
75
HYP
25
arXiv cs.LG·

Value-Gradient Hypothesis of RL for LLMs

Étude théorique de pourquoi les méthodes RL sans critique (PPO, GRPO) améliorent les LLM. Les auteurs montrent que les mises à jour d'acteur sont de type value-gradient en espérance, et que l'autodifférenciation à travers l'attention produit des costates empiriques approximant le signal de valeur. Décomposition de l'impact RL en signal value-gradient et marge de récompense atteignable.

Reinforcement learningRaisonnementPapers
SIG
75
HYP
15
arXiv cs.CL·

Faithful-MR1: Faithful Multimodal Reasoning via Anchoring and Reinforcing Visual Attention

Faithful-MR1 est un framework d'entraînement pour MLLMs qui améliore le raisonnement multimodal via apprentissage par renforcement. Il ancre l'attention visuelle directement sur les régions d'image (pas via descriptions textuelles) et renforce l'utilisation fidèle de cette attention par intervention contrefactuelle. Résultats sur Qwen2.5-VL-Instruct 3B/7B avec moins de données.

Reinforcement learningVisionRaisonnement
SIG
75
HYP
25
arXiv cs.CL·

Claim-Selective Certification for High-Risk Medical Retrieval-Augmented Generation

Système de certification sélective par réclamation pour RAG médical haute-risque. Chaque réponse est décomposée en affirmations vérifiables, évaluées contre les preuves récupérées et mappées à {complet, partiel, conflit, abstention}. Sur le protocole de certification faible-label, UCCR=0.0000, PAU=1.0000, précision PAU=0.9901, précision action=0.9204 (dev, n=314) et 0.8997 (test, n=319).

RAGÉvaluationsSécurité IA
SIG
72
HYP
15