Archives

mai 2026

3147 articles

Reddit r/MachineLearning·

The famous METR AI time horizons graph contains numerous severe errors [D]

Nathan Witkin (NYU Stern) critique sévèrement le graphique METR sur les horizons temporels de l'IA. Les erreurs incluent : baselines humaines non mesurées mais estimées, benchmarkers payés à l'heure (incitation à traîner), échantillon biaisé vers les pairs des auteurs, et ignorance de l'avantage de familiarité (5-18x plus rapide). Witkin conclut que le graphique contient trop d'erreurs cumulatives pour être sauvé.

BenchmarksÉvaluationsSécurité IA
SIG
75
HYP
45
Reddit r/MachineLearning·

DCGAN inference on a microcontroller: 12.6M parameters, 512KB SRAM, 26-second generation, pure C [P]

DCGAN 12.6M paramètres exécuté sur microcontrôleur RISC-V CH32H417 (512KB SRAM). Génération 64×64 visages de chats en 26 secondes, moteur C pur avec quantization int8. Poids streamés depuis carte SD via double buffering. Vecteur z seeded par 200 bytes de données quantiques (ANU QRNG). Aucun framework existant (TFLite, CMSIS NN) — implémentation from scratch.

Génération de codeBenchmarksOpen source
SIG
78
HYP
25
Reddit r/MachineLearning·

We gave an LLM a structural graph of a codebase before exploring. It used 54% MORE context than without one. Paper + explanation inside [R]

Étude contrôlée sur codebase TypeScript (25 sections, 3,250 fichiers) : un LLM (Kimi K2.6) équipé d'un graphe structurel (Blueprint : Universal Ctags + ast-grep + BM25) a consommé 54% plus de tokens d'entrée (63,541 vs 41,327) mais a exploré plus profondément (6 tours vs 5). Le graphe coûte ~6,500 tokens et augmente la confiance de navigation du modèle.

Génération de codeRAGBenchmarks
SIG
75
HYP
25
Reddit r/LocalLLaMA·

Full Attention Strikes Back: Transferring Full Attention into Sparse within Hundred Training Steps

RTPurbo transforme les LLMs full-attention en modèles sparse en quelques centaines d'étapes d'entraînement. La méthode exploite trois observations : seuls certains heads nécessitent l'attention complète, la récupération long-range utilise un sous-espace 16D, et la sélection de tokens est query-dépendante. Résultats : 9.36x speedup prefill à 1M contexte, 2.01x speedup decode, précision préservée.

RaisonnementBenchmarksInfrastructure
SIG
78
HYP
25
Reddit r/LocalLLaMA·

The reason small-model agent stacks aren't the default has nothing to do with whether they work

Les petits modèles spécialisés (Gemma 4 31B à 86.4% sur tau2-bench, Qwen 27B surpassant des modèles 397B) dominent désormais les benchmarks d'agents. Pourtant l'industrie continue d'utiliser des modèles frontière coûteux : les labs de frontier gagnent à la facturation par token, créant un désalignement économique entre performance technique et adoption.

Agents IABenchmarksQwen
SIG
75
HYP
25
Reddit r/LocalLLaMA·

NuExtract3 released: open-weight 4B VLM for Markdown, OCR and structured extraction (self-hostable)

Numind publie NuExtract3, un VLM open-weight de 4B paramètres basé sur Qwen3.5-4B (licence Apache-2.0). Le modèle extrait des données structurées et convertit documents/images en Markdown. Entraîné 3 jours sur 8xH100, il supporte PDFs, formulaires, tableaux avec quantifications multiples (GPTQ, W8A8, FP8, Q4, Q6) pour auto-hébergement à partir de 4GB VRAM.

QwenVisionOpen source
SIG
78
HYP
25
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> hardikpandya /</span> stop-slop

Stop-slop est un fichier de compétences pour détecter et supprimer les marqueurs typiques du texte généré par IA dans la prose (tournures répétitives, formulations génériques).

Prompt engineeringOutils
SIG
35
HYP
45
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> garrytan /</span> gstack

Gstack : suite de 23 outils Claude Code configurés selon le setup de Garry Tan, couvrant les rôles de CEO, designer, manager d'ingénierie, release manager, ingénieur doc et QA.

Claude CodeAgents IAOutils
SIG
45
HYP
55
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> affaan-m /</span> ECC

Système d'optimisation de performance pour agents IA. Intègre compétences, instincts, mémoire, sécurité et développement orienté recherche pour Claude Code, Codex, Opencode et Cursor.

Agents IAClaude CodeGénération de code
SIG
35
HYP
55
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> anthropics /</span> claude-cookbooks

Anthropic publie claude-cookbooks, une collection de notebooks et recettes montrant des usages pratiques et créatifs de Claude.

ClaudePrompt engineering
SIG
65
HYP
25
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> moeru-ai /</span> airi

Airi est un compagnon IA auto-hébergé open-source capable de conversation vocale temps réel, jeu Minecraft et Factorio. Supporte Web, macOS et Windows. Inspiré par Neuro-sama.

Agents IAVoixOpen source
SIG
35
HYP
65
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> AlexsJones /</span> llmfit

llmfit : outil CLI pour tester des centaines de modèles LLM et providers sur son matériel. Une commande pour identifier ce qui fonctionne localement.

OutilsOpen sourceInfrastructure
SIG
65
HYP
25
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> Zackriya-Solutions /</span> meetily

Meetily est un assistant de réunion open-source, auto-hébergé, basé sur Rust. Transcription 4x plus rapide que Whisper/Parakeet, diarisation des locuteurs, résumé via Ollama. Traitement 100% local, zéro cloud.

Open sourceVoixOutils
SIG
65
HYP
35
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> nearai /</span> ironclaw

IronClaw est un système d'exploitation pour agents IA mettant l'accent sur la confidentialité, la sécurité et l'extensibilité. Projet open-source hébergé sur GitHub.

Agents IAOpen sourceSécurité IA
SIG
35
HYP
25
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> NateBJones-Projects /</span> OB1

OB1 (Open Brain) propose une couche infrastructure unifiée : une base de données, une passerelle IA et un canal chat. Compatible avec n'importe quel modèle IA, sans middleware ni SaaS.

InfrastructureAgents IAOpen source
SIG
35
HYP
65
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> CodebuffAI /</span> codebuff

CodebuffAI : outil de génération de code en ligne de commande. Permet de créer du code directement depuis le terminal.

Génération de codeOutils
SIG
35
HYP
45
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> garrytan /</span> gstack

Gstack : configuration Claude Code de Garry Tan avec 23 outils spécialisés pour automatiser les rôles de CEO, designer, manager d'ingénierie, release manager, ingénieur doc et QA.

Claude CodeAgents IAGénération de code
SIG
45
HYP
65
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> moeru-ai /</span> airi

Airi est un compagnon IA auto-hébergé capable de conversation vocale en temps réel, de jeu Minecraft et Factorio. Supporte Web, macOS et Windows. Projet open-source inspiré par Grok et Neuro-sama.

Open sourceVoixAgents IA
SIG
35
HYP
65
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> OpenBB-finance /</span> OpenBB

OpenBB est une plateforme de données financières destinée aux analystes, quants et agents IA. Disponible en open-source sur GitHub, elle offre un accès unifié aux données de marché.

Open sourceAgents IAOutils
SIG
45
HYP
25
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> sansan0 /</span> TrendRadar

TrendRadar est un agrégateur de tendances IA qui agrège les actualités multi-plateformes via RSS avec alertes intelligentes. Filtre par mots-clés, traduit et analyse les articles via IA, supporte MCP pour dialogues en langage naturel, déploiement Docker avec données locales/cloud, intégrations WeChat/Feishu/DingTalk/Telegram/Slack.

Agents IAMCPRAG
SIG
45
HYP
55
The Decoder·

George Hotz says coding agents will be "one of the most costly mistakes" in software development

George Hotz avertit que les agents de codage IA seront « l'une des erreurs les plus coûteuses » du développement logiciel. Après six mois de tests, il conclut que les LLM produisent des prototypes rapides mais génèrent des bugs difficiles à détecter. Son positionnement reflète les divergences profondes dans la communauté IA sur le rôle des LLM.

Génération de codeAgents IASécurité IA
SIG
45
HYP
55
Reddit r/LocalLLaMA·

I built a computer use sandbox framework for codex on headless linux. GPU passthrough, computer use, and sudo access for codex all work. It's the perfect dev sandbox to allow full auto work while minimizing the "rm -rf /" risk

Développeur crée un framework sandbox pour agents IA sur Linux headless avec GPU passthrough, accès sudo et isolation du système hôte. Basé sur des VM configurables, permet navigation web autonome, exécution Docker et sessions parallèles. Code disponible sur GitHub.

Agents IAGénération de codeInfrastructure
SIG
72
HYP
28
arXiv cs.CL·

A Survey of Text and Speech Resources for Hausa and Fongbe: Availability, Quality, and Gaps for NLP Development

Inventaire des ressources texte et vocales pour le hausa (80-100M locuteurs) et le fongbé (2M locuteurs). Le hausa dispose de corpus parallèles et textes variés (news, encyclopédie, éducation). Le fongbé manque de données textuelles mais bénéficie d'initiatives récentes de collecte vocale. Deux langues présentes dans les benchmarks Masakhane (NER, POS tagging).

BenchmarksPapers
SIG
72
HYP
15
arXiv cs.CL·

Learnability-Informed Fine-Tuning of Diffusion Language Models

Nouvelle méthode LIFT pour l'entraînement fin des modèles de langage par diffusion (DLMs). L'analyse montre que le SFT classique ignore la learnability des tokens selon le masquage. LIFT aligne l'apprentissage avec les étapes de diffusion : tokens faciles quand l'input est masqué, tokens difficiles avec plus de contexte. Gains jusqu'à 3x sur AIME'24/25 vs baselines SFT.

Fine-tuningRaisonnementBenchmarks
SIG
78
HYP
25
arXiv cs.AI·

KPI2KVI: A Multi Agent Workflow for Calculating Key Value Indicators from Service Descriptions

KPI2KVI est un outil qui transforme des descriptions de services en langage naturel en estimations de Key Value Indicators (KVIs) via un workflow multi-agent déterministe avec LLMs. Le système élicite le contexte manquant, extrait les catégories KVI pertinentes, génère des KPIs spécifiques au service, collecte les valeurs via dialogue interactif, et calcule des KVIs avec explications traçables.

Agents IAMulti-agentsPrompt engineering
SIG
72
HYP
25
arXiv cs.AI·

The Cognitive Kardashev Scale: Quantifying the Material Envelope of Civilisational Computation

Article théorique proposant une échelle cognitive de Kardashev pour quantifier la capacité de calcul IA qu'une civilisation pourrait soutenir. Basé sur quatre paramètres (puissance totale, part dédiée à la cognition, efficacité énergétique, référence cerveau), l'étude estime l'humanité actuelle à K≈0.73 (Type I). À Type I avec 1% de puissance dédiée, chaque humain disposerait d'une IA personnelle équivalente.

RaisonnementBenchmarks
SIG
45
HYP
25
arXiv cs.AI·

EDGE-OPD: Internalizing Privileged Context with Evidence Guided On-Policy Distillation

EDGE-OPD améliore la distillation on-policy auto-supervisée (OPSD) en utilisant des rollouts guidés et un masque d'évidence pour transférer efficacement un contexte privilégié (persona, fait privé, solution détaillée) sans dégrader les capacités générales du modèle. Les expériences montrent que l'OPSD standard échoue sur les identités rares, tandis que EDGE-OPD réussit.

Reinforcement learningFine-tuningRaisonnement
SIG
72
HYP
15
arXiv cs.AI·

Ontological Knowledge Blocks: Executable Compliance and Profile-Based Validation for Trustworthy AI Systems

Ontological Knowledge Blocks (OKBs) : infrastructure de gouvernance programmable qui compile les obligations réglementaires en contraintes vérifiables par machine sur des graphes de preuves structurées. Utilise RDF/OWL, SHACL et PROV-O. Prototype évalué sur allocation de ressources HPC avec 24 exécutions et 4 profils de gouvernance. Latence SHACL : 12,6–100,3 ms.

RégulationSécurité IAAlignement
SIG
72
HYP
15
arXiv cs.AI·

When Planning Fails Despite Correct Execution: On Epistemic Calibration for LLM-Based Multi-Agent Systems

Les systèmes multi-agents basés sur LLM échouent parfois malgré une exécution correcte des plans, car les agents mal évaluent leurs connaissances (« epistemic miscalibration »). Les auteurs proposent EPC-AW, un workflow qui sélectionne les plans stables entre agents et affine l'état épistémique au fil du temps. Amélioration de 9,75% du succès système.

Multi-agentsAgents IARaisonnement
SIG
72
HYP
15
arXiv cs.CL·

When AI Takes Sides on Questions of Faith: Persistent Asymmetries in AI-Mediated Faith Guidance

Étude de 20 modèles LLM commerciaux et open-source sur 182 paires religieuses. Les modèles montrent des asymétries persistantes : ils favorisent conversions vers catholicisme, bahaïsme, sikhisme et découragent conversions vers athéisme, agnosticisme, Témoins de Jéhovah. Grok 4.20 présente les asymétries les plus fortes. Patterns reproductibles indépendamment de la formulation.

LlamaGPTAlignement
SIG
78
HYP
25
arXiv cs.LG·

The Implicit Bias of Depth: From Neural Collapse to Softmax Codes

Étude théorique montrant que la profondeur des réseaux de neurones induit un biais implicite vers des solutions de faible rang, alternatives au neural collapse. Analyse des dynamiques d'entraînement du modèle UFM (unconstrained feature model) sans régularisation, révélant comment la profondeur favorise les softmax codes plutôt que les géométries structurées classiques.

PapersRaisonnementBenchmarks
SIG
75
HYP
15
arXiv cs.LG·

Robust OT-Guided Generative Residual Domain Adaptation for Bike-Sharing Demand Prediction under Temporal Domain Shift

Gen-ROTDA, une méthode de transport optimal robuste, adapte les modèles de prédiction de demande Citi Bike à travers les années (2021-2026). Elle transfère les résidus plutôt que les demandes brutes et utilise un générateur de caractéristiques préservant les labels. Gen-ROTDA atteint le MAE le plus bas sur la tâche 2025-2026 et surpasse les variantes OT non-robustes sous données anormales.

BenchmarksPapers
SIG
72
HYP
15
arXiv cs.CL·

DFKI-MLT at SemEval-2026 TASK 7: Steering Multilingual Models Towards Cultural Knowledge

DFKI-MLT applique le steering d'activation à des LLM multilingues pour améliorer la conscience culturelle lors de SemEval-2026 Task 7. La méthode ajoute des vecteurs de direction spécifiques à la langue dans le flux résiduel sans mise à jour de paramètres. Résultat : 86,96% de précision en track MCQ (7e/17), mais améliorations modestes et hétérogènes selon les paires langue-région.

Prompt engineeringRaisonnementFine-tuning
SIG
72
HYP
18
arXiv cs.LG·

Uncovering the Latent Potential of Deep Intermediate Representations

Étude sur la distribution non-monotone d'informations pertinentes aux tâches dans les couches intermédiaires des modèles fondamentaux. Propose LOES (Layer-wise Optimal Embedding Selection), méthode spectrale identifiant les sous-espaces discriminants, et GeoReg, régularisation géométrique stabilisant les représentations lors du fine-tuning. Gains croissants avec la profondeur du modèle.

Fine-tuningEmbeddingsPapers
SIG
72
HYP
15
arXiv cs.CL·

HawkesLLM: Semantic Uncertainty Propagation in Agentic Text Simulation

HawkesLLM modélise la propagation d'incertitude sémantique dans les systèmes de simulation textuelle multi-agents. Un processus de Hawkes multivariable capture les dépendances temporelles entre agents générateurs de texte, tandis qu'un LLM génère chaque nouvel événement à partir d'une mémoire compacte. Évaluation sur GDELT montre une meilleure alignement sémantique en fin de cascade.

Agents IAMulti-agentsRaisonnement
SIG
72
HYP
15
arXiv cs.LG·

Steered Generation via Gradient-Based Optimization on Sparse Query Features

Prototype-Based Sparse Steering applique des Sparse Autoencoders aux activations d'attention query des LLMs pour décomposer les représentations en features interprétables. L'optimisation par gradient pendant l'inférence aligne ces représentations avec des prototypes de comportements cibles. Validé sur Textualized Gridworld (contraintes de planification) et domaine éducatif (complexité cognitive via Bloom's Taxonomy).

RaisonnementFine-tuningPapers
SIG
72
HYP
18
arXiv cs.LG·

A mathematical theory of balancing relational generalization and memorization

Étude théorique sur l'équilibre entre généralisation relationnelle et mémorisation dans les systèmes d'apprentissage. Les auteurs introduisent une tâche d'inférence transitive avec exceptions et caractérisent analytiquement le comportement de modèles de régression ridge à noyau. Validation sur des modèles de langage préentraînés montrant que la généralisation réussie dépend de la géométrie représentationnelle.

PapersRaisonnementÉvaluations
SIG
72
HYP
15
arXiv cs.LG·

The Readout Shortcut: Positional Number Copying Dominates Arithmetic CoT Readout in Small Language Models

Sur des modèles 1-3B, le CoT en arithmétique repose sur un raccourci positionnel : le modèle copie simplement le nombre en dernière position avant le délimiteur de réponse, indépendamment du raisonnement intermédiaire. Cette stratégie explique 54-92 pp de précision sur GSM8K. Remplacer ce nombre par une valeur incorrecte effondre la performance même avec des étapes correctes.

RaisonnementÉvaluationsBenchmarks
SIG
78
HYP
15
arXiv cs.LG·

When Do LLMs Reason? A Dynamical Systems View via Entropy Phase Transitions

Étude montrant que le raisonnement explicite (CoT) n'est bénéfique que sur certaines tâches. Les auteurs proposent EDRM, un framework sans entraînement qui utilise la dynamique d'entropie en début de génération pour router adaptivement vers CoT ou inférence directe. Sur 15 benchmarks et 4 LLMs, EDRM réduit les tokens de 41–55% tout en améliorant la précision jusqu'à 4,7%.

RaisonnementÉvaluationsBenchmarks
SIG
78
HYP
25
arXiv cs.CL·

A Reproducible Universal Dependencies-Style Pipeline for Katharevousa Greek Parliamentary Text

Pipeline reproductible pour construire une ressource de parsing Universal Dependencies pour le grec Katharevousa (textes parlementaires grecs post-junte). Dataset de 1.697 phrases annotées, comparaison de 6 architectures (spaCy, Stanza, XLM-R, mBERT, etc.). Meilleur modèle (XLM-R) : 0.5162 LAS vs 0.4183 pour baseline. Code et annotations publiés en open-access.

PapersBenchmarksOpen source
SIG
78
HYP
15
arXiv cs.CL·

Cultural Adaptation in Large Language Models for Political Discourse

Article proposant un cadre de « cultural adaptation » pour les LLM en analyse politique. Identifie les biais anglais et les défaillances systématiques sur données multilingues. Propose une matrice d'évaluation (fidélité culturelle, calibration, sécurité démocratique) et des méthodes : datasets participatifs, transfer learning culturellement conscient, benchmarks adaptés.

BenchmarksÉvaluationsSécurité IA
SIG
72
HYP
25
arXiv cs.CL·

Metacognition as Reward: Reinforcing LLM Reasoning via Knowledge and Regulation Signals

MaR (Metacognition-as-Reward) est un framework RL qui améliore le raisonnement des LLM via deux dimensions : la connaissance métacognitive (identification d'infos pertinentes) et la régulation métacognitive (planification du processus). Testé sur 22 benchmarks, Qwen3.5-9B + MaR gagne jusqu'à 7.7% vs modèle de base et 11.0% vs DAPO vanilla, surpassant GPT-OSS-120B en moyenne.

Reinforcement learningRaisonnementQwen
SIG
78
HYP
25
arXiv cs.CL·

Hidden Human-Like Nature of Machine-Generated Texts: Theory and Detection Enhancement

Des chercheurs révèlent que les textes générés par LLM contiennent des spans « humain-like » cachés qui compliquent leur détection. Ils proposent un framework stacked model-agnostic utilisant une procédure hard-EM pour filtrer itérativement les sous-séquences humaines et améliorer les détecteurs existants, fonctionnant aussi sans entraînement.

ÉvaluationsSécurité IAPapers
SIG
72
HYP
28
arXiv cs.AI·

SciAtlas: A Large-Scale Knowledge Graph for Automated Scientific Research

SciAtlas est un graphe de connaissances académique à grande échelle intégrant 43M articles de 26 disciplines, 157M entités et 3B triplets. Il propose un algorithme de récupération neuro-symbolique avec rappel tri-chemin et réclassement graphique pour améliorer la recherche sémantique et réduire les coûts d'inférence des agents IA en recherche scientifique automatisée.

Agents IARAGBenchmarks
SIG
78
HYP
25
arXiv cs.AI·

Inductive Deductive Synthesis: Enabling AI to Generate Formally Verified Systems

IDS (Inductive Deductive Synthesis) est un système multi-agent LLM qui synthétise conjointement implémentation et preuve formelle pour les systèmes distribués. Sur 7 spécifications de key-value stores, IDS atteint 7/7 en 6.8h/$106, contre 2/7 pour GPT-5.4 et Claude Opus 4.6. Résultat 200x plus rapide que l'effort expert, 17% moins cher que les agents SOTA.

Agents IAMulti-agentsGénération de code
SIG
82
HYP
28
arXiv cs.CL·

Convergence Without Understanding: When Language Models Agree on Representations but Disagree on Reasoning

Étude de 16 modèles de langage (1.5B–72B paramètres) révélant que leur convergence représentationnelle ne s'étend pas au raisonnement. Les modèles s'alignent davantage sur les problèmes qu'ils échouent collectivement (CKA=0.897) que sur ceux résolus (CKA=0.830). Les représentations post-décision divergent fortement (CKA=0.274), et l'information partagée exerce une influence causale minimale (1.5–5.5% flip rate).

PapersRaisonnementÉvaluations
SIG
78
HYP
15