Archives

mai 2026

3147 articles

Reddit r/LocalLLaMA·

Honesty in a small model drops from 35% to 0% by changing the tone of the prompt. Sharing the findings.

Un article publié sur arXiv montre que l'honnêteté de petits modèles open-source chute de 35% à 0% en changeant le ton de la requête. Face à des problèmes de codage impossibles, les modèles admettent l'impossibilité 33% du temps en langage neutre, mais 0% sous pression. L'analyse interne révèle que chaque ton laisse une signature distincte dans les couches profondes du réseau.

PapersAlignementSécurité IA
SIG
72
HYP
35
Reddit r/LocalLLaMA·

LlamaStation v0.9 — llama.cpp GUI for Windows with multi-backend support, TurboQuant, MTP and more

LlamaStation v0.9 est une interface graphique Windows pour llama.cpp avec support multi-backend (TurboQuant, MTP, AtomicChat, BeeLlama). Lance llama-server directement sans couche intermédiaire, offre contrôle complet des paramètres, mesure VRAM en temps réel, profils par modèle, mode voix hors ligne (XTTS v2 + faster-whisper), mode headless et mise à jour automatique.

LlamaOutilsOpen source
SIG
72
HYP
35
Reddit r/LocalLLaMA·

LLM planner - pick a rig for your use-case/model/budget, or pick models for your rig. 60+ builds, 50+ models, 130+ cited t/s sources, 150+ reviewer YouTube videos, idle+active watts, multi-region prices, regular updates.

LLM Planner est un guide interactif pour choisir du matériel ou des modèles open-weights. 60+ configurations, 50+ modèles, tokens/sec sourcés, consommation électrique, prix multi-régions, 150+ vidéos YouTube de reviewers. Modes bidirectionnels : « quel rig pour ce modèle/budget » ou « quels modèles sur mon GPU ». Données mises à jour hebdomadairement, repo GitHub public.

Open sourceOutilsBenchmarks
SIG
75
HYP
25
Reddit r/LocalLLaMA·

I did what Microsoft wouldn't - updated POML VS Code extension

Un développeur a mis à jour l'extension VS Code POML abandonnée par Microsoft. POML est un langage de markup pour créer des templates de prompts modulaires avec support IA local. Microsoft a arrêté le support après 2-3 mois ; une mise à jour de dépendance a cassé la fonctionnalité d'envoi direct aux LLM. Le développeur a utilisé OpenCode pour corriger le bug et moderniser les dépendances.

Prompt engineeringOutilsOpen source
SIG
45
HYP
25
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> dotnet /</span> skills

Dépôt GitHub contenant des skills pour assister les agents IA de codage avec .NET et C#. Ressources pour intégrer des capacités de développement .NET dans les workflows d'agents autonomes.

Agents IAGénération de codeOpen source
SIG
45
HYP
15
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> ryoppippi /</span> ccusage

ccusage est un outil CLI pour analyser l'utilisation des tokens et les coûts associés aux agents de codage à partir de données locales.

Agents IAGénération de codeOutils
SIG
35
HYP
15
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> kata-containers /</span> kata-containers

Kata Containers est un projet open source créant des machines virtuelles légères offrant l'expérience des conteneurs avec l'isolation et la sécurité des VMs.

Open sourceInfrastructure
SIG
45
HYP
15
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> DataDog /</span> pup

Datadog lance Pup, un CLI companion pour agents IA offrant 200+ commandes couvrant 33+ produits Datadog.

Agents IAOutilsInfrastructure
SIG
65
HYP
35
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> google-gemini /</span> gemini-cli

Outil open-source intégrant Gemini directement dans le terminal. Agent IA permettant l'interaction avec le modèle Google via CLI.

GeminiAgents IAOutils
SIG
45
HYP
25
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> ChromeDevTools /</span> chrome-devtools-mcp

Chrome DevTools MCP intègre les outils de développement Chrome dans une interface Model Context Protocol pour les agents de code. Permet aux agents d'inspecter, déboguer et interagir avec des pages web en temps réel.

Agents IAMCPGénération de code
SIG
65
HYP
25
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> software-mansion /</span> argent

Argent est un toolkit agentic pour contrôler, déboguer et profiler les applications iOS et Android. Développé par Software Mansion.

Agents IAOutilsOpen source
SIG
65
HYP
25
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> google-labs-code /</span> stitch-skills

Stitch-Skills est une bibliothèque de compétences d'agent compatible avec le serveur MCP Stitch. Les skills suivent le standard Agent Skills ouvert, compatibles avec Claude Code, Gemini CLI, Cursor et Antigravity.

Agents IAMCPClaude Code
SIG
65
HYP
25
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> google /</span> adk-samples

Google publie adk-samples, une collection d'agents exemple construits avec l'Agent Development Kit (ADK). Dépôt open-source pour explorer les capacités de développement d'agents.

Agents IADeepMindOpen source
SIG
45
HYP
15
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> antoinezambelli /</span> forge

Forge est un framework Python pour l'exécution auto-hébergée d'appels d'outils LLM et de workflows multi-étapes agentic. Disponible en open-source sur GitHub.

Agents IAMulti-agentsOpen source
SIG
45
HYP
25
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> teng-lin /</span> notebooklm-py

API Python non-officielle pour Google NotebookLM offrant accès programmatique complet aux fonctionnalités, y compris celles non exposées en UI web. Support CLI et intégration avec agents IA (Claude Code, Codex, OpenClaw).

DeepMindAgents IAGénération de code
SIG
65
HYP
25
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> aiming-lab /</span> AutoResearchClaw

AutoResearchClaw automatise la recherche de bout en bout : génération d'idées, expériences, rédaction et publication de papiers sans intervention humaine. Système autonome et auto-évolutif basé sur des agents IA.

Agents IAMulti-agentsPapers
SIG
45
HYP
65
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> openai /</span> whisper

OpenAI Whisper est un modèle de reconnaissance vocale entraîné sur 680 000 heures de données multilingues faiblement supervisées. Le repo GitHub contient le code, les modèles pré-entraînés et les benchmarks de performance sur plusieurs langues et conditions acoustiques.

OpenAIVoixOpen source
SIG
85
HYP
15
Reddit r/LocalLLaMA·

One Night Werewolf played by LLMs

Un utilisateur a développé une UI personnalisée pour jouer à One Night Werewolf avec des LLMs (Gemma 31B/26B, Qwen 3.6 36B, modèle 27B). Les modèles avaient initialement du mal à accepter les changements d'identité ; l'ajout d'une orientation vers les objectifs a amélioré les performances. Un script runner compatible avec l'API OpenAI permet désormais de jouer sans capacités de tool calls.

Agents IAPrompt engineeringOpen source
SIG
45
HYP
25
arXiv cs.LG·

Conformal Selective Acting: Anytime-Valid Risk Control for RLVR-Trained LLMs

CSA (Conformal Selective Acting) est un wrapper de déploiement pour LLMs fine-tunés en RLVR qui garantit un contrôle du risque par round sans pooling entre déploiements. Testé sur 480 streams spécialisés et 10,300 rounds en Expert-Iteration avec LoRA, CSA maintient une e-process de Ville par seuil et atteint une borne de risque sélectif R_T^act ≤ α+O(N_T^{-1/2}) avec validité pathwise anytime.

Reinforcement learningSécurité IAÉvaluations
SIG
78
HYP
15
arXiv cs.CL·

Long-Context Reasoning Through Proxy-Based Chain-of-Thought Tuning

ProxyCoT, une méthode de fine-tuning par chaîne de pensée, améliore le raisonnement sur contextes longs (jusqu'à 10M tokens) en transférant les capacités de raisonnement depuis des contextes proxy courts vers des contextes complets via RL/distillation puis fine-tuning supervisé. Gains de performance avec surcharge computationnelle réduite et généralisation cross-domain.

RaisonnementFine-tuningReinforcement learning
SIG
72
HYP
18
arXiv cs.CL·

Shiny Stories, Hidden Struggles: Investigating the Representation of Disability Through the Lens of LLMs

Étude arXiv montrant que les LLMs idéalisent excessivement les expériences des personnes handicapées dans la génération de contenu social media, produisant des stéréotypes positifs irréalistes. Analyse comparative révèle aussi un biais négatif : certains thèmes (carrière, divertissement) sont surreprésentés chez les individus sans handicap, renforçant des narratifs d'exclusion.

AlignementSécurité IABenchmarks
SIG
72
HYP
15
arXiv cs.CL·

Refining and Reusing Annotation Guidelines for LLM Annotation

Les LLM peinent à respecter les conventions spécialisées des benchmarks de référence. Les auteurs proposent un cadre itératif de modération qui réutilise et affine les directives d'annotation pour aligner les modèles. Tests sur trois tâches de NER biomédicales (NCBI Disease, BC5CDR, BioRED) avec GPT, Gemini, DeepSeek confirment l'efficacité de l'intégration de directives et des modèles optimisés pour le raisonnement.

GPTGeminiDeepSeek
SIG
72
HYP
18
arXiv cs.CL·

Do as I Say, Not as I Do: Instruction-Induction Conflict in LLMs

Étude sur le conflit entre suivi d'instructions et complétions de motifs dans 13 LLMs. Quand une instruction utilisateur entre en conflit avec N tours d'assistant montrant un motif opposé, les taux de suivi d'instructions varient de 1% à 99%. La transition est universelle mais dépendante du modèle. La diversité des outputs et l'alignement avec les valeurs entraînées modulent la robustesse.

RaisonnementAlignementÉvaluations
SIG
78
HYP
15
arXiv cs.CL·

Mechanics of Bias and Reasoning: Interpreting the Impact of Chain-of-Thought Prompting on Gender Bias in LLMs

Étude arXiv sur l'impact du Chain-of-Thought (CoT) sur les biais de genre dans les LLM. Les chercheurs combinent évaluation benchmark, interprétabilité mécanistique et analyse des chaînes de raisonnement. Résultat : CoT ne réduit pas systématiquement les biais ; les améliorations observées proviennent de mémorisation plutôt que d'une compréhension genuine, les biais restant ancrés dans les représentations cachées.

RaisonnementSécurité IAAlignement
SIG
78
HYP
15
arXiv cs.CL·

When Irregularity Helps: A Subclass Analysis of Inductive Bias in Neural Morphology

Étude sur les biais inductifs dans la génération morphologique neuronale. Analyse de l'inflexion des verbes au passé en japonais révèle qu'une sous-classe irrégulière rare (<1% des données) concentre une part disproportionnée des erreurs. Les ablations contrôlées montrent que supprimer cette sous-classe améliore davantage la généralisation que d'éliminer tous les verbes irréguliers.

PapersÉvaluationsBenchmarks
SIG
72
HYP
15
arXiv cs.CL·

Retrieval-Augmented Long-Context Translation for Cultural Image Captioning: Gators submission for AmericasNLP 2026 shared task

Pipeline deux étapes pour captionner des images culturelles en langues autochtones : Qwen2.5-VL génère une caption intermédiaire en espagnol, puis Gemini 2.5 Flash produit la caption cible via retrieval-augmented prompting. Amélioration de 164,1% (Bribri), 131,7% (Guaraní), 122,6% (Nahuatl Orizaba) sur la baseline. Gagnant du shared task AmericasNLP 2026.

VisionRAGGemini
SIG
78
HYP
25
arXiv cs.CL·

On the limits and opportunities of AI reviewers: Reviewing the reviews of Nature-family papers with 45 expert scientists

Étude d'experts (45 scientifiques, 469 heures) évaluant 2,960 critiques de 82 articles Nature. GPT-5.2 surpasse le meilleur reviewer humain (60,0% vs 48,2%), mais les IA montrent 16 faiblesses récurrentes (connaissance limitée du sous-domaine, gestion faible du contexte long). Les IA complètent plutôt qu'elles ne remplacent les humains.

GPTGeminiClaude
SIG
78
HYP
25
arXiv cs.CL·

Distributional Alignment as a Criterion for Designing Task Vectors in In-Context Learning

Nouvelle métrique d_NTP pour évaluer la qualité des task vectors en ICL en mesurant l'alignement des distributions de probabilités. Méthode Linear Task Vector (LTV) minimise d_NTP via régression linéaire fermée, améliore la précision de 9,2% sur 8 benchmarks et 5 LLMs, réduit la latence. Task vectors transférables entre modèles de tailles différentes (+6,4% pour petit modèle).

Prompt engineeringRaisonnementBenchmarks
SIG
78
HYP
15
arXiv cs.CL·

The Illusion of Intervention: Your LLM-Simulated Experiment is an Observational Study

Les LLM simulant des utilisateurs dans des expériences d'intervention produisent des études observationnelles biaisées. Entraînés sur données observationnelles, ils induisent des dérives de population implicite entre conditions de traitement, faussant les estimations d'effet. Les auteurs proposent des contrôles négatifs pour diagnostiquer ces biais et ajuster les spécifications de persona pour les réduire.

PapersÉvaluationsRaisonnement
SIG
78
HYP
15
arXiv cs.LG·

Neural Estimation of Pairwise Mutual Information in Masked Discrete Sequence Models

Framework neural pour estimer l'information mutuelle conditionnelle par paires directement depuis les états cachés de modèles de diffusion masqués (MDMs). L'estimateur capture les dépendances internes du modèle et permet un décodage parallèle guidé par MI, réduisant les passes forward d'inférence de 3-5x sur Sudoku et génération de séquences protéiques (ESM-C).

RaisonnementGénération de codePapers
SIG
72
HYP
18
arXiv cs.LG·

Geometry-Lite: Interpretable Safety Probing via Layer-Wise Margin Geometry

Geometry-Lite est une sonde de sécurité compacte qui analyse la géométrie des représentations cachées à travers les couches de LLMs (1.2B–70B). Elle mappe les marges de chaque couche via trois méthodes (centroïde, voisinage local, frontière linéaire) et montre que la détection de prompts non-sûrs repose principalement sur la géométrie persistante des marges, non sur le mouvement inter-couches.

Sécurité IAAlignementÉvaluations
SIG
78
HYP
15
arXiv cs.LG·

Graph Transductive Sharpening: Leveraging Unlabeled Predictions in Node Classification

Nouvelle approche pour la classification de nœuds en graphes partiellement étiquetés. Les auteurs proposent Transductive Sharpening (TS), une modification de la fonction de perte qui minimise l'entropie des prédictions sur les nœuds non étiquetés tout en équilibrant l'effet sur les nœuds étiquetés. Améliorations consistantes sur plusieurs benchmarks sans modification architecturale.

BenchmarksPapers
SIG
72
HYP
18
arXiv cs.LG·

Chronicle: A Multimodal Foundation Model for Joint Language and Time Series Understanding

Chronicle est un modèle fondation multimodal de 324M paramètres entraîné de zéro sur le langage naturel et les séries temporelles dans une architecture unifiée. Le modèle partage les mêmes blocs transformer et mécanismes d'attention pour les deux modalités. Il égale Gemma-3-270M sur 19 tâches NLU, établit un nouveau record sur 24 datasets UCR/UEA et surpasse les baselines supervisées sur Time-MMD.

BenchmarksPapersRaisonnement
SIG
82
HYP
25
arXiv cs.LG·

OmniISR: A Unified Framework for Centralized and Federated Learning via Intermediate Supervision and Regularization

OmniISR propose un cadre unifié pour l'apprentissage centralisé et fédéré via supervision intermédiaire et régularisation. Le framework utilise l'information mutuelle pour aligner les décalages de covariables internes et la négative-entropie pour régulariser les prédictions. Convergence O(1/sqrt(T)) garantie théoriquement; réduction de l'écart CL-FL de 22,60% en expériences.

Reinforcement learningAlignementPapers
SIG
78
HYP
15
arXiv cs.LG·

Closed-form predictive coding via hierarchical Gaussian filters

Nouvelle approche de codage prédictif via filtres gaussiens hiérarchiques. Les auteurs restaurent les messages pondérés par la précision, permettant l'apprentissage simultané des activations, poids et précisions sans signal d'erreur global. Sur FashionMNIST, la méthode converge plus vite que la rétropropagation tout en maintenant les avantages biologiques du codage prédictif.

RaisonnementAlignementPapers
SIG
72
HYP
18
arXiv cs.LG·

Less Data, Faster Training: repeating smaller datasets speeds up learning via sampling biases

Répéter un petit dataset lors de l'entraînement accélère l'apprentissage comparé à un grand dataset, via des biais d'échantillonnage qui favorisent la croissance couche par couche. L'effet est observé sur tâches algorithmiques, architectures et optimiseurs variés. Les auteurs proposent analyse théorique et interventions empiriques.

PapersRaisonnementReinforcement learning
SIG
72
HYP
18
arXiv cs.CL·

Improving Quantized Model Performance in Qualitative Analysis with Multi-Pass Prompt Verification

Étude sur la quantification de LLaMA-3.1 (8B) pour l'analyse qualitative. Les modèles 8-bit conservent la meilleure précision ; les modèles 4-bit, 3-bit et 2-bit souffrent d'hallucinations accrues. Une méthode de vérification multi-pass guidée réduit les hallucinations et améliore la stabilité des modèles bas-bit, rendant l'analyse qualitative accessible avec moins de ressources.

LlamaPrompt engineeringÉvaluations
SIG
65
HYP
25
arXiv cs.CL·

Data Scaling as Progressive Coverage of a Predictive Contribution Spectrum

Étude arXiv montrant que les lois de scaling des données réelles sont gouvernées par la couverture progressive d'un spectre latent de contributions prédictives, au-delà des seules queues de fréquence. Via une représentation d'automate de suffixes, les auteurs définissent un spectre global-KL et démontrent une corrélation forte (R²≈0.96) entre la pente du spectre et l'exposant empirique de scaling sur 12 corpus.

PapersBenchmarksRaisonnement
SIG
78
HYP
15
arXiv cs.CL·

MedicalBench: Evaluating Large Language Models Toward Improved Medical Concept Extraction

MedicalBench est un benchmark pour l'extraction de concepts médicaux implicites à partir de dossiers médicaux (MIMIC-IV). Il formule la tâche comme vérification de paires note-concept avec identification d'évidences au niveau phrase. Les LLM actuels obtiennent des performances modestes, révélant la difficulté du raisonnement médical implicite.

BenchmarksRaisonnementÉvaluations
SIG
75
HYP
15
arXiv cs.CL·

FlowLM: Few-Step Language Modeling via Diffusion-to-Flow Adaptation

FlowLM transforme des modèles de langage par diffusion pré-entraînés en modèles de flux via fine-tuning efficace. En réalignant les trajectoires courbes en lignes droites, FlowLM génère du texte haute qualité en quelques étapes, rivalisant avec 2000 étapes de diffusion. La saturation des performances est atteinte en moitié moins d'epochs d'entraînement.

Génération de codeRaisonnementPapers
SIG
78
HYP
25
arXiv cs.CL·

Synchronization and Turn-Taking in Full-Duplex Speech Dialogue Models

Étude de la synchronisation dans les modèles de dialogue full-duplex (Moshi) qui écoutent et parlent simultanément. Les chercheurs mesurent l'alignement des représentations internes via CKA et détectent des signaux anticipatoires de prise de parole. La synchronisation est forte sans bruit, se dégrade avec le bruit, et les états internes encodent des informations prédictives.

VoixAgents IAPapers
SIG
72
HYP
15
arXiv cs.CL·

When Reasoning Supervision Hurts: TTCW-Based Long-Form Literary Review Generation

Étude sur la génération de critiques littéraires long-format basées sur le Torrance Test of Creative Writing (TTCW). Construction d'un dataset de 263 911 histoires annotées selon 14 dimensions créatives. Fine-tuning de Qwen3 (4B et 8B) montre que l'absence de supervision par raisonnement produit de meilleures performances (0.6820), les modèles supervisés échouant à générer les 14 métriques requises.

QwenFine-tuningRaisonnement
SIG
72
HYP
15
arXiv cs.CL·

Collocational bootstrapping: A hypothesis about the learning of subject-verb agreement in humans and neural networks

Étude sur le « collocational bootstrapping » : mécanisme par lequel les régularités dans les co-occurrences de mots fournissent des indices pour les dépendances syntaxiques. Entraînement de réseaux de neurones sur des données synthétiques variant en prévisibilité des paires sujet-verbe. Les résultats suggèrent que ce mécanisme pourrait expliquer l'acquisition de l'accord sujet-verbe chez l'enfant.

PapersRaisonnementBenchmarks
SIG
72
HYP
15
arXiv cs.CL·

What Do Biomedical NER and Entity Linking Benchmarks Measure? A Corpus-Centric Diagnostic Framework

Framework de diagnostic corpus-centrique pour analyser les benchmarks de reconnaissance d'entités nommées (NER) et de liaison d'entités (EL) en biomédical. Appliqué à 9 corpus, révèle que des propriétés substantiellement différentes peuvent masquer des tâches apparemment identiques. Code open-source et dashboard interactif fournis.

BenchmarksÉvaluationsPapers
SIG
78
HYP
15
arXiv cs.CL·

Do No Harm? Hallucination and Actor-Level Abuse in Web-Deployed Medical Large Language Models

Étude de 6 233 MedGPTs et 10 modèles open-source déployés sur le web. 25-30% présentent une faible précision factuelle, 33.6-54.3% violent les seuils opérationnels, 57% des modèles avec Actions manquent de divulgations de confidentialité. Les auteurs introduisent MedGPT-HEval pour détecter les hallucinations et publient HAA-MedGPT, un dataset structuré.

Sécurité IAAlignementÉvaluations
SIG
78
HYP
25
arXiv cs.CL·

Self-Training Doesn't Flatten Language -- It Restructures It: Surface Markers Amplify While Deep Syntax Dies

Étude sur 11 générations d'auto-entraînement sur 5 modèles (GPT-2, Pythia, OPT). Contrairement à l'idée d'un « aplatissement » uniforme, le langage se restructure : les marqueurs de surface (connecteurs, tirets) augmentent tandis que les structures syntaxiques profondes (questions, passives, subjonctifs) s'effondrent. L'hypothèse de profondeur structurelle prédit ce déclin (ρ=0.540, p<10⁻⁶).

PapersBenchmarksGPT
SIG
82
HYP
15
arXiv cs.CL·

Beyond Semantic Similarity: A Two-Phase Non-Parametric Retrieval Workflow for Corporate Credit Underwriting

Système RAG deux phases pour l'analyse de crédit corporate : phase 1 combine recherche lexicale et dense multilingue ; phase 2 applique contrôleur adaptatif et scoring LLM-as-Judge basé sur l'utilité analytique plutôt que similarité sémantique. Déploiement on-premise sur corpus multilingue propriétaire. En production : temps d'analyse réduit de plusieurs heures à 3 minutes pour 800+ analystes.

RAGRecherche vectorielleEmbeddings
SIG
82
HYP
15
arXiv cs.LG·

GraphDiffMed: Knowledge-Constrained Differential Attention with Pharmacological Graph Priors for Medication Recommendation

GraphDiffMed propose un cadre de recommandation médicamenteuse basé sur l'attention différentielle dual-scale et des contraintes pharmacologiques. Testé sur MIMIC-III, le modèle filtre le bruit intra-visite et inter-visite tout en intégrant les interactions médicamenteuses, surpassant les baselines existantes en qualité et sécurité.

BenchmarksPapersSécurité IA
SIG
72
HYP
18