Archives

juin 2026

485 articles

Reddit r/LocalLLaMA·

1-bit Bonsai Image 4B and Ternary Bonsai Image 4B Image Generation for Local Devices with just 0.93 GB and 1.21 GB respectively of Diffusion Transformer Footprint. So tiny!

Bonsai Image 4B propose des modèles de génération d'images quantifiés (1-bit et ternaire) pesant respectivement 0,93 GB et 1,21 GB. Ces versions compressées de Diffusion Transformer s'exécutent sur appareils locaux avec empreinte mémoire minimale.

Génération d'imagesOpen sourceOutils
SIG
45
HYP
65
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> chopratejas /</span> headroom

Headroom compresse les sorties d'outils, logs, fichiers et chunks RAG avant envoi au LLM. Réduit de 60-95% les tokens consommés sans dégrader la qualité. Disponible en bibliothèque, proxy et serveur MCP.

RAGMCPOutils
SIG
75
HYP
25
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> jamwithai /</span> production-agentic-rag-course

Cours open-source sur la construction d'agents RAG en production. Couvre l'architecture, les patterns d'implémentation et les bonnes pratiques pour déployer des systèmes agentic retrieval-augmented generation.

Agents IARAGOpen source
SIG
45
HYP
25
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> Open-LLM-VTuber /</span> Open-LLM-VTuber

Open-LLM-VTuber permet d'interagir avec n'importe quel LLM via voix sans mains libres, interruption vocale et avatar Live2D animé en local sur plusieurs plateformes.

VoixOpen sourceOutils
SIG
45
HYP
35
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> EricLBuehler /</span> mistral.rs

mistral.rs est un framework d'inférence LLM optimisé pour la vitesse et la flexibilité. Projet open-source permettant l'exécution efficace de modèles de langage.

MistralOpen sourceInfrastructure
SIG
65
HYP
25
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> wasmerio /</span> wasmer

Wasmer est un runtime WebAssembly pour exécuter des conteneurs légers et sécurisés. Le projet gagne en popularité sur GitHub Trending, positionnant WebAssembly comme alternative aux conteneurs traditionnels.

InfrastructureOpen source
SIG
45
HYP
35
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> googleworkspace /</span> cli

Google Workspace CLI : outil en ligne de commande unifié pour Drive, Gmail, Calendar, Sheets, Docs, Chat, Admin. Généré dynamiquement via Google Discovery Service. Inclut des capacités d'agent IA.

Agents IAOutilsOpen source
SIG
65
HYP
25
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> NVIDIA /</span> OpenShell

OpenShell est un runtime sécurisé et privé pour agents IA autonomes, développé par NVIDIA. Le projet est disponible sur GitHub et vise à fournir une infrastructure d'exécution contrôlée pour les systèmes multi-agents.

Agents IAMulti-agentsInfrastructure
SIG
45
HYP
35
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> janhq /</span> jan

Jan est une alternative open-source à ChatGPT fonctionnant 100% hors ligne sur l'ordinateur local. Projet GitHub trending.

Open sourceAgents IA
SIG
45
HYP
55
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> JCodesMore /</span> ai-website-cloner-template

Outil permettant de cloner n'importe quel site web en une seule commande via des agents IA de codage. Projet open-source sur GitHub Trending.

Agents IAGénération de codeOpen source
SIG
35
HYP
72
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> mksglu /</span> context-mode

Context-mode optimise la fenêtre de contexte pour les agents IA de codage en isolant les sorties d'outils. Réduit la consommation de tokens de 98%. Compatible avec 15 plateformes.

Agents IAGénération de codePrompt engineering
SIG
72
HYP
25
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> nanocoai /</span> nanoclaw

Nanoclaw est une alternative légère à OpenClaw exécutée en conteneurs. Intègre WhatsApp, Telegram, Slack, Discord, Gmail et autres apps de messagerie. Inclut mémoire, tâches planifiées, fonctionne sur l'Agents SDK d'Anthropic.

AnthropicAgents IAOpen source
SIG
65
HYP
25
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> Open-LLM-VTuber /</span> Open-LLM-VTuber

Open-LLM-VTuber permet d'interagir avec n'importe quel LLM via voix sans mains libres, interruption vocale et animation Live2D faciale en local sur plusieurs plateformes.

VoixOpen sourceOutils
SIG
45
HYP
35
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> chopratejas /</span> headroom

Headroom compresse les sorties d'outils, logs, fichiers et chunks RAG avant envoi au LLM. Réduit de 60-95% les tokens consommés sans dégrader les réponses. Disponible en library, proxy et serveur MCP.

RAGMCPOutils
SIG
72
HYP
25
Reddit r/MachineLearning·

Backpropagation destroys V1 brain alignment in one epoch, tracking RSA alignment to fMRI across training for BP, FA, predictive coding, and STDP [R]

Étude comparative de règles d'apprentissage (backprop, feedback alignment, predictive coding, STDP) via alignement RSA avec fMRI V1 humain. Backprop détruit 90% de l'alignement V1 après 1 epoch (r: 0.102→0.011), tandis que PC et STDP ne perdent que 25-31%. À epoch 40: PC/STDP >> BP/FA. Suggère un trade-off fondamental entre signaux d'erreur globaux (couches hautes) et alignement précoce.

AlignementBenchmarksPapers
SIG
78
HYP
15
Reddit r/LocalLLaMA·

Building a free, offline LLM “tutor” grounded in one university textbook — RAG, LoRA, or both? Sanity check wanted

Un développeur cherche à construire un tuteur IA hors ligne gratuit basé sur un manuel universitaire. Architecture envisagée : RAG comme composant principal (chunking, embedding, retrieval avec citations page/section) + LoRA optionnelle pour le style pédagogique. Questions sur le choix du modèle (Qwen, Gemma), la gestion des structures complexes (figures, équations), et le packaging pour utilisateurs non-techniques.

RAGFine-tuningOpen source
SIG
35
HYP
15
Reddit r/MachineLearning·

LLM agents patch security bugs, pass all tests, but still leave the vulnerability open [R]

CVE-Bench évalue 5 modèles frontier sur 20 CVEs réelles (Pillow, GitPython, urllib3, etc.) avec 300 runs. Taux de résolution max 50% (60% en advisory). Les agents corrigent syntaxiquement mais laissent la vulnérabilité ouverte. Écarts significatifs cross-family (OpenAI vs Laguna, p<0.05), bruit intra-famille. Analyse des défaillances : drift de recherche, hallucinations, manque de contextualisation.

Agents IABenchmarksSécurité IA
SIG
78
HYP
15
arXiv cs.CL·

Model-Based Quality Assessment for Massively Multilingual Parallel Data

Étude de l'évaluation automatique de données bilingues massives : décomposition en deux tâches (évaluation du parallélisme via embeddings multilingues, estimation de qualité sans référence). Benchmark de 4 modèles d'embeddings et 9 évaluateurs sur FLORES-200 couvrant 6 654 paires de langues. Résultat clé : aucun modèle n'est fiable universellement ; une approche direction-aware est nécessaire.

BenchmarksEmbeddingsÉvaluations
SIG
78
HYP
15
arXiv cs.CL·

Isolating LLM Lexical Bias: A Curation-Free Triangulated Metric for Preference-Stage Learning

Nouvelle métrique automatisée (Triangulated Preference Shift score) pour mesurer les biais lexicaux introduits lors de l'apprentissage par préférence (RLHF) dans les LLM, sans annotation manuelle. Analyse sur 6 familles de modèles révèle une tendance vers un « langage de prestige » (suremploi de « delve », « furthermore »).

Reinforcement learningAlignementÉvaluations
SIG
72
HYP
18
arXiv cs.CL·

RealityTest: How People Probe AI Identity and Whether Models Disclose It

RealityTest évalue si les systèmes IA divulguent leur identité quand interrogés. Benchmark multilingue et multimodal basé sur 3 152 requêtes collectées auprès de ~750 participants dans 49 pays, 5 langues (texte et voix). Résultats : 31% seulement posent la question directement ; une instruction de suppression réduit la divulgation sous 30% même pour les meilleurs modèles.

Sécurité IAÉvaluationsBenchmarks
SIG
78
HYP
25
arXiv cs.AI·

Deliberative Curation: A Protocol for Multi-Agent Knowledge Bases

Protocole de gouvernance pour bases de connaissances multi-agents combinant cycle de vie formalisé, vote délibératif pondéré par réputation (Beta Reputation + EigenTrust) et sanctions graduées. Évaluation sur 100 agents, 7 archétypes comportementaux : 0.826 vs 0.791 de précision face à l'adversité modérée (p<0.001). Le masquage vote commit-reveal apporte +8.2-8.6pp.

Multi-agentsAgents IABenchmarks
SIG
72
HYP
15
arXiv cs.CL·

ProtStructQA: A Denotation Threshold in Protein Structural Reasoning

ProtStructQA est un benchmark exécutable pour la réponse à des questions sur les structures protéiques. 382.2K questions générées depuis un langage spécialisé caché, évaluées sur Qwen3 (0.6B–8B) et Gemma-3. Découverte clé : seuil de capacité entre Qwen3-1.7B et 4B où les modèles passent de l'incapacité à produire des dénotations exécutables à la maîtrise du raisonnement chaîné.

BenchmarksRaisonnementQwen
SIG
78
HYP
15
arXiv cs.CL·

A Multi-Domain Red Teaming Framework for Safety, Robustness, and Fairness Evaluation of Medical Large Language Models

Framework de red teaming multi-domaine évaluant 11 LLMs sur 690 scénarios cliniques. Résultats : variance substantielle (scores 0.791–0.984), défaillances critiques masquées par la précision moyenne, amplification d'erreur 10-20% sur tâches d'équité. Approche hybride (automatisée + validation humaine) nécessaire.

Sécurité IAÉvaluationsBenchmarks
SIG
82
HYP
15
arXiv cs.CL·

lmfaoooo at SemEval-2026 Task 1: Humor Is an Audience. Preference Modeling for Constrained Humor Generation

Système de génération d'humour pour SemEval-2026 Task-1 (MWAHAHA) utilisant une stratégie « générer-beaucoup → sélectionner-meilleur ». Génération de candidats diversifiés via prompting multi-étapes et ensemble de modèles, puis sélection via un modèle de préférence entraîné sur 2.5K jugements humains appariés. Classement 1er en anglais et chinois, 2e en espagnol.

Prompt engineeringÉvaluationsBenchmarks
SIG
72
HYP
25
arXiv cs.CL·

DLLM-JEPA: Joint Embedding Predictive Architectures for Masked Diffusion Language Models

DLLM-JEPA combine les architectures JEPA avec les modèles de langage par diffusion masquée pour l'apprentissage auto-supervisé. Élimine le besoin de paires multi-vues explicites et réduit les FLOPs d'entraînement de 33% vs LLM-JEPA. Améliore les performances de +18.7pp sur GSM8K (LLaDA-8B) et +11.4pp (Dream-7B) tout en préservant les capacités de base.

PapersFine-tuningRaisonnement
SIG
78
HYP
25
arXiv cs.CL·

CSRP: Chain-of-Thought Reasoning for Chinese Text Correction via Reinforcement Learning with Efficiency-Aware Rewards

CSRP, un framework en trois étapes pour la correction d'erreurs grammaticales chinoises, combine pré-entraînement continu (5.9M échantillons), fine-tuning avec Chain-of-Thought, et optimisation de politique avec récompenses conscientes de l'efficacité. Atteint 50.99 F₀.₅ sur NACGEC et surpasse GPT-4 en correction orthographique (59.61 F1).

Reinforcement learningRaisonnementFine-tuning
SIG
82
HYP
15
arXiv cs.CL·

SENSE: Semantic Embedding Navigation with Soft-gated Evaluation for Retrieval-based Speculative Decoding

SENSE améliore le décodage spéculatif basé sur la récupération en utilisant les états cachés du modèle cible pour l'alignement sémantique. Un module d'évaluation soft-gated valide l'équivalence sémantique plutôt que les formes de surface. Sur LLaMA et Qwen, SENSE atteint 4.09 longueur d'acceptation moyenne et 3.26x d'accélération.

LlamaQwenRaisonnement
SIG
78
HYP
25
arXiv cs.CL·

Agreement Metrics for LLM-as-Judge Evaluation: What to Report and Why

Étude des métriques d'accord pour l'évaluation par LLM-as-Judge. Analyse de 24 papiers récents montrant que pour les critères binaires (MET/UNMET), Pearson r, Spearman ρ, Kendall τ_b et phi sont redondants. Cohen's κ seul ajoute de l'information. Les auteurs proposent une checklist de reporting incluant l'échelle de jugement, la gestion des abstentions et la matrice de confusion.

ÉvaluationsBenchmarksPapers
SIG
78
HYP
15
arXiv cs.CL·

DraDDP: A Multimodal Multi-Party Dialogue Discourse Parsing Dataset

DraDDP est le premier dataset public multimodal pour l'analyse de structures de discours en dialogues multi-parties. Construit à partir de séries TV américaines, il contient 495 segments de dialogue (6 374 énoncés, 9.1 heures de vidéo). Les benchmarks montrent l'utilité des informations multimodales pour identifier les dépendances et types de relations entre énoncés.

VisionMulti-agentsBenchmarks
SIG
75
HYP
15
arXiv cs.LG·

Agentic Transformers Provably Learn to Search via Reinforcement Learning

Étude théorique montrant comment les transformers apprennent à implémenter une recherche en arbre (DFS) via RL. Un transformer à deux têtes d'attention émerge naturellement d'un entraînement par gradient de politique sur des arbres stochastiques, sans démonstrations expertes. Le modèle généralise à des profondeurs non vues et adapte sa stratégie selon les distributions d'objectifs.

Agents IAReinforcement learningRaisonnement
SIG
78
HYP
15
arXiv cs.CL·

AEyeDE: An Attention-Based Attribution Framework for AI-Generated Text Detection

AEyeDE propose une méthode de détection de texte généré par IA basée sur les matrices d'attention d'un modèle Transformer proxy. Un CNN léger apprend à distinguer les patterns d'attention entre texte humain et IA-généré. La méthode surpasse les baselines texte-seul et montre une robustesse en transfert cross-dataset et face aux perturbations orthographiques.

PapersSécurité IAÉvaluations
SIG
72
HYP
18
arXiv cs.CL·

Toward Robust In-Context Learning: Leveraging Out-of-distribution Proxies for Target Inaccessible Demonstration Retrieval

DOPA, un framework de recherche de démonstrations, utilise un proxy OOD pour approximer le domaine cible inaccessible et guide la récupération de démonstrations pertinentes. Une contrainte de diversité basée sur la distance de Mahalanobis assure la variété des exemples sélectionnés. Résultats positifs sur plusieurs LLMs et tâches en contexte de distribution shift sévère.

Prompt engineeringBenchmarksPapers
SIG
72
HYP
18
arXiv cs.AI·

Product-Aware Deep Autoencoders for Robust Process Monitoring in Multi-Product Cyber-Physical Systems

Article académique proposant des autoencodeurs sensibles aux produits pour la détection d'anomalies dans les systèmes cyber-physiques multi-produits. Les modèles globaux traditionnels créent des « angles morts » où les attaques peuvent passer inaperçues. Tests sur Tennessee Eastman Process : le modèle produit-aware détecte 100% des scénarios d'attaque contre 22.2% pour le modèle global.

BenchmarksSécurité IAÉvaluations
SIG
72
HYP
15
arXiv cs.CL·

Graph-Augmented Retrieval for Cross-Entity Financial Sentiment Analysis: A Comparative Study

Étude comparative d'une architecture Graph-RAG à deux sauts versus RAG vectoriel standard pour l'analyse de sentiment financier multi-entités. Sur 100 requêtes (30 directes, 70 relationnelles), Graph-RAG améliore le rappel d'entités (+6,4%, p<0,001) et la pertinence des réponses pour requêtes complexes (+11,7%), sans dégradation de qualité, avec latence augmentée de 22,6% mais variance réduite de 80%.

RAGBenchmarksPapers
SIG
78
HYP
15
arXiv cs.LG·

Accurate Large-sample Uncertainty Quantification using Stochastic Gradient Markov Chain Monte Carlo

Nouvel article arXiv proposant des approximations discrètes pour SG(L)D avec et sans momentum, permettant des prédictions précises de la covariance stationnaire et du temps d'autocorrélation intégré. Bornes d'erreur non-asymptotiques pour l'ajustement pratique et la quantification d'incertitude, validées sur modèles mal spécifiés et grands batch sizes.

Reinforcement learningBenchmarksPapers
SIG
72
HYP
15
arXiv cs.CL·

Cognitive-Linguistic Indicators of Depression in Online Communities: Analysed by DistilBERT and Holographic Reduced Representation

Étude combinant features linguistiques cognitives (pronoms première personne, mots absolutistes, émotions négatives) avec embeddings DistilBERT et Holographic Reduced Representation pour détecter la dépression dans des posts Reddit. Le modèle hybride atteint F1=0.94 vs 0.80 pour TF-IDF baseline, AUC=0.981.

EmbeddingsBenchmarksPapers
SIG
72
HYP
15
arXiv cs.CL·

BOUTEF: A Multilingual Corpus for FakeNews in North Africa -- Language as a Weapon

BOUTEF est un corpus multilingue de 2 pays (Algérie, Tunisie) couvrant fausses nouvelles, narratifs authentiques, commentaires et débunkage. Inclut MSA, dialectes algérien/tunisien, arabizi, français, anglais et code-switching. Analyse révèle que les fausses nouvelles utilisent narratifs émotionnels et cadrage sensationnaliste, tandis que le débunkage adopte un style factuel.

PapersBenchmarksSécurité IA
SIG
72
HYP
18