Page 66 sur 148

ToutHaut signalRécent
5883 articles
arXiv cs.LG·

Metric-Gradient Projection for Stable Multi-Agent Policy Learning

HPML (Hodge-Projected Multi-agent Learning) stabilise l'apprentissage multi-agent en projetant le champ de mise à jour conjointe sur une composante métrique-gradient. La méthode utilise une projection de type Hodge dans un espace L² de champs vectoriels, implémentée via réalisations basées graphes et réseaux de neurones amortis. Résultats : stabilité améliorée et rendements normalisés supérieurs sur benchmarks CTDE.

Multi-agentsReinforcement learningPapers
SIG
72
HYP
15
arXiv cs.CL·

Fine-tuning language encoding models on slow fMRI improves prediction for fast ECoG

Des chercheurs utilisent l'IRM fonctionnelle (fMRI) pour améliorer les modèles d'encodage entraînés sur l'ECoG (électrocorticographie). En affinant des représentations de langage parlé sur fMRI, ils obtiennent de meilleures prédictions ECoG malgré une résolution temporelle 100× inférieure. Les performances s'améliorent avec plus de données fMRI.

Fine-tuningRaisonnementBenchmarks
SIG
72
HYP
18
arXiv cs.AI·

Can Large Language Models Revolutionize Survey Research? Experiments with Disaster Preparedness Responses

Étude arXiv évaluant l'intégration des LLM dans la recherche par sondage sur la préparation aux catastrophes. Framework à 5 étapes testé sur 946 résidents de Floride (ouragan Milton 2024). Le modèle A-TLM proposé surpasse les méthodes classiques d'imputation (RMSE 1.439 vs 1.496) en conditions MNAR avec structure théorique PMT.

RAGRaisonnementÉvaluations
SIG
72
HYP
25
arXiv cs.CL·

How Do Document Parsers Break? Auditing Structural Vulnerability in Document Intelligence

Étude de robustesse des pipelines d'analyse de mise en page (DLA) utilisés en RAG et QA sur documents longs. Les auteurs identifient un biais d'empreinte et proposent un cadre d'audit léger mesurant la perte structurelle au niveau des blocs (B-SLR). Sur 1 000 pages avec MinerU et PP-StructureV3, B-SLR corrèle mieux avec l'instabilité OCR (R²=0.727/0.916) que les métriques surfaciques (R²=0.384/0.110).

PapersÉvaluationsRAG
SIG
72
HYP
18
arXiv cs.CL·

IMLJD: A Computational Dataset for Indian Matrimonial Litigation Analysis

IMLJD est un dataset de 3,613 jugements indiens couvrant les litiges matrimoniaux (IPC 498A, loi sur la protection des femmes contre la violence domestique, CrPC 482). Données de la Cour suprême (2000-2024, 1,474 cas) et de la Haute Cour du Karnataka (2018-2024, 2,139 cas). Taux d'annulation : 57,6% à la Cour suprême vs 39,7% au Karnataka. Dataset, code et graphe de connaissances publiés en open source.

BenchmarksPapersOpen source
SIG
72
HYP
15
arXiv cs.CL·

Taming the Thinker: Conditional Entropy Shaping for Adaptive LLM Reasoning

Conditional Entropy Shaping (CES) contrôle dynamiquement l'entropie des tokens pour équilibrer concision et précision du raisonnement. Implémenté sur DeepSeek-R1-Distill-7B, CES pénalise les tokens haute-entropie sur les chemins corrects et les récompense sur les chemins erronés. Résultats : amélioration de la précision avec réduction de la longueur des réponses sur 12 benchmarks mathématiques.

DeepSeekRaisonnementReinforcement learning
SIG
72
HYP
28
Reddit r/MachineLearning·

I built a tool that shows you what GPT-2 is "thinking" in real-time as it generates 3D graph of concept activations per token [R]

AXON visualise en temps réel les activations de concepts dans GPT-2 via un graphe 3D force-directed. Un Sparse Autoencoder décompose le residual stream en features interprétables (géographie, villes, langues) à chaque token généré. Stack : TransformerLens + SAELens (backend), FastAPI WebSocket, Three.js (frontend). ~35ms/token sur GPU.

GPTOpen sourceOutils
SIG
72
HYP
35
Reddit r/LocalLLaMA·

PrivateScribe.ai - Fully local, MIT licensed, free AI transcription built with HIPAA/legal safeguards in mind - One Year Update!

PrivateScribe.ai, plateforme de transcription open-source entièrement locale (MIT), annonce sa v1 avec app macOS signée. Stack : FasterWhisper, pyannote, Ollama, Vite/Flask/SQLite. Chiffrement 256-bit, zéro appels réseau, audit trail, diarisation. Conçu pour cliniques, avocats, thérapeutes avec conformité HIPAA.

Open sourceVoixGénération de code
SIG
72
HYP
28
Reddit r/LocalLLaMA·

A tool I built to generate 3D objects with functional, articulated parts. It's on github, and is mostly LLM-agnostic.

Outil open-source pour générer des objets 3D articulés avec pièces fonctionnelles. Au lieu de diffusion (blobs point-cloud), le pipeline utilise un LLM comme compilateur de code structuré, générant du code Python Blender natif ciblant des nœuds spécifiques. Frontend Flutter/Three.js, model-agnostic. Gemini recommandé ; modèles locaux hallucinent encore sur les transformations matricielles complexes.

Génération de codeOpen sourceOutils
SIG
72
HYP
35
Reddit r/LocalLLaMA·

Public Repository "Codegraph" claims to reduce Claude, Cursor, Codex, and OpenCode API tool calls by 94% locally, an innovation that could directly offset the most recent Claude API pricing model.

Codegraph, un outil open-source de Colbymchenry, réduit les appels API Claude/Cursor de 94% en utilisant un graphe de connaissances pré-indexé (relations de symboles, call graphs). Les tests montrent 3 appels vs 52 sans l'outil sur VS Code TypeScript, avec accélération de 72-82%.

ClaudeGénération de codeAgents IA
SIG
72
HYP
45
Reddit r/MachineLearning·

Graph spectral analysis (Fiedler value + Scheffer CSD indicators) predicts grokking 21k steps before loss function - five reproducible experiments [R]

Analyse spectrale des graphes de poids (valeur de Fiedler + indicateurs CSD de Scheffer) pour prédire le grokking 21k étapes avant la convergence. Cinq expériences reproductibles sur CPU : détection précoce, distinction grokking/oubli catastrophique, intervention guidée (91.7% vs 2.6%), accélération 48x sur tâches séquentielles. Limité à MLPs 2-couches et transformers 1-couche.

PapersÉvaluationsRaisonnement
SIG
72
HYP
28
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> rtk-ai /</span> rtk

rtk est un proxy CLI en Rust qui réduit la consommation de tokens LLM de 60-90% sur les commandes dev courantes. Binaire unique, zéro dépendance.

OutilsInfrastructureGénération de code
SIG
72
HYP
25
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> Michael-A-Kuykendall /</span> shimmy

Shimmy : serveur d'inférence Rust compatible API OpenAI, sans dépendances Python. Supporte GGUF et SafeTensors, échange de modèles à chaud, découverte automatique, binaire unique. Gratuit.

Open sourceInfrastructureGénération de code
SIG
72
HYP
35
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> tirth8205 /</span> code-review-graph

Code-Review-Graph crée un graphe de connaissances local pour Claude Code. Il construit une carte persistante de la base de code, réduisant les tokens de 6,8× sur les reviews et jusqu'à 49× sur les tâches quotidiennes.

Claude CodeRAGGénération de code
SIG
72
HYP
45
arXiv cs.AI·

When Does Non-Uniform Replay Matter in Reinforcement Learning?

Étude sur l'efficacité du replay non-uniforme en RL off-policy. Les auteurs identifient trois facteurs clés : volume de replay, récence des transitions et entropie de la distribution d'échantillonnage. Ils proposent Truncated Geometric replay, qui privilégie les expériences récentes tout en maintenant haute entropie, améliorant l'efficacité d'échantillonnage en régimes bas-volume.

Reinforcement learningBenchmarksPapers
SIG
72
HYP
15
arXiv cs.AI·

Agentic AI Governance and Lifecycle Management in Healthcare

Des chercheurs proposent UALM (Unified Agent Lifecycle Management), un cadre de gouvernance pour les systèmes d'IA agentiques en santé. Le modèle adresse la prolifération d'agents (agent sprawl) via cinq couches de contrôle : registre d'identité, orchestration, gestion des données PHI, application de politiques runtime avec kill-switch, et décommissionnement lié à la révocation de credentials.

Agents IAMulti-agentsSécurité IA
SIG
72
HYP
18
arXiv cs.AI·

Hunt Instead of Wait: Evaluating Deep Data Research on Large Language Models

Nouvel benchmark DDR-Bench évalue l'intelligence investigatrice des LLM : capacité autonome à explorer des bases de données et extraire insights sans requête explicite. Les modèles frontière montrent une agentivité émergente mais peinent sur l'exploration long-horizon. L'étude distingue intelligence investigatrice (fixer ses propres buts) vs exécutionnelle (compléter des tâches assignées).

Agents IABenchmarksRaisonnement
SIG
72
HYP
28
arXiv cs.AI·

Expectation and Acoustic Neural Network Representations Enhance Music Identification from Brain Activity

Des chercheurs montrent que combiner des représentations acoustiques et prédictives d'un réseau de neurones artificiels améliore l'identification musicale à partir d'activité cérébrale (EEG). Les modèles préentraînés sur ces deux types de représentations surpassent les baselines et leurs gains sont complémentaires. Cette approche ouvre la voie à des modèles EEG génériques fondés sur les principes du codage cortical.

ÉvaluationsRaisonnement
SIG
72
HYP
18