Page 25 sur 139

ToutHaut signalRécent
5525 articles
arXiv cs.AI·

Rethinking Literature Search Evaluation: Deep Research Helps, and Human Citation Lists Are Not a Ground Truth

Étude de la recherche bibliographique à grande échelle : un pipeline Deep Research augmente le recall de 20% à 80% sur RollingEval-Jun25 (250 articles). Analyse critique des listes de références humaines comme ground truth : seulement 51% jugées modérément pertinentes vs 86-88% pour les meilleurs ré-rankers IA. Les humains citent 2,5x plus leurs collaborateurs directs.

RAGÉvaluationsBenchmarks
SIG
75
HYP
15
arXiv cs.CL·

How Consistent Are LLM Agents? Measuring Behavioral Reproducibility in Multi-Step Tool-Calling Pipelines

Étude empirique de la reproductibilité comportementale des agents LLM avec tool-calling. Les chercheurs mesurent si un agent sélectionne les mêmes outils, dans le même ordre, avec les mêmes paramètres, lors d'invocations répétées identiques. Focus sur les interfaces structurées avec paramètres typés et effets secondaires.

Agents IABenchmarksSécurité IA
SIG
75
HYP
15
arXiv cs.CL·

S3Mem: Structured Spatiotemporal Scene-Event Memory for Long-Horizon Interactive Question Answering

S3MEM propose un cadre de mémoire épisodique structurée pour les agents interactifs long-horizon. Le système structure les trajectoires en unités mémoire organisées et utilise une récupération sensible aux ancres pour améliorer la réponse aux questions spatiotemporelles. Évalué sur Crafter, Jericho, SciWorld et ALFWorld, S3MEM surpasse RAG vanilla et Graph-NoReader en précision tout en utilisant moins de tokens.

RAGAgents IARaisonnement
SIG
75
HYP
15
arXiv cs.CL·

Text-Preserving Lossy Text Compression: A Study of Strategic Deletion and LLM Reconstruction

Étude de compression textuelle lossy où un encodeur supprime stratégiquement des parties du texte et un LLM reconstruit le contenu original. Benchmark de 6 stratégies de suppression (uniforme, fréquence, entropie, optimisation LP, hybrides) sur BBC News. WordFreq offre le meilleur rapport coût/performance ; les méthodes sémantiques brillent en compression modérée ; QLoRA fine-tuning rivalise avec Gemini 2.0 Flash.

BenchmarksRaisonnementFine-tuning
SIG
75
HYP
15
arXiv cs.LG·

One Mask to Rule Them All: On Hidden Facts after Editing and How to Find Them

Les méthodes d'édition de connaissances ROME et MEMIT modifient les poids MLP des transformers. Les auteurs découvrent qu'elles ciblent un sous-ensemble commun de poids via un masque binaire qui annule 80% des édits en entraînement et 70% en test. Le mécanisme supprime plutôt que réécrit les connaissances, expliquant pourquoi les changements ne se propagent pas aux faits connexes.

PapersRaisonnementSécurité IA
SIG
75
HYP
15
Reddit r/LocalLLaMA·

Zai replaced the network architecture running GLM-5.1 inference and the gains are pretty wild

Zai a remplacé l'architecture réseau d'un cluster de 1000 GPU exécutant GLM-5.1 en passant de ROFT à ZCube (développé avec Tsinghua et HarnetsAI). Résultats : coûts de commutation/optique -33%, débit GPU +15%, latence P99 premier token -40.6%. ZCube élimine la couche Spine pour une interconnexion bipartite complète, résolvant les hotspots de trafic asymétrique du Prefill-Decode disaggregated.

InfrastructureRaisonnement
SIG
75
HYP
25
Reddit r/MachineLearning·

A new dataset with more that 100M hi-quality, curated images, with captions and meta data! [P]

MONET, un dataset Apache 2.0 de 104,9 millions d'images haute qualité avec captions et métadonnées, publié sur Hugging Face. Construit à partir de 2,9 milliards d'images et raffiné. Accompagné d'un paper, d'outils de visualisation UMAP, d'un moteur de recherche texte/image et d'une codebase pour entraîner des modèles T2I.

Génération d'imagesEmbeddingsOpen source
SIG
75
HYP
25
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> anthropics /</span> claude-code

Claude Code est un outil de codage agentique en ligne de commande qui comprend votre base de code et exécute des tâches routinières, explique du code complexe et gère les workflows Git via des commandes en langage naturel.

ClaudeClaude CodeAgents IA
SIG
75
HYP
35
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> microsoft /</span> RAMPART

Microsoft publie RAMPART, un framework de test de sécurité natif pytest pour les applications IA agentiques. Permet d'évaluer les risques de sécurité et de sûreté des systèmes multi-agents.

Agents IAMulti-agentsSécurité IA
SIG
75
HYP
15
arXiv cs.CL·

Playing with Words, Improving with Rewards: Training Language Models for Creative Association

Entraînement de modèles Qwen (1.7B, 4B, 8B) sur le jeu Codenames pour améliorer la créativité via reinforcement learning avec récompenses vérifiables (RLVR). Le modèle 8B gagne en créativité (+8/10 benchmarks) avec dégradation mineure du raisonnement, tandis que les petits modèles privilégient la précision. Étude sur le compromis créativité-précision selon l'échelle.

QwenReinforcement learningRaisonnement
SIG
75
HYP
25
arXiv cs.CL·

Chain-based Adaptive Reconfiguration Over Lattices for Hallucination Reduction

CAROL est un framework probabiliste pour réduire les hallucinations des LLM au moment du test. Il définit une mesure d'incertitude sémantique basée sur la cohérence entre réponses générées et contexte de confiance, formulant la mitigation comme un processus de chaîne de Markov avec garanties de convergence. Résultats sur QA et multi-agent reasoning montrent réduction significative des hallucinations.

RaisonnementSécurité IAAlignement
SIG
75
HYP
15
arXiv cs.AI·

C-MIG: Multi-view Information Gain-based Retrieval-Augmented Generation for Clinical Diagnosis Reasoning

C-MIG propose un framework RAG avec apprentissage par renforcement pour le diagnostic clinique. Il utilise un gain d'information multi-vue (documents récupérés + raffinement) pour améliorer la supervision des modèles de langage, éliminant les récompenses binaires exactes. Tests sur 4 benchmarks médicaux montrent des gains en domaine et hors-domaine.

RAGReinforcement learningRaisonnement
SIG
75
HYP
15
arXiv cs.CL·

From AR to Diffusion: Efficiently Adapting Large Language Models with Strictly Causal and Elastic Horizons

FLUID adapte efficacement les modèles de langage autorégressifs (AR) à la génération par diffusion via l'alignement causal strict et les horizons élastiques. Le framework réduit les coûts d'entraînement de plusieurs ordres de magnitude en réutilisant les checkpoints GPT existants, tout en maintenant la performance état-de-l'art.

Génération de codeFine-tuningRaisonnement
SIG
75
HYP
25
arXiv cs.LG·

The Energy Blind Spot: NVIDIA's Flagship Edge AI Hardware Cannot Support Process-Level Energy Attribution

NVIDIA's GB10 edge AI hardware (ASUS Ascent GX10) manque de compteurs d'énergie CPU et d'interfaces de monitoring (IPMI, SCMI). Seule la puissance GPU instantanée est exposée via NVML. Les workloads agentic consomment 4.33x plus d'énergie que les baselines linéaires. L'attribution énergétique par processus reste impossible sur cette plateforme contrairement à x86/RAPL.

Agents IABenchmarksInfrastructure
SIG
75
HYP
15
arXiv cs.LG·

The Fundamental Limits of Fraud Detection in Card Payment Networks

Étude théorique des limites fondamentales de la détection de fraude dans les réseaux de paiement par carte. Les auteurs formalisent l'autorisation de paiement comme un problème de décision séquentielle avec retours retardés, censurés et corrompus. Ils dérivent une borne inférieure de regret minimax montrant que l'amélioration de la qualité des données dépasse en impact l'augmentation de la complexité des modèles.

BenchmarksRaisonnementPapers
SIG
75
HYP
15
arXiv cs.AI·

Intelligence as Managed Autonomy: Failure, Escalation, and Governance for Agentic AI Systems

Papier proposant SMARt, un framework formel pour gérer l'autonomie des systèmes IA agentic. Introduit une théorie de l'autonomie gérée basée sur la détection de la dérive épistémique, la suspension du raisonnement et l'escalade vers un contrôle humain. Utilise des réseaux de Petri temporisés pour garantir des propriétés de sécurité et de gouvernance.

Agents IASécurité IAAlignement
SIG
75
HYP
15
arXiv cs.CL·

UserHarness: Harnessing User Minds for Stronger Agent Theory-of-Mind

UserHarness propose un cadre pour améliorer la théorie de l'esprit (ToM) des agents IA en reconstituant explicitement l'état mental de l'utilisateur. Le système décompose les observations, croyances, intentions et actions de l'utilisateur. Sur cinq benchmarks, UserHarness atteint 95,94% de précision macro, surpassant les méthodes existantes de plus de 15% en relatif.

Agents IARaisonnementBenchmarks
SIG
75
HYP
25