Page 23 sur 139

ToutHaut signalRécent
5521 articles
arXiv cs.AI·

DELTAMEM: Incremental Experience Memory for LLM Agents via Residual Trees

DeltaMem organise la mémoire d'expérience des agents LLM en deux arbres résiduels : l'un stocke les tâches comme compétences réutilisables, l'autre les connaissances environnementales. Chaque arbre utilise des nœuds racine pour les expériences généralisées et des nœuds delta pour les variations, éliminant la redondance. Un mécanisme de consolidation autonome distille les chemins fréquents en nouveaux nœuds racine.

Agents IARaisonnementPapers
SIG
75
HYP
25
arXiv cs.LG·

Human-in-the-Loop Contextual Bandits for Short-Term Rental Dynamic Pricing: Structural Equivalence of Historical Warm-Up and Approval-Gated Live Learning

Framework HITL-GB pour la tarification dynamique dans les locations courte durée : un algorithme de bandit contextuel génère des recommandations de prix qu'un humain peut accepter, modifier ou rejeter. Les auteurs montrent que les données historiques sont structurellement équivalentes à un warm-up on-policy, réduisant le cold-start de ~150 à ~30 épisodes. Validé sur 1 461 nuits réelles (avril 2022-2026).

Agents IAReinforcement learningBenchmarks
SIG
75
HYP
15
arXiv cs.AI·

BehaviorBench: Modeling Real-World User Decisions from Behavioral Traces

BehaviorBench est un benchmark pour évaluer la modélisation des décisions personnalisées à partir de traces comportementales réelles. Construit sur 2 000 portefeuilles avec 141 445 instances de prédiction de croyances et 1 485 972 instances de prédiction de transactions, il teste si les modèles génératifs peuvent adapter leurs prédictions aux utilisateurs individuels sans simulation.

BenchmarksÉvaluationsPapers
SIG
75
HYP
15
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> chopratejas /</span> headroom

Headroom compresse les sorties d'outils, logs, fichiers et chunks RAG avant envoi au LLM. Réduit de 60-95% les tokens consommés sans dégrader la qualité. Disponible en bibliothèque, proxy et serveur MCP.

RAGMCPOutils
SIG
75
HYP
25
arXiv cs.LG·

Learning to Construct Practical Agentic Systems

Papier arXiv proposant des approches pour concevoir des systèmes agentic LLM pratiques. Framework avec « pseudo-tools » appelant récursivement les LLM sur contexte restreint. Les workflows fixes hand-engineered sont moins chers et plus précis que les workflows planifiés dynamiquement. Méthodes d'apprentissage pour optimiser pseudo-tools et workflows fixes, surpassant les agents hand-engineered.

Agents IAMulti-agentsRaisonnement
SIG
75
HYP
15
arXiv cs.LG·

ARCA: Adapter-Residual Credit Assignment When Token Signals Degenerate

ARCA propose une nouvelle méthode d'attribution de crédit au niveau des tokens pour l'apprentissage par renforcement des LLM. Elle résout la dégénérescence des signaux intrinsèques (surprisal, entropy reduction, policy divergence) sous LoRA en mesurant directement les changements cachés de l'adaptateur via la norme L2 du résidu. Testée sur MATH/Qwen3-1.7B avec GRPO, ARCA évite la concentration pathologique des poids.

Reinforcement learningFine-tuningRaisonnement
SIG
75
HYP
15
arXiv cs.LG·

AI-Guided Design and Optimization of Graphite-Based Anodes via Iterative Experimental Feedback

Workflow IA itératif pour optimiser les anodes en graphite via apprentissage séquentiel et retours expérimentaux. Plateforme Citrine utilisée pour générer modèles de substitution et affiner contraintes de faisabilité. Résultats : fiabilité de fabrication passée de défaillances fréquentes à 100%, capacité ≥350 mAh/g augmentée de 28,4% à 84,8%, rétention de capacité de 42,1% à 97,3%.

Reinforcement learningBenchmarksOutils
SIG
75
HYP
15
arXiv cs.CL·

TrustLDM: Benchmarking Trustworthiness in Language Diffusion Models

TrustLDM est un benchmark d'évaluation de la fiabilité des modèles de diffusion de langage (LDMs), couvrant sécurité, confidentialité et équité. Les résultats montrent que les LDMs dégradent leur alignement quand des contextes malveillants sont ajoutés aux réponses masquées, indépendamment de la longueur du contexte. Un framework d'évaluation automatique (TrustLDM-Auto) identifie les configurations vulnérables.

BenchmarksSécurité IAAlignement
SIG
75
HYP
15
arXiv cs.CL·

DraDDP: A Multimodal Multi-Party Dialogue Discourse Parsing Dataset

DraDDP est le premier dataset public multimodal pour l'analyse de structures de discours en dialogues multi-parties. Construit à partir de séries TV américaines, il contient 495 segments de dialogue (6 374 énoncés, 9.1 heures de vidéo). Les benchmarks montrent l'utilité des informations multimodales pour identifier les dépendances et types de relations entre énoncés.

VisionMulti-agentsBenchmarks
SIG
75
HYP
15
arXiv cs.LG·

Balancing Learning Rates Across Layers: Exact Two-Step Dynamics and Optimal Scaling in Linear Neural Networks

Étude théorique des taux d'apprentissage optimaux dans les réseaux de neurones linéaires à 2-3 couches. Dérivation de formules fermées exactes pour les gradients et la perte après 1-2 étapes de descente de gradient. Résultat clé : les taux d'apprentissage inégaux minimisent la perte en phase initiale, tandis que les taux égaux deviennent optimaux après. Code disponible.

PapersReinforcement learning
SIG
75
HYP
15
arXiv cs.AI·

Hidden Thoughts Are Not Secret: Reasoning Trace Exposure in LLMs

Des chercheurs montrent que les traces de raisonnement cachées des LLM peuvent être extraites via Reasoning Exposure Prompting (REP), une méthode de prompting légère utilisant des démonstrations générées par modèles fantômes. REP expose les traces internes même quand les systèmes déployés les masquent intentionnellement, préservant les signaux de raisonnement utiles pour la distillation.

RaisonnementPrompt engineeringFine-tuning
SIG
75
HYP
35
Simon Willison·

Hackers Simply Asked Meta AI to Give Them Access to High-Profile Instagram Accounts. It Worked

Des hackers ont exploité le chatbot IA de support Meta pour accéder à des comptes Instagram haut-profil. En demandant simplement au bot de lier une nouvelle adresse email au compte cible, ils ont contourné l'intégralité du processus de récupération de compte. Meta avait connecté son système de support à une IA capable d'exécuter des changements de compte en une seule requête.

Meta AISécurité IAPrompt engineering
SIG
75
HYP
45