Retour au feed
arXiv cs.AI·

SocialMemBench: Are AI Memory Systems Ready for Social Group Settings?

Signal
78
Hype
15
En 3 lignesSocialMemBench est un benchmark évaluant les systèmes de mémoire IA dans les groupes sociaux multi-parties (430 personas, 7,355 tours de conversation, 1,031 paires QA). Gemini 2.5 Flash atteint 0.721 sur petits réseaux vs 0.98 attendu. Les quatre frameworks open-source (Mem0, LangMem, Graphiti, Cognee) obtiennent 0.12-0.18, bien en dessous des références (0.345-0.369), révélant un écart mesurable.
Lire la source
Ton avis ?
BenchmarksGeminiAgents IAMulti-agentsÉvaluations

Résumé généré par Claude — vérifié par l'humain