Retour au feed
arXiv cs.AI·

Can LLMs Think Like Consumers? Benchmarking Crowd-Level Reaction Reconstruction with ConsumerSimBench

Signal
72
Hype
25
En 3 lignesConsumerSimBench, un benchmark construit sur 1 553 sujets de réseaux sociaux chinois et 23 122 critères de réaction, évalue si les LLMs peuvent reconstruire les patterns de réaction réels des consommateurs. Gemini-3.1-Pro couvre seulement 47,8% des critères, révélant un écart majeur entre performance technique et intuition consommateur. Un pipeline multi-agent améliore MiMo-V2.5-Pro de 32,9% à 37,6%.
Lire la source
Ton avis ?
BenchmarksÉvaluationsMulti-agentsRaisonnement

Résumé généré par Claude — vérifié par l'humain