Retour au feed
arXiv cs.CL·

Can LLMs Think Like Consumers? Benchmarking Crowd-Level Reaction Reconstruction with ConsumerSimBench

Signal
78
Hype
25
En 3 lignesConsumerSimBench, benchmark construit sur 1 553 sujets de réseaux sociaux chinois et 23 122 critères de réaction, évalue si les LLMs peuvent reconstruire les patterns de réaction réels des consommateurs. Gemini-3.1-Pro atteint seulement 47,8% de couverture des critères, révélant un écart majeur entre performance technique et intuition consommateur ancrée socialement.
Lire la source
Ton avis ?
BenchmarksÉvaluationsGPTGeminiClaude

Résumé généré par Claude — vérifié par l'humain