Can LLMs Think Like Consumers? Benchmarking Crowd-Level Reaction Reconstruction with ConsumerSimBench
Signal
78
Hype
25
En 3 lignesConsumerSimBench, benchmark construit sur 1 553 sujets de réseaux sociaux chinois et 23 122 critères de réaction, évalue si les LLMs peuvent reconstruire les patterns de réaction réels des consommateurs. Gemini-3.1-Pro atteint seulement 47,8% de couverture des critères, révélant un écart majeur entre performance technique et intuition consommateur ancrée socialement.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain