arXiv cs.CL·19 mai 2026

Can LLMs Think Like Consumers? Benchmarking Crowd-Level Reaction Reconstruction with ConsumerSimBench

Signal

Hype

En 3 lignesConsumerSimBench, benchmark construit sur 1 553 sujets de réseaux sociaux chinois et 23 122 critères de réaction, évalue si les LLMs peuvent reconstruire les patterns de réaction réels des consommateurs. Gemini-3.1-Pro atteint seulement 47,8% de couverture des critères, révélant un écart majeur entre performance technique et intuition consommateur ancrée socialement.

Lire la source

Ton avis ?

Benchmarks Évaluations GPT Gemini Claude

Résumé généré par Claude — vérifié par l'humain

Can LLMs Think Like Consumers? Benchmarking Crowd-Level Reaction Reconstruction with ConsumerSimBench

Autres angles sur ce sujet