Retour au feed
arXiv cs.CL·

Can AI Guess What You Know? Performance Comparison of Large Language Models for Human Domain Knowledge Estimation From Communication Logs

Signal
72
Hype
25
En 3 lignesÉtude comparative de 7 LLMs (Gemini, Claude, GPT) pour estimer les compétences professionnelles à partir de logs Slack. Sur 27 188 messages de 43 utilisateurs, Gemini 2.5 Flash obtient l'erreur la plus basse (MAE 21,13%). La précision ne dépend que faiblement du volume de messages.
Lire la source
Ton avis ?
BenchmarksGeminiClaudeGPTÉvaluations

Résumé généré par Claude — vérifié par l'humain