Truthful Online Preference Aggregation for LLM Fine-Tuning in Mobile Crowdsourcing
Signal
72
Hype
15
En 3 lignesPapier arXiv proposant un mécanisme d'agrégation en ligne pour aligner les LLM avec le feedback humain en crowdsourcing mobile. Le système incite les travailleurs à rapporter honnêtement leurs préférences via un jeu bayésien dynamique, réduisant le regret de O(T) à O(√T) sur T slots temporels.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain