Retour au feed
arXiv cs.LG·

Truthful Online Preference Aggregation for LLM Fine-Tuning in Mobile Crowdsourcing

Signal
72
Hype
15
En 3 lignesPapier arXiv proposant un mécanisme d'agrégation en ligne pour aligner les LLM avec le feedback humain en crowdsourcing mobile. Le système incite les travailleurs à rapporter honnêtement leurs préférences via un jeu bayésien dynamique, réduisant le regret de O(T) à O(√T) sur T slots temporels.
Lire la source
Ton avis ?
Fine-tuningReinforcement learningPapers

Résumé généré par Claude — vérifié par l'humain