arXiv cs.LG·26 mai 2026

Truthful Online Preference Aggregation for LLM Fine-Tuning in Mobile Crowdsourcing

Signal

Hype

En 3 lignesPapier arXiv proposant un mécanisme d'agrégation en ligne pour aligner les LLM avec le feedback humain en crowdsourcing mobile. Le système incite les travailleurs à rapporter honnêtement leurs préférences via un jeu bayésien dynamique, réduisant le regret de O(T) à O(√T) sur T slots temporels.

Lire la source

Ton avis ?

Fine-tuning Reinforcement learning Papers

Résumé généré par Claude — vérifié par l'humain

Truthful Online Preference Aggregation for LLM Fine-Tuning in Mobile Crowdsourcing

Autres angles sur ce sujet