Page 180 sur 192

ToutHaut signalRécent
7679 articles
Reddit r/MachineLearning·

How are production ML systems typically handling distribution shift over time? [D]

Discussion sur la gestion de la dérive de distribution dans les systèmes ML en production. Les approches couvertes incluent le réentraînement continu (intervalles fixes ou déclenché), la surveillance en ligne de la dérive, les modèles fantômes et l'examen humain. L'auteur note que les contraintes opérationnelles dominent souvent les décisions techniques.

ÉvaluationsInfrastructure
SIG
35
HYP
15
Reddit r/LocalLLaMA·

Why do we benchmark quants on perplexity and prose but never on tool call validity?

Un utilisateur de r/LocalLLaMA soulève que les benchmarks de quantification se concentrent sur la perplexité et la qualité prose, mais ignorent la validité des appels d'outils. Il hypothèse que les erreurs de quantification dégradent les sorties structurées (JSON, schémas) plus tôt que le texte libre, rendant les métriques actuelles inadéquates pour les cas d'usage agentiques.

BenchmarksAgents IAÉvaluations
SIG
35
HYP
15