losing my mind fine-tuning jina-v5 for a legal corpus
Signal
35
Hype
15
En 3 lignesUn utilisateur fine-tune Jina-v5 sur un corpus juridique slovaque depuis un mois sans succès. Le modèle échoue à capturer les nuances syntaxiques du slovaque, notamment sur des cas ambigus (« krádež » vs « prepadnutie »). Il a testé plusieurs approches : génération de requêtes par LLM, injection de chunks similaires, logit mining avec Qwen 3.5-397B, mais les fine-tunes surpassent mal la base.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain