Retour au feed
Reddit r/MachineLearning·

Per-pixel bounding-box regression + DBSCAN for handwritten word detection - visual walkthrough of WordDetectorNet [P]

Signal
72
Hype
18
En 3 lignesWordDetectorNet utilise une régression par pixel des distances de boîte englobante + DBSCAN pour détecter les mots manuscrits. Chaque pixel classé comme « mot » régresse 4 distances scalaires, générant des milliers de candidats fusionnés via DBSCAN avec distance = 1 − IoU. Architecture : ResNet18 → décodeur FPN → 6 canaux par pixel (2 logits segmentation + 4 distances). Entraîné sur IAM, 448×448 → 224×224.
Lire la source
Ton avis ?
VisionGénération de codeOpen source

Résumé généré par Claude — vérifié par l'humain