Reddit r/MachineLearning·23 mai 2026

Per-pixel bounding-box regression + DBSCAN for handwritten word detection - visual walkthrough of WordDetectorNet [P]

Signal

Hype

En 3 lignesWordDetectorNet utilise une régression par pixel des distances de boîte englobante + DBSCAN pour détecter les mots manuscrits. Chaque pixel classé comme « mot » régresse 4 distances scalaires, générant des milliers de candidats fusionnés via DBSCAN avec distance = 1 − IoU. Architecture : ResNet18 → décodeur FPN → 6 canaux par pixel (2 logits segmentation + 4 distances). Entraîné sur IAM, 448×448 → 224×224.

Lire la source

Ton avis ?

Vision Génération de code Open source

Résumé généré par Claude — vérifié par l'humain

Per-pixel bounding-box regression + DBSCAN for handwritten word detection - visual walkthrough of WordDetectorNet [P]

Autres angles sur ce sujet