Annotation d'image - image encadrant du texte

Bonjour,

Dans le cadre d’un projet de détection de zones au sein de pages de manuscrits, nous nous questionnons sur l’annotation des scènes encadrantes dans certains des ces manuscrits.
Exemple : https://collections.library.yale.edu/iiif/2/1025474/full/1200,/0/default.jpg

Nous avons réfléchi à 3 manières de les annoter, sur lesquelles nous aimerions avoir un avis :

  • Annoter un polygone creux (avec un angle de jointure), mais les modèles de détections d’objets (tels que YOLO) ne prennent en entrée que des bounding boxes (et non des polygones).

  • Annoter la zone de texte centrale que l’on “soustrait” ensuite de la zone de miniature (récupération d’un polygone creux sans angle de jointure).

  • Annoter la zone au moyen de 4 bounding boxes (une par côté) qu’on pourra ensuite fusionner. Dans ce cas, faut-il faire un overlap des bounding boxes ? Si oui, cela ne pose-t-il pas un problème de métriques au moment de la prédiction, notamment pour la mAP ?

Merci !

Lise

Bonjour,

Les versions récentes de YOLO permettent désormais de faire de la détection avec des bounding boxes en entrée, mais aussi de la segmentation et de la détection de boîtes orientées. Les 3 approches semblent intéressantes, le meilleur choix dépend du modèle que vous souhaitez entraîner par la suite.

Pour entraîner un modèle de segmentation, je pense que la solution 1 est la plus adaptée car elle permet de représenter une scène par un unique polygone, ce qui permet une évaluation correcte par les métriques de type mAP qui se basent sur la quantité d’objets correctement prédits. De plus, elle semble la plus simple car permet d’entraîner un modèle de segmentation directement (sans pré- ni post-processing de chaque boîte).

Bonne journée,
Mélodie