Neues Preprint verfügbar: CNN-basierte Sprechblasen-Segmentierung

David Dubray und Jochen Laubrock haben ein Preprint über die automatische Entdeckung und Segmentierung von Sprechblasen in Comics mit tiefen Convolutional Neural Networks veröffentlich, https://arxiv.org/abs/1902.08137. Das an das U-Net (Ronneberger et al., 2015) angelehnte Modell wurde trainiert auf unseren GNC-Annotationen und erreicht Bestleisungen bei der Sprechblasen-Segmentierung in verschiedenen Korpora, z.B. GNC und eBDtheque. Eine solche semantische semantische Segmentierung von Bildern ist eine interessante Aufgabenstellung für maschinelles Sehen und Dokumentenanalyse. Segmentierung von Sprechblasen und Textkästen kann auch als wichtiger Schritt auf dem Weg zu einer OCR-Pipeline für die Analyse von Text in Graphic Novels angesehen werden.