Jahrhunderte alte Schriften mühelos entziffern und dabei auf literarische Schätze wie beispielsweise bisher unbekannte Notizen und Zeichnungen von van Gogh stoßen. Eine Phantasie, die für viele Bibliothekare und Historiker dank Transkribus endlich wahr wird.
Doch was ist Transkribus eigentlich?
Handschriftenerkennung, Layout Analyse und Strukturerkennung sind hier die Schlagworte. Transkribus ist ein Programm, das auf die Erkennung von historischen Handschriften spezialisiert und für jeden frei zugänglich ist. Es ist Teil der europäischen Genossenschaft READ-COOP SCE und wurde bei der Entwicklung des Tools staatlich unterstützt.
Bei der zweitägigen Transkribus User Conference in Innsbruck lernten wir alles über die richtige Anwendung, zukünftige Funktionen und erfolgreiche Projekte der Plattform Transkribus. Selbst mit fehlender Expertise im Bereich OCR – oder generell im Bereich Informatik – war es spannend und gut verständlich.
Für die Erkennung der Seiten entwickelte Transkribus eine App – DocScan – und das ScanTent. In Kombination können Seiten von Büchern schnell und simpel digitalisiert werden. Dabei erkennt die App automatisch, sobald eine Seite umgeblättert wird.
Handschriften, die bis ins 15. Jahrhundert zurückgehen, sind meist nicht leicht zu entziffern. Früher war Schreiben eine Art Kunsthandwerk, mit vielen Ornamenten und Verschnörkelungen. Nicht jeder individuelle Buchstabe glich dem anderen. Um ein komplettes Buch zu transkribieren, benötigt es daher einen Ground Truth von mindestens 50 Seiten. Was das heißt? Tippe manuell 50 Seiten in das Programm ein, den Rest übernimmt Transkribus automatisch.
Wird aus Transkribus bald TransCIBus?
Wer sich jetzt denkt: Das Vorgehen und die Begrifflichkeiten kommen mir doch irgendwie bekannt vor… Richtig gedacht! Mit unseren Forschungsprojekten CIB DeepER und CIB deep post-it (Zusammenarbeit mit BlitzMinds) forscht CIB ebenfalls an Projekten mit OCR und Handschriftenerkennung. Mit doXisafe und der doXibox bzw. der doXicrate haben wir drei super Produkte, die mit dem gleichen Prinzip wie das ScanTent und die DocScan App arbeiten.
Daher ist eine Kooperation mit der READ-COOP SCE für uns ein spannendes Thema. Technischer Austausch, gegenseitig voneinander profitieren und Lösungen optimieren sind unsere Ziele. Transkribus arbeitet mit dem Polytechnikum in Valencia zusammen an der Forschung zur Segmentierung und Strukturerkennung. Und wie es der Zufall so will, haben wir einen Standort in Valencia. Perfekte Voraussetzungen für eine Zusammenarbeit!
Vielleicht kann CIB ja neben Texterkennung in PDF Dokumenten, bald auch handschriftliche Schätze in historischen Schriften finden ;)