Mit Superresolution und KI die Lesbarkeit von Dokumenten verbessern

Immer mehr Dokumente werden heute digitalisiert, um sie zu archivieren oder zu teilen. In der Regel geschieht dies durch Scannen oder Abfotografieren. Schlechte Belichtung, Verwackeln oder eine zu geringe Auflösung können jedoch dazu führen, dass die Lesbarkeit beeinträchtigt wird. Das digitale Dokument besitzt dann nicht mehr die Qualität des Originals. Mithilfe eines KI-basierten Verfahrens lässt sich dieses Problem beheben. Was steckt dahinter?

Dokumentendigitalisierung sollte die Lesbarkeit nicht beeinträchtigen

Ein zentraler Baustein der digitalen Transformation besteht darin, papiergebundene Dokumente in digitale Formate wie PDF zu überführen. Denn nur digital vorliegende Informationen lassen sich problemlos archivieren, wiederfinden, versenden, empfangen und reibungslos in Geschäftsprozessen verwenden. Doch in manchen Fällen verursacht der Digitalisierungsprozess auch Schwierigkeiten. So werden einige Dokumente beispielsweise extra stark komprimiert, um Speicherplatz im Archiv einzusparen. Teils geht dies zulasten der Auflösung. Wird das Dokument also wieder aus dem Archiv hervorgeholt, lässt es sich für den Benutzer nur unter Anstrengung lesen. 
Ähnlich verhält es sich mit digitalen Dokumenten, die bereits vor mehreren Jahren oder gar Jahrzehnten erstellt wurden. Seinerzeit waren die technischen Möglichkeiten des Scannens noch sehr begrenzt. Als Ergebnis landeten niedrig aufgelöste Dokumente in privatwirtschaftlichen, behördlichen und öffentlichen Archiven. Auch Faxe wurden damals mit einer Auflösung von 98 dpi abgelegt.
Problematisch können außerdem Dokumente sein, die mit der Kamera eines Smartphones oder Tablets erfasst wurden. In diesem Fall kommt es häufig vor, dass die Ergebnisse unscharf, verwackelt, perspektivisch verzerrt oder schlecht belichtet sind. Für den Empfänger ist es dann sehr anstrengend, die Inhalte zu lesen.

Die Liste der Beispiele ließe sich noch weiter fortsetzen. Klar wird jedoch bereits jetzt, dass digitalisierte Dokumente nicht immer den optimalen Lesekomfort bieten. Glücklicherweise steht mit „Super Resolution“ ein Bildbearbeitungsverfahren zur Verfügung, das diese Problematik behebt.

Superresolution: fehlende Bildbestandteile automatisch ergänzen

Superresolution ist ein Verfahren, mit dem die Qualität von Bildern (wie z. B. eingescannte Dokumente) automatisch analysiert und optimiert werden kann. Das Ziel ist es hierbei, eine höhere Auflösung (Größe und Bildschärfe) zu erreichen. Vereinfacht ausgedrückt besteht die grundlegende Aufgabe dieses Upscaling-Prozesses darin, fehlende Pixel zwischen vorhandenen Pixeln einzufügen. Dafür existieren mehrere Methoden:

  • Nearest-Neighbour-Methode: nächstgelegenes Originalpixel kopieren
  • Bilineare Interpolation: Position neuer Pixel auf Basis benachbarter Pixel berechnen
  • Bikubische Interpolation: Wert anhand einer nicht-linearen Funktion ermitteln

Leider haben all diese Methoden eine grundsätzliche Schwachstelle: Sie folgen vergleichsweise einfachen Regeln und sind nicht in der Lage, einem Bild neue Informationen hinzuzufügen. Ein Mensch ist ihnen hingegen deutlich überlegen. Er kann sich anhand des umgebenden Kontexts beispielsweise scharfe Linien oder geschlossene Schleifen von Buchstaben „hinzudenken“. Künstliche Intelligenz ist ebenfalls in der Lage, sich diese Fähigkeit anzueignen – geeignetes Training vorausgesetzt. 

Wie funktioniert KI-basierte Superresolution?

Superresolution, genauer gesagt Image Super Resolution, basiert auf einem Machine-Learning-Modell, das Bilder mit niedriger Auflösung eigenständig in hochauflösende Bilder verwandelt. Trainieren lassen sich solche Modelle, indem die Qualität eines zunächst hochauflösenden Bilds schrittweise verringert wird, bis sie beispielsweise nur noch der eines sehr schlechten Scans entspricht. Anschließend lernt der Algorithmus, diesen Prozess umzudrehen – also die Qualität Schritt für Schritt zu verbessern. Bei Texten muss dieser Trainingsvorgang selbstverständlich mit allen gängigen Schriftarten durchlaufen werden. Deutlich komplizierter (aber ebenfalls nicht unrealistisch) wird es, wenn auch Handschrift verarbeitet werden soll. 

CIB KI

Superresolution als wichtiger Baustein der reibungslosen Dokumentendigitalisierung

Ob altes Dokument aus dem Archiv, Scan mit zu kleiner Schrift oder verschwommenes Handy-Foto: Mit CIB superResolution kann die Lesbarkeit von Dokumenten in vielen komplizierten Szenarien signifikant verbessert werden. Für den Transformationsprozess hat das Verfahren somit eine wichtige Bewandtnis: Es sichert die Qualität und problemlose Konsumierbarkeit der digitalisierten Informationen. Im CIB doXiview Showcase können Sie am Beispieldokument die Funktionalität begutachten: Hier klicken

CIB hat das Potenzial derartiger Methoden bereits früh erkannt und forscht daher im Rahmen mehrerer Projekte daran, die Dokumentenqualität mithilfe verschiedener Ansätze automatisiert zu verbessern. „Document Deep Learning Super Resolution“ ist hierbei eine wichtige Komponente. Denn die Methode hilft dabei, suboptimale Scans durch intelligentes Vergrößern und Schärfen für den Menschen besser lesbar zu machen. Doch auch Ansätze wie Auto-Cropping und Auto-Rotation (Dokumentenseiten automatisch zuschneiden, rotieren und perspektivisch entzerren) sowie Fraud Detection (Erkennung gefälschter oder manipulierter Inhalte) werden durch das CIB KI-Team evaluiert. Das Ziel ist es, die Forschungsergebnisse schrittweise in die CIB Lösungen einfließen zu lassen, sodass künftig selbst in äußerst schwierigen Fällen eine optimale Dokumentenqualität realisiert werden kann. CIB superResolution wird hier ein wichtiger Baustein im Digitalisierungsprozess mithilfe von KI. 

Florian Deuring

Fachautor für Software und Digitalisierung