Wie die optische Zeichenerkennung (OCR) Dokumente zugänglich macht

Ein Interview mit Interview mit Michael Hoffmann, Referatsleiter Prozesse und Qualitätsmanagement

Um alle unsere Dokumentenbestände digital durchsuchbar zu machen, ist eine vollständige Erfassung, also Indizierung, aller enthaltenen Daten notwendig: Geburtsorte, Namen, Dokumententyp, Entstehungsort… Ein Mammutprojekt. Dafür nutzen wir verschiedene Technologien, die dank KI immer besser werden. Eine Basistechnologie ist die Optical Character Recognition (OCR), also die optische Zeichenerkennung. Wie wir dabei vorgehen, erklärt Michael Hoffmann, Referatsleiter für Prozesse und Qualitätsmanagement im Interview.

Herr Hoffmann, warum ist die Online-Durchsuchbarkeit unserer Dokumente so wichtig?

Einfacher Zugang ist der Schlüssel zu einem guten Archiv. Sowohl Expert*innen als auch Common User, die nur einmal etwas suchen, müssen sich zurechtfinden. Und zwar ohne Vorwissen mitzubringen! Die Handhabung muss selbsterklärend und einfach sein, die Suchmöglichkeiten für einfache und komplexe Suchen ausgelegt. Besonders wichtig ist die Verlässlichkeit der Suche: Werden mir alle Personen mit dem gesuchten Namen angezeigt? Ist die Suche vollständig? Dazu müssen wir immer die Zielgruppe im Blick haben: Wie sucht sie, was braucht sie, was hilft? Das Archiv ist ausgerichtet auf Personensuche – wir waren früher ein reiner Suchdienst – aber heute natürlich auch für historische Forschung mit Fokus auf Sachthemen und für archivarische Suchthemen. Für all das ist eine vollständige Erfassung, also Indizierung, aller unserer Dokumente notwendig.

Wofür wird OCR bei den Arolsen Archives eingesetzt?

Die optische Zeichenerkennung wird dafür eingesetzt, Informationen, die unsere Dokumente enthalten, automatisiert auszulesen. Das heißt, ein gescanntes Dokument, das uns zunächst als Bild vorliegt, wird durchsuchbar gemacht, der Fachbegriff dafür ist Indizieren. Noch einfacher gesagt, aus einem Bild, werden Informationsbausteine, also Texte, die wiederum mittels einer Texteingaben, also Suchbegriffen, gefunden werden können. Diese Daten landen in einer Online-Datenbank. Mit OCR können wir also noch nicht erfasste Dokumente schnell indizieren. Wir statten sie mit Metadaten aus und machen sie damit über die Suche einfach auffindbar.

Waren vor drei Jahren Handschriften ein Problem oder Listen bis vor kurzem noch nicht automatisch auslesbar, ist das jetzt möglich.

Michael Hoffmann, Referatsleiter Prozesse und Qualitätsmanagement

Ist das so einfach, wie es klingt?

Nicht ganz: Typische Probleme, die bei der optischen Zeichenerkennung auftreten, sind etwa die Verwechslung ähnlicher Buchstaben: So wird ein kleingeschriebenes L zum großgeschriebenen i, rn wird zu m und hn zu lm. Auch das O und die 0 sind für diese Probleme prädestiniert. Je klüger, also besser trainiert, die OCR-Maschine ist, umso weniger Fehler gibt es.

Wie läuft das Verfahren praktisch ab?

Zunächst werden die grafischen Informationen binarisiert: Das heißt, die Kontraste hochgezogen und die Farben rausgenommen. Die grafische Information besteht dann nur noch aus schwarz und weiß – eben binär. Dies läuft ebenfalls automatisiert über ein Skript, wobei wir die Parameter von Dokumententyp zu Dokumententyp händisch anpassen. Erst im Anschluss geht es um die eigentliche Texterkennung. Das Ausgangsmaterial muss also entsprechend analysiert und vorbereitet werden. Ist es schief ausgerichtet, können Zeilen durcheinandergeraten. Daher müssen Dokumente sorgfältig vorbereitet werden: Störzeichen werden eliminiert, die Schrift wird gerade ausgerichtet.

Ist die Vorbereitung also auch manuell? Wie zeitaufwändig ist so ein Prozess?

Bei der großen Anzahl der zu bearbeitenden Dokumente ist eine rein manuelle Vorbereitung natürlich undenkbar. Die Analyse und Bewertung eines Dokumentenkonvolutes, also einer Sammlung von Dokumenten, entscheidet maßgeblich darüber, welche automatischen Bearbeitungen auf einen Dokumentenbestand angewendet werden. Wir haben mittlerweile Erfahrungswerte, wie ein Dokumentenbestand bestmöglich bearbeitet wird. Letztlich ist das Ziel, eine möglichst gute Ausgangsbasis für die Folgeprozesse herzustellen. Solche automatisierten Prozesse laufen oft über Nacht, um am nächsten Tag mit der Weiterbearbeitung fortzufahren.

Welche Herausforderungen gibt es?

Eine Besonderheit unserer Sammlungen ist, dass unterschiedliche Arten von Dokumenten zusammengefasst wurden. Ganz konkret sind das zum Beispiel verschiedene Typen von Karteikarten, Fragebögen oder Formularen zu KZ-Häftlingen. Wir nennen es einen Mischbestand. Deshalb brauchen wir, als weiteres automatisiertes Verfahren, das so genannte Clustering. Dabei werden die Formulararten automatisch in Gruppen sortiert. Dadurch lassen sich dann zum Beispiel bestimmte Dokumententypen herausfiltern. Das ist wichtig, weil wir bei der reinen Texterkennung vorab festlegen, wie das Programm das Ausgangsmaterial lesen muss, damit beim OCR später die Informationsbausteine korrekt erfasst werden. Clustering ist quasi eine OCR für Layout und Formulararten.

OCR im Einsatz

Links das Ausgangsdokument (eine Liste) und ein „OCR-Rohergebnis“ vor einer möglichen Nachbearbeitung. In der Ausschnittvergrößerung unten sieht man die Zeile innerhalb des Dokumentes und in dem Textblock oben das OCR-Ergebnis. Die Häftlingsnummer „91551“ wurde korrekt erkannt, obwohl Ausfransungen und Unschärfen im Textblock vorhanden sind. Der Nachname wurde fehlerhaft erkannt (D und e nicht sauber gedruckt, OCR kommt durcheinander).

Wird für die Arolsen Archives eine besondere Form des OCR genutzt?

Für eine erfolgreiche Texterkennung ist eine Vielzahl von unterschiedlichen Methoden in Kombination erforderlich. Diese Kombination – angepasst an die jeweilige Problemstellung des Bestands und Materials – könnte man als „die besondere Form“ für die Arolsen Archives bezeichnen. Dabei handelt es sich eher um eine Methodensammlung unterschiedlicher verfügbarer Bausteine. So haben wir unsere OCR-Maschine genau auf unsere Belange mittels Maschine Learning trainiert. Grundsätzlich sind für eine erfolgreiche Texterkennung verschiedene Schritte notwendig: Analyse des Materials, Formularerkennung (Clustering / Klassifizierung), Aufbereitung der Images, Zeichenerkennung, Datenprüfung, Fehlerkorrektur (automatisch oder manuell) und Überführung in die Datenbank. Die optische Zeichenerkennung ist also nur ein Baustein im gesamten Prozess.

Welche Vorteile bietet die optische Texterkennung im Vergleich zu einer manuellen Erfassung?

Im besten Fall ist die Indizierung schneller und kostengünstiger gegenüber einer manuellen Erfassung. Es gibt viele Anwendungsfälle, bei der eine Kombination von automatisierten und manuellen Prozessen die Best Practice darstellt: Etwa beim Clustering mit IT-Mitteln, das einen Mischbestand in unterschiedliche Formulararten zerlegt, welche anschließend mit der erfolgversprechendsten Methode weiterverarbeitet werden. Im Worst Case muss das Ergebnis aufwendig nachbearbeitet werden. Dadurch wird der komplette Prozess unwirtschaftlich im Vergleich zu einer manuellen Erfassung. Darum ist die vorangehende Analyse des Ausgangsmaterials genauso wichtig wie ein erster Testlauf: Dabei lassen wir einige Dokumente mit der ausgewählten Technik in digitale Dokumente umsetzen und überprüfen im Anschluss die Fehleranfälligkeit. Erst wenn ein erster Testlauf positiv ausfällt, nutzen wir die Technologien für größere Dokumentenmengen.

Zum Vergleich: Unsere Expert*innen vom Team Indizierung haben eine Fehlerquote von nur 1 Prozent, das KI-gestützte OCR-System fabriziert etwa 5 Prozent Fehler, wenn Dokumente gut aufbereitet wird. Diese Dokumente muss sich das Team Indizierung dann noch mal anschauen. Und dennoch, beschleunigt das System die Indizierung so, dass wir bei 99 Prozent der Dokumente entscheiden, dass wir sie zunächst vom OCR-System erfassen lassen. Kleinere Einheiten, die Fachwissen erfordern, werden weiterhin intern von unseren Fachleuten manuell indiziert.

Wo liegen die Grenzen der verwendeten Technologien?

Grenzen gibt es keine. OCR-Technologien werden laufen weiterentwickelt. Waren vor drei Jahren Handschriften ein Problem oder Listen bis vor kurzem noch nicht automatisch auslesbar, ist das jetzt möglich. Wir haben wir für Beides praktikable Lösungen gefunden. Zum einen haben wir unsere OCR-Maschine auf Handschriften trainiert, bzw. haben unser System auf Handwritten Text Recognition (HTR) erweitert. Zum anderen haben wir zusammen mit dem freiwilligen Software-Entwickler Thomas Werkmeister (ggf. Link zum Interview) eine Anwendung entwickelt, die uns hilft, Listen zu indizieren. Ein automatisierter Datenabgleich hilft uns bei Lücken oder Unleserlichkeit Daten aus anderen Dokumenten zu füllen (Link zu KI-Artikel). Auch ganz neue Ansätze, etwa durch die Möglichkeiten von Chatbots, werden auf einer Art optischer Zeichenerkennung also Prinzip-OCR basieren, derzeitige KI-Tools auf dem Markt, setzen jedenfalls darauf auf.

KI-Anwendungen unterschiedlicher Anbieter (ChatGPT, Gemini etc.) entwickeln sich derzeit in atemberaubender Geschwindigkeit und machen sich auf, in der selbstständigen Kombination von Tools die „klassischen“ Verfahren in ihrer Leistungsfähigkeit zu übertreffen. Der „Preis“ dafür ist die vergleichsweise schlechte Nachvollziehbarkeit, wie die KI zu den Ergebnissen gekommen ist – dies kann bei der Fehlersuche bei systematischen Fehlern schwierig werden. Auch hier sammeln wir Erfahrungswerte und prüfen, inwiefern dies für Massenerfassungen brauch- und umsetzbar ist.

Dossier Digitalisierung

Weitere Einblicke hinter die Kulissen unseres Online-Archivs