Digitales Denkmal für NS-Opfer: KI hilft bei Rekonstruktion von Einzelschicksalen

Mit Listen trieben die Nationalsozialisten ihr Verfolgungssystem zur perversen Perfektion. Heute geben die akribisch genau geführten Dokumente wertvolle, zusätzliche Hinweise auf persönliche Schicksale. Mehr als eine Million davon lagern in den Arolsen Archives. Wer ist wo gelistet? Seit kurzem hilft Künstliche Intelligenz, aus den Listen Angaben zu NS-Opfern automatisiert herauszulesen, mit Informationen auf anderen Dokumenten zu verknüpfen und so Schritt für Schritt ganze Lebens- und Leidenswege nachzuzeichnen. Damit wächst das umfassende Online-Archiv, in dem schon heute weltweit recherchiert werden kann, noch weiter.

Martina Steiner-Güde öffnet an ihrem PC ein neues Dokument. Es ist der Scan einer Liste von Inhaftierten im niederländischen Durchgangslager Westerbork. Zirka 7.000 Westerbork-Listendokumente lagern in den Arolsen Archives. Etwa 50 Namen sind auf der ersten Seite zu sehen, dazu Geburtsdatum, Geburtstort. Die meisten Angaben sind per Schreibmaschine getippt, ein paar handschriftliche Notizen wurden ergänzt. Einzelne Flecken, Lochungen, Risse und Falten überdecken Buchstaben. Das vergilbte Papier verschluckt weitere Daten. Für die Arolsen Archives-Mitarbeiterin kein Problem. Die Lücken könnte sie mit einem Blick in die Datenbank und mit ihrem Vorwissen rasch ergänzen.

 

Martina Steiner-Güde an ihrem Rechner bei der Qualitätskontrolle einer maschinell indizierten KZ-Liste

 

Eine halbe Stunde für eine Seite: das war früher

Noch vor einem Jahr hätte sie nun angefangen, die Liste Name für Name, Ort für Ort, Datum für Datum zu entziffern und abzutippen. „Eine halbe Stunde braucht man je nach Datenmenge für eine Seite“, erzählt sie. Heute macht sie ein paar wenige Mausklicks und die Liste liegt als strukturierte, computerlesbare, also indizierte Datei vor. „Es ist wirklich ein Superfortschritt, eine enorme Zeitersparnis. Ich kann mich jetzt auf die Qualitätskontrolle konzentrieren. Den Rest macht das Programm“, sagt sie. Etwa ein Drittel der Zeit spart sie. Tendenz steigend.

 

Dank KI ist es nun möglich, mit wenigen Mausklicks wichtige Personenangaben von NS-Opfern von mehrseitigen Listen automatisiert auszulesen. 

 

Optische Zeichenerkennung reicht nicht aus

Das Programm ist ein KI-gesteuertes, so genanntes OCR-System. OCR steht dabei für Optical Character Recognition, also optische Zeichenerkennung. Dabei werden grafische Information in textliche Information umgewandelt. Und die braucht es, damit Nutzer*innen im Online-Archiv der Arolsen Archives immer mehr Informationen finden. „Native OCR-Systeme haben in der Regel eine Erkennungsgenauigkeit von rund 80 Prozent. Wir müssen aber über 99 Prozent haben, sonst ist das Ergebnis für uns unbrauchbar“, erklärt Michael Hoffmann, Referatsleiter für Datenintegration bei den Arolsen Archives. „Nur so können wir die ‚richtigen‘ Personalien einem Namen zuordnen; also zum Beispiel alle Informationen über Leonard Cohen, geb. 09.10 1903 in Lodz maschinell zusammen zu tragen und diese zu kombinieren.“

 

Das Ziel: ein „sprechendes“ Online-Archiv


2019 haben die Arolsen Archives begonnen, ihre Bestände online verfügbar zu machen. Mit modernster Technik für das Erfassen von Listen wächst die Online-Datenbank rasch und hebt sie auf ein neues Niveau. „Wir wollen nicht nur die Namen dokumentieren, sondern die Lebensgeschichte der Menschen herauslesen und dies für die Öffentlichkeit verfügbar machen. Mithilfe von KI kann uns das gelingen“, schildert Giora Zwilling, Leiter der Abteilung Digital Transformation & Archives. „Dafür müssen viele verschiedene Informationen aus verschiedenen Dokumenten miteinander verknüpft werden. Wer online recherchiert, wird dann nicht mehr eine Vielzahl von einzelnen Dokumenten angezeigt bekommen, sondern eine Art Dossier mit allen verfügbaren Informationen. Das wäre ein Quantensprung.“

» Mehr als eine Million Listen liegen uns vor. Wenn ich eines gelernt habe in meiner Zeit bei den Arolsen Archives, dann ist es Ehrfurcht vor großen Zahlen zu haben. «

Michael Hoffmann, Referatsleiter Datenintegration

 

Digitalisierung und Indizierung arbeiten Hand in Hand

In einem gemeinsamen Kraftakt sind das Referat Dataintegration und das Team Indizierung auf dem besten Weg dorthin. „Wir wollen die Informationen einer ganz bestimmten Person zuordnen können. Schon eine kleine Zahlenverwechslung im Geburtsdatum, etwa die Verwechslung von einer Null und einer Acht, verfälscht das Ergebnis. Die Dokumente sind 70, 80 Jahre alt, die meisten davon wurden schon in den 1990er Jahren gescannt. Das heißt, die Qualität ist eher mäßig, in diesem Fall wäre die Fehlerquote mit einem normalen OCR viel zu hoch“, erläutert Michael Hoffmann die bisherige Problematik näher. „Ein erneutes Scannen könnte zwar die Bild‑Qualität erhöhen, würde aber auch einen enormen personellen und technischen Aufwand bedeuten.“

 

KI schließt Datenlücken

Seit Mitte 2022 trainieren die 13 Kolleginnen und Kollegen vom Team Indizierung unter Leitung von Claudia Kuncendorfs deshalb eine KI, die die im OCR-Verfahren ausgelesenen Daten verbessert. „Mit Hilfe eines Matchingverfahrens werden die Daten auf Plausibilität geprüft und die Ergebnisse mit bereits vorhandenen Daten abgeglichen“, erklärt sie. Das heißt, die KI ergänzt fehlende Daten und füllt damit Informationslücken.

Vor allem das automatisierte Auslesen von Listen in Tabellenform war im normalen OCR-Verfahren nicht möglich. Auch Versuche, diese im Crowdsoucing-Projekt #everynamecounts von Freiwilligen auslesen zu lassen, scheiterten. „Sich eine halbe Stunde oder länger mit einem einzigen Dokument zu beschäftigen, ist für Freiwillige eine zu große Herausforderung, deshalb sind wir sehr froh, dass dennoch aus dem Projekt heraus, eine Lösung gefunden wurde“, schildert Michael Hoffmann.

 

System lernt täglich dazu

2021 war Softwareentwickler Thomas Werkmeister durch #everynamecounts auf die Arolsen Archives aufmerksam geworden – und hatte kurzerhand angeboten, eine KI-Lösung für das Auslesen von Tabellenstrukturen zu entwickeln, finanziert über eine Projektförderung des Bundes. Mittlerweile kann die KI noch mehr. Sie lernt täglich dazu. Auch alte Handschriften erkennt das System jetzt, denn der Softwareprogrammierer entwickelt die KI stetig weiter.

 

Entziffern alter Handschriften

Alte Handschriften sind selbst für Menschen oft kaum zu entziffern, die KI lernt vom Team Indizierung der Arolsen Archives, wie es geht.

Verknüpfung von Daten zu Lebensgeschichten

Gerade setzt Martina ein @-Zeichen vor eine Angabe, um der KI zu signalisieren, dass „Amschwitz“ zwar kein Erkennungsfehler, aber offensichtlich ein Tippfehler im Originaldokument ist und deshalb nicht ins Training einfließen soll. „Momentan gehen wir davon aus, dass sich in unseren Archiven Informationen zu 17,5 Millionen Einzelschicksale verbergen. In unseren Kernbeständen haben wir eine Million Listen mit jeweils 12 bis 15 Namen, dazu kommen 30 Millionen Einzeldokumente. Ziel ist es, mit KI die verschiedenen Dokumente einer Person mit Hilfe von ‚Person Matching‘ zuzuordnen“, sagt Michael Hoffmann. „2017 hatten wir 8 Millionen Personalien indiziert, bald schon könnten es 38 Millionen sein.“ Das Team wird mithilfe neuer Technologien langfristig die Datenfunde zu einer Person auch visuell miteinander verknüpfen. So genannte Knowledge Graphs können dann Verschleppungsrouten oder Fluchtwege nachzeichnen und so noch greifbarer machen, was NS-Verfolgte ertragen mussten.

Jetzt Spenden
Mehr erfahren