Die Fähigkeit, scheinbar unleserliche Texte zu entschlüsseln, ist eine wichtige Kompetenz für Historiker*innen, Archivar*innen und eigentlich alle, die sich mit diesen Quellen auseinandersetzen wollen oder müssen. Dieses Handwerk muss oft über Jahre hinweg erlernt werden. Im Zuge der fortschreitenden Digitalisierung wurde jedoch auch versucht, dieses Problem durch den Einsatz von Datensätzen und algorithmischen Systemen zu lösen.
Unter der Leitung der Universität Innsbruck wurde im Rahmen des Horizon 2020 EU-Projekts „READ“ die Plattform Transkribus entwickelt. Auf dieser Plattform wird mittels OCR („optical character recognition“, dt.: Texterkennung) und Algorithmen für maschinelles Lernen aus einem Quelltext ein digitaler Text generiert. Die Website selbst ist einfach zu bedienen. Das zu transkribierende Objekt kann als Fotografie (JPEG oder PNG) hochgeladen werden und wird dann innerhalb kurzer Zeit von dem Programm transkribiert.
Nach eigenen Angaben wurden bereits über 40 Millionen Textseiten über die Plattform erschlossen. Auf Anregung unseres Archivars und Geschäftsführers, Herrn Dr. Klaus Graf, haben auch wir die Plattform probeweise genutzt und sind zu einem gemischten Ergebnis gekommen.
Testobjekte waren drei Quelltexte aus unserem Bestand, die bereits von uns Mitarbeiter*innen oder durch Herrn Graf erschlossen wurden. Der erste Text, der von einer Postkarte stammt, wurde fast vollständig korrekt erfasst (40 von 47 Wörtern). Bei den aufgetretenen Fehlern handelt es sich zumeist um das falsche Erkennen einzelner Buchstaben. Nur einmal kam es zu einem Verrutschen in der zu lesenden Zeile, was zu drei falschen Worttranskriptionen führte.
Der zweite Text, ebenfalls ein Postkartentext mit inhaltlich vergleichbarem Schwierigkeitsgrad, wurde nur noch zu weniger als der Hälfte richtig erkannt. Einzelne Buchstaben wurden sowohl falsch erkannt als auch teilweise ganz ausgelassen.
Als drittes Testobjekt diente ein Schreiben an den Rektor. Transkribus erkannte dabei ca. 70 % der Worte korrekt. Ausgeklammert sind dabei jedoch die Fehler, die durch Worttrennungen entstanden sind. Außerdem traten Schwierigkeiten bei Wörtern auf, die nicht mit Tinte, sondern mit Bleistift geschrieben und daher heller als der Rest des Textes waren.
Zusammenfassend lässt sich sagen, dass Transkribus wie jede Plattform Vor- und Nachteile hat. Mit dem Programm können kostenlos und benutzerfreundlich Texte durch eine KI transkribiert werden, wodurch alte Texte einem breiteren Publikum zugänglich gemacht werden. Dabei ist zu beachten, dass die Ergebnisse nie vollständig korrekt sind; die Fehlerquote ist je nach Text sehr unterschiedlich. Eine Überprüfung und Korrektur der Ergebnisse durch eine paläographisch geschulte Person bleibt daher unerlässlich.