Technologie

Die Erfassung und Aufbereitung der Texte erfolgt in den folgenden Schritten:

  1. Scannen der Texte mittels eines Dokumenten-Scanners mit Papiereinzug
  2. Umwandlung der gescannten Seiten in Text mit einem leistungsfähigen OCR-Programm (incl. Anpassung an Besonderheiten des Schriftsatzes und der unterschiedlichen Sprachen)
  3. Tokenisierung, Satzgrenzenerkennung (nach Epochen und Sprachen differenziert), Vertikalisierung des Textes
  4. Erkennung der Dokumentenstruktur und Annotation von Metainformationen mittels XML-Tags (nach den Empfehlungen der Text Encoding Initiative)
  5. Eigennamen-Erkennung und -Klassifikation
  6. Wortartenerkennung (Part-of-Speech Tagging)
  7. Speichern des annotierten Korpus in einer Datenbank