Die Erfassung und Aufbereitung der Texte erfolgt in den folgenden Schritten:
- Scannen der Texte mittels eines Dokumenten-Scanners mit Papiereinzug
- Umwandlung der gescannten Seiten in Text mit einem leistungsfähigen OCR-Programm (incl. Anpassung an Besonderheiten des Schriftsatzes und der unterschiedlichen Sprachen)
- Tokenisierung, Satzgrenzenerkennung (nach Epochen und Sprachen differenziert), Vertikalisierung des Textes
- Erkennung der Dokumentenstruktur und Annotation von Metainformationen mittels XML-Tags (nach den Empfehlungen der Text Encoding Initiative)
- Eigennamen-Erkennung und -Klassifikation
- Wortartenerkennung (Part-of-Speech Tagging)
- Speichern des annotierten Korpus in einer Datenbank
