Die Erfassung und Aufbereitung der Texte erfolgt in den folgenden Schritten:
- Scannen der Texte mittels eines Dokumenten-Scanners mit Papiereinzug.
- Umwandlung der gescannten Seiten in Text mit einem leistungsfähigen OCR-Programm (Optical Character Recognition), inkl. Anpassung an Besonderheiten des Schriftsatzes und der unterschiedlichen Sprachen.
- Automatische Fehlerminimierung des OCR-Textes, z.B. durch Zusammenführen der Ausgabe von zwei unterschiedlichen OCR-Systemen. Zusätzliche Muster-basierte OCR-Korrekturen. Diese sind wichtig bei Wörtern, die die OCR-Systeme nicht kennen.
- Erkennung der Dokumentenstruktur und Annotation von Metainformationen mittels XML-Tags (nach den Empfehlungen der Text Encoding Initiative).
- Sprachidentifikation für jeden Satz (Deutsch, Französisch, Italienisch, Englisch, Rätoromanisch, Schweizerdeutsch).
- Tokenisierung, Satzgrenzenerkennung (nach Epochen und Sprachen differenziert), Vertikalisierung des Textes.
- Wortartenerkennung (Part-of-Speech Tagging) und Lemmatisierung.
- Alignierung von deutschen und französischen Artikeln. Die Übersetzungsrichtung wird angegeben, soweit bekannt.
- Markierung von Bergnamen (als Stand-off Annotation in separaten Dateien).
- Speichern des annotierten Korpus verschiedenen Formaten: TEI-XML, CWB Open Corpus Workbench, PDF.
- Named-Entity Recognition (Namenserkennung von Bergen, Städten, Eigennamen, etc.).
- Verbesserungen der Tokenisierung, der Wortartenerkennung, der Lemmatisierung und der Named-Entity Recognition.
- Hinzufügung der neuen Texte.