Technologie |

Die Erfassung und Aufbereitung der Texte erfolgt in den folgenden Schritten:

Scannen der Texte mittels eines Dokumenten-Scanners mit Papiereinzug.
Umwandlung der gescannten Seiten in Text mit einem leistungsfähigen OCR-Programm (Optical Character Recognition), inkl. Anpassung an Besonderheiten des Schriftsatzes und der unterschiedlichen Sprachen.
Automatische Fehlerminimierung des OCR-Textes, z.B. durch Zusammenführen der Ausgabe von zwei unterschiedlichen OCR-Systemen. Zusätzliche Muster-basierte OCR-Korrekturen. Diese sind wichtig bei Wörtern, die die OCR-Systeme nicht kennen.
Erkennung der Dokumentenstruktur und Annotation von Metainformationen mittels XML-Tags (nach den Empfehlungen der Text Encoding Initiative).
Sprachidentifikation für jeden Satz (Deutsch, Französisch, Italienisch, Englisch, Rätoromanisch, Schweizerdeutsch).
Tokenisierung, Satzgrenzenerkennung (nach Epochen und Sprachen differenziert), Vertikalisierung des Textes.
Wortartenerkennung (Part-of-Speech Tagging) und Lemmatisierung.
Alignierung von deutschen und französischen Artikeln. Die Übersetzungsrichtung wird angegeben, soweit bekannt.
Markierung von Bergnamen (als Stand-off Annotation in separaten Dateien).
Speichern des annotierten Korpus verschiedenen Formaten: TEI-XML, CWB Open Corpus Workbench, PDF.
Named-Entity Recognition (Namenserkennung von Bergen, Städten, Eigennamen, etc.).
Verbesserungen der Tokenisierung, der Wortartenerkennung, der Lemmatisierung und der Named-Entity Recognition.
Hinzufügung der neuen Texte.