Technologie

Die Erfassung und Aufbereitung der Texte erfolgt in den folgenden Schritten:

  1. Scannen der Texte mittels eines Dokumenten-Scanners mit Papiereinzug.
  2. Umwandlung der gescannten Seiten in Text mit einem leistungsfähigen OCR-Programm (Optical Character Recognition), inkl. Anpassung an Besonderheiten des Schriftsatzes und der unterschiedlichen Sprachen.
  3. Automatische Fehlerminimierung des OCR-Textes, z.B. durch Zusammenführen der Ausgabe von zwei unterschiedlichen OCR-Systemen. Zusätzliche Muster-basierte OCR-Korrekturen. Diese sind wichtig bei Wörtern, die die OCR-Systeme nicht kennen.
  4. Erkennung der Dokumentenstruktur und Annotation von Metainformationen mittels XML-Tags (nach den Empfehlungen der Text Encoding Initiative).
  5. Sprachidentifikation für jeden Satz (Deutsch, Französisch, Italienisch, Englisch, Rätoromanisch, Schweizerdeutsch).
  6. Tokenisierung, Satzgrenzenerkennung (nach Epochen und Sprachen differenziert), Vertikalisierung des Textes.
  7. Wortartenerkennung (Part-of-Speech Tagging) und Lemmatisierung.
  8. Alignierung von deutschen und französischen Artikeln. Die Übersetzungsrichtung wird angegeben, soweit bekannt.
  9. Markierung von Bergnamen (als Stand-off Annotation in separaten Dateien).
  10. Speichern des annotierten Korpus verschiedenen Formaten: TEI-XML, CWB Open Corpus Workbench, PDF.
  11. Named-Entity Recognition (Namenserkennung von Bergen, Städten, Eigennamen, etc.).
  12. Verbesserungen der Tokenisierung, der Wortartenerkennung, der Lemmatisierung und der Named-Entity Recognition.
  13. Hinzufügung der neuen Texte.

Drei Bände der Jahrbücher des SAC.  cut   scan