Das Text+Berg-Korpus
Text+Berg_Release_151_v01, 11. April 2015
Die wichtigsten Unterschiede zwischen dem letzten Release_149_v01 und dem neuen Release_151_v01:
- Umfang
- Das Alpine Journal von 1969 bis 2008 des britischen Alpine Club (39 Bände in Englisch) ist neu im Release enthalten.
- Der Jahrgang 2014 der ALPEN (in DE, FR, IT) ist neu im Release enthalten.
- In den Bänden der 1980er Jahre fehlten einzelne Wörter, manchmal ganze Sätze. Eine genauere Untersuchung ergab, dass eckige Klammern im Text (z.B. die <Montblanc-Braut>) zu Problemen bei der Textrepräsentation und schliesslich zu fehlenden Wörtern führten. Diese Probleme sind nun weitgehend behoben.
- Format der IDs
- Die IDs für Artikel, Sätze und Wörter wurden dem XML-Standard angepasst und beginnen nun jeweils mit einem Kleinbuchstaben.
- Release-Zählung
- Die Release-Zählung wurde geändert. Die Zahl 151 entspricht der Anzahl Jahre, die das Release umfasst (hier also 1864 bis 2014 einschliesslich = 151 Jahre).
- Tokenisierung
- --- Keine grundlegenden Änderungen.
- Sprachidentifikation
- Die automatische Sprachidentifikation wird nur bei Sätzen angewendet, die länger als 40 Zeichen sind. Bisher wurde bei kürzeren Sätzen die Sprache des Artikels zugewiesen. Bei gemischt-sprachlichen Artikeln ist das problematisch. Neu wird bei kürzeren Sätzen die Sprache des vorherigen Satzes zugewiesen. Nur beim ersten Satz eines Artikels wird die Sprache des Artikels zugewiesen.
- Die Identifikation von einzelnen Rätoromanisch-Sätzen war nicht zuverlässig. Deshalb haben wir Rätoromanisch aus der Sprach-Identifikation entfernt. Es werden nur noch Sätze als Rätoromanisch markiert, wenn sie in rätoromanischen Texten auftreten.
- Die Erkennung von Schweizer-deutschen Sätzen (Mundart) wurde mit Hilfe eines Bootstrapping-Verfahrens verbessert. Es wurden zusätzliche Wörter zur Identifikation von Schweizer-deutschen Sätzen gesammelt.
- OCR-Fehler
- Grosse Verbesserung: Die Bände von 1864 bis 1899 wurden mit einem Crowd-sourcing-Verfahren manuell korrigiert. Sie enthalten jetzt nur noch sehr vereinzelte OCR-Fehler. Ein grosser Dank an alle Freiwilligen, die beim Crowd-Korrigieren geholfen haben.
- Part of Speech Tagging
und Lemmatisierung
- Das PoS-Tagging und die Lemmatisierung einiger französischer Wörter war fehlerhaft. Diese wurden dem Tagger-Lexikon hinzugefügt, so dass die Lemmatisierung im Französischen nun deutlich besser ist.
- Die PoS-Tags und die Lemmas französischer Adverben mit Präfix ci- oder là- (z.B. ci-après, ci-dessus, là-dessus, là-haut) sowie Demonstrativ-Pronomen mit Suffix -ci oder -là (z.B. celle-ci, celui-ci, celui-là, ceux-là) waren fehlerhaft. Dies ist nun korrigiert.
- Die PoS-Tags und die Lemmas französischer Ordinalzahlen, die aus Zahl + Buchstabe(n) bestehen (z.B. 1er, 3e, 16e, 100e), waren fehlerhaft. Dies ist nun korrigiert.
- Erkennung von Bildunterschriften
- Es werden nun deutlich mehr und genauer Bildunterschriften für die Bände der 1970er und 1980er erkannt.
- Erkennung von temporalen Ausdrücken
- Erkennung von geographischen Namen
(Toponymen)
- Wir haben weitere Bergnamen entfernt, die meist normale Nomen sind (z.B. Freiheit, Mittelgipfel, Traverse). Die Genauigkeit der Bergnamen-Erkennung ist dadurch höher.
- Erkennung von Personennamen
- Die Erkennung von Berufsbezeichnungen (auch nachgestellt) bei Personennamen wurde verbessert.
- Erkennung von Artikelgrenzen
- --- Keine grundlegenden Änderungen.
- Sprachübergreifende Alignierung
- Das aktuelle Release enthält Angaben zur Satz-Alignierung in je einer XML-Datei (s-align.xml) pro Jahr (seit Beginn der übersetzten Bände im Jahr 1957). Die Satz-Alignierung wurde mit dem System BLEU-Align (von Rico Sennrich) automatisch berechnet. Neu speichern wir in einem Attribut "lang", wenn die beiden alignierten Sätze nicht das erwartete Sprach-Tag haben. Das ist z.B. der Fall, wenn in einem deutschen Text ein französisches Zitat steht, das identisch auch im übersetzten französischen Text steht.
- Die Satz-Alignierungen der Sprachpaare Deutsch - Italienisch und Französisch - Italienisch (seit 2012) sind neu auch dabei.
- Die Satz-Alignierungen sind neu in einem TEI-konformen XML-Format gespeichert.
Martin Volk, Fabienne Leuenberger, Daniel Wüest (Institut für Computerlinguistik, Universität Zürich)