Das Text+Berg-Korpus
Text+Berg_Release_147_v03, 26. August 2013
Die wichtigsten Unterschiede zwischen Release_147_v02 und Release_147_03:
- Tokenisierung
- Der Apostroph wird neu auch als Masseinheit (Zoll) erkannt und dann als eigenes Token interpretiert. Z.B. 3-5 ' Breite, 8 ' Länge.
- Die Tokenisierung von Zahlen wurde verbessert (z.B. 40 000 --> 40_000 als 1 Token und 50,000 als 1 Token).
- Beim OCR wird gelegentlich eine Null und der Buchstabe 'O' verwechselt. Das führte dazu, dass in vermeintlichen Zahlen ein Buchstabe stand (z.B. 40O, 70O1), womit diese für die Weiterverarbeitung (z.B. für den PoS-Tagger) nicht als Zahlen erkannt wurden. Das ist jetzt korrigiert. Dabei wurde auch die Tokenisierung der Masseinheit m (= Meter) verbessert (z.B. bisher: 350Om --> neu: 3500 m als 2 Token).
- Die Tokenisierung von Prozentzeichen und Gradzeichen wurde verbessert (z.B. 30% --> 30 % als 2 Token und 28° --> 28 ° als 2 Token).
- Bei der Konvertierung von PDF nach Text (bei den Bänden von 2001 bis 2009) hatten sich ungewollte Ligaturen eingeschlichen (z.B. 'fi' statt 'f+i', 'fl' statt 'f+l'). Das führte dazu, dass viele Wortformen für den PoS-Tagger und den Lemmatisierer unbekannt waren. Diese Ligaturen wurden nun durch die entsprechenden Buchstaben ersetzt. Nicht ersetzt wurden die (meist im Französischen auftretenden) Ligaturen œ, Œ, æ, Æ. Wir bewahren sie als gängige Schreibvarianten des Französischen.
- Klammerausdrücke gefolgt von Kommas werden nun besser tokenisiert.
- Lemmatisierung
- Bei der Lemmatisierung von französischen Nomen hatte sich ein systematischer Fehler eingeschlichen. Viele Nomen erhielten fälschlicherweise ein Verb-Lemma. Das ist jetzt korrigiert.
- Die Lemmatisierung von historischen deutschen Schreibvarianten wurde verbessert (z.B. Kenntniß --> Kenntnis)
- Die Lemmatisierung von Abkürzungen wurde verbessert (z.B. bzw. wird als Konjunktion KON getaggt und mit beziehungsweise lemmatisiert).
- Bei elliptischen deutschen Komposita (z.B. Eis- und Felskletterei) wird neu automatisch der fehlende Teil des Lemmas ergänzt. Z.B. werden im Beispiel die Lemmas Eis+kletterei und Fels#kletterei eingesetzt.
- Part of Speech Tagging
- Das PoS-Tagging von Abkürzungen (in DE, FR, IT, RM) wurde verbessert.
- Die Kombination 'zu'+Verb hatte häufig ein falsches PoS-Tag beim Verb. Das ist jetzt korrigiert.
- Erkennung von geographischen Namen
(Toponymen)
- Das Gazetteer zur Erkennung von Bergnamen wurde mit Hilfe von GeoNames deutlich erweitert, vor allem für Berge ausserhalb der Schweiz. Dadurch werden jetzt mehr Bergnamen erkannt, und es werden ihnen IDs aus GeoNames zugewiesen.
- Deutsche Bergnamen, die auch normale Substantive sein können (wie z.B. Dom, Hengst, Jungfrau, Mönch) werden jetzt automatisch unterschieden. Das geschieht im parallelen Teil des Korpus (seit 1957) durch Vergleich des deutschen und französischen Textes, im nicht-übersetzten Teil (1864 bis 1956) wird die Disambiguierung aufgrund von Artikeln und Adjektiven vorgenommen. Wenn ein Substantiv mit einem unbestimmten Artikel steht, kann es kein Bergname sein.
- Bergnamen, die in SwissTopo mit mehreren IDs vorkommen (wie z.B. Breithorn mit 6 IDs, Piz Nair mit 8 IDs, Schafberg mit 9 IDs) werden nun disambiguiert, wenn im Text unmittelbar hinter dem Bergnamen eine Höhenangabe steht. Der Algorithmus wählt die ID mit der geringsten Höhendifferenz zwischen Text und den SwissTopo-Angaben. Wenn die geringste Differenz grösser ist als 50m wird keine Disambiguierung vorgenommen.
- Das Gazetteer zur Erkennung von Gletschernamen wurde aufwändig erweitert, so dass jetzt deutlich mehr Gletschernamen (mit mehr Schreibvarianten) erkannt werden.
- Ein Gazetteer zur Erkennung von See-Namen wurde hinzugefügt, sodass jetzt erstmals auch Seen erkannt werden.
- Ein Gazetteer zur Erkennung von Täler-Namen wurde hinzugefügt, sodass jetzt erstmals auch Täler erkannt werden.
- Erkennung von Personennamen
- Die Erkennung von Personennamen in deutschen Texten wurde verbessert, die Vornamenlisten bereinigt, so dass jetzt Personennamen mit höherer Präzision erkannt werden.
- Die Genitivformen von Nachnamen werden nun als Varianten des jeweiligen Nachnamens erkannt (z.B. Schmidts --> Schmidt).
- Die Adelsprädikate von, de werden nur noch in eindeutigen Kontexten als Bestandteile eines Namens interpretiert.
- Bisher wurden Personennamen, die ganz in Grossbuchstaben auftraten (z.B. MAX OECHSLIN), nicht erkannt. Das ist jetzt korrigiert.
- Erkennung von Artikelgrenzen
- Die Verweise von übersetzten Artikeln (translation-of) gingen bisher teilweise ins Leere. Das ist jetzt korrigiert.
David Klaper, Martin Volk, Manuela Weibel, Daniel Wüest (Institut für Computerlinguistik, Universität Zürich)