Das Text+Berg-Korpus: CQP/CQPweb-Anmerkungen

Release_151_v01, 11. April 2015

Übersicht

Ausführliche Informationen zum Korpus finden sich in der entsprechenden README-Datei. Hier werden nur spezifische Aspekte für die Version in der Open Corpus Workbench (CWB) und CQPweb besprochen.

Abfragemöglichkeiten

Siehe zu grundsätzlichen Abfragemöglichkeiten in der CWB:

Folgende Abfragemöglichkeiten stehen in der CWB-Version des Text+Berg-Korpus zur Vergügung (Auswahl):

Positionale Attribute

Strukturale Attribute

Zusätzlich können jeweils Attribute dazu abgefragt werden (siehe unten).

Limitationen und Probleme CWB-Version

Durch die Überführung der XML-Version in eine inline-xml (vrt)-Version kommt es zu folgenden Problemen:

Index-Informationen von cwb-encode

##
## p-attributes (token annotations)
##

ATTRIBUTE word
ATTRIBUTE pos
ATTRIBUTE lemma


##
## s-attributes (structural markup)
##

# <corpus> ... </corpus>
STRUCTURE corpus

# <text id=".." bookId=".." articleId=".." title=".." author=".." authorID=".." lang=".." month=".." year=".." category=".." translation-of=".."> ... </text>
# (no recursive embedding allowed)
STRUCTURE text
STRUCTURE text_id              # [annotations]
STRUCTURE text_bookId          # [annotations]
STRUCTURE text_articleId       # [annotations]
STRUCTURE text_title           # [annotations]
STRUCTURE text_author          # [annotations]
STRUCTURE text_authorID        # [annotations]
STRUCTURE text_lang            # [annotations]
STRUCTURE text_month           # [annotations]
STRUCTURE text_year            # [annotations]
STRUCTURE text_decade          # [annotations]
STRUCTURE text_category        # [annotations]
STRUCTURE text_translation-of  # [annotations]

# <div> ... </div>
STRUCTURE div

# <s n=".." lang=".."> ... </s>
# (no recursive embedding allowed)
STRUCTURE s
STRUCTURE s_n                  # [annotations]
STRUCTURE s_lang               # [annotations]

# <pb n=".." facs=".."> ... </pb>
# (no recursive embedding allowed)
STRUCTURE pb
STRUCTURE pb_n                 # [annotations]
STRUCTURE pb_facs              # [annotations]

# <caption img-pos=".."> ... </caption>
# (no recursive embedding allowed)
STRUCTURE caption
STRUCTURE caption_img-pos      # [annotations]

# <graphic url=".."> ... </graphic>
# (no recursive embedding allowed)
STRUCTURE graphic
STRUCTURE graphic_url          # [annotations]

# <footnote> ... </footnote>
STRUCTURE footnote

# <person id=".." address=".." titles=".." firstname=".." lastname=".." gender=".." profession=".."> ... </person>
# (no recursive embedding allowed)
STRUCTURE person
STRUCTURE person_id            # [annotations]
STRUCTURE person_address       # [annotations]
STRUCTURE person_titles        # [annotations]
STRUCTURE person_firstname     # [annotations]
STRUCTURE person_lastname      # [annotations]
STRUCTURE person_gender        # [annotations]
STRUCTURE person_profession    # [annotations]

# <time id=".." value=".."> ... </time>
# (no recursive embedding allowed)
STRUCTURE time
STRUCTURE time_id              # [annotations]
STRUCTURE time_value           # [annotations]

# <city id=".." stid=".." level=".."> ... </city>
# (no recursive embedding allowed)
STRUCTURE city
STRUCTURE city_id              # [annotations]
STRUCTURE city_stid            # [annotations]
STRUCTURE city_level           # [annotations]

# <glacier id=".." stid=".." level=".."> ... </glacier>
# (no recursive embedding allowed)
STRUCTURE glacier
STRUCTURE glacier_id           # [annotations]
STRUCTURE glacier_stid         # [annotations]
STRUCTURE glacier_level        # [annotations]

# <lake id=".." stid=".." level=".."> ... </lake>
# (no recursive embedding allowed)
STRUCTURE lake
STRUCTURE lake_id              # [annotations]
STRUCTURE lake_stid            # [annotations]
STRUCTURE lake_level           # [annotations]

# <mountain_cabin id=".." stid=".." level=".."> ... </mountain_cabin>
# (no recursive embedding allowed)
STRUCTURE mountain_cabin
STRUCTURE mountain_cabin_id    # [annotations]
STRUCTURE mountain_cabin_stid  # [annotations]
STRUCTURE mountain_cabin_level # [annotations]

# <mountain id=".." stid=".." level=".."> ... </mountain>
# (no recursive embedding allowed)
STRUCTURE mountain
STRUCTURE mountain_id          # [annotations]
STRUCTURE mountain_stid        # [annotations]
STRUCTURE mountain_level       # [annotations]

# <valley id=".." stid=".." level=".."> ... </valley>
# (no recursive embedding allowed)
STRUCTURE valley
STRUCTURE valley_id            # [annotations]
STRUCTURE valley_stid          # [annotations]
STRUCTURE valley_level         # [annotations]