{"id":72,"date":"2014-03-12T23:38:08","date_gmt":"2014-03-12T23:38:08","guid":{"rendered":"http:\/\/textberg.ch\/site\/?page_id=72"},"modified":"2014-04-08T10:25:08","modified_gmt":"2014-04-08T10:25:08","slug":"technologie","status":"publish","type":"page","link":"https:\/\/textberg.ch\/site\/de\/projekt\/technologie\/","title":{"rendered":"Technologie"},"content":{"rendered":"<p>Die Erfassung und Aufbereitung der Texte erfolgt in den folgenden Schritten:<\/p>\n<ol>\n<li style=\"padding-bottom: 15px;\">Scannen der Texte mittels eines Dokumenten-Scanners mit Papiereinzug.<\/li>\n<li style=\"padding-bottom: 15px;\">Umwandlung der gescannten Seiten in Text mit einem leistungsf\u00e4higen OCR-Programm (<strong>O<\/strong>ptical <strong>C<\/strong>haracter <strong>R<\/strong>ecognition), inkl. Anpassung an Besonderheiten des Schriftsatzes und der unterschiedlichen Sprachen.<\/li>\n<li style=\"padding-bottom: 15px;\">Automatische Fehlerminimierung des OCR-Textes, z.B. durch Zusammenf\u00fchren der Ausgabe von zwei unterschiedlichen OCR-Systemen. Zus\u00e4tzliche Muster-basierte OCR-Korrekturen. Diese sind wichtig bei W\u00f6rtern, die die OCR-Systeme nicht kennen.<\/li>\n<li style=\"padding-bottom: 15px;\">Erkennung der Dokumentenstruktur und Annotation von Metainformationen mittels XML-Tags (nach den Empfehlungen der <a href=\"http:\/\/www.tei-c.org\" target=\"_blank\">Text Encoding Initiative<\/a>).<\/li>\n<li style=\"padding-bottom: 15px;\">Sprachidentifikation f\u00fcr jeden Satz (Deutsch, Franz\u00f6sisch, Italienisch, Englisch, R\u00e4toromanisch, Schweizerdeutsch).<\/li>\n<li style=\"padding-bottom: 15px;\">Tokenisierung, Satzgrenzenerkennung (nach Epochen und Sprachen differenziert), Vertikalisierung des Textes.<\/li>\n<li style=\"padding-bottom: 15px;\">Wortartenerkennung (Part-of-Speech Tagging) und Lemmatisierung.<\/li>\n<li style=\"padding-bottom: 15px;\">Alignierung von deutschen und franz\u00f6sischen Artikeln. Die \u00dcbersetzungsrichtung wird angegeben, soweit bekannt.<\/li>\n<li style=\"padding-bottom: 15px;\">Markierung von Bergnamen (als Stand-off Annotation in separaten Dateien).<\/li>\n<li style=\"padding-bottom: 15px;\">Speichern des annotierten Korpus verschiedenen Formaten: TEI-XML, CWB Open Corpus Workbench, PDF.<\/li>\n<li style=\"padding-bottom: 15px;\">Named-Entity Recognition (Namenserkennung von Bergen, St\u00e4dten, Eigennamen, etc.).<\/li>\n<li style=\"padding-bottom: 15px;\">Verbesserungen der Tokenisierung, der Wortartenerkennung, der Lemmatisierung und der Named-Entity Recognition.<\/li>\n<li style=\"padding-bottom: 15px;\">Hinzuf\u00fcgung der neuen Texte.<\/li>\n<\/ol>\n<p><a href=\"http:\/\/textberg.ch\/site\/wp-content\/uploads\/2014\/03\/DSC_1918_klein-e1394666833284.jpg\"><img loading=\"lazy\" decoding=\"async\" class=\" wp-image-47 alignnone\" alt=\"Drei B\u00e4nde der Jahrb\u00fccher des SAC.\" src=\"http:\/\/textberg.ch\/site\/wp-content\/uploads\/2014\/03\/DSC_1918_klein-e1394666833284.jpg\" width=\"191\" height=\"106\" \/><\/a>\u00a0 <a href=\"http:\/\/textberg.ch\/site\/wp-content\/uploads\/2014\/04\/cut-e1396951918583.jpg\"><img loading=\"lazy\" decoding=\"async\" class=\"alignnone  wp-image-545\" alt=\"cut\" src=\"http:\/\/textberg.ch\/site\/wp-content\/uploads\/2014\/04\/cut-e1396951918583.jpg\" width=\"120\" height=\"170\" \/><\/a>\u00a0\u00a0 <a href=\"http:\/\/textberg.ch\/site\/wp-content\/uploads\/2014\/04\/scan-e1396951997947.jpg\"><img loading=\"lazy\" decoding=\"async\" class=\"alignnone  wp-image-546\" alt=\"scan\" src=\"http:\/\/textberg.ch\/site\/wp-content\/uploads\/2014\/04\/scan-e1396951997947.jpg\" width=\"202\" height=\"134\" \/><\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Die Erfassung und Aufbereitung der Texte erfolgt in den folgenden Schritten: Scannen der Texte mittels eines Dokumenten-Scanners mit Papiereinzug. Umwandlung der gescannten Seiten in Text mit einem leistungsf\u00e4higen OCR-Programm (Optical Character Recognition), inkl. Anpassung an Besonderheiten des Schriftsatzes und der unterschiedlichen Sprachen. Automatische Fehlerminimierung des OCR-Textes, z.B. durch Zusammenf\u00fchren der Ausgabe von zwei unterschiedlichen OCR-Systemen. [&hellip;]<\/p>\n","protected":false},"author":2,"featured_media":0,"parent":28,"menu_order":0,"comment_status":"closed","ping_status":"closed","template":"","meta":{"footnotes":""},"class_list":["post-72","page","type-page","status-publish","hentry"],"_links":{"self":[{"href":"https:\/\/textberg.ch\/site\/wp-json\/wp\/v2\/pages\/72","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/textberg.ch\/site\/wp-json\/wp\/v2\/pages"}],"about":[{"href":"https:\/\/textberg.ch\/site\/wp-json\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"https:\/\/textberg.ch\/site\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/textberg.ch\/site\/wp-json\/wp\/v2\/comments?post=72"}],"version-history":[{"count":15,"href":"https:\/\/textberg.ch\/site\/wp-json\/wp\/v2\/pages\/72\/revisions"}],"predecessor-version":[{"id":550,"href":"https:\/\/textberg.ch\/site\/wp-json\/wp\/v2\/pages\/72\/revisions\/550"}],"up":[{"embeddable":true,"href":"https:\/\/textberg.ch\/site\/wp-json\/wp\/v2\/pages\/28"}],"wp:attachment":[{"href":"https:\/\/textberg.ch\/site\/wp-json\/wp\/v2\/media?parent=72"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}