MÖISTUS SAI KUULOTEDU: 19. SAJANDI VALLAKOHTUPROTOKOLLIDE TEKSTIDEST DIGITAALSE RESSURSI LOOMINE. (Estonian)
In: Eesti Rakenduslingvistika Ühingu Aastaraamat, Jg. 15 (2019), S. 139-158
academicJournal
Zugriff:
This article describes an interdisciplinary attempt to create a digital resource from Estonian communal court minute books dating from 1866-1890, with the focus lying on using contemporary natural language processing tools for analyzing archaic language. The database contains nearly 420 000 tokens in XML-tagged files. The texts are linguistically diverse: the parallel use of old and new spelling systems, dialects, and the background of the parish clerk bring about a lot of language variation. There are also differences in the orthographic choices made during the manual insertion of the texts. For the purpose of linguistic analysis and tagging, automatic morphological analysis and named entity recognition was tested using EstNLTK libraries. A closer examination of the output suggested that it is necessary to use both text normalization and tool adaption for improving the quality of automatic analyses. This would result in tools, which would perform better at analyzing similar texts and which could, therefore, be applied in the automatic analysis crowd-sourced material. Making the communal court minute books accessible and searchable by supplying linguistic and topical information creates a rich digital resource which is subject of interest for many disciplines. [ABSTRACT FROM AUTHOR]
Ülevaade. Artikkel käsitleb digitaalse ressursi loomist aastatest 1866-1890 pärinevatest vallakohtuprotokollidest. Vallakohtuprotokol- lide tekstiandmebaas sisaldab ligi 420 000 sõna XML-märgendusega failides. Tekstid on keeleliselt mitmekesised, keelise kuju põhilised mõjutajad on uue us. vana kirjaviisi kasutamine, murdelisus ning vallavõi kohtukirjutaja hariduslik ning keeleline taust. Samuti mängivad suurt rolli protokollide sisestamisel tehtud ortograafilised valikud. Tekstide keelelise analüüsi ning märksõnastamise jaoks katsetati automaatset morfoloogilist analüüsi ning nimeüksuste tuvastamist EstNLTK vastavate moodulite abil, hinnati väljundi kvaliteeti ning kaardistati analüüsi parandamise põhilised viisid. Vallakohtute protokollide kättesaadavaks tegemine ja otsitavuse parandamine tekstide keelelise ja temaatilise märgendamise abil aitab luua rikkalikku digitaalset ressurssi, mille kasutajaskonna moodustavad väga erineva tausta ja huvidega inimesed. [ABSTRACT FROM AUTHOR]
Copyright of Eesti Rakenduslingvistika Ühingu Aastaraamat is the property of Eesti Rakenduslingvistika Uhing (ERU) / Estonian Association for Applied Linguistics and its content may not be copied or emailed to multiple sites or posted to a listserv without the copyright holder's express written permission. However, users may print, download, or email articles for individual use. This abstract may be abridged. No warranty is given about the accuracy of the copy. Users should refer to the original published version of the material for the full abstract. (Copyright applies to all Abstracts.)
Titel: |
MÖISTUS SAI KUULOTEDU: 19. SAJANDI VALLAKOHTUPROTOKOLLIDE TEKSTIDEST DIGITAALSE RESSURSI LOOMINE. (Estonian)
|
---|---|
Autor/in / Beteiligte Person: | Pilvik, Maarja-Liisa ; Muischnek, Kadri ; Jaanimäe, Gerth ; Lindström, Liina ; Lust, Kersti ; Orasmaa, Siim ; Türna, Tõnis |
Zeitschrift: | Eesti Rakenduslingvistika Ühingu Aastaraamat, Jg. 15 (2019), S. 139-158 |
Veröffentlichung: | 2019 |
Medientyp: | academicJournal |
ISSN: | 1736-2563 (print) |
DOI: | 10.5128/ERYa15.08 |
Sonstiges: |
|