ANALÝZA ČESKÉHO WEBOVÉHO ARCHIVU: PROVENIENCE, AUTENTICITA A TECHNICKÉ PARAMETRY. (Czech)
In: ProInflow, Jg. 11 (2019), Heft 1, S. 3-21
Online
academicJournal
Zugriff:
Purpose -- The article provides an overview of possible input criteria when archiving web pages through web archives and describes what impact their settings may have on the resulting archive data in the content, format, and technical plane. Setting the input parameters for web archiving directly determines the resulting form of archive content, and if research is done over these data, researchers need to know the source of the data. Without this knowledge, it is not possible for researchers to use archival data as representative source. Design/Methodology/Approach -- The basic method for article processing was data analysis of the index, i.e. the list of all digital objects of the Czech Web Archive (the Webarchiv) of the National Library of the Czech Republic, and the input variables in the creation of archival data. Specifically, their provenance, authenticity, or content was investigated. Furthermore, the technical side of the archiving concerns, for example, the setting of the harvesters. The analysis is based on experience and was performed with the actual harvested data. Results -- The article summarises the factors that influence the resulting form of archive data. First, there are factors that directly affect data collection, such as technical settings, resource Collection policy, and legislation. Second, there are factors concerning the handling of archive data, in particular rules for deleting and limiting access to content. The article also describes web archive index analysis that brought a quantified view of the archive and showed the numbers of digital objects, layout of file formats, domain composition, and archive development over time. Originality/Value -- The greatest benefit of the article is a comprehensive overview of the data stored in the Webarchiv, how they are created and what affects their creation. This is crucial for all potential researchers who are interested in working with Webarchiv data and who need to know the source of the data for their research. [ABSTRACT FROM AUTHOR]
Účel -- Článek poskytuje přehled možných vstupních kritérií při archivaci webových stránek webovými archivy a popisuje, jaký dopad může mít jejich nastavení na výsledná archivní data v rovině obsahové, formátové a technické. Nastavení vstupních parametrů při webové archivaci přímo determinuje výslednou podobu archivního obsahu a v případě realizování výzkumu nad těmito daty badatelé potřebují znát jejich provenienci. Bez těchto znalostí není pro badatele možné pracovat s archivními daty jako s reprezentativními. Design/metodologie/přístup -- Stěžejní metodou pro zpracování článku byla datová analýza indexu, tj. seznamu všech digitálních objektů českého webového archivu (Webarchivu) Národní knihovny ČR, a vstupních proměnných při tvorbě archivních dat. Konkrétně byla zkoumána jejich provenience, autenticita nebo obsah. V neposlední řadě pak i technická stránka věci, kterou je například nastavení sklízečů. Analýza vychází z praxe a proběhla nad reálně sklizenými daty. Výsledky -- V článku jsou shrnuty faktory, které ovlivňují výslednou podobu archivních dat. Zaprvé jsou to faktory, které mají dopad na sběr dat, což jsou technická nastavení, strategie výběru zdrojů, tzv. Collection policy, a legislativa. Zadruhé se jedná o nakládání s archivními daty, a to zejména o pravidla pro jejich mazání a omezování přístupu k obsahu. V článku je dále popsána analýza indexu webového archivu, která přinesla kvantifikovaný pohled na archiv a ukázala počty digitálních objektů, procentuální zastoupení souborových formátů, složení domén a vývoj archivu v čase. Originalita/hodnota -- Největším přínosem článku je ucelený náhled na data uložená ve Webarchivu, jakým způsobem vznikají a co jejich vznik ovlivňuje. Toto je stěžejní pro všechny potenciální badatele, kteří mají zájem pracovat s daty Webarchivu a kteří potřebují znát provenienci dat pro svůj výzkum. [ABSTRACT FROM AUTHOR]
Copyright of ProInflow is the property of Casopis ProInflow and its content may not be copied or emailed to multiple sites or posted to a listserv without the copyright holder's express written permission. However, users may print, download, or email articles for individual use. This abstract may be abridged. No warranty is given about the accuracy of the copy. Users should refer to the original published version of the material for the full abstract. (Copyright applies to all Abstracts.)
Titel: |
ANALÝZA ČESKÉHO WEBOVÉHO ARCHIVU: PROVENIENCE, AUTENTICITA A TECHNICKÉ PARAMETRY. (Czech)
|
---|---|
Autor/in / Beteiligte Person: | Kvasnica, Jaroslav ; Prokopová, Andrea ; Vozár, Zdenko ; Kvašová, Zuzana |
Link: | |
Zeitschrift: | ProInflow, Jg. 11 (2019), Heft 1, S. 3-21 |
Veröffentlichung: | 2019 |
Medientyp: | academicJournal |
ISSN: | 1804-2406 (print) |
DOI: | 10.5817/proin2019-1-2 |
Sonstiges: |
|