Main content

TÉMA: Archivace webových stránek v českém prostředí aneb Jak funguje WebArchiv

LUKÁŠ GRUBER> Lukas.Gruber@nkp.cz > TOMÁŠ SÍBEK> LIBOR COUFAL

Archivace webu reaguje především na dva trendy současného vývoje internetu - neustále se zvyšující počet publikovaných dokumentů v této síti a jejich krátkou dobu životnosti. Nárůst registrovaných domén je globálním jevem. Český registrátor domén, sdružení CZ.NIC, uvádí počet českých registrovaných domén k lednu 2009 přes 500 000, zatímco před dvěma lety to bylo zhruba 300 000 [CZ.NIC,1997]. Průměrná doba životnosti webové stránky (tj. doby, kdy je webová stránka dostupná na svém původním URL) je dle Alexa Internet, renomované společnosti zabývající se výzkumem internetového prostředí, 75 dní [DAY, 2003]. Kombinace vzrůstajícího množství informací ruku v ruce s jejich „pomíjivostí“ tak přináší nebezpečí jejich trvalého a neodvratitelného zániku. Archivace webu je v tomto smyslu prevencí proti tomuto riziku.

V České republice se od roku 2000 archivací webu zabývá projekt WebArchiv, který je řešen ve spolupráci Národní knihovny České republiky, Moravské zemské knihovny a Ústavu výpočetní techniky Masarykovy univerzity s cílem vytvořit digitální archiv národních webových stránek.1 V průběhu projektu se postupně vyvinul stabilní pracovní tým řešící problematiku archivace webu jako komplexní úkol. Pracovníci se aktivně účastní spolupráce se zahraničními institucemi. V letech 2005-2006 se stal WebArchiv koordinátorem projektu Culture,2 od roku 2007 je členem mezinárodního sdružení IIPC (International Internet Preservation Consortium).3

Mezi základní úkoly projektu WebArchiv patří především vytváření archivních kopií webových stránek (tzv. sklízení) a zajišťování veřejného přístupu ke kolekcím archivovaných webů.

Sklízení webových stránek

Sklízení webových stránek je realizováno prostřednictvím specifického softwaru, tzv. sklízecího robota (crawler, harvester). V současné době je jedním z nejvíce rozšířených open-source program Heritrix, který je využíván i v projektu WebArchiv. Heritrix, vyvíjený v rámci IIPC pod vedením americké organizace Internet Archive, funguje na podobném principu jako roboti internetových vyhledávačů. Program má jako vstupní zdroj nadefinován seznam URL adres, které postupně prochází, stahuje a ukládá. Z HTML kódů uložených stránek získá odkazy na další webové adresy, jejichž obsah opět stáhne a uloží. Tento proces pokračuje cyklicky dál. Důležitým parametrem je tzv. úroveň zanoření, tj. jak daleko od vstupní URL adresy má Heritrix dosah. Toto nastavení významně ovlivňuje výsledný rozsah sklizně.

Heritrix lze rozšiřovat o doplňkové moduly, jako je např. DeDuplicator, který umožňuje nesklízet ty stránky, jejichž obsah se od poslední sklizně nezměnil. Hlavní nevýhodou Heritrixu je nutnost kvalifikovaného technického dohledu nad nastavením a průběhem sklizní. Toto omezení lze částečně řešit jeho propojením s některým z nástrojů pro kurátory, jako je Web Curator Tool (http://webcurator.sourceforge.net) nebo NetarchiveSuite (http://netarchive.dk/suite), o jehož užití se uvažuje i ve WebArchivu. Tyto nástroje mají přívětivější uživatelské rozhraní než Heritrix a umožňují mimo jiné také přednastavit parametry sklizní a spouštět Heritrix přímo z jejich rozhraní.

V archivech webu jsou stránky ukládány specifických způsobem. K tomu účelu se používají vytvořené datové formáty. Jedná se o formát ARC nebo jeho novější flexibilnější verzi s názvem WARC. Formáty strukturují soubory ukládané z webu a vytvářejí k nim příslušná popisná metadata. Jednou z předností nastupujícího WARCu je libovolná rozšiřitelnost o metadata zapsaná v XML schématu. V projektu WebArchiv jsou data ukládána ve formátu ARC, zvažuje se migrace do formátu WARC.

Z hlediska metodiky je možné provádět archivaci webu třemi způsoby: celoplošněvýběrově a tematicky. Ve WebArchivu jsou uplatňovány všechny tři postupy.

Cílem celoplošných sklizní je automatizovaná archivace co největší části webu s minimem lidské práce. Výběrovým kritériem, kromě technických omezení, je internetová doména .cz. Tento přístup ovšem neumožňuje zachycení relevantních zdrojů, které jsou uloženy na jiných doménách (např. .org.net.eu). Je proto vyvíjen nástroj pro automatické rozpoznávání národních webových stránek. Vzhledem k rozsahu dat, které celoplošné sklizně představují (viz tabulka č. 1), bývá jejich periodicita delší. Ve WebArchivu byly dosud realizovány jedenkrát ročně, do budoucna je v závislosti na kapacitních možnostech úložiště plánováno rozšíření na dvě celoplošné sklizně ročně.

 U výběrových sklizní se jedná, jak napovídá název, o pravidelné sklízení vybraných kvalitních webových stránek s cílem zachytit reprezentativní vzorek on-line produkce. Vzhledem k menšímu rozsahu než u celoplošných sklizní mohou probíhat v kratších intervalech. Zdroje jsou vybírány podle předem stanovených kritérií. Ve WebArchivu je dávána přednost dokumentům s originálním obsahem, který má dlouhodobou kulturní či vědeckou hodnotu. Preferovány jsou např. portály institucí, které na webu publikují výroční zprávy, statistiky, technické reporty nebo jiné originální dokumenty. Do značné míry je sledována linie tzv. šedé literatury. Také proto nejsou běžně zahrnuty webové archivy tištěných časopisů, které se do Národní knihovny ČR dostávají prostřednictvím povinného výtisku. Do výběrových sklizní WebArchivu je v současnosti zařazeno zhruba 800 zdrojů, které jsou sklízeny pravidelně v dvouměsíčních intervalech. Tyto zdroje jsou ošetřeny smlouvami s vydavateli a jsou volně přístupné (viz níže). Jejich záznamy jsou součástí katalogu Národní knihovny ČR a České národní bibliografie. Návrh na zařazení webu do výběrové sklizně je možné podat prostřednictvím elektronického formuláře (http://webarchiv.cz/formular-url).

Specifickým případem jsou tematické sklizně, které zachycují vybrané webové stránky či dokonce jen jednotlivé příspěvky vztahující se k významným celospolečenským událostem. Jejich cílem je dostatečně zachytit obraz dění, tak jak ho předkládají autoři na internetu. V rámci WebArchivu proběhly tematické sklizně např. k těmto událostem: Povodně (2002), Dalimilova kronika (2005), Volby (2006), Nová budova Národní knihovny (2007), Praha olympijská (2007), Nová budova Národní technické knihovny (2007), Prezidentské volby (2008).

Zpřístupňování webových stránek z archivu

Archivované webové stránky jsou zpřístupňovány on-line prostřednictvím internetu ve dvou režimech: veřejném a omezeném.

Veřejný režim umožňuje neomezený přístup k obsahu WebArchivu prostřednictvím internetu komukoliv nezávisle na místě a čase. Tento režim se vztahuje pouze na dokumenty sklizené v rámci výběrových sklizní, které jsou ošetřeny smlouvou s autory. Ostatní dokumenty (převážně z celoplošných sklizní), na které se nevztahují smlouvy, jsou přístupné pouze v omezeném režimu na vyhrazených PC stanicích v Referenčním centru Národní knihovny ČR. Slouží pouze pro studijní a badatelské účely za předpokladu dodržení zákazu vytváření elektronických kopií. Takto je možno získat přístup k celému obsahu WebArchivu.

Pro účely vyhledávání a přístupu k archivním kopiím webových stránek je v současné době používán software Wayback. Jedná se o řešení vyvinuté v roce 2001 na půdě organizace Internet Archive.

Webové rozhraní systému Wayback je veřejně přístupné na webových stránkách WebArchivu (http://www.webarchiv.cz/vyhledej/). Pro vyhledávání je nutno zadat URL adresu konkrétních webových stránek. Systém poté vrátí seznam všech archivních kopií těchto stránek včetně data a času jejich pořízení. Pokud jsou ošetřeny smlouvou s vydavatelem, a tudíž přístupné ve veřejném režimu, má uživatel možnost archivní kopie stránek otevřít a prohlížet běžným způsobem. Wayback bohužel zatím neumožňuje vyhledávání v plných textech přes klíčová slova, ale zavedení této funkce se plánuje do budoucna. Obrázek č. 1 ukazuje webové rozhraní systému Wayback s příkladem vyhledání stránek Národní knihovny ČR www.nkp.cz.

Legislativní překážky

Největší překážku pro on-line zpřístupňování archivovaných webových dokumentů představuje stav české autorskoprávní legislativy. Autorský zákon (zákon č. 121/2000 Sb., ve znění pozdějších předpisů) neuděluje knihovnám výjimku pro nakládání s autorskými díly, která by umožňovala on-line zpřístupnění archivovaných webových stránek. Z tohoto důvodu je nutno získávat od vydavatelů souhlas se zpřístupněním archivních kopií jejich stránek. V současné době je získáván dvěma způsoby. V první řadě jde o smlouvu uzavíranou podle Občanského zákoníku (zákon č. 40/1964 Sb., ve znění pozdějších předpisů). Tento postup však znamená značnou administrativní zátěž pro obě strany. Druhou možností je využití licence Creative Commons, kdy vydavatel pod touto licencí vystaví obsah svého webu. Aplikace licencí je snadná a tento úkon v souladu s novelou autorského zákona č. 216/2006 Sb., umožňuje on-line zpřístupňování kopií webu.

Ani jeden z těchto způsobů nepředstavuje ideální řešení pro budování volně přístupného archivu webu. Nutnost získávání souhlasu autorů bohužel znamená, že volně přístupná je pouze velmi malá část současného archivu. Všechny zdroje obsažené v archivu jsou přitom volně a bez omezení přístupné komukoliv na webu. Proto se nezdá logické, aby přístup z archivu byl omezen. Příslibem v tomto smyslu je v současné době na Ministerstvu kultury ČR předkládaný návrh zákona „o povinných síťových publikacích“, který upravuje „povinné výtisky“ národních webových dokumentů.4

Závěr

Archivace webu představuje soubor aktivit, jejichž cílem je ukládání webových stránek se záměrem jejich dlouhodobého uchování v prostoru zabezpečeného digitálního úložiště. Publikování na internetu je rozšířením (a v mnoha případech dnes již i náhradou) tištěné produkce, jejímž uchováním a ochranou se v rámci institutu povinného výtisku většinou zabývají národní knihovny. Nepřekvapuje proto, že projekty archivace webu často nacházejí záštitu na půdě depozitních knihoven.

Současné projekty narážejí zejména na překážky legislativního, ale také technického charakteru. Neustálý vývoj technologií pro tvorbu webových stránek (dynamické stránky, flash, java skript, multimédia) značně komplikuje možnosti sklízení webu a způsobuje, že některé typy stránek nelze sklidit v odpovídající kvalitě či vůbec. Hrozí tak nenávratný zánik cenné části národního kulturního dědictví.

Aby se tak nestalo, je zapotřebí snažit se držet krok s vývojem technologií, zdokonalovat současné a vyvíjet nové nástroje na sklízení webu. WebArchiv spolupracuje na novém evropském projektu LiWA (Living Web Archives, http://www.liwa-project.eu/), který se těmito problémy zabývá. Řešení otázek legislativních bariér se z tohoto pohledu zdá mnohem obtížnější a možnosti ovlivnění budoucí podoby příslušné legislativy daleko menší.

Podrobnější informace z této oblasti v celosvětovém i českém měřítku lze najít v publikaci s názvem Archivace webu [CELBOVÁ, 2008].

 

ODKAZY:

1 Národní webový dokument je pro potřeby českého archivu webu ten, který splňuje alespoň jedno z následujících kriterií: vydání na území České republiky, jeho autorem je osoba české národnosti, je napsán v českém jazyce nebo jeho obsah pojednává o českém prostředí.

2 Cílem projektu bylo v rámci skupiny zúčastněných institucí (Národní knihovna ČR, Estonská národní knihovna, Univerzitní knihovna v Bratislavě a Slovinská národní a univerzitní knihovna) na základě výměny zkušeností v oblasti digitálního uchování národního kulturního dědictví vytvořit společné doporučení kritérií výběru pro celoplošné a výběrové sklizně.

3 IIPC vzniklo v roce 2003 s cílem sdružit instituce zabývající se archivací webu a zajistit jejich vzájemnou mezinárodní kooperaci. Původně bylo tvořeno dvanácti členy, dnes jich čítá 39.

4 Návrh zákona stanovuje webové dokumenty jako povinné publikace, které má Národní knihovna právo sklízet a za určitých podmínek dále zpřístupňovat.

 

POUŽITÁ LITERATURA:

• CELBOVÁ, Ludmila [et al.]. Archivace webu. 1. vyd. Praha : Národní knihovna ČR, 2008. ISBN 978-80-7050-562-5.

• CZ.NIC [online]. 1997- [cit. 2009-02-03]. Dostupné z WWW: <http://www.nic.cz>.

• DAY, Michael. Collecting and preserving the World Wide Web [online]. [Bristol] : John Information Systéme Committee, February 25, 2003 [cit. 2009-02-03]. Dostupné z www: <http://www.jisc.ac.uk/uploaded_documents/archiving_feasibility.pdf>.