Hlavní obsah stránky

VYUŽITÍ NOVÝCH TECHNOLOGIÍ: Webarchiv jako paměť českého internetu

MARIE HAŠKOVCOVÁ Marie.Haskovcova@nkp.cz

MONIKA HOLOUBKOVÁ Monika.Holoubkova@nkp.cz

 

Prostředí internetu je ze své podstaty velmi proměnlivé. Webové stránky se neustále vyvíjejí, rychle vznikají a zanikají, jsou prchavým nositelem části našeho kulturního dědictví. Webarchiv se snaží postihnout obraz českého webu pro budoucí generace, pro výzkumníky a vědce, kteří budou reflektovat naši současnost. Soustředí se na shromažďování, výběr, uchování a také zpřístupnění digitálních zdrojů.

Webarchiv působí v prostředí českého internetu  již od roku 2000. Na počátku se jednalo o projekt Národní knihovny ČR (NK), Moravské zemské knihovny (MZK) a Ústavu výpočetní techniky Masarykovy univerzity s cílem vytvořit archiv národních webových stránek. Postupně projekt zaštítila NK a v současnosti tvoří oddělení archivace webu její plnohodnotnou součást v rámci Odboru digitálních fondů. První archivní kopie pocházejí z roku 2001. České webové zdroje jsou sice jen kapkou v oceánu světového internetu, přesto zabírají nemalé množství datového objemu – aktuálně více než 300 TB.

Možnosti archivace webových zdrojů

Článek Český webový archiv v novém kabátku (Čtenář, 2016, 68, č. 6, s. 203–207) čtenáře seznámil s činností Webarchivu i se způsoby akvizice webových zdrojů. V současné době se soustřeďuje vedle sklizně celoplošné a výběrové na budování tematických kolekcí, kterým se budeme tentokrát věnovat podrobněji. Správce české domény sdružení CZ.NIC nám pravidelně dodává seznam všech aktuálně registrovaných českých domén. K letošnímu roku jich je cca 1 300 000. Všechny tyto webové adresy archivujeme v rámci tzv. celoplošné sklizně jednou až dvakrát ročně, v závislosti na aktuálních kapacitách diskového úložiště. Kromě nejrůznějších tematických webů a blogů zahrnuje celoplošná sklizeň i reklamy, e-shopy, diskusní fóra apod. S ohledem na to, že velikost úložného prostoru neumožňuje uchovávat veškerý český web dostatečně, vytváří Webarchiv kromě celoplošného sběru i sklizně výběrové a tematické. Do výběrových sklizní se zařazují hodnotné bohemikální zdroje s cílem pravidelné a dlouhodobé archivace a třídí se do jednotlivých předmětových kategorií na základě metody Konspektu. A jak vypadají tematické kolekce?

Tematické kolekce

Vytvářejí se z několika hledisek. Prvním typem jsou sbírky, které se vztahují k aktuálním událostem. Jejich sklizeň je časově ohraničená. Může se jednat jak o události plánované (volby, významná výročí), tak nečekané (povodně). Vzhledem k tomu, že politika zásadně ovlivňuje dění ve společnosti, patří archivování volebních zdrojů k prioritám Webarchivu. Od roku 2006 se pravidelně věnuje sledování všech typů voleb v České republice, případně dalším událostem, jako byla například vládní krize v roce 2017. Kolekce obvykle zahrnují weby politických stran a hnutí, vládní weby, stránky politiků, ale také třeba ohlasy v médiích a v posledních letech se snažíme zachytit i dění na sociálních sítích. Webové zdroje se vybírají se snahou zachytit atmosféru voleb. Archivují se ve třech etapách: první sklizeň probíhá zhruba dva týdny před volbami, další v průběhu a poslední po jejich ukončení. Uživatelé tak mohou prostřednictvím archivních kopií zpětně porovnávat volební kampaně v minulých letech, postoje politiků i voličů.

Další typy sklizní se budují kontinuálně. Mohou se vytvářet například ke konkrétnímu tématu nebo oboru; specifickým druhem je tzv. institucionální sklizeň, kdy se průběžně doplňují weby vztahující se k činnosti určité instituce. Dlouhodobě takto Webarchiv vytváří kolekci elektronických zdrojů Univerzity Karlovy. Na základě smlouvy s univerzitou se archivují všechny webové zdroje, které jsou na subdoméně cuni.cz. Kolekce Periodické publikace zahrnuje weby elektronických novin, časopisů, magazínů, sborníků z konferencí a dalších tzv. pokračujících zdrojů. Na jejím vzniku Webarchiv spolupracuje s Českým národním střediskem ISSN. Pojítkem tedy není obsah, ale forma publikování informací. Kolekce nazvaná Creative Commons zase zahrnuje všechny zdroje, které jsou součástí výběrových sklizní a zároveň jsou vystaveny pod touto otevřenou licencí.

Od roku 2007 je Webarchiv členem mezinárodního sdružení International Internet Preservation Consortium (IIPC), které se mimo jiné snaží o podporu mezinárodní spolupráce a výměnu zkušeností v oblasti archivace webu. Ve spolupráci s IIPC se také podílí na vytváření mezinárodních tematických kolekcí (https://archive-it.org/explore?show=Collections – například sbírky věnované olympijským hrám nebo výročí 1. světové války, ke kolekcím plánovaným do budoucna patří třeba sbírka zdrojů zaměřená na klimatické změny).

Spolupráce s vědeckou komunitou

Webarchiv, digitální knihovna bohemikálních elektronických zdrojů, se snaží nejen data uchovávat, ale také je chce co nejvíce poskytovat svým stávajícím uživatelům. Patří k nim nejen jednotlivci, ale i instituce a badatelé – jejich potřebám se snaží co nejvíce vycházet vstříc. Navázal užší spolupráci například s Ústavem pro českou literaturu Akademie věd ČR (na základě požadavků kolegů z Bibliografické databáze ÚČL archivujeme periodika i konkrétní články) nebo s Národním archivem (pracujeme na tematické kolekci zahrnující weby tzv. veřejnoprávních původců, k nimž patří například ministerstva, ústřední správní úřady nebo vrcholné instituce justice). Podobně jako i zahraniční webové archivy se zabývá analyzováním dat a navrhováním řešení a nástrojů, jak s nimi mohou uživatelé efektivně pracovat.

Při hledání způsobů vytěžování dat hraje roli i autorský zákon. Obsah webových stránek (nejen texty a obrázky, ale také hudba, videa nebo třeba i webové aplikace) je výsledkem kreativního procesu lidské tvořivosti, a proto spadá pod ochranu autorského zákona. Česká legislativa nám umožňuje vytváření digitálního archivu, ale bez svolení vydavatele (uzavření smlouvy, vystavení stránek pod licencí Creative Commons) může být zpřístupněn veřejnosti jen z budovy NK. Uživatel se musí dostavit do Referenčního centra v budově Klementina. Vzhledem k tomu, že samotná data bez souhlasu vydavatelů tedy Webarchiv volně zveřejňovat nemůže, hledá cesty, jak je z archivu vytěžovat. Aktuálně pracujeme na projektu, který řeší, jak obsah jednoduše zpřístupňovat badatelům prostřednictvím metadat, která by jim mohla poskytovat relevantní informace pro další bádání.

Mrtvé weby

Prostředí internetu je velmi dynamické. Web, který si dnes prohlížíte, už zítra nemusí existovat. Obsah může zmizet nebo může doména změnit svého správce, a dramaticky tak změnit svůj obsah. Webarchiv se proto snaží šířit povědomí o své činnosti a názorně ji veřejnosti prezentovat mj. i prostřednictvím série facebookových příspěvků nazvané Mrtvé weby (naleznete je na našem facebookovém profilu http://cs-cz. facebook.com/webarchivcz/). Upozorňuje na zajímavé stránky, které na živém webu sice už neexistují, ale jejich archivní kopie si uživatelé mohou prohlédnout ve Webarchivu.

Závěrem

Jak bylo zmíněno, zpřístupnění archivu vědcům i veřejnosti limituje stávající legislativa. Například australští zákonodárci se rozhodli přizpůsobit zákonná opatření výzvám současné doby, a tak Australská národní knihovna nově může nejen shromažďovat a uchovávat všechny webové zdroje týkající se Austrálie a jejích obyvatel, ale také je i všechny veřejně zpřístupňovat. Věříme, že se do budoucna dočkáme legislativních změn i u nás a budeme moci obsah našeho archivu poskytnout odborné i široké veřejnosti v co největším rozsahu.

Obr.: Webarchiv