Hlavní obsah stránky

TÉMA: Pod pokličkou Národní digitální knihovny

LUDĚK TICHÝ Ludek.Tichy@nkp.cz

Česká republika se realizací projektu vybudování Národní digitální knihovny (NDK) zařadila mezi světovou špičku v oblasti digitalizace národního kulturního dědictví a konkrétně v digitalizaci monografií a periodik. Národní knihovna ČR ve spolupráci s Moravskou zemskou knihovnou sestavila projekt, jehož cílem bylo vybudovat automatizovanou digitalizační linku včetně dlouhodobého důvěryhodného úložiště pro digitální formu národního dědictví, konkrétně tedy pro monografie a periodika. Tohoto cíle bylo dosaženo a to včetně digitalizace přibližně 100 000 svazků, což činí asi 26 000 000 stran. Realizace projektu trvala tři roky a vyžádala si investici 300 milionů korun. Projekt byl kofinancován z programu IOP z evropských fondů, což činilo 85 % nákladů, a zbylých 15 % zajistilo ze svého rozpočtu Ministerstvo kultury ČR.

Na začátku digitalizačního procesu je vždy kniha, časopis či obdobná tiskovina a na konci je digitální soubor, tzv. master copy – mateřská kopie, která se ukládá do LTP (úložiště Long-term Preservation s garancí neměnnosti po následující desetiletí). Celý proces digitalizace je zajištěn linkou, která má charakter průmyslové automatizované linky. NDK je sice plně automatizována a využívá nejmodernějších dostupných IT technologií, ale i tak je zde stále vysoký podíl manuální práce a celkově připomíná manufakturu ze začátku minulého století. Vybudované digitalizační pracoviště obsahuje čtyři základní části. Jsou to: digitalizační pracoviště, transformace, editace a LTP. Na těchto pracovištích dohromady pracuje asi 50 pracovníků. Další rozdělení spočívá v geografické rovině, a to na dvě navzájem redundantní (zdvojená z důvodu bezpečnosti) pracoviště – v Praze (NK ČR) a v Brně (MZK).

Vedlejším produktem projektu je tzv. zpřístupnění. Není to nic jiného než aplikace, která umožní veřejnosti nahlédnout do digitálního depozitáře Národní knihovny a Moravské zemské knihovny. Uživatel tak nemusí vždy knihovnu navštívit, a pokud tak naopak učiní, knihovna nemusí knihu složitě vyjmout z depozitáře a chystat k nahlédnutí, ale dá k dispozici její digitální podobu. Nejvýznamnějším přínosem je skutečnost, že knihy a ostatní tiskoviny jsou méně opotřebovávány a nejsou vystaveny riziku poškození či zničení. Aplikace pro zpřístupnění Kramerius je vyvíjena jako open source kolektivem knihoven pod vedením Knihovny Akademie věd a je dostupná na internetové adrese www.ndk.cz v záložce „zpřístupnění“.

Vlastní proces digitalizace začíná v depozitáři, kde pracovníci správy depozitáře vyberou podle předem stanoveného klíče či na konkrétní objednávku tzv. kolekce, což je tematické uskupení monografií či periodik, a takto připravená zásilka se přesune do oddělení přípravy, kde započíná kontakt s vlastní digitalizací. Každé dílo se nejprve zkontroluje, zda je katalogizováno a má záznam v knihovním katalogu. Pokud ne, odkládá se ke katalogizaci, a pokud ano – což je drtivá většina –, zkontroluje se v registru digitalizace, zda jej již nějaká knihovna nedigitalizovala. V případě, že dílo již bylo digitalizováno, odkládá se k návratu, aby se zabránilo duplicitní digitalizaci. Toto je možno provést prostřednictvím čárového kódu, kterým je každá kniha opatřená, a v něm obsaženým jednoznačným ID propojena do elektronického katalogu. Pak přichází fyzická kontrola artefaktu (novin, časopisu, knihy…), zda je ve stavu schopném projít digitalizací v robotickém knižním skeneru. Kontroluje se pevnost vazby, úplnost stránek, kvalita papíru apod. a nakonec se provede ruční čištění, což představuje vysátí, odprašnění a očištění od ostatních nečistot. Takto připravená kniha je předána do oddělení digitalizace, kde je provedeno načtení robotickým knižním skenerem.

Na lince je nasazeno několik typů knižních skenerů. Nejvýznamnější je rozdělení na klínový a plošný skener. Na klínovém skeneru je kniha pouze částečně rozevřena tak, aby spouštěný optický klín mohl obsáhnout celou plochu dvojstránky a vyfotit ji. Když skener dosáhne až k vazbě, úzkou mezerou v hrotu klínu vytvoří podtlak a pomalu se vysouvá vzhůru, přičemž „slepuje“ dvoustranu. V okamžiku, kdy je na konci, se mírným fouknutím z postranní trysky dvoustrana otočí a tak pořád dál. Plošné skenery mohou skenovat pouze díla, která vydrží úplné rozevření knihy na stolní podložce. Stránky jsou otáčeny automatickou lištou a dvojstránku fotografuje šest kamer. Skener je kalibrován tak, aby vznikl jeden kompaktní a vysoce kvalitní obraz. Ze skenerů vycházejí obrazy stránek ve formátu TIFF v kvalitě 300 dpi. Takto tedy pracuje první část linky. Vzniklý soubor obrazových digitálních kopií je kompletován se záznamy v katalogu a vznikají automatická metadata. Každá stránka je podrobena načtení tzv. OCR (optické rozpoznávání znaků), které provede konverzi z obrázku na text, jenž je indexován za účelem možnosti vyhledávání. Záznam z OCR se stává součástí balíčku metadat, který je připojen k základním obrazům.

Následuje proces editace a ořezu, při kterém je právě podíl lidské práce velmi vysoký a v současné době není možné jej nahradit automatizovanými úkony. Operátor pracoviště editace a ořezu zdigitalizovanou knihu, která je mu ke zpracovaní přiřazena automatizovaným pořadníkem, otevře a stránku po stránce kontroluje kvalitu skenu, čitelnost a metadata. U vlastního skenu je důležitá kvalita digitálního obrazu, úroveň čitelnosti a autenticita barev obrázků. Zde se napravují zjevné vady způsobené systémovými chybami, jako je otočení stránky, nečitelnost apod. Pokud je chyba tak rozsáhlá, že obraz není možno opravit, vrací se dílo k tzv. doskenování nebo reskenu. Pokud je toto nutné provést, je potřeba vrátit se do fáze přípravy, což není vždy úplně jednoduché, protože některá díla je třeba znovu vyjmout z depozitáře. To je časově náročné a pracné, a proto je návrat k novému skenování problematický.

Jakmile je digitální obraz včetně metadat kompletní, přechází do procesu transformace, kde je převeden na formát JPEG 2000, kompletován jako balíček v bezeztrátové komprimaci do ZIP souboru a odeslán k uložení v LTP. Uložit digitální dílo není problém, problematické je zajistit jeho čitelnost za více než 10 let; kvůli překotnému vývoji je velmi složité zvolit tu správnou technologii a správný proces. Takto jsou ukládány tzv. mateřské kopie. Z nich jsou v měřítku 1 : 8 komprimovány a vytvářeny tzv. user copy, které se importují společně s metadaty do aplikace Kramerius.

Díky NDK získáváme obraz národního kulturního dědictví pro další generace. Je třeba se nadále zabývat otázkou, jakou technologii ukládání zvolit, abychom měli jistotu, že budou výsledky digitalizace čitelné i za několik desítek let. V oblasti zpřístupnění nás tedy čeká řešení otázky volby vhodné technologie pro zpřístupnění velkého objemu obrazového materiálu v digitální podobě. Předpokládáme, že v blízké budoucnosti se stane součástí Krameria možnost přístupu nejen k digitalizovaným publikacím, ale i k web archivu, který NK ČR prostřednictvím NDK harvestuje a ukládá.