Hlavní obsah stránky

TÉMA: Institucionální digitální repozitář NTK

MICHAELA CHARVÁTOVÁ repozitar@techlib.cz

Rozvoj institucionálních repozitářů souvisí s rozmachem hnutí za otevřený přístup (open access) po roce 2000. Příspěvek se zabývá terminologií pojmu „digitální repozitář“, typologií dokumentů, které tvoří náplň repozitáře NTK, zpřístupňováním, ukládáním, vyhledáváním i zobrazením záznamů.

Open access (zkráceně OA) prosazuje online přístup k odborným informacím, především k plným textům recenzovaných vědeckých článků, ale i k textům preprintů, konferenčních sborníků atd. bez poplatků a komukoli. Jeho hlavním cílem je dosáhnout větší („neomezené“) možnosti šíření a zpřístupňování vědeckých poznatků pro odbornou, ale i laickou veřejnost v souladu s možnostmi, které poskytuje aktuální stav informačních technologií [3].

Způsoby realizace otevřeného přístupu se podle použitých prostředků dělí na tzv. zlatou a zelenou cestu. Zatímco zlatá cesta je založena na publikování v open access (popřípadě hybridních) časopisech, zelená cesta využívá k dosažení bezplatného přístupu k obsahu digitální repozitáře.

Terminologie

Digitální repozitář lze definovat poměrně široce jako organizaci, která může být součástí jiné organizace, lidí a systémů, se závazkem ochraňovat a zpřístupňovat digitální data pro určitou skupinu uživatelů [1; překlad z Rosenthal a Blekinge-Rasmussen, 2009, s. 5], nicméně běžně přijatý rozsah vyjadřuje definice z TDKIV, popisující digitální repozitář jako informační systém určený k digitální archivaci, tj. zajišťující uložení, ochranu, integritu, autenticitu a zpřístupnění digitálních dokumentů v dlouhodobém horizontu [2].

Samotný termín „digitální repoziář” je poměrně problematický. Zatímco v klasickém modelu digitální knihovny, který představili Kahn a Wilensky, je termínem repozitář označována pouze jedna komponenta celé digitální knihovny sloužící k ukládání dat, v kontextu otevřeného přístupu je digitálním repozitářem myšlen informační systém jako celek.

Graf 1: Počet digitálních repozitářů

Jak již bylo uvedeno na začátku, pro vznik digitálních repozitářů bylo významné období po roce 2000, kdy se začalo výrazněji prosazovat hnutí za otevřený přístup. V letech 2002 a 2003 vznikly základní dokumenty, označované společně podle míst jejich vzniku (Berlín, Bethesda, Budapešť) jako BBB definice [9], dramaticky rostl počet open access časopisů (mezi lety 2000 a 2009 až o 500 %) a vznikaly i nové a nové digitální repozitáře [4]. Růst počtu digitálních repozitářů ilustruje Graf 1 zobrazující jak počty repozitářů vzniklých (nebo zaregistrovaných do systému) v jednotlivých letech, tak celkový počet digitálních repozitářů. Graf vychází z dat z registru digitálních repozitářů ROAR, ve kterém je momentálně zaregistrováno 4276 repozitářů.

Institucionální digitální repozitáře jsou typem digitálních repozitářů, které jsou zaměřené na shromážďování, ukládání a zpřístupňování dokumentů vzniklých v rámci (zpravidla zřizující) instituce. Jedná se o nejčastěji zřizovaný a provozovaný typ repozitáře, a to u nás i v zahraničí. Registr ROAR obsahuje 2896 záznamů institucionálních repozitářů (67,7 % z celkového počtu repozitářů v registru), přičemž ze třinácti českých repozitářů jich je devět institucionálních.

Druhý největší registr digitálních repozitářů OpenDOAR, obsahující přes 3100 záznamů repozitářů, řadí mezi institucionální repozitáře 2693 z nich, tedy dokonce téměř 85 %, nicméně v tomto systému je kategorie institucionálních repozitářů pojata tak široce, že do ní spadá například i NUŠL (Národní úložiště šedé literatury).

Vzhledem k vazbě na otevřený přístup se institucionální repozitáře zpravidla zakládají v institucích zaměřených na vědu, výzkum a vzdělávání. Nejčastěji se jedná o vysoké školy nebo výzkumné ústavy (například v rámci Akademie věd ČR). Z pohledu typu zřizující instituce bylo tedy založení Institucionálního digitálního repozitáře v Národní technické knihovně unikátní, jelikož běžně platí, že pokud knihovny ukládají dokumenty do institucionálních repozitářů, jedná se většinou o repozitáře jejich zřizující instituce (Akademie věd ČR, univerzity apod.), a ne o repozitář zcela vlastní.

Institucionální digitální repozitář NTK

Institucionální digitální repozitář (dále jen IDR) vznikl na půdě Národní technické knihovny v roce 2010. Cíle repozitáře dobře vyjadřuje i jeho oficiální podnázev: „studijní knihovna pro výzkum vývoje NTK”. Kromě tohoto úkolu, tedy být „pamětí paměťové instituce”, má IDR sloužit jako nástroj komunikace dokumentů a celkově jako digitální výkladní skříň knihovny [8].

IDR a NÁRODNÍ ÚLOŽIŠTĚ ŠEDÉ LITERATURY (NUŠL)

Vznik IDR úzce souvisí s projektem Digitální knihovna pro šedou literaturu – funkční model a pilotní realizace, který se v NTK řešil v letech 2008–2011 [5], jehož výstupem byl systém NUŠL. NTK tradičně shromažďovala tzv. šedou literaturu a již od devadesátých let zajišťovala předávání záznamů šedé literatury vysokých škol do mezinárodního systému SIGLE [6]. Po ukončení provozu tohoto systému byly zahájeny práce na evidenci šedé literatury na národní úrovni – toho úkolu se ujala na základě svých zkušeností právě NTK. Už během prací na systému NUŠL se předpokládalo, že se do něj budou vkládat i dokumenty z NTK.

NUŠL umožňuje dva hlavní způsoby zapojení do systému, a to dodávání dat z vlastního repozitáře instituce třeba pomocí OAI-PMH, nebo vytváření záznamů přímo v systému. V případě NTK se přistoupilo k variantě vytvoření vlastního repozitáře s tím, že z projektu NUŠL bylo pro IDR převzato softwarové řešení, a oba systémy tak využívají open source software Invenio (dříve CDS Invenio)1. Jedná se ovšem o dvě samostatné instalace tohoto systému.

Vytvoření vlastního repozitáře má řadu výhod oproti využívání cizího řešení (nemusí se jednat pouze o NUŠL, ale třeba i další mezinárodní systémy). Samostatný repozitář v případě vztahu mezi IDR a NUŠL znamenal jistou volnost ve stanovování typologie dokumentů, dalšího pořádání dokumentů a přístupnosti plných textů. Konkrétně v tomto případě jde o to, že do IDR je možné vkládat i jiné dokumenty než pouze šedou literaturu; záznamy mohou obsahovat údaj o projektu či činnosti NTK, které se vkládaný dokument týká, a u interních dokumentů je možné nastavit omezení přístupu pro zaměstnance.

Hlavní nevýhodou či překážkou ve zřízení vlastního institucionálního repozitáře ve srovnání s využitím externích systémů je nutnost vyčlenit na zřízení a hlavně budoucí správu příslušné finanční a lidské zdroje. To bylo nutné i v případě NTK, nicméně díky stejnému open source softwaru jako v systému NUŠL bylo možné využít zkušeností získaných v souvislosti s tímto projektem, a minimalizovat tak náklady spojené se zřízením IDR.

Co patří do IDR

V rámci NTK existuje několik úrovní sdílení dokumentů: sdílené disky, intranet a IDR. Zatímco sdílené disky a intranet jsou určeny čistě pro interní potřebu zaměstnanců NTK, IDR zpřístupňuje dokumenty i veřejnosti. Ukládají se sem tedy finální verze dokumentů určených ke zveřejnění.

Do IDR jsou ukládána zaměstnanecká díla pracovníků knihovny, příspěvky z vybraných konferencí pořádaných v NTK (odborné knihovnické akce) i další dokumenty týkající se knihovny, jako jsou např. architektonická ocenění nové budovy knihovny, vysokoškolské kvalifikační práce zabývající se NTK apod.

Z pohledu typologie patří do IDR celá škála dokumentů:

1. autorské práce: monografie, odborné články, postprinty, preprinty;

2. informativní dokumenty: analýzy, koncepce, metodiky, normativní dokumenty, statistiky, základní dokumenty;

3. konferenční materiály: příspěvky, postery, programy, sborníky;

4. propagační materiály: fotografie, letáky, monitoring tisku, nápovědy, ocenění, pozvánky, PF, videa, tiskové zprávy aj.;

5. školicí materiály: prezentace ze školení;

6. vysokoškolské kvalifikační práce: bakalářské, diplomové a ostatní práce;

7. zprávy: cestovní, průběžné z projektů, výroční, závěrečné z projektů a zprávy z praxe.

Ne vždy je zcela jasné, do které kategorie dokument patří, proto byla vytvořena i obsahová metodika popisující jednotlivé kategorie s pokyny k řešení sporných situací.

Z téměř tisíce (konkrétně 985) záznamů v repozitáři tvoří 40 % záznamy konferenčních materiálů, z nichž se v 93 % případů jedná o záznamy konferenčních příspěvků. Druhou velkou kategorií jsou zprávy, kde více než polovina záznamů obsahuje cestovní zprávy zaměstnanců NTK.

Graf 2: Záznamy v IDR podle typu dokumentu

Plné texty a jejich zpřístupnění

Převážná většina záznamů obsahuje alespoň jeden dokument, jen ve 20 záznamech je pouze odkaz na externí webovou stránku nebo dokument zcela chybí. Do záznamu může být ovšem přiřazen i větší počet dokumentů. Typickým příkladem jsou záznamy konferenčních příspěvků, ke kterým (jsou-li k dispozici) se přikládají soubory s videem, prezentací a textem příspěvku do sborníku (texty a prezentace se navíc mohou vyskytovat v české a anglické verzi).

Přestože jedním ze jmenovaných benefitů založení vlastního repozitáře byla možnost regulovat přístup k dokumentům, jsou dokumenty u více než 80 % záznamů volně přístupné veřejnosti. Záznamy, jež mají obsahovat dokumenty nepřístupné veřejnosti, jsou ve formátu MARC 21 v poli číslo 506 označeny jako „Domain”. Přístup k dokumentům přiřazeným k těmto záznamům je omezen na zaměstnanecké počítače v NTK, nebo na přihlášení do systému IDR (přístupové údaje mají pouze administrátoři; ostatní zaměstnanci využívají pracovních počítačů).

Pro vkládané soubory platí omezení formátů: textové dokumenty v PDF (do PDF se převádějí i prezentace), obrazové dokumenty v JPG, zvuk v mp3 a video v mp4.

Metadata

Interním formátem softwaru Invenio je MARC 21, který je ovšem v IDR i v NUŠL mírně upraven, a neodpovídá tak zcela pravidlům (jedná se hlavně o názvová pole, kde 245 $a představuje hlavní název a 245 $b hlavní název v anglickém jazyce). Záznamy se převádějí do dalších metadatových formátů a přímo ve webovém rozhraní je možné si zobrazit záznamy ve formátech MARCXML a Dublin Core.

V IDR se nevyužívá žádný systém jmenných autorit, a to ani pro věcný, ani identifikační popis. Věcný popis dokumentů se řeší pomocí hesel Polytematického strukturovaného hesláře (PSH) a volných klíčových slov.

Záznamy se seskupují do sbírek podle typu dokumentu (viz typologie) a zároveň podle projektů a činností NTK, kterých se popisovaný dokument týká. Každý záznam může být zařazen pouze do jedné sbírky podle typu dokumentu, ale do více podle činností a projektů.

Plnění repozitáře

Přimět autory ukládat své práce do repozitářů je rozšířeným problémem. Pokud se dokumenty do repozitářů vkládají čistě na bázi dobrovolnosti, mívají autoři tendence se tomuto úkolu vyhýbat, jak ukazuje Sale na příkladu australských disertací [7]. Zásadní je proto vhodně nastavená politika instituce ohledně publikační činnosti zaměstnanců a zaměstnaneckých děl obecně. Tato politika byla v případě NTK stanovena směrnicí ředitele2 v roce 2011 (s drobnými úpravami o rok později). Směrnice kromě definice základních pojmů nařizuje povinnost ukládat zaměstnanecká díla do IDR, a to do měsíce od jejich zveřejnění. Navíc stanovuje zveřejňování zaměstnaneckých děl pod veřejnou licencí Creative Commons ve verzích CC BY-NC-ND nebo CC BY-NC-SA. Právě díky tomuto opatření se daří do repozitáře získávat velké množství dokumentů, které je možné volně zpřístupnit veřejnosti.

Samotné vkládání je z hlediska autorů velmi jednoduché. Na webových stránkách NTK je zaměstnancům po přihlášení dostupný formulář, ve kterém vyplní základní údaje a nahrají soubor dokumentu. Povinně musí ve formuláři vyplnit název (v češtině a angličtině), rok vzniku, autora dokumentu a především dostupnost plného textu a licenci, kterou chtějí použít. Kromě zmiňovaných dvou variant CC licencí se ve formuláři pamatuje i na situace, kdy není pro dokument možné použít veřejnou licenci kvůli smluvním podmínkám. Kromě toho mohou autoři dodat i další údaje jako datum a místo konání akce, klíčová slova, hesla PSH a abstrakt v češtině a angličtině.

Pro autory samotné vyplněním formuláře a nahráním souboru práce končí. Vyplněný formulář se automaticky zašle správci, který zajistí korektní vložení do repozitáře. Na základě platné typologie rozhodne o zařazení dokumentu do sbírky a vytvoří záznam v systému Invenio. Správce repozitáře slouží jako prostředník mezi autory a repozitářem a má za úkol ulehčit autorům – ti tak nemusí řešit proces vkládání v systému, který by vzhledem k publikační činnosti používali maximálně několikrát do roka. Zároveň je při vkládání jedním správcem zajištěna konstantní kvalita záznamů. Po vytvoření záznamu jsou autoři na tuto skutečnost upozorněni a je jim zaslán příslušný odkaz, se kterým mohou dále nakládat podle svých potřeb.

Vyhledávání a zobrazení záznamů

V systému Invenio lze využít jednoduché či rozšířené vyhledávání, nebo procházení záznamů podle jednotlivých sbírek. Při vyhledávání se do vyhledávacího pole klasicky zadá hledaný řetězec a případně určí konkrétní pole záznamu, ve kterém se má hledat. Při použití rozšířeného vyhledávání je možné použít až tři vyhledávací pole a nastavit mezi nimi booleovské operátory. Kromě těchto standardních postupů je k vyhledávání možné použít regulární výrazy, pomocí kterých je možné vytvořit i komplikované dotazy.

Výsledky vyhledávání se zobrazí buď ve skupinách podle typu dokumentu, nebo v jednom seznamu. Kromě toho je možné výsledky řadit podle data vzniku záznamu, názvu a autora. Tyto náhledy záznamů obsahují údaje o názvu, autorech, případně začátek abstraktu a rychlý odkaz na přiložené soubory.

Naproti tomu úplné zobrazení záznamu je obohaceno o další dostupné údaje, jako jsou rok vzniku, jazyk, klíčová slova (jednotně jsou zobrazena volná klíčová slova i hesla PSH), informace o akci/konferenci a o autorských právech. Autorské údaje slouží zároveň i jako odkaz na další díla daného autora uložená v repozitáři. Obdobně fungují jako odkazy i klíčová slova (česká i anglická) a případně i názvy konferencí. Veškeré přístupné soubory je možné stáhnout a videa lze dokonce i přehrávat přímo na stránce záznamu. Ke stažení jsou díky možnosti verzování v Inveniu dostupné i starší verze dokumentů – využívá se například u různých manuálů, které se pravidelně aktualizují, na jejich umístění se odkazuje z dalších dokumentů.

Vývoj a význam

IDR patří sice k menším repozitářům, ale díky dobře nastavené instituční politice má zajištěné dodávání dokumentů, které může volně zpřístupňovat. Tento stabilní nárůst počtu záznamů ukazuje Graf 3, na kterém je i vidět, že v posledních letech každoročně přibývá přibližně stejné množství dokumentů (významný nárůst v roce 2012 je způsoben vkládáním starších dokumentů).

Graf 3: Vývoj počtu záznamů v IDR

Se záznamy z IDR se ovšem uživatelé nesetkají pouze přímo při vyhledávání v samotném repozitáři. Více než polovina záznamů se i s plnými texty předává pomocí OAI-PMH do NUŠL a tyto záznamy se pak dále dostávají z NUŠL do dalších databází a systémů, a to i mezinárodních (OpenGrey, OpenAIRE, BASE). Nezanedbatelnou skupinu uživatelů tvoří i lidé, kteří se na konkrétní záznamy dostanou přímo z vyhledávače Google, který indexuje záznamy i plné texty umístěné v IDR.

Institucionální digitální repozitář NTK je velmi kvalitní zdroj odborných informací převážně z oblasti knihovnictví a informační vědy – jeho hlavním přínosem je množství veřejně přístupných dokumentů. Mandatorní politika, zavazující zaměstnance ukládat díla do repozitáře, se ukázala jako úspěšná – během šesti let provozu se (i) díky ní v repozitáři podařilo nashromáždit téměř 1000 záznamů dokumentů. IDR umožňuje archivaci těchto dokumentů na jednom místě, kde je k nim snadný a rychlý přístup a kde slouží nejen zaměstnancům, ale celé odborné veřejnosti. Zavedení repozitáře v NTK je tedy možné považovat za úspěšné, byť do budoucna je samozřejmě nutné dále pracovat na propagaci repozitáře v rámci instituce.

 

POUŽITÁ LITERATURA

[1] CCSDS, 2002. Reference Model for an Open Archival Information System (OAIS): Blue Book. ConsultativeCommittee for Space Data Systems [online]. Washington DC: CCSDS Secretariat, [cit. 2012-10-01]. Dostupné z: http://ddp.nist.gov/refs/oais.pdf.

[2] CUBR, Ladislav a Jaroslava HAVLOVÁ, 2003-. Digitální repozitář. In: KTD: Česká terminologická databáze knihovnictví a informační vědy (TDKIV) [online]. Praha: Národní knihovna ČR [cit. 2016-08-19]. Dostupné z: http://aleph.nkp.cz/F/?func=direct&doc_number=000014292&local_base=KTD.

[3] HAVLOVÁ, Jaroslava a Jiří MAREK, 2003-. Otevřený přístup (k vědeckým informacím). In: KTD: Česká terminologická databáze knihovnictví a informační vědy (TDKIV) [online]. Praha: Národní knihovna ČR [cit. 2016-08-19]. Dostupné z: http://aleph.nkp.cz/F/?func=direct&doc_number=000015817&local_base=KTD.

[4] LAAKSO, Mikael, Patrik WELLING, Helena BUKVOVA, Linus NYMAN, Bo-Christer BJÖRK, Turid HEDLUND a Marcelo HERMES-LIMA, 2011. The Development of Open Access Journal Publishing from 1993 to 2009. PLoS ONE6(6), e20961-. DOI: 10.1371/journal.pone.0020961. ISSN 1932-6203. Dostupné také z: http://dx.plos.org/10.1371/journal.pone.0020961

[5] NÁRODNÍ TECHNICKÁ KNIHOVNA, 2016. Projekt NUŠL. In: NUŠL [online]. [cit. 2016-08-19]. Dostupné z: http://nusl.techlib.cz/nusl/projekt-nusl/

[6] NOVÁK, Petr, 2006. Šedá literatura v STK: nové aktivity, nové obzory. Knihovny současnosti 2006. Brno: Sdružení knihoven ČR. s. 285-306. ISBN 80-86249-41-7. Dostupné také z: http://wayback.webarchiv.cz/wayback/20100707195207/http://www.svkos.cz/data/xinha/sdruk/KS2006/2006-3-285.pdf.

[7] SALE, Arthur, 2006. The Impact of Mandatory Policies on ETD Acquisition. D-Lib Magazine12(4). ISSN 1082-9873. Dostupné také z: http://www.dlib.org/dlib/april06/sale/04sale.html

[8] SIMANDLOVÁ, Tereza a Bohdana FRANTÍKOVÁ, 2012. Repozitáře v paměťových institucích: ano či ne?Archivy, knihovny, muzea v digitálním světě 28.–29. listopadu 2012. Dostupné také z: http://repozitar.techlib.cz/record/529/files/idr-529_1.pdf

[9] SUBER, Peter, 2004. Praising progress, preserving precision. SPARC Open Access Newsletter. (77). ISSN 1546-7821. Dostupné také z: https://dash.harvard.edu/bitstream/handle/1/4736612/suber_praising.htm?sequence=1

 

1 Požadavky na SW pro NUŠL jsou k dispozici v IDR (http://repozitar.techlib.cz/record/273?ln=cs), stejně jako srovnání vybraných SW zvažovaných pro provoz systému NUŠL (http://repozitar.techlib.cz/record/270?ln=cs).

2 Směrnice je veřejně dostupná v IDR NTK http://repozitar.techlib.cz/record/424/.