Hlavní obsah stránky

VYUŽITÍ NOVÝCH TECHNOLOGIÍ: Proměny a směřování České literární bibliografie

PAVLA HARTMANOVÁ  hartmanova@ucl.cas.cz

Oborovou článkovou databázi Česká literární bibliografie (ČLB), vytvářenou při Ústavu pro českou literaturu AV ČR, není třeba dlouze představovat. Přesto v posledních letech prošla výraznou proměnou a lze v ní narazit na spoustu novinek, které dozajista stojí za zmínku a ocení je především její uživatelé nejen z řad vědeckých pracovníků a studentů, ale i knihovnické veřejnosti. Cílem změn bylo především usnadnit orientaci v databázi, rozšířit její vyhledávací možnosti a nabídnout nové nástroje k datovému výzkumu.

ČLB letos slaví sedmdesát pět let své existence a za tuto dlouhou dobu přirozeně prošla různými změnami norem zpracování, katalogizace, evidence, zpřístupnění i proměnami šíře svého záběru v reakci na technologický vývoj a personální zázemí. O její rozvoj se zasloužilo mnoho významných bibliografů. Připomeňme si alespoň Emanuela Macka, vedoucího bibliografického oddělení v letech 1958–1989 a autora oborové metodiky Bibliografie české beletrie a literární vědy (1969), a zkušené autory mnoha personálních a časopiseckých bibliografií jako byli Miroslav Laiske, Aleš Zach, Věra Vladyková, Stanislava Sýkorová nebo František Knopp.

Po celou existenci ČLB je jejím primárním úkolem bibliograficky podchycovat texty související s českou literaturou a kulturou v dobovém tisku, mapovat odbornou i beletristickou knižní produkci vycházející nejen ve velkých nakladatelstvích, ale i v těch regionálních a exilových či šířenou neoficiální cestou. Její nejstarší záznamy se datují k roku 1771 a ty nejnovější pocházejí z aktuálního denního tisku. Množství záznamů v databázi se díky kontinuálnímu zpracování a rozšiřování o nové soubory dat již pomalu blíží k číslu 2,3 milionu, a lze ji tak označit za jednu z největších svého typu v České republice.

Výzkumná infrastruktura

Za významným posunem kvality služeb, které ČLB nabízí, stojí především to, že v roce 2016 byla zařazena na Cestovní mapu ČR velkých infrastruktur pro výzkum, experimentální vývoj a inovace.1 Tuto pozici pak následně obhájila i pro období 2020–2022 a úspěšně prošla i hodnocením posledním pro roky 2023–2029. Díky tomuto zázemí se mohla ČLB nejen personálně rozšířit o tři specializované týmy, ale také posílit své IT zázemí, zintenzivnit komunikaci s potenciálními uživateli jak v tuzemsku, tak v zahraničí, navázat mezinárodní spolupráci s evropskými pracovišti zabývajícími se výzkumem bibliografických dat a být i více publikačně aktivní. Ze zahraničních pracovišť stojí za zaznamenání především dlouholetá spolupráce se sesterským pracovištěm Polské literární bibliografie (Polska Bibliografia Literacka) z Instytutu Badań Literackich Polskiej Akademii Nauk, jejímž výsledkem je mj. portál LiBRI, který prostřednictvím discovery systému VuFind z jednoho místa zpřístupňuje obsah české a polské literární bibliografie.2

Za zmínku taktéž určitě stojí nové webové3 a facebookové stránky, na kterých je možné získat všechny informace týkající se zejména současných aktivit ČLB, složení týmů, popisu dílčích databází a možností spolupráce. V roce 2020 byl spuštěn nový discovery systém VuFind (v březnu 2022 upgradován na verzi 8.0), umožňující prohlížení všech dílčích databází ČLB z jednoho místa, a to včetně digitalizovaného lístkového katalogu Retrospektivní bibliografie. Pomocí faset a možností ve vylepšeném Pokročilém vyhledávání lze rešeršní dotazy detailně specifikovat. Data se dají exportovat nejen ve formě bibliografických citací ve formátech RefWorks, EndNote či MARCXML, ale i v podobě celých datových setů přes API rozhraní či přes Statistický a Analytický Modul (SAM)4 ve formátu csv, což ocení nejenom výzkumníci v oblasti digital humanities.

Specializované databáze

a) samizdatu

Kromě databáze Retrospektivní bibliografie (do roku 1945) a bibliografie současné (od roku 1945) je od roku 2016 databáze ČLB doplňována i o záznamy samizdatové provenience z let 1948 až 1989. Kromě záznamů ze samizdatových periodik se od roku 2021 analyticky zpracovávají i samizdatové sborníky a knižní publikace. V březnu 2022 tato báze obsahovala již více než 18 000 záznamů. Samizdatový tým intenzivně spolupracuje zejména s knihovnou Libri Prohibiti a využívá ke své práci webovou stránku Scriptum.cz. Některé exempláře získává z archivu Československého dokumentačního střediska či ze soukromých sbírek.

b) internetu

V roce 2017 v rámci projektu MŠMT Český literární internet: data, analýzy, výzkum (2017–2021) vznikla databáze literárních a literárněvědných článků z českého literárního internetu. Excerpční základna na konci projektu čítala přes 70 e-zdrojů, přičemž jejich zaměření bylo velmi různorodé, aby maximálně pokrylo šíři diskurzu o literatuře a přidružených tématech v online prostředí. Báze aktuálně obsahuje již přes 50 000 záznamů a pokrývá období od 90. let do současnosti. Se zpracováním online materiálů pokračujeme i po ukončení projektu. Zaměřili jsme se primárně na textové zdroje s podobnou strukturou, jako mají tištěné tituly. Tím pádem se nemusela významně měnit metoda zpracování, přestože jsou digitální zdroje v určitých parametrech specifické.

Báze obsahuje informace z univerzitních a knihovnických časopisů, z publicistických webů, z přidružených online platforem k tištěným kulturním a literárním časopisům, jako je třeba H7O či A2larm, z periodik literárních spolků (ČAJ, Kruh), z webů zaměřených na populární literaturu (Fantasy Planet) či z online mutací celostátních deníků. Pokud článek obsahuje audio- či videopřílohu, tuto informaci spolu s časovou délkou dokumentu do záznamu též zaznamenáváme. Zdroje jako podcasty, blogy, youtube kanály či televizní a rozhlasové pořady databáze prozatím neobsahuje, ale v budoucnu bychom ji rádi obohatili i o ně.

Abychom zajistili archivaci obsahu vyexcerpovaných článků, v rámci projektu jsme začali spolupracovat s Webarchivem Národní knihovny ČR (NK), digitální knihovnou českého webu. Díky jejich aktivitám v této oblasti obsahuje nyní 61 % našich internetových záznamů kromě linku na online dokument i link na verzi archivní. Pokud odečteme více než 12 500 záznamů z online deníků, jejichž archivní verzi kvůli autorským právům nemůže Webarchiv mimo Referenční centrum v budově NK uveřejňovat, úspěšnost napojení do archivu vzroste na 84,5 %.

Dvakrát do roka strojově kontrolujeme nové sklizně českého webu ve Webarchivu a chybějící archivní linky volně dostupných webů do databáze hromadně doplňujeme. Ostatní linky posíláme do Webarchivu k dodatečné harvestaci, abychom zajistili dostupnost obsahu alespoň z Referenčního centra. 

c) překladů české literatury

Čerstvou novinkou je báze překladů české literatury, která byla do rozhraní VuFind implementována v lednu 2022. Vznik databáze byl podpořen z programu Paměť v digitálním věku, který je součástí Strategie AV21. Databáze by mj. měla sloužit jako zdroj informací a dat pro projekt Globální trajektorie české literatury od roku 1945 (2020–2022), který zaštiťuje právě ČLB. Tato báze aktuálně obsahuje takřka 10 000 záznamů. Jejím nejstarším překladem je Hájkova Kronika česká, resp. její překlad do němčiny z roku 1596. Práci v bázi ulehčuje možnost vyhledávání podle pole Název originálu v sekci Pokročilé vyhledávání.

Biografický archiv

Nedílnou součástí ČLB je taktéž Biografický archiv vedený od roku 2016 Petrou Večeřovou. V jeho gesci je především správa databáze Českých literárních osobností (CLO), která se průběžně rozšiřuje díky spolupráci s vědci z Oddělení lexikografie a s excerptory dávajícími podněty k opravě autorit, jejich doplnění či založení autorit zcela nových na základě každodenní práce s excerpovanými zdroji. Archiv taktéž spolupracuje s databází AUT, kterou svou činností za posledních šest let obohatil o více než 2000 návrhů nových autorit a oprav. Aktuálně pracuje na vývoji nového rozhraní báze CLO.

Vize a plány

Vize a plány ČLB by se v zásadě daly rozdělit do dvou oblastí. Jedna spočívá v rozvoji dosavadní mezinárodní spolupráce, přípravě databáze pro kvantitativní výzkum (čištění záznamů a doplňování o perzistentní identifikátory) a ve vlastním výzkumu bibliografických dat. Druhá se týká obohacování databáze o nová data a zkvalitňování služeb, jako je navyšování počtu záznamů s proklikem k plnému textu a doplnění dílčích mezer v databázi způsobených proměnami excerpčního záběru v průběhu let. Aktuálně odkaz na plný text obsahuje již více než 110 000 záznamů a doufáme, že se v nejbližší době toto číslo minimálně zdvojnásobí. Linky zatím vedou jak na webové stránky online zdrojů, tak do Webarchivu, Krameria AV ČR či do Digitálního archivu časopisů ÚČL. U odborných článků uvádíme taktéž identifikátor DOI, pakliže je k dispozici.

Tento úvodní článek jen v krátkosti představil vývoj ČLB v posledních letech. Jeho cílem bylo seznámit čtenáře s novinkami, které by při své práci mohli využít. V následujících číslech Čtenáře bychom rádi týmy či jejich dílčí výsledky představili podrobněji.

1 Zisk tohoto statusu zavazuje její uživatele k uvedení odkazu na její využití v každé publikaci, kvalifikační práci či jiném výstupu, a to formou: Při vzniku práce [knihy/studie/…] byly využity zdroje výzkumné infrastruktury Česká literární bibliografie – https://clb.ucl.cas.cz/ (kód ORJ: 90136).

2 Vstup do databáze LiBRI z adresy: https://literarybibliography.eu/.

3 Nový web byl spuštěn v roce 2020 a je dostupný z adresy: https://clb.ucl.cas.cz/. Z ní se dá vstoupit i do databáze samotné.

4 Dostupný z adresy: https://vufind.ucl.cas.cz/SAM/cs/?type=AllFields.