Hlavní obsah stránky

VYUŽITÍ NOVÝCH TECHNOLOGIÍ: SAM – Statistický a analytický modul České literární bibliografie

PAVLA HARTMANOVÁ hartmanova@ucl.cas.cz

Říká se, že obraz či fotografie vydá za tisíce slov. Platí to i ve vědě. Leckdy je přehlednější a srozumitelnější prezentovat své výsledky prostřednictvím grafu či tabulky, než je složitě vysvětlovat v textu se spoustou čísel. Dokazují to i výsledky bibliografických analýz, které jsou v grafické podobě leckdy mnohem jasnější a dokáží jednodušeji nastínit souvislosti mezi jednotlivými údaji. Současně tyto vizualizace umožňují zohlednit i proměnlivost dat na časové ose a poukázat tak na dílčí trendy či anomálie ve zkoumaném materiálu.

Badatelské výzvy

Přestože oborové článkové databáze byly primárně koncipovány pro vyhledávání konkrétních článků a informací, a proto se využívají především při vytváření specializovaných bibliografií a rešerší, s rozvojem počítačové techniky, digital humanities a kvantitativních metod výzkumu se jejich potenciál pro badatele rozšířil. Ti kromě oborové specializace databází mohou využít/využívají jejich další přednost, a to velké množství standardizovaně zpracovaných informací, jež pokrývají dlouhé časové období. Konkrétně v případě České literární bibliografie (ČLB) se tak databáze stává zdrojem pro analýzy širokého spektra výzkumných otázek, ať již např. z oblasti literárněsociologické (věk autorů, genderové aspekty, knižní trh apod.), nebo publikačních strategií konkrétních osob či skupin v závislosti na jednotlivých komunikačních okruzích (oficiální vs. neoficiální).1

Nové nástroje

Na tento trend práce s databázemi ČLB zareagovala tím, že od roku 2012 cíleně retrospektivně propojuje maximum údajů v databázi se jmennými a věcnými autoritami s perzistentními identifikátory, sjednotila metodu zápisu a strukturu původně disparátních databází a prostřednictvím strojových i manuálních kontrol věnuje systematickou pozornost redakci databáze. Kromě homogenizace údajů se ČLB pustila i do vývoje vlastního nástroje pro práci s daty a jejich vizualizací. V rámci projektu Český literární internet (2017–2021) vznikl softwarový nástroj, který toto vše umožňuje: Statistický a analytický modul, zkráceně SAM.2

SAM byl vyvíjen jako nadstavbový nástroj discovery systému VuFind3, v němž jsou data ČLB veřejně prezentována od konce roku 2020. Výhodou tohoto řešení je skutečnost, že modul pracuje s databází v reálném čase a zobrazovaná data tak odpovídají jejímu nejaktuálnějšímu stavu. Z kapacitních důvodů je velikost zobrazované rešerše nastavena na maximální počet 25 000 záznamů. Jednorázově pak lze stáhnout celý obsah rešerše jako strukturovaný CSV soubor až do počtu 75 000 záznamů. Obsáhlejší rešerše je možno z ČLB získat prostřednictvím samostatného API rozhraní.

SAM a jeho struktura

Do modulu se vstupuje přes tlačítko Grafy, jež je umístěno v záhlaví výsledku rešerše vytvořené ve VuFindu spolu s ostatními ikonami. SAM je volně přístupný, k jeho využití není třeba žádné registrace.

Po kliknutí na ikonu získáme vizuální náhled výsledku rešerše prostřednictvím grafů a tabulek členěných do šesti základních kategorií. V případě data vydání je obsah rešerše promítnut podle jednotlivých kalendářních roků na časové ose.

Výsledné grafy lze dále dynamicky upravovat, tj. nastavit množství zobrazených položek (5, 10, 20) či některé z nich případně z vizualizace zcela vypustit. Badatel si koláčové grafy může stáhnout ve formátu JPG nebo si podkladová data uložit ve formátu CSV a dále je upravovat podle individuálních potřeb prostřednictvím pokročilejších softwarových nástrojů pro zpracování dat či tvorbu grafů.

Důvěřuj, ale prověřuj

Výzkumný potenciál databáze ČLB je díky množství, komplexnosti a standardizovanosti (MARC21) informací, které obsahuje, nesporný. Tato silná stránka se však stává do určité míry i její slabinou. V průběhu 75 let existence databáze se totiž několikrát výrazně proměnila metoda a norma zpracování i samotný excerpční záběr.4 Pro adekvátní interpretaci dat je tak důležité znát strukturu databáze a informace, které obsahuje, jinak může snadno dojít k dezinterpretaci výsledků rešerše. Protože databáze ČLB obsahuje již přes dva miliony záznamů, nejedná se vždy o triviální záležitost. Úprava dat před samotnou analýzou vyžaduje určitý čas, v případě složitějších dotazů dokonce i spolupráci se zpracovateli databáze.

Kvantitativní přístup k bibliografickým záznamům však otevírá nové perspektivy, jak s databázemi tohoto typu pracovat a jeho prostřednictvím potvrzovat či vyvracet tradované interpretace určitých jevů či získat tvrdá data pro své domněnky. Z těchto důvodů je ambicí modulu usnadnit badatelům práci jak se získáváním dat z databáze ČLB, tak s jejich prezentací v grafické podobě. S dalším rozvojem SAM ČLB počítá i v budoucích projektech.

1 Více k datovému výzkumu bibliografických dat ve studii: MALÍNEK, V. a P. HARTMANOVÁ. Bibliografické databáze jako pramen pro datovou analýzu: potenciál a limity České literární bibliografie pro kvantitativní výzkum. Střed: časopis pro mezioborová studia Střední Evropy 19. a 20. století. 2021, 13(1), 50–81. Dostupné z: https://doi.org/10.54681/c.2021.1.3.

2 Prezentaci modulu, která zazněla na závěrečném workshopu projektu Český literární internet (28. 4. 2021), lze zhlédnout na youtube kanálu ČLB: https://youtu.be/xrUK0_b7fu0.

3 Vstup z hlavní stránky ČLB: https://clb.ucl.cas.cz.

4 Informace k šíři excerpčního záběru pro jednotlivá časová období jsou dostupné na stránkách ČLB: https://clb.ucl.cas.cz/databaze/soucasna-bibliografie-od-roku-1945/.