Hlavní obsah stránky

Co nabízí projekt Obálkyknih.cz

JIŘÍ NECHVÁTAL nechvatal@cbvk.cz

Projekt obálkyknih.cz asi netřeba dlouze představovat. Jejich služeb využívá většina knihoven v České republice. Tak snad jen krátce… Obálkyknih.cz se „narodily“ v roce 2008 v Moravské zemské knihovně (MZK) a v roce 2013 správu projektu převzala naše knihovna –  Jihočeská vědecká knihovna v Českých Budějovicích. Prvním cílem projektu bylo stát se centrálním repozitářem obrázků obálek knih určených pro integraci do katalogů knihoven.

V posledních letech projekt prošel intenzivním vývojem, který umožnil rozšíření služeb – poskytování nejen obálek knih, ale také dalších prvků. V současnosti se jedná o:

  • obálky knih a periodik – uložit obálku je však možno i u speciálních dokumentů – map, hudebnin, CD, DVD, ...
  • obsahy knih a periodik – naskenované obsahy zpřístupněné v podobě PDF souborů,
  • fulltexty obsahů – obsahy převedené na text pomocí technologie OCR a zpřístupněné pro indexaci knihovním systémem,
  • komentáře a hodnocení – možnost stažení dostupných komentářů a zároveň i možnost exportu komentářů z jiných systémů na obálkyknih.cz a tím zpřístupnění ostatním  knihovnám.

To všechno je dostupné v podobě jedné snad­no použitelné služby pro automatizované knihovní systémy.

Několik čísel pro zajímavost:

  • databáze aktuálně obsahuje cca 958 000 obálek a 133 000 obsahů českých a zahraničních publikací,
  • hlavní servery jsou provozovány v Jihočeské vědecké knihovně v Českých Budějovicích (JVK), záložní server je umístěn v Moravské zemské knihovně v Brně,
  • měsíčně hlavní server odbaví průměrně 55 milionů požadavků, cca 2 miliony denně, v průměru 20 dotazů za vteřinu,
  • ve špičkách (9–15:00) odbavují servery 40–80 požadavků za vteřinu,
  • denně je do databáze nově nahráno nebo je upraveno průměrně 250 dokumentů,
  • denní přírůstek dat činí 3 GB, z nich se následně generují náhledy obálek v různých rozlišeních, PDF dokumenty s obsahy a rozpoznává se text pomocí OCR,
  • 20 Mbit za vteřinu je datový tok ven ze serveru a na server, což představuje cca 85 % všech dat, která projdou internetovým připojením JVK.

Prvním zdrojem dat pro Obálkyknih.cz bylo stahování obálek od vydavatelů realizované na základě dohody sdružení SKIP s největšími ­vydavateli v ČR. V současnosti vydavatelé poskytují jen 1 % obálek. Největšími přispěvateli obálek jsou samy knihovny pomocí vlastního projektového programu (tzv. skenovacího klien­ta http://www.obalkyknih.cz/obalkyknih-scanner/), který byl uvolněn v září 2013. Skeno­vacího klienta používá v současnosti okolo 20 knihoven a na server poslaly již přes 240 000 obálek a obsahů (viz tab. 1). Zároveň je pro vkládání obálek dostupné webové rozhraní projektu (http://www.obalkyknih.cz/upload), kte­ré využívají individuální přispěvatelé.

V roce 2014 jsme na server importovali přes 55 000 obálek získaných z webového projektu antikvariaty.cz, pečlivě překontrolované studen­ty knihovnictví a pracovníky Ústřední knihovny FF MU. Vědecká knihovna v Olomouci zrušila svůj interní systém obálek a data byla taktéž importována na Obálkyknih.cz (cca 32 000 obálek). Pomocí vlastního rozhraní přispěla i 11 000 obálkami a obsahy Městská knihovna v Praze. Děkujeme všem zapojeným knihovnám za jejich práci a zveme ostatní knihovny ke spolupráci na skenování vlastních fondů.

V JVK skenujeme všechny nově nakoupené dokumenty a postupně na server ukládáme i starší fond. Již třetím rokem například spolupracujeme s místní střední školou a jejich studenti k nám v rámci bezplatné praxe chodí skenovat knihy. Díky jejich práci jsme do projektu přispěli již přibližně 20 000 obálkami a obsahy.

Rádi bychom touto cestou požádali všechny knihovny, aby si zkontrolovaly funkčnost synchronizace čísel ČNB se souborným katalogem ve svém knihovním systému. Obálkyknih.cz v současnosti obsahují přes 250 000 obálek, které lze propojit v katalogu pouze s tímto identifikátorem. Skenováním starších fondů toto číslo prudce narůstá, a pokud jej nemáte v sys­tému implementováno, o hodně přicházíte. Server aktuálně podporuje řadu identifikátorů: ISBN, ISSN, číslo ČNB, OCoLC, EAN, vlastní identifikátor.

Co nového bylo v projektu vyvinuto v loňském roce?

• Systém komentářů a hodnocení

Interně na stránkách projektu fungovalo vkládání komentářů již dříve. Nicméně teď je mož­né pro knihovní systémy stahovat hodnocení a komentáře přímo ze serveru k jednotlivým titulům. Pokud knihovna provozuje i vlastní systém komentářů a hodnocení, je možné data nahrát na server Obálkyknih.cz a zpřístupnit ostatním knihovnám. API rozhraní zvládá vytvoření, načtení, update komentářů a případ­ně i jejich zpětné smazání (pokud jsou nevhod-­né). Každá knihovna může provozovat vlastní systém komentářů a hodnocení a náš server použít pouze jako zdroj dat. V JVK například mají právo ukládat hodnocení a komentáře pouze přihlášení uživatelé. Platí pravidlo, že jeden uživatel může přidat pouze jeden komentář ke konkrétnímu titulu. Do konce dne jej může upravovat. V noci je komentář odeslán na server Obálkyknih.cz a tím čtenář právo změny ztrácí. Samozřejmostí je možnost správce uložené příspěvky kontrolovat a v případě nevhodnosti skrýt v katalogu.

Na server Obálkyknih.cz se posílá s komentářem pouze název a sigla zdrojové knihovny. Žádná osobní data čtenáře.

Příklad komentáře na stránkách projektu: http://www.obalkyknih.cz/view?isbn=9788072266357

• Odolnost proti výpadkům – failover

V JVK považujeme projekt Obálkyknih.cz za klíčovou službu a využíváme ji nejen v katalogu, ale i v našich dalších systémech. Služba

Failover zajišťuje její dostupnost v případě výpadku primárního serveru – jeden server je umístěn v JVK a druhý v MZK. Služba je řešena aplikačně: aplikace kontroluje dostupnost primárního serveru a v případě jeho výpadku přepne stahování ze záložního serveru. V JVK je test dostupnosti serveru součástí každého dotazu do katalogu položeného libovolným čtenářem. Pokud primární obálkový server neodpoví do deseti vteřin, je prohlášen za nedostupný a obálky se stahují se serveru záložního. Po jedné hodině se testuje dostupnost původního zdroje, a pokud je v pořádku, obálky se opět stahují z primárního serveru. Výpadek tak čtenáři takřka nezaznamenají.

Tuto službu lze nasadit v jakémkoliv sy­sté­mu. Zatím ji však využívá jen okolo 5 % knihoven. Pro zájemce je na stránkách projektu dostupná dokumentace a praktické příklady použití.

• Obálky periodik a vícesvazkových děl

Ukládání obálek a obsahů periodik pomocí identifikátoru ISSN fungovalo již od počátku projektu Obálkyknih.cz. V databázi ale zůstala pouze poslední nahraná obálka a obsah. Zá­znamy se přemazávaly. Stejně tak i u vícesvazkových děl. Současné API serveru a skenovací klient umožňuje nahrát jednotlivé části monografie/číslo periodika pomocí parametrů:

•  part_no – číslo části v případě monografie (podpole 245n), číslo vydání v případě periodika,

•  part_name – název části v případě monografie (podpole 245p), nepoužívá se u periodika,

•  part_year – rok vydání periodika, nepoužívá se u monografie,

•  part_volume – ročník vydání periodika, nepoužívá se u monografie,

•  part_note – textová identifikace části monografie, nebo periodika pro knihovní systémy, které nemají odděleně uložený rok/ročník/číslo.

Knihovní systém si pomocí parametrů dokáže stáhnout obálku a obsah konkrétního čísla periodika. Při zobrazení souborného záznamu se načte poslední dostupné vydání periodika. U svázaného ročníku se zobrazí první dostupné číslo, avšak zobrazit lze i všechna čísla. Každý knihovní systém si může zapracovat nastavení podle vlastních požadavků.

JVK v současnosti testuje zobrazení obálek a obsahů periodik v systému ARL. Zároveň začala do projektu Obálkyknih.cz přispívat skenováním periodik. Zveme všechny knihovny: přidejte se také…

Příklad zobrazení na stránkách projektu

• Fulltextové prohledávání obsahů dokumentů

Velký dosah pro čtenáře bude mít poslední novinka projektu. V případě titulů, u kterých bylo provedeno naskenování obsahu, poskytují
Obálky­knih.cz knihovním systémům obsah převedený pomocí OCR do textu. V JVK se fulltext stahuje společně s obálkami. Indexuje se lokálně do SOLR databáze a je zpřístupněn ve vyhledávání v katalogu pro čtenáře. K indexaci je použit tzv. stemming – snaží se indexovat základní tvar slova: například při zadání slov tónovaná malbatónované malbytónování mal­by najde to samé. Čtenář, který hledá pojem Jan Žižka, mohl dříve hledat pouze v názvu či popisu knihy. S touto funkcionalitou vyhledá i knihu České země v letech 1378–1437, která obsahuje kapitolu o Žižkovi, případně článek v historickém časopisu. V současnosti v JVK pracujeme na těsnějším zapojení do vyhledávání, aby bylo našim čtenářům maximálně dostupné.

Co plánujeme v roce 2015

V letošním roce chceme obohatit funkcionalitu Obálkyknih.cz o několik nových funkcí:

  • obohatit záznamy autorit v knihovních katalozích o obrazové a jiné materiály, například fotografie osob, GPS souřadnice míst, www odkazy, …
  • podpora obálek zvukových dokumentů a hudebnin včetně návrhu jednotné identifikace zvukových dokumentů (MC, CD, LP) a hudebnin, naimportujeme i přibližně 15 000 obálek zvukových dokumentů získaných od vydavatelství Supraphon,
  • automatizované sklízení obsahů a obálek ze systému Kramerius včetně obohacování datového modelu obalkyknih.cz o URL na fulltext titulu v systému Kramerius navázaný na siglu knihovny (pro možný výběr zdroje), funkce umožní vytěžování dokumentů pořízených v rámci projektu NDK a projektů krajských digitalizací,
  • automatická deduplikace záznamů podle identifikátorů – aby nedocházelo k ukládání shodných titulů získaných z různých zdrojů do více rozdílných záznamů, dotazy knihovních systémů budou přesnější,
  • převzetí komentářů z jiných systémů nebo sklízení dalších zdrojů dat (podle individuál­ních dohod s provozovateli).

Odkazy na projekt, technická dokumentace: http://www.obalkyknih.czhttps://github.com/cbvk/obalkyknih/wiki. Dotazy a připomín­ky prosím posílejte na mail info@obalky knih.cz.Děkujeme všem spolupracujícím knihovnám a institucím a těšíme se na další knihovny. Výsledky práce využijí všichni.