Hlavní obsah stránky

Perspektivy Kooperačního systému článkové bibliografie a báze ANL

IVANA ANDĚROVÁ > ivana.anderova@centrum.cz

Následující příspěvek vznikl na základě elektronické verze materiálu Kooperační systém článkové bibliografie - vývoj, stav v roce 2011, zahraniční informační zdroje a projekty, který je publikován pouze v elektronické formě časopisu (na konci této stránky). Z této verze jsou velmi stručně rozvedeny jen některé body, v původní podobě je otištěn závěr. Elektronická forma článku je poměrně obsáhlá, je v ní popsán vývoj Kooperačního systému článkové bibliografie (KOSABI), metodiky popisu, rozebrán současný stav zpřístupňování článkových informací v České republice a v zahraničí. Na základě zevrubné analýzy jsou v závěru shrnuty úvahy, možnosti a doporučení týkající se KOSABI a České národní bibliografie. Je uveden podrobný soupis literatury.

Excerpční základna, instituce, statistiky týkající se báze ANL a ČNB; Články v roce 2010

Kategorie titulů a úplnost popisu

A. Seriály vydávané AV ČR a vysokými školami v ČR (časopisy, sborníky, ročenky)

B. Seriály (časopisy, sborníky, ročenky) vydávané ostatními odbornými institucemi v ČR

C. Noviny (ústřední i regionální) a kulturně-politické časopisy

D. Populárně-naučné časopisy (i zájmové)

Úplnost zpracování

1=excerpce je prováděna v úplnosti (100-80 % počtu článků)

2=excerpce je prováděna částečně (80-25 % počtu článků)

3=excerpce je prováděna výběrově (25 % počtu článků)

Poznámka: místní zpravodaje a věstníky by měly být obsaženy v lokálních databázích.

Aktuálně zpracovávané tituly

Aktuální seznam titulů analyticky zpracovávaných v Národní knihovně ČR v rámci kooperace (s kategoriemi titulů) je vystaven na stránkách http://www.nkp.cz/pages/oazp_NK1_prac.pdf. Následuje seznam titulů zpracovávaných v kooperujících institucích (kromě NK ČR) na adrese http://www.nkp.cz/pages/oazp_kooper_prac.pdf.

Tituly zpracovávané od roku 1991 (s různými charakteristikami)

Seznam zpracovávaných titulů (kompletní) a titulů zpracovaných v minulosti (přibližný) v NK ČR od roku zpracování 1991 je k dispozici na http://full.nkp.cz/nkdb/docs/oazp_NK1.htm. V sezna­mu jsou uvedené některé důležité charakteristiky: kategorie titulu, úplnost zpracování, excer­pované roky, ISSN/ISBN v bázi NKC a ANL, označeny jsou elektronické verze a elektronické zdroje, propojení titulů na licencované SFX zdroje v bázi NKC a tituly propojované na volné www texty a do báze ANL FULL (další sloupec je v budoucnu vyhrazen pro propojení do archivů, repozitářů aj.).

Soupis zpracovávaných titulů a titulů zpracovaných v minulosti v kooperujících institucích - krajské knihovny a MZK v Brně (od roku zpracování cca 1992) je umístěn na http://full.nkp.cz/nkdb/docs/regio_uplnost.htm. V odborných institucích (od roku zpracování cca 1992) pak na http://full.nkp.cz/nkdb/docs/odb_uplnost.htm. V těchto seznamech jsou vyplněny pouze některé charakteristiky.

Výsledky práce Oddělení analytického zpracování a KOSABI v roce 2010

V roce 2010 je v kooperačním systému a v bázi ANL analyticky indexováno 684 periodicky vycházejících titulů, 658 titulů s řídkou periodicitou, monografických a monotematických čísel seriálů, sborníků; 582 titulů je obsaženo v lokálních databázích (nejsou zasílány do ANL). Pravidelně spolupracuje 20 institucí. V NK ČR se zpracovává 242 periodicky vycházejících titulů, dále jsou zpracovávány seriály s řídkou periodicitou, sborníky, monotematická čísla seriálů a monografických edic; podrobně viz Statistika zpracovávaných titulů v Kooperačním systému článkové bibliografie - stav k 1. 10. 2010 http://full.nkp.cz/nkdb/docs/titstat.htm.

Ročně bylo importováno do ANL v posledních letech v průměru cca 30 000-35 000 záznamů, MZK v Brně ukládá záznamy přímo do databáze ANL. V NK ČR je zpracováno cca 40 000 záznamů ročně (z toho články z oboru knihovnictví jsou zpracovávány v Odboru knihovnictví). Báze ANL obsahuje přes 1 300 000 záznamů. Některé jsou vybaveny anotacemi a abstrakty a/nebo jsou propojeny na plné texty.

Z přírůstků báze ANL je každý měsíc od roku 2009 vytvářena Česká národní bibliografie - Články. Spolu s ostatními druhy dokumentů je vystavována do února 2011. Od března 2011 je na adrese http://www.nkp.cz/pages/page.php3?page=fond_NovCNB_Uvod.htm ČNB již bez článků. Statistiky ČNB - Články jsou k dispozici na adrese http://www.nkp.cz/pages/page.php3?page=oazp_novinky.htm. V roce 2009 bylo takto vystaveno 71 906 článků, v roce 2010 celkem 67 254 článků. V bázi ANL je zpracováno cca 500 of-line elektronických dokumentů. Propojení na plné texty on-line dokumentů zahrnují cca 212 000 linků, z toho 125 000 linků do báze ANL FULL, zbytek na volné www texty.

Kooperační systém článkové bibliografie v roce 2011

V lednu 2011 byla založena www stránka s názvem Oddělení analytického zpracování a jeho perspektivy reagující na rozhodnutí managementu NK ČR zrušit Oddělení analytického zpracování - http://www.nkp.cz/pages/page.php3?page=oazp_anl_ruseni.htm.

Poslední podoba stránek Oddělení analytického zpracování je z dubna 2011 na adrese http://www.nkp.cz/pages/page.php3?page=oazp_OZFanal.htm. Na této stránce jsou kromě jiného informace týkající se koordinace a provozu Kooperačního systému článkové bibliografie a metodiky popisu článků.

Báze ANL (http://aleph.nkp.cz/F) má několik dílčích databází, vyhledávání je dostatečně strukturované a přehledné: Články z roku 2010; Články z roku 2011; Články s plnými texty; Články z deníků; Články z časopisů a seriálů s častější periodicitou; Články z řídce vycházejících seriálů, sborníků a monografií; Společenské vědy; Matematika a přírodní vědy; Technika, medicína, užité vědy; Umění, architektura, sport; Filologie, literatura; Geografie, historie; Hudba.

Na adrese http://full.nkp.cz/nkdb/docs/tituly.htm byl koncem dubna 2011 zveřejněn materiál Kooperační systém článkové bibliografie - instituce, tituly - materiál k 30. 4. 2011. Pokládám jej za velmi důležitý. Je zde zmapován celý kooperační systém článků a jeho excerpční základna, instituce, tituly a charakter spolupráce jednotlivých institucí včetně některých nově navázaných kontaktů, u titulů je uvedena úplnost zpracování. V excerpční základně NK ČR byly označeny tituly, které jsou zpracovávány ještě jinde (SKAT, Anopress, Alleti, databáze na Ministerstvu životního prostředí, na Ministerstvu financí). Na základě tohoto materiálu lze v nejbližší době rozšířit kooperaci.

Po zrušení Oddělení analytického zpracování jsou stránky týkající se KOSABI vedeny v rámci Katalogizační politiky na adrese http://www.nkp.cz/pages/page.php3?page=fond_KOSABI_index.htm.

Závěr, úvahy o perspektivách zpracování článků v NK ČR a v KOSABI

Po zevrubném rozboru minulého a stávajícího stavu zpracování článků v ČR, po analýze zpracování článků v zahraničí, s přihlédnutím k trendům, které lze vysledovat v získávání, zpracování, ukládání, správě a hlavně ve zpřístupnění informací, a vzhledem k požadavkům na rychlé zpří­stupnění analytických informací, které vyplývají z obrovského nárůstu nových poznatků a nutnosti jejich rychlé aplikace v praxi, se přikláním k následujícím možnostem, jak dále řešit zpracování a zpřístupnění analytik v NK ČR a KOSABI.

• V NK ČR se excerpovalo až do zrušení oddělení cca 240 periodicky vycházejících titulů, kromě toho se zpracovávaly seriály s řídkou periodicitou, sborníky, monografické edice.

• Tyto tituly jsou děleny do čtyř kategorií A-D podle vydavatele/nakladatele a typu, u nichž je doporučená úroveň excerpce od nejvyšší k nejnižší; seriály s řídkou periodicitou, monografické edice patří většinou do kategorie A.

• Tituly NK ČR a celého KOSABI byly s označením úplnosti předány příslušným pracovníkům NK ČR s tím, že se budou v nejvyšší úplnosti digitalizovat. Většina periodických titulů v NK ČR byla zpracována v 80-100% úplnosti, deníky a několik málo titulů výběrově (většinou tituly Anopress).

• Dá se předpokládat, že do roku 2010 by měla být v databázi ANL k dispozici dostatečná metadata, chybějící popis čísel/ročníků je možno postupně doplňovat z digitalizace, kooperace (lze ještě počítat s „bílými místy“).

• Výběrovost některých titulů kategorie C a D je paradoxně výhodou pro tematické rešerše (množství informací v denících…).

• Je potřeba zajistit metadata jako základní navigační prvek k plným textům.

• Rok 2011: metadata dosud zpracovávaná v NK ČR je možné získat i od jiných spolupracujících institucí, stávajících nebo nově spolupracujících (zejména tituly zpracovávané v úplnosti).

• Nespoléhat pouze na data z digitalizace, v době rušení oddělení byly činěny podrobné připomínky k záznamům databáze Ministerstva životního prostředí, kde jsou některé tituly zpracovávány v úplnosti, za úvahu stojí i spolupráce s Ministerstvem financí, SKAT s tím, že by byla záru­ka za úplnou excerpci některých titulů - viz analytický materiál z 30. 4. 2011 na http://full.nkp.cz/nkdb/docs/tituly.htm.

• Rok 2011 se má nahradit metadaty získanými z Krameria a z monitoringu médií. Nevím, jak podrobná data lze získat z Krameria, vím, jaká data lze získat např. od Anopressu (jmenný popis, krátký souhrn, klíčová slova podle četnosti výskytu v plném textu ve „strojové podobě“, plný text a automatické napojení na plný text).

• Pokud data nebudou dostatečná, doporučuji je podle jejich kvality editovat a doplňovat věcným popisem podle pracovních kapacit (činí se tak v digitálních knihovnách).

• Je třeba zvážit možnost rezignace na věcný popis u běžných periodik a soustředit se na popis sborníků a titulů kategorie A případně B, vyhledávací možnosti z věcného pohledu se tím ale sníží.

• Lze určit tituly, které budou zpracovány s minimálním jmenným popisem, s popisem jmenným i věcným - viz podrobněji dále.

• Podle možností extrakce dat z plných textů (nejen Anopress) doplnit případně indexaci věcnou - zvolit vhodnou míru (i podle pracovních kapacit); další možností je pouze sesbírat do báze ANL data z kooperace a propojovat na plné texty jen přes Primo.

• Data Krameria napojit na bázi ANL, podle požadavků zajistit zpětný import metadat do Krameria, propojení na plné texty do tohoto systému a naopak.

• Propojení metadat vždy na kompletní, jedinečný článek.

• Stávající propojení na www volné texty „pojistit“ archivací těchto textů ve formátu pdf.

• Propojení dat ANL na plné texty: přes SFX, Primo nebo jiný systém v budoucnu, propojení přes pole 856, modul Adam.

• Propojení na plné texty a databáze v rámci vznikajících repozitářů, archivů a databází v ČR (o tom viz dále) i mezinárodně, data shrabovat přes OAI-PMH, stahovat přes Z39.50.

• Anopress vlastní know-how extrakce dat z textu, je možné, že rozšíří své portfolio titulů, vlastní rozsáhlé archivy titulů podobně jako Newton.

• Bázi ANL dál opravovat a v určité fázi generovat citace podle ČSN a/nebo vytvořit rozhraní pro export do citace.comeventuelně pro jiné manažery.

• Zavést jednotný způsob číslování záznamů v ANL, případně přidělování čísel ČNBA, ČNB:URN (v řešených projektech byl zabudován generátor identifikátoru SICI a ČNB:URN přímo do linky zpracování).

• Zkusit vyjednat s Anopressem zpřístupnění plných textů báze ANL FULL volně (je výběrová, data do roku 2004).

• U nových dat Anopressu bych doporučovala výběr pro bázi ANL (mohou vykonávat pracovníci ve službách, bývalí členové oddělení ANL), data importovat do ANL eventuálně editovat.

• Nevím, jak bude probíhat spolupráce s Anopressem, Newtonem. V minulosti se např. uvažovalo o vyčlenění dílčí báze titulů ČNB NK ČR (KOSABI) přímo na stránkách Anopressu.

• Jak se bude vyvíjet situace v KOSABI, záleží na příslušných institucích a na tom, jaké budou mít podmínky i na zkušenostech NK ČR, zde bych byla velmi opatrná s „rušením“ současného stavu analytického zpracování článků; digitalizovat regionální tituly a odborné tituly, propojovat je s analytickými záznamy a registrovat v Registru digitalizace.

• Zvláštní pozornost věnovat systému publikační činnosti v ČR, kterého se účastní poměrně velké množství lidí a kde se články též zpracovávají; záleží na tom, jaká bude koncepce systému do budoucna; spolupráce s autory a repozitáře plných textů odborné literatury v režimu open access jsou v dnešní době nutné; lze uvažovat o spolupráci mezi tímto systémem a KOSABI (např. přebírání dat z publikační činnosti odzkoušeno v projektu Geobibline za spolupráce s ÚVT UK) a/nebo nechat propojení na Primo a/nebo kombinace obou způsobů, propojení do open access archivů.

• Návaznost KOSABI na systém publikační a nakladatelské činnosti v ČR.

• Analyzovat databázi ANL z hlediska šedé literatury a příspěvků do báze NUŠL a případné spolupráce s NUŠL.

• K problému napojení na texty Webarchivu a přebírání sbíraných článků nemám dostatečné informace; v minulosti to nebylo schůdné. V rámci Webarchivu jsou uzavřeny smlouvy s nakladateli/vydavateli o zpřístupnění dat, možná návaznost na tyto smlouvy i v KOSABI.

• NK ČR má svolení od některých redakcí/vydavatelů/nakladatelů připojovat anotace/abstrakty do záznamů a zpřístupňovat je v bázi ANL, navázat s archivací a/nebo napojováním plných textů.

• V budoucnu uvažovat o sběru dat do ANL z repozitářů a open access archivů, otevřených časopisů a povrchového webu, případně ze zahraničních referenčních databází.

• Spolupráci je třeba zaměřit na vysoké školy, AV ČR, zapojit muzea, archivy, městské knihovny (zjistit situaci v Městské knihovně v Praze) a jiné instituce.

• Knihovny, vysoké školy, akademické instituce a jiné specializované instituce by měly svou produkci a specializaci zpracovávat v úplnosti samy a/nebo v rámci sdílené katalogizace, možná je též domluva o zpracování s jinými institucemi.

• Eventuální archivace článků v NK ČR by se měla soustředit na ty obory, které jsou pro ni prioritou, a na průniková témata.

• Ke spolupráci s nakladateli a vydavateli a k přebírání metadat: dovedu si představit spolupráci s některými z nich, v hromadnější formě je k tomu potřeba však dostatečné programové vybavení a know-how. Proto je dobré spolupracovat s firmami, které k tomu mají potřebné vybavení, pracovníky a zkušenosti (např. Anopress), což se již činí. V tomto směru by mohla být dále navázána spolupráce také např. s Unií vydavatelů, ÚVT, AiP aj.

• Pokud bude někdy uzákoněn povinný výtisk elektronických publikací, pak by byla možná hromadná extrakce dat, vždy jsou ale k tomu ještě potřeba knihovníci.

• Není pravda, že článkové bibliografie zpracovávané knihovnami jsou ve světě ojedinělé - viz analýza v elektronické verzi článku. V zahraničí zpracovávají články ve velké míře tradičně soukromé instituce, ale i národní knihovny.

• Článková metadata a bibliografie, plné texty jsou zpřístupňovány ve formě OPACů, souborných katalogů, digitálních knihoven, databází, open access archivů, soupisů a jiných zdrojů.

• Metadata a plné texty získávat postupně: od spolupracujících institucí, z digitalizace od Krameria, z mediálních agentur Anopress, Newton. Odzkoušet přebírání metadat z publikační činnosti VŠ, AV ČR, ze spolupráce s nakladateli, vydavateli a zvolit vhodnou míru jejich kompletace.

• Výběr plných textů k archivaci v NK ČR a napojení do archivů plných textů, dohody s nakladateli, vydavateli jsou strategickým rozhodnutím, než bude v platnosti zákon o povinném výtisku elektronických publikací. Záleží též na vývoji situace.

• Digitalizované tituly v systému Kramerius vést v Registru digitalizace, případně propojit s excerpční základnou systému KOSABI.

• Ujasnit si, jak dále vést evidenci excerpční základny v KOSABI.

• Časový plán digitalizace bych volila stejně jako na Slovensku, tj. od roku 2011 zpět, podobně i u kooperujících institucí.

• Zcela jistě je třeba zdigitalizovat a na www zpřístupnit retrospektivní článkovou bibliografii (která je dosud v tištěné formě, a to nejen „národní“, ale též regionální a odbornou; na Slovensku se retrospektivě věnuje poměrně velká pozornost).

• Zachovat členění ANL na dílčí báze, případně dělit v budoucnu podrobněji.

• Zvážit využití analytických předmětových kategorií k tvorbě ontologií.

• Doporučuji pozorně si přečíst pasáž věnovanou článkům na stránkách SNK, systémy článkové bibliografie v ČR a na Slovensku se vyvíjejí paralelně.

• K metodice popisu článků: nemyslím si, že metodika analytického popisu není potřeba, jak mi bylo řečeno; nemyslím si to hlavně v zorném úhlu FRBR, RDA a ontologií, kooperace. Na Slovensku je metodice popisu článků věnován poměrně velký prostor.

• Sytém Primo (http://www.multidata.cz/) je dobrý a rychlý indexátor, pracuje s daty ve sbírkách a rychle je propojuje, ale najde jen to, co je ve sbírkách a datech vloženo (a jak kvalitně, pokud možno strukturovaně). V budoucnu se dá čekat aplikace i dalších vyhledávacích systémů a metod v ČR.

• Jak se moderně dá publikovat bibliografie - viz materiál The Institutional Repository and ETD Bibliography 2011(http://digital-scholarship.org/iretd/iretd.pdf) a pravidelně vydávaná bibliografie na http://digital-scholarship.org/gbsb/gbsb.htm

• Neměla by se ztratit základní kostra článkové bibliografie v databázi ANL, kterou navrhuji po­stupně „obalovat“. Metadata získaná digitalizací a z monitoringu od roku 2011 importovat do báze ANL, z pozdějších let pouze ta, co chybí. Doplňovat data od kooperujících institucí, na které se excerpce NK ČR převedla, a dalších spolupracujících systémů.

• Vydávat dále měsíčně soupisy ČNB - Články a vytvořit jejich přehledný archiv.

• Udržovat dobře strukturované www stránky, které by byly rozcestníkem pro systém zpracování článků v rámci ČNB. Články a systém jejich zpracování v ČR s excerpční základnou KOSABI realizovat v návaznosti na Registr digitalizace.

• Zpřístupnit články KOSABI v Europeaně, TEL a jiných mezinárodních systémech.

• Zachovat ČNB - Články v rámci KOSABI prostřednictvím Národní digitální knihovny, její doplňování o nově vycházející tituly k digitalizaci a z kooperace by mělo být do budoucna jedním z cílů NK ČR.

• Mohlo by se stát, že kvůli množství článkových informací často polytematického charakteru, propojování a vyhledávání v plných textech bychom nenašli to, co potřebujeme.

• Nabízí se využití báze ANL ve formě citačního rejstříku napojeného na plné texty a publikování ČNB - Články na www. V rámci báze může existovat několik subsystémů, včetně dílčí databáze plných textů, která je již založena. Tu je třeba doplnit archivem.

Je nutné zajistit potřebná metadata jako základní navigační prvek k zpřístupnění plných textů, ta mohou být obsažena:

a) v samotných plných textech (např. báze ANL FULL vzniklá v projektech 2000-2004, db Anopress);

b) mimo plné texty (dosud báze ANL a jiné báze a zdroje).

Metadata mohou vznikat:

a) již u samotných autorů, nakladatelů, distributorů informací aj. institucí;

b) analytická metadata mohou být i produktem digitalizace (Kramerius a jiné systémy);

c) mohou se generovat, extrahovat;

d) mohou vznikat „lidsky“;

e) kombinací automatického a lidského zpracování;

f) mohou se „shrabovat“ a „stahovat“.

K jednotlivým kategoriím excerpční základny KOSABI (v rámci bodu A-D) je možno do budoucna specifikovat podkategorie titulů a návaznosti:

A) Seriály vydávané AV ČR a vysokými školami v ČR (časopisy, sborníky, ročenky) - zpřístupnění článků by si mohly do budoucna zajistit tyto instituce samy a/nebo po dohodě s knihovnami (tyto instituce mají nebo začínají budovat své repozitáře a digitální archivy); v tomto případě zajistit návaznost na ČNB - Články; věcná indexace podle možností a vývoje; možná je spolupráce s fakultami UK a MU, se Západočeskou univerzitou v Plzni a dalšími vysokými školami, AV ČR, otevřenými a jinými archivy, nakladateli, vydavateli; odborná publikační činnost; data z Krameria.

B) Seriály (časopisy, sborníky, ročenky) vydávané ostatními odbornými institucemi v ČR - zde je pole pro jednání a dohody o spolupráci mezi nakladateli a knihovnami, možnost rozšíření portfolia Anopress o tyto tituly, spolupráce s Newtonem, zajistit návaznost na ČNB - Články; věcná indexace podle možností a vývoje; odborná publikační činnost, otevřené a další archivy; data z Krameria.

C) Noviny (ústřední i regionální) a kulturně-politické časopisy - některé jsou obsaženy v db Anopress a Newton i s metadaty, není věcný popis, ale krátký souhrn, doplnit z věcného hlediska, návaznost na ČNB - Články; spolupráce s vydavateli; spolupráce se SKAT; publikační činnost; otevřené a jiné archivy; data z Krameria.

D) Populárně-naučné časopisy (i zájmové) - stejné jako bod C.

Pro všechny tituly platí návaznost na digitální knihovny, repozitáře, archivy. Plné texty jsou jistě přidanou hodnotou, ke které všichni směřujeme. Je ale třeba se k nim dostat z přehledně koncipovaných sbírek. Propojování informací a interoperabilita systémů může být v tak obrovském množství, které články ze své podstaty tvoří, někdy zavádějící.

Z hlediska podrobnosti dat uváděných v analytických záznamech lze určit záznamy obsahující:

1. základní jmenný popis, tzv. subminimální záznam,

2. minimální údaje - tj. minimální záznam,

3. jmenný popis a konspekt a/nebo MDT,

4. jmenný i věcný popis.

Základním předpokladem optimalizace zpřístupnění plných textů je existence nových modelů získávání, zpracování a zpřístupňování bibliografických informací a nutnost změn v chování uživatele (human computer interaction) v souvislosti s rozvojem elektronického publikování, které se týká autorů, nakladatelů, vydavatelů, knihovníků a uživatelů.

Optimalizace zpřístupnění plných textů znamená také jejich zpřístupnění v různých institucích a instancích, které jsou vzájemně interoperabilní. Metadata lze zčásti získávat automatizovaně, domnívám se však, že i nadále je při jejich vzniku (zejména při věcné indexaci, která je tak nutná pro dobrou rešerši) nepostradatelný lidský faktor. Vyhledávání v plných textech a/nebo abstraktech, pokud to není vyhledávání pojmové, není dostačující.

Ve studii Současný stav a trendy automatické indexace dokumentů -

http://full.nkp.cz/nkdb/docs/studie/MAIobsah.html (2002) se konstatuje, že metody extrakce, automatického přiřazování mají úspěch spíše v databázích zaměřených na určitý obor nebo problematiku či dokumenty.

Je dobré udržet tradici české článkové bibliografie v nových podmínkách a přijatelným způsobem tak, jak se o to snaží na Slovensku, viz materiál vystavený na stránkách Národnej bibliografickej agentúry (http://www.snk.sk/?narodny-bibliograficky-ustav-poslanie).

CELÝ MATERIÁL KE STAŽENÍ ZDE