Chestiuni documentaristice (inclusiv bibliologice)

Dan Matei (care își dă și el cu părerea).

Archive for the ‘Europeana.eu’ Category

Proiectul E-Cultura (la jumătatea drumului)

leave a comment »

Acum se poate vedea o prezentare „oficioasă” a proiectului E-Cultura: http://culturalia.ro/

 

Iată un rezumat:

Prin proiectul E-Cultura – desfășurat de către Ministerul Culturii prin Unitatea de Management a Proiectului [UMP] – se va constitui Biblioteca Digitală a României (Culturalia), pandantul național al Bibliotecii Digitale Europene Europeana (Europeana).

Proiectul este cuprins în „Programul Operațional Competitivitate” (2016-2020), acțiunea 2.3.3: Îmbunătățirea conținutului digital și a infrastructurii TIC sistemice în domeniul e-educație, e-incluziune, e-sănătate și e-cultură” (finanțat cu c. 11 milioane euro).

Obiectivele proiectului (iulie 2018 – iunie 2021) sunt:

  • Dezvoltarea unei platforme informatice online de catalog partajat și portal de bibliotecă digitală (culturalia.ro), disponibilă gratuit oricărei instituție culturală, precum și publicului larg.
  • Expunerea online în Biblioteca Digitală a României (Culturalia) a peste 550.000 de bunuri culturale (texte, imagini, audiograme, videograme, obiecte 3D), din care, c. 200.000 vor fi expuse și în Europeana.

Cele două obiective majore pot fi detaliate astfel:

 

A. Platforma Culturalia.ro:

  • Dezvoltarea propriu-zisă a platformei informatice (i.e. a softului) pentru catalog partajat, platformă care va stoca metadatele (i.e. fișele descriptive ale) resurselor culturale.
  • Migrarea datelor din bazelor de date naționale ale patrimoniului cultural existente în prezent și „integrarea” lor în platformă. De notat că în catalogul partajat se vor putea înregistra atât bunuri fizice din colecțiile bibliotecilor, muzeelor și arhivelor, cât și exponate digitale, așadar catalogul va constitui și portalul bibliotecii digitale.
  • „Asimilarea” de vocabulare controlate consacrate pe plan internațional și elaborarea de echivalențe românești, pe măsura necesităților practice.

Catalogul partajat culturalia.ro va fi disponibil gratuit, practic oricui, desigur în grade diferite. Cu alte cuvinte, fiecare participant (instituție sau persoană) va decide cât și cum expune public. Așadar, platforma va oferi un serviciu public important.

 

B. Expunerea masivă în bibliotecile digitale culturalia.ro și europeana.eu:

  • Digitizarea propriu-zisă (scanarea, fotografierea) a minimum 550.000 de resurse culturale și catalogarea (fișarea) lor.
  • Înființarea repozitului digital al platformei, în care vor putea fi stocate obiectele digitale expuse în portalul bibliotecii digitale.

De notat: obiectele digitale vor putea fi stocate (și accesate) astfel:

  • local, pe serverele furnizorului (dacă conexiunea sa la Internet este suficient de largă pentru a permite accesarea comodă din exterior a obiectelor digitale voluminoase); NB. Obiectele digitale generate prin proiect (i.e. cele 550.000) vor fi stocate (obligatoriu) și pe platforma culturalia.ro;
  • local, plus copii de siguranță pe platforma culturalia.ro;
  • doar pe platforma culturalia.ro.

Cele 550.000 de resurse culturale ce vor fi digitizate și expuse pe culturalia.ro vor proveni din colecțiile a 29 de instituții culturale (muzee, biblioteci, Arhiva Națională de Filme, TVR și Radio România).

 

Starea curentă (noiembrie 2019)

  • La jumătatea lui octombrie a început dezvoltarea platformei Culturalia de către firma Trencadis (câștigătoarea licitației).
  • S-au digitalizat (i.e. digitizat + catalogat) c. 140.000 de resurse culturale.
  • S-au „canonizat” și „aliniat” la vocabularele consacrate acceptate de Europeana (Getty AAT, Getty ULAN, Getty TGN, Geonames, VIAF și Wikidata) c. 3.000 de descriptori (i.e. „entități contextuale” – cum le zice mai nou: concepte, persoane, locuri, perioade etc.).

 

P.S. Eu fac parte din „echipa de implementare”, iar treburile mele sunt:

  • să „monitorizez” dezvoltarea platformei;
  • să mă ocup de terminologie.

În această postură, pot fi contactat la dan.matei@umpcultura.ro.

Written by poliptic

27 noiembrie 2019 at 12:08 pm

leave a comment »

Am ajuns mare ! Dă directorul BCU Cluj cu mine de pământ:

articolul din „Suplimentul de Cultură”

Bun, niște explicații se cam cer…

1. Acum că Biblioteca Națională are o profesionistă în vârf, mă așteptam la un comentariu mai …

<citat>
Aceasta a explicat însă refuzul prin faptul că Ministerul Culturii nu a pus la dispoziția BNaR proiectul de digitizare a resurselor culturale și nu ar fi fost transparent cu privire la realizarea Bibliotecii Digitale a României. „Pe site-ul Unității de Management a Proiectului (UMP) nu se găsește nici o informație despre proiect, în afară de contractarea unor servicii de realizare a unui studiu de fezabilitate al cărui conținut este, de asemenea, nepublic.”
</citat>

Oare cam la ce transparență se aștepta BNaR ? Nicio informație despre proiect ? Păi caietul de sarcini pentru studiul de fezabilitate publicat online în aprilie 2016 spune (cu amănunte) cam tot ce se dorește. Uite-l:

E-Cultura: caiet de sarcini pentru studiul de fezabilitate

Studiul de fezabilitate nu e public, fiindcă așa-i regula. În plus, studiul ăla s-a aprobat abia la sfârșitul lui 2017, mult după ce BNaR a întors spatele proiectului. Și studiul zice cum să se facă ce se cere, deci sunt detalii interesante pentru contractori, nu pentru beneficiari.

<citat>
„… Conform propunerii de Acord de participare transmise de UMP către BNaR, Bibliotecii Naționale i se va da în folosință, prin proiect, un robot de scanare (care ar costa 100.000 de euro – n.r.), echipament inadecvat pentru tipul de documente pe care biblioteca le va digitiza (documente de colecții speciale – cărți vechi și rare, românești și străine, periodice vechi românești și străină, dar și alte documente care nu intră sub incidența legii drepturilor de autor).”
</citat>

Aha ! Deci era o „propunere”. Așadar, era loc de negociere… Și BNaR n-ar avea ce face cu un robot de scanare de carte ? Ea care se laudă cu milioane de cărți ? Fain !

<citat>
„…Biblioteca Națională a transmis în 13 aprilie 2017 către UMP din cadrul Ministerului Culturii un document referitor la propunerea de Acord de participare. (…) Concluzia respectivului document este că semnarea acordului nu numai că nu aduce beneficii instituției în ceea ce privește dezvoltarea bibliotecii digitale, ci chiar poate produce perturbări grave ale activității de digitizare curente din bibliotecă“, a mai explicat Maria Răducu pentru „Suplimentul de cultură“.
</citat>

Așadar, prin proiect, BNaR ar fi primit împrumut niște echipament de scanare (scump) și niște bani pentru catalogare, iar asta i-ar fi produs „perturbări grave ale activității de digitizare curente”. Deci bine a făcut că a refuzat !

2. BCU Cluj: (zice dl. director Orga „Cu regret, dar totul părea varză“. Mă duc iute la DEX; e limpede că îmi scapă un sens fin al termenului „varză”.)

Zice dl. director:

<citat>
„… Venisem să negociez nu intrarea în proiect, ci poziția, în speranța că vom beneficia de o poziție bună între ceilalți parteneri….”
</citat>

Obiectiv: poziție bună. Fain.

<citat>
„… Prin chestionarul amintit se sondase și necesarul estimat, atât sub aspect tehnic, cât și pentru resursa umană. Am cerut o sumă mai mare pentru dotări și una rezonabilă care să acopere salarizarea unei echipe de 18 persoane (catalogatori, indexatori, specialiști IT, specialiști digitizare etc.), între care zece trebuiau să fie angajați pe acest proiect, cu predilecție tineri.
Cu acest ultim aspect se atingea unul dintre obiective, formarea de specialiști. În plus, știm cu toții că multe instituții de cultură duc lipsă de personal de pe urma reducerilor din anii 2009-2010. Noi ne angajam să digitizăm 40.000 de itemi până în anul 2020.
Domnul Dan Matei mi-a spus că noi avem suficiente dotări și nu ne mai trebuie. I-am explicat că tot ce avem e foarte vechi și foarte uzat, căci s-a lucrat foarte mult. De asemenea, lucrăm cu softuri free, depășite etc. Nu puteam să intru în proiect, să mă angajez că fac un număr de obiecte digitale și să rămân fără mijloace. Eram la acel moment chiar într-un impas. Cel mai important scanner al nostru stătea de două-trei luni și nu putea fi reparat. Are o vechime de 12 ani și a costat 70.000 de dolari. De unde să ai bani pentru înlocuirea lui? Cu nonșalanță, același domn m-a liniștit. Noi nici nu trebuia să mai digitizăm, căci aveam foarte multe… doar să facem descrieri analitice la articolele din periodicele de cultură deja digitizate.
Am rămas perplex. Am făcut un efort să nu izbucnesc. I-am explicat că în loc de a trimite în Europeana 20.000 de articole din 10-15 reviste de cultură, prefer să trimit câteva zeci sau sute de reviste de cultură. La cât de slab suntem reprezentați, noi umblam să ne furăm singuri căciula.

O altă doamnă a încercat să mă lămurească de imposibilitatea repartizării dotărilor către instituții din alt minister. I-am întrebat atunci cum văd ei posibilitatea unor muzee sau biblioteci de a-și digitiza obiectele folosind aparatura. Soluția: vor trimite, în baza unui program strict, clar, scanerele și alte aparate dintr-un loc în altul. Adică itinerarea lor prin funcționarii din inspectoratele pentru cultură din județe.

Cu regret, dar totul părea varză. A trebuit să părăsesc sala, căci veniseră reprezentanții altor instituții. Mă simțeam dat afară. Biruit de o mulțime de necunoscute legate de acest grandios proiect.
</citat>

a) Mă tem că dl. director nu s-a uitat de mult pe saitul europeana.eu. Poate ar fi observat că „resurse culturale” în Europeana nu sunt numerele de periodic, adică „containerele” cu articole, ci chiar articolele. Dacă expui numere de periodic, cum face BCU Cluj, vezi asta:

Europeana: prima pagină cu exponatele de la BCU Cluj

Și dacă mergi la unul dintre exponate, de pildă la al doilea:

BCU Cluj: „Țara noastră” nr. 7/1931

ce vezi ? Fișa numărului, din care nu afli nici măcar ce e în numărul ăla. Dar, – mai grav – dacă cineva caută articolele lui Goga (să zicem), n-are cum să găsească articolul lui „România bolnavă”, care se află în numărul ăla. Așadar, continui să zic că ar fi socialmente mai util să se „spargă” numerele în articole și să se fișeze analitic.

b) Bineînțeles că Ministerul Culturii n-are cum să le dea (legal) în proprietate echipamente. Și ce era grav dacă primeau doar „cu împrumut” ? Asta a fost marea dezamăgire a d-lui director: BCU nu se împroprietărea cu niște fierătanii. Bineînțeles că echipamentele vor fi „migrate” de la furnizor la furnizor, fiindcă nu sunt atâtea cât să ajungă definitiv la 29 de instituții, și nici nu e nevoie: mult mai iute se scanează decât se fișează. Sau nu ?

<paranteză>
Cum ? BCU Cluj lucrează cu „softuri free, depășite” ? Și eu care credeam că plata anuală a Aleph-ului e o căruță de bani !
</paranteză>

<citat>
„… La scurtă vreme, am primit o adresă din partea organizatorilor, prin care mi se aducea la cunoștință că așteaptă răspunsul meu, dar să am în vedere că nu voi putea conta decât pe bugetarea a două-trei norme.”
</citat>

Așadar, doar pentru finanțarea a trei oameni timp de trei ani, nu merită să intre în proiect. Fain.

<citat (ultimul)>
„… La începutul anului 2017, am primit de la MEN o adresă prin care eram înștiințați că avem obligația ca tot ce se digitizează să fie trimis pe portalul e-culturalia. Adică unii vor cheltui bani pentru a contribui, altora le luăm cu japca.”
</citat>

Păi tocmai refuzase bani „pentru a contribui”. Și luat „cu japca” ? De către cine și pentru cine ? Trimiterea pe Culturalia înseamnă să-ți expui fișele descriptive într-un catalog din România (adică cam ce trimit ei acum la Worldcat, adică în America – și bine fac !). Obiectele digitale – adică conținutul propriu-zis – rămân pe saitul propriu. Dar, pe de altă parte: cui aparțin colecțiile de la BCU Cluj ? Nu cumva poporului ? Și cu ce bani se digitizează colecțiile alea ? Nu cumva cu bani publici ? Adică ai poporului ? Așadar…

În fine… Să vedeți ce vorbe își vor auzi – de la oamenii lor – directorii de biblioteci ce n-au intrat în proiect, când se va observa prin târg că unii bibliotecari fac un ban (cinstit) – pe lângă leafă – prin proiectul E-Cultura.

12.03.2018

Written by poliptic

12 martie 2018 at 11:59 pm

Expunerea în Europeana: șoc cultural în instituțiile memoriei

with one comment

I. Din nou despre bibliotecile digitale (contemporane)

„Noua generație” de biblioteci digitale a fost inaugurată de Biblioteca Digitală Europeană: Europeana. Aceasta este – de fapt – un catalog colectiv de resurse culturale digitale expuse online (mai ales) de către țările membre ale Uniunii Europene. Așadar, ea oferă acces la metadatele (i.e. fișele catalografice ale) obiectelor digitale care sunt efectiv consultabile pe saiturile contributorilor (peste 3.500 în întreaga Europă), deci într-un mod foarte distribuit. Expunerea metadatelor se face în două moduri: printr-un portal și printr-o interfață programată – API [Application Programming Interface]. Prin portal (fig. 1), utilizatorii pot interoga direct colecția, iar prin API, programatorii afiliați pot dezvolta interfețe de consultare proprii și pot îngloba înregistrări în propriile lor aplicații.

fig-1-europeana-landing

Fig. 1. Pagina natală a portalului Europeana (decembrie 2016)

Europeana a constituit un model pentru alte biblioteci digitale majore. Una dintre cele mai importante este Digital Public Library of America [DPLA] (fig. 2). De notat: DPLA că este una dintre (nu prea multele) inovații europene majore adoptate de americani în ultimii 25 de ani !

fig-2-dpla-landing

Fig. 2. Pagina natală a portalului DPLA (decembrie 2016)

La nivel european, Statele Membre (care se respectă) au dezvoltat biblioteci digitale naționale, pandante ale Europeana. Cea mai masivă este Deutsche Digitale Bibliothek [DDB] (fig. 3).

fig-3-ddb-landing

Fig. 3. Pagina natală a DDB (decembrie 2016)

Se observă că aceste biblioteci digitale expun colecții de multe milioane de lucrări. Dar, cu cele peste 54 de milioane de exponate, Europeana este de peste trei ori mai voluminoasă decât DPLA.

II. Expunerea online

Întâi, o banalitate prea des uitată: de ce conservăm colecțiile ? Desigur, pentru a ne bucura de ele. Adică publicul – cât mai larg – să se bucure de ele ! Prin „bucurie” înțeleg, de bună seamă, satisfacții estetice și intelectuale. De ce merită (re)amintită această banalitate ? Fiindcă, prea adesea instituțiile memoriei uită că trebuie să fie (mereu) orientate către public. Iar expunerea pe web, adică accesibilă celui mai larg public, scoate și mai tare în evidență deficiențele de prezentare ale multor instituții ale memoriei.

Să ne reamintim: la ce e bună expunerea online ? Răspunsurile mele:

  • Contracarează – (măcar) într-o oarecare măsură – „discriminarea geografică” oraș-sat și capitală-provincie. Un bun cultural expus online – chiar dacă sub forma de surogat digital, în cazul lucrărilor tangibile, mai ales obiectele muzeale – are șanse semnificativ mai mari de a ajunge la ochii unui cetățean defavorizat (cultural) de localizarea sa geografică. Iar un text online e la fel de „veritabil” ca și versiunea lui tipărită.
  • Dezvăluie și piesele „ascunse” veșnic prin depozite. Doar e de notorietate că mai toate muzeele își pot expune în expoziția permanentă abia o mică parte a colecției.
  • Permite afișarea de „legende” ample și conexiuni pentru piesele expuse, ceea ce în expozițiile „fizice” rareori se întâmplă.

III. De ce produce Europeana un șoc cultural în instituțiile memoriei ?

În esență: Europeana fiind o platformă online destinată publicului larg, instituțiile memoriei expozante sunt puse în situația de a-și (re)orienta fișele descriptive ale resurselor culturale expuse către ochiul utilizatorului și nu doar al profesionistului.

De regulă, muzeele nici nu-și expun public cataloagele, iar bibliotecile și arhivele pun în fișele lor – pe lângă descrierea pedantă a cărții ca obiect – cel mult câteva vedete de subiect și nelipsiții (dar inutilii) indici CZU. Așadar, cataloagele „tradiționale” nu prea se adresează „clientului”.

Prin urmare, în context digital, metadatele asociate unei lucrări – care în mod tradițional sunt destinate custodelui/curatorului/bibliotecarului – trebuie extinse cu informații destinate utilizatorului. Piesa se cere interpretată, i.e. plasată în context istoric și geografic, iar subiectul și eventualele aluzii, explicate. Așadar, exponatul – fie el imagine sau text – trebuie „înfășurat” într-o poveste contextualizantă.

Exemplificarea 1 (muzee):

Celebrul tablou al lui Poussin „Răpirea sabinelor”. O fișă precum cea din fig. 4 nu spune prea multe privitorului. La „descrierea” „par Poussin”, ce să zici ? Apoi, elementele „cifrate” (e.g. 77.P.Z.) poate semnifică ceva cel mult pentru custodele colecției. Ca să nu mai zicem de inducerea în eroare: „Type: Monograph” (chiar dacă imaginea este extrasă dintr-o monografie). Mai bine ne-ar spune ceva care să sporească înțelegerea lucrării: cine-s sabinele ? cine le răpește ? de ce ? În plus: informarea privind datarea reproducerii (1899) e mult mai puțin relevantă decât ar fi cea despre datarea originalului (c. 1640).
fig-4-poussin-sabine-europeana-2016-10-08a

 Fig. 4. Poussin. „Răpirea Sabinelor”. Fișa unei reproduceri

Din fericire, Luvru însuși oferă o expunere adecvată (fig. 5).

fig-5-poussin-sabine-louvre-2016-10-08

Fig. 5. Poussin. „Răpirea Sabinelor”. Expunerea pe saitul Luvrului

Încă un și mai bun exemplu găsim pe saitul Muzeului Național de Artă al României. „Adorația păstorilor” al lui El Greco (fig. 6.). Pe lângă o descriere textuală adecvată, o avem și în format audio, ba chiar și în format gestual ! (Păcat că la o scară așa de mică – doar 40 de piese se bucură de o asemenea expunere).

fig-6-mnar-el-greco-2016-10-09a

Fig. 6. El Greco. „Adorația păstorilor”. Expunerea pe saitul MNAR

Exemplificarea 2 (biblioteci):

Un roman „obscur”: „Război și pace”. Fișa din fig. 7 ne cam derutează: „2011” ? Sigur, meseriașii înțeleg că ăsta e anul ediției (al manifestării și nu al expresiei sau lucrării, în jargon FRBR). Dar cititorul obișnuit înțelege asta, sau crede că e anul genezei lucrării ? Nimic despre 1863-1869, nimic despre războaiele napoleoniene, nimic despre Borodino. Nici chiar despre Rusia ! Deci nu aflăm nimic despre subiectul romanului ! Și câtă lume înțelege că „821.161.1” înseamnă „literatură rusă”10 ? Și câți bibliotecari – în afara clasificatorilor – înțeleg ? Așadar, cui folosește limbajul ăsta cifrat ?

fig-7-tolstoi-razboi-si-pace-bna

Fig. 7. Tolstoi. „Război și Pace”

Nici fișa din fig. 8 nu e mai grozavă. Ce să înțelegi din „limba: rumrus” ? Că s-a tradus din rusă ? Frumos exprimat ! Apoi, bietul Tolstoi nici nu și-a închipuit că a scris o carte având drept subiecte „literatura rusă” și „roman” ! Similară și fișa din fig. 9.

fig-8-tolstoi-razboi-si-pace-bara

Fig. 8. Tolstoi. „Război și pace”

fig-9-tolstoi-razboi-si-pace-bcua

Fig. 9. Tolstoi. „Război și pace”

Exemplificarea 3 (arhive):

O imagine de arhivă, cu un personaj notoriu (fig. 10). Descriptori semnificativi ? „Künstler” (= artist) ? Apoi: „limba: germană” ? Ce e „lingvistic” în fotografie ? În schimb nu aflăm nimic despre cine mai e în fotografie ? Când a fost făcută ? În ce context ? Nu aflăm nici măcar cine e fotograful. Cu alte cuvinte, ce semnificație culturală are această fotografie ? De ce merită efortul s-o digitizăm, s-o expunem și să o privim ?

fig-10-hitler-ddb-2016-10-08a

Fig. 10. „Adolf Hitler”  în portalul Deutsche Digitale Bibliothek

Exemplele provin de la instituții de frunte. Dacă cele din „liga întâi” nu sunt adaptate încă „expunerii în piața publică”, ce pretenții să avem de la instituțiile mai mici, cu resurse semnificativ mai restrânse !

IV. Cum să ne adaptăm (noi, instituțiile memoriei) ?

Bineînțeles că adaptarea la mediul online nu e simplă și nici imediată. Cere eforturi. Prima cerință este – cred – conștientizarea faptului că trebuie schimbată mentalitatea. Și apoi regândirea fiecărei fișe (i.e. a codurilor de catalogare) prin prisma utilizatorului. Chiar și imaginile trebuie, poate, prelucrate având publicul în minte. Și expunerea textelor trebuie gândită pentru comoditatea utilizatorului. De pildă, fișiere pdf gigantice nu sunt recomandabile: poți aștepta îndelung să se descarce o carte în pdf (și poate să și plătești), ca apoi să constați că te interesau doar două pagini (sau nici măcar atât). Ca să nu mai zicem că fișierele pdf nu-s comod de citit pe dispozitive mobile, i.e. pe ecrane mici. Dacă se poate, e preferabil ca textele să fie expuse în HTML pur.

În privința descrierilor, putem imagina câteva „tactici” practice.

a) Să recuperăm textele descriptive din cataloagele de expoziție.

Mai ales muzeografii obișnuiesc să descrie amplu măcar unele piese pe care le expun, în cataloagele expozițiilor (un exemplu ilustrativ în fig. 11). De regulă, acestea sunt uitate după închiderea respectivelor expoziții. Și e păcat. Aceste descrieri pot fi reutilizate în fișele expuse online, în beneficiul privitorului.

fig-11-altar-votiv

Fig. 11. Text descriptiv dintr-un catalog de expoziție

b) Să „cooperăm” cu editorii și librarii

Putem prelua (cu folos) în fișele catalografice descrierile oferite de editori. În definitiv e și în interesul lor: poate unii utilizatori ai catalogului, decid să cumpere cartea, inspirați de acea descriere. În fig. 12 se vede o asemenea descriere, mult mai expresivă decât fișele catalografice obișnuite.

fig-12-tolstoi-razboi-si-pace-polirom

Fig. 12. Prezentarea unei ediții a romanului „Război și pace”, pe saitul editurii

c) Să „cooperăm” cu Wikipedia

Multă lume din comunitățile noastre profesionale tratează cu dispreț articolele din Wikipedia. Nejustificat. Și în orice caz, în detrimentul clienților noștri. Dacă nu suntem mulțumiți de un articol, n-avem decât să-l îmbunătățim ! Uite, de pildă, o fișa foarte „profesională” (fig. 13), în comparație cu un articol „de amatori” despre aceeași lucrare, din Wikipedia (fig. 14).

fig-13-brancusi-cumintenia-clasate-2016-10-10a

Fig. 13. Fișa „Cumințeniei Pământului” în Inventarul Bunurilor Culturale Mobile Clasate

fig-14-brancusi-cumintenia-wikipedia

Fig. 14. Articolul despre „Cumințenia Pământului” din Wikipedia

Pe de altă parte, să nu ne facem iluzii ! Când un utilizator caută o resursă culturală anume, interoghează Google. Așadar, contează foarte tare unde se regăsește pagina în lista de răspunsuri Google. În cazul „Cumințeniei Pământului”, în decembrie 2016, articolul Wikipedia era pe poziția 4, pe prima pagină, iar fișa din Inventarul clasatelor nu apărea nici în primele 15 pagini ! Bine, să zicem că „scandalul” Cumințeniei alterează ierarhia. Dar, de pildă, în căutarea bustului „Vitellius” al lui Brâncuși, articolul Wikipedia apare pe poziția 1, pe când fișa din Inventarul clasatelor apare abia pe poziția 7.

d) Să renunțăm la CZU

Clasificarea Zecimală Universală [CZU] a fost o mare realizare intelectuală, de mare folos în secolul XIX și secolul XX, până la pătrunderea calculatoarelor în biblioteci. De atunci însă, este un jargon profesional, chiar criptic, parcă anume făcut să ascundă informație prețioasă utilizatorilor. Bineînțeles că o lucrare trebuie clasificată. Dar de ce să mai folosim un limbaj cifrat pentru asta ? Limbajul natural nu e mai „natural” ? Occidentalii de ce folosesc de ani mulți vedete de subiect și descriptori ? Utilizatorul, nedecriptând indicii CZU (deci neavând un limbaj comun cu clasificatorul), poate rata regăsiri utile.

În plus, codificând în CZU, clasificatorii risipesc timp prețios, fiindcă, desigur, găsirea indicelui adecvat este mai consumatoare de timp decât găsirea (sau „inventarea”) unei vedete de subiect adecvate.

e) Să renunțăm la MARC(uri)

Și formatul MARC a fost o mare realizare biblioteconomică a anilor ’60. Dar, acum, după jumătate de secol, cramponarea de el este păguboasă. Nu degeaba Biblioteca Congresului – unde, de altfel, s-a inventat MARC – se pregătește (cam demult !) să treacă la BIBFRAME, un format mai adecvat vremurilor.

În fig. 15 se vede înregistrarea UNIMARC a unei ediții a romanului „Război și pace”. O să mă rezum la obiecția majoră, și anume: ce rost mai are efortul de a evidenția părțile titlului și a mențiunii de responsabilitate ? În afară de a permite afișarea în formalismul ISBD (la ce mai folosește acesta ? nici măcar stilurile consacrate de citare nu folosesc sintaxa ISBD), cui folosește ? N-am întâlnit OPAC care să-ți permită căutarea doar în „mențiunea secundară de responsabilitate”, să zicem. Și chiar dacă softurile ar permite, câți dintre utilizatori măcar înțeleg ce înseamnă această expresie ? Așadar, o transcriere brută sau, și mai bine, ocerizarea paginii de titlu ar fi mai economicoasă.

fig-15-marc-a

Fig. 15. Înregistrarea UNIMARC a fișei din fig. 7

În locul pedantei transcrieri a paginii de titlu, catalogatorii și-ar folosi mai profitabil expertiza la a identifica și caracteriza lucrarea/lucrările și expresia/expresiile cuprinse în manifestarea prelucrată.

Pentru clasificări – în cadrul formatului MARC (la care, desigur, bibliotecile cu ILS-uri tradiționale nu pot renunța, decât odată cu softul) – aș folosi (neortodox) câmpul 686 – Other Class Numbers, adică, în loc de indici numerici aș folosi (fără jenă) limbaj natural.

V. În loc de concluzii

Nu că ar putea asta să ne consoleze, dar nici alții nu-s (mult) mai breji. Vezi (fig. 16; Richard Pevear și Larissa Volokhonsky coautori cu Tolstoi ?).

fig-16-tolstoi-war-and-peace-worldcat-a

Fig. 16. Fișa „Război și pace” în WorldCat

În rezumat, teza mea este că schimbarea de paradigmă pe care o impune Europeana ne impune să ne concentrăm pe descriptori și pe descrieri cât mai ample. O lucrare, cu cât este mai semnificativă cultural, merită să fie „înfășurată” într-o poveste, adică să i se dezvăluie contextul geografic, istoric și cultural, să i se specifice nuanțat subiectul și să i se semnaleze conexiunile cu alte lucrări. Mai mult efort trebuie investit în descrierea lucrărilor, nu a „containerelor”. De pildă, nu descrierea fină a numărului de revistă e interesantă, ci a articolelor dinăuntru ! Și totul, având în minte utilizatorul final: publicul larg.

În fine, mari speranțe îmi pun în viitorul catalog național partajat: culturalia.ro. Acesta va fi deschis atât bibliotecilor, cât și muzeelor și arhivelor și va cuprinde și Biblioteca Digitală a României, pandantul național al Europeana. Modelul său de date se va baza pe modelele conceptuale CIDOC-CRM și FRBRoo, deci va fi foarte contemporan.

 

Written by poliptic

19 ianuarie 2017 at 5:52 pm

Biblioteca Digitală Publică a României: o Misiune Imposibilă ?

leave a comment »

[intervenție la Conferința SRS, Sibiu, 2012]

Prolog

Desigur, titlul este o referință la „Digital Public Library of America” (DPLA) [Biblioteca Digitală Publică a Americii] (Fig. 1). Discuția din SUA despre DPLA este semnificativă și pentru noi, deși DPLA joacă în altă ligă: utilizatorul american are la îndemână multe biblioteci digitale (mari).

Figura 1. DPLA: pagina natală (http://dp.la)

A. Culturalia.ro: ce-ar trebui să fie ?

Culturalia[1] va fi biblioteca digitală[2] a resurselor culturale (digitale) liber accesibile, i.e. atât fără restricții, cât și gratuit. Ea ar trebui să indexeze toate tipurile de resurse, i.e. materiale textuale, audiovizuale, dar și reprezentări digitale de obiecte fizice.

Ea ar trebui să integreze fișiere de autoritate, adică înregistrări de persoane, colectivități, locuri, perioade, evenimente, concepte, subiecte, situații, toate organizate ca „date interconectate”[3].

B. Culturalia.ro: utilitatea

Precum modelul său[4] (i.e. Europeana.eu — Fig. 2), Culturalia ar trebui să fie:

  • pentru utilizatori: un punct de acces unitar la resursele culturale ale națiunii, o sursă autoritativă de cunoștințe și de satisfacții superioare;
  • pentru instituțiile memoriei (biblioteci, muzee, arhive, galerii): o oportunitate de a-și expune online colecțiile;
  • pentru profesioniști: o platformă pentru schimb de cunoștințe.

Figura 2. Europeana.eu: pagina natală (www.europeana.eu)

În plus, Culturalia ar putea constitui o facilitate convenabilă pentru expunerea colecțiilor românești și în Europeana.

Astfel, Culturalia ar putea să furnizeze un serviciu public folositor, într-o vreme când — din pricina mutațiilor tehnologice — biblioteca publică tradițională se transformă și când marea majoritate a muzeelor și a arhivelor pot să-și expună public doar o mică parte din colecții (la care contribuabilul este îndrituit să acceadă).

Mai mult, din pricina naturii sale de serviciu online, Culturalia ar putea fi o cale eficace de diminuare a ceea ce eu numesc „discriminarea geografică” (i.e. acces inegal la „Hochkultur” —  cultura înaltă — al contribuabilului din mediul urban față de cel din mediul rural, și celui bucureștean față de cel din provincie).

C. Culturalia.ro: arhitectura

În fapt, Culturalia va fi un catalog partajat, adică, va fi o bază de date (centrală) conținând metadatele descriptive (i.e. fișele) ale resurselor digitale expuse, și interfața sa utilizator va permite căutarea și baleierea înregistrărilor catalografice, pe lângă navigarea între ele.

 

Figura 3. Culturalia: arhitectura

Obiectele digitale propriu-zise vor fi expuse pe saiturile furnizorilor de conținut (Fig. 3).

După gustul meu, această arhitectură distribuită nu este cea mai bună soluție tehnică, din pricina calității modeste a infrastructurii informatice și a conexiunii lente la internet a multor furnizori de conținut. Totuși, din rațiuni „politice”, e improbabilă o arhitectură centralizată, cel puțin la început: instituțiile memoriei sunt (încă) foarte reticente să-și expună resursele pe saitul altcuiva. Sper măcar la implementarea unui repozit central, ca dublură de siguranță.

D. Probleme (și posibile soluții)

D.1. Probleme tehnice

Desigur metadatele descriptive diferă mult de la o instituție a memoriei la alta (atât în privința proprietăților consemnate, cât și a granularității acestora), iar un catalog partajat centralizat va necesita un model de date suficient de flexibil pentru a acomoda descrierile unei mari varietăți de resurse. Din fericire, modele de date precum CIDOC CRM[5] și FRBR-oo[6] sunt suficient de mature pentru a fi folosite în implementări de producție.

O problemă spinoasă este persistența. Un demers precum Culturalia se bazează pe resurse persistente, adică, când un obiect digital este expus într-o asemenea bibliotecă, se presupune că el va fi accesibil (la aceeași adresă) pe termen lung. Această ipoteză nu e evidentă: instituțiile memoriei își schimbă relativ frecvent furnizorii de internet și adresele web (URL) ale resurselor lor online. Astfel, este necesar un mecanism precum PURL [Persistent Uniform Resource Locators][7]. Totuși, chiar și purl.org este administrat/întreținut de o organizație americană privată (i.e. OCLC), așadar chiar și persistența ei pe termen lung nu e garantată.

D.2. Probleme legale

Din perspectivă legală, expunerea online a lucrărilor din domeniul public nu prezintă nici o problemă. Legalmente, problema principală o constituie resursele protejate încă de drepturi de autor. Din pricina dificultății de a publica online opere sub copyright, avem în Europeana (și în toate celelalte biblioteci digitale, de altfel) ceea ce numim „gaura neagră a secolului XX”, adică proporția minoră a materialului de secol XX (și XXI, desigur). Bineînțeles că vom avea aceeași problemă și în Culturalia. Totuși, există soluții ! Favorita mea este ceea ce numesc „modelul maghiar”: Digitális Irodalmi Akadémia[8] —biblioteca digitală a literaturii maghiare contemporane care cuprinde lucrările celor mai importanți scriitori maghiari de azi, începând cu cei mai premiați internațional (e acolo și Sütő András[9] al nostru). Pentru realizarea ei, guvernul maghiar a cumpărat drepturile de (re)publicare online a operelor. Cine oprește guvernul român să facă ceva similar ?

Tot o problemă legală majoră este (re)publicarea online a așa numitelor „opere orfane”, adică lucrările având deținătorii drepturilor intelectuale neidentificați. În cadrul legislativ curent, o lucrare orfană este — practic — exclusă de la expunerea online (de altfel și de la alt fel de expunere), ceea ce — în opinia mea — este contrar interesului autorului/autorilor ei.

Comisia Europeană a adoptat în 2011 (doar) o propunere de Directivă a Parlamentului European și a Consiliului privind anumite utilizări admise ale operelor orfane [Directive of the European Parliament and of the Council on certain permitted uses of orphan works][10], care e firavă, în opinia mea. Ea cere o „căutare diligentă” extensivă a deținătorilor de drepturi și remunerare pentru utilizarea operei, în caz de revendicare. Eu aș prefera o „naționalizare” a operelor orfane, publicarea lor online și acces public gratuit. Și, în caz de revendicare justificată,  restitutio in integrum ![11]

Pe de altă parte, în octombrie 2011, Comisia Europeană a emis Recomandarea C(2011) 7579 privind digitizarea și accesibilitatea online a materialelor culturale, precum și prezervarea digitală [Recommendation on the digitisation and online accessibility of cultural material and digital preservation][12], care, la articolul 5(a) zice:

să se asigure că materialul aflat în domeniul public rămâne în domeniul public după digitizare.

Dar ce se cheamă că un obiect fizic (să zicem o pictură) aflat în domeniul public e „digitizat” ? De regulă, e fotografiat digital. În cazul acesta, obiectul fizic rămâne în domeniul public, dar reprezentarea sa digitală, i.e. fotografia, este sub copyrightul fotografului (e un obiect distinct !). Pentru cazurile astea, sugestia mea ar fi o modificare a legii drepturilor de autor care să stipuleze o distincție între o fotografie artistică (i.e. o operă de artă) și o „reproducere” a unei opere. Asta ar presupune ca fotograful să specifice dacă fotografia e operă de artă sau reproducere. Iar reproducerea unei opere aflată în domeniul public să intre automat în domeniul public.

În cazul operelor textuale, dacă legea depozitului legal ar fi convenabil modificată astfel încât editorul să trebuiască să depună nu doar cele câteva exemplare tipărite, ci și „matrița” digitală a unei ediții[13], Biblioteca Națională ar putea (re)publica online ediția digitală, dacă ea se află în domeniul public, să zicem după 12 luni de la depunere.

D.3. Probleme practice

Desigur, o problemă practică majoră e finanțarea.

Niște bani sunt necesari pentru dezvoltarea platformei soft. Nu prea mulți, fiindcă există și componente open source disponibile.

Apoi, o problemă serioasă este finanțare proceselor de digitizare propriu-zise. Dar digitizarea e un proces scalabil. Digitizăm de câți bani avem. Nu e neapărat nevoie de investiții inițiale. Digitizarea se poate foarte bine externaliza. Există deja mai multe firme românești foarte competente/eficiente la digitizat. Mai mult, sunt instituții românești importante care au mici dar funcționale unități de digitizare, așadar există deja o finanțare implicită. Ca să nu mai zicem de fotografii muzeelor care — de când cu camerele digitale — digitizează prin definiție.

Pe de altă parte, deja există un volum semnificativ de resurse digitale românești pe web. Mulți „amatori” fac o treabă admirabilă (WikiLovesMonuments e un bun exemplu[14]). Problema cu aceste resurse e că au nevoie și de metadate descriptive (catalogare și indexare). Și asta ar fi mai degrabă treaba profesioniștilor din instituțiile memoriei.

Pe alt plan, avem problema (re)publicării materialelor „problematice”: cum să expui online materiale reprobabile, dar istoric semnificative ? Cum să publici online, să zicem, scrierile antisemite ale lui Eminescu ? Online e mai dificil decât într-un volum fizic să oferi o contextualizare adecvată. O „înrămare” specifică poate ?

E. Culturalia.ro: o misiune imposibilă ?

Principala problemă nu sunt banii. Principala problemă e voința (scuze pentru vorba mare) de a realiza Biblioteca Digitală Publică a României. Și aici Ministerul Culturii are rolul primordial.

Mentalitatea multor directori de instituții ale memoriei nu e de ajutor. Tradiționala temere de a nu pierde utilizatori este încă foarte prezentă în România de azi.

După părerea mea, Ministerul Culturii ar trebui să impună (măcar) instituțiilor naționale  obiective concrete de digitizare/expunere online. Pe de altă parte, guvernul ar trebui să impună recomandarea Comisiei Europene care cere ca toate materialele digitizate pe bani publici să fie expuse online.

Nu, Biblioteca Digitală Publică a României nu este o „misiune imposibilă”. Dar nici ușoară nu e. Speranța mea stă în comunitățile profesionale. Ele — cu sprijin substanțial din partea „amatorilor” și folosind isteț fonduri europene —vor dezvolta Culturalia în marginea activităților lor curente, chiar dacă guvernul nu manifestă un mare entuziasm.

Dezvăluire: angajatorul meu, Institutul Național al Patrimoniului, este agregatorul național pentru Biblioteca Digitală Europeană și eu sunt responsabil pentru această activitate.


[1] Stipulată prin Hotărârile Guvernului nr.  1410/2009 (art. 5) – www.legex.ro/Hotarare-1410-18.11.2009-101121.aspx și   nr. 593/2011 (art. 2/z) – www.legex.ro/Hotararea-593-2011-113280.aspx.
[2] Ca și în cazul altor proiecte similare (e.g. Europeana www.europeana.eu sau DPLA http://dp.la) îi spunem „bibliotecă digitală” prin extensie: ne lipsește un termen generic pentru biblioteci digitale, muzee digitale, arhive digitale etc.
[11] Prin analogie: care este atitudinea normală a statului față de o bucată de pământ pe care n-o revendică nimeni ? Sau chiar față de un copil „al nimănui” ?
[13] acum, practic, toate publicațiile sunt digitale înainte de a fi tipărite.

Written by poliptic

7 iulie 2012 at 10:00 pm

Date interconectate: de-construcția înregistrărilor catalografice

with one comment

Biblioteca Digitală Europeană europeana.eu nu-și propune doar să ofere publicului larg un punct unic de acces la patrimoniul cultural european (vezi și postarea anterioară), ci și să ofere instituțiilor culturale, industriilor creative și chiar dezvoltatorilor individuali posibilitatea de a reutiliza metadatele pe care le acumulează (de unde și cerința de licențiere Creative Commons CC0 [„No rights reserved”]). Pentru aceasta, va expune aceste metadate sub formă de „date interconectate deschise” [Linked Open Data – LOD]. Semnificativ: sintagma „linked data” a fost propusă în 2006 de Tim Berners-Lee, „inventatorul” webului (vezi celebrele-i principii).

„Date interconectate” este o paradigmă (relativ) nouă, care presupune asocierea de enunțuri/aserțiuni pe web, în maniera în care sunt conectate paginile pe/între saituri. Rațiunea lor este ceea ce se cheamă „webul semantic”, adică asocieri semantice între entități pe web (sau cum zice sloganul recent lansatului Google Knowledge Graph: „things, not strings” [lucruri, nu șiruri (de caractere)]) care să permită agenților soft (e.g. motoarelor de căutare) să facă inferențe logice. Și ideea e ca aceste interconectări să se facă (și) între aserțiuni provenite din surse diferite.

De pildă, cineva poate să expună pe web aserțiunile:

„Coloana fără sfârșit” se află la Târgu Jiu.

Brâncuși este autorul „Coloanei fără sfârșit”

Altcineva expune aserțiunea:

Târgu Jiu se află în Gorj.

În fine, altcineva zice:

Județul Gorj se află în România.

Dacă aceste aserțiuni sunt conectate, un agent soft deștept poate include „Coloana fără sfârșit” în răspunsul la întrebarea „Care sunt operele lui Brâncuși aflate în România”.

Pentru a fi (convenabil) expuse/accesate pe web, aceste aserțiuni trebuie aduse la o formă procesabilă automat. Simplificând la maximum, acest formalism se reduce la exprimarea aserțiunilor ca triplete de forma:

<subiect> <predicat> <obiect>

Pentru exemplul meu, acestea ar fi:

subiect

predicat

obiect

Coloana fără sfârșit are ca autor pe Brâncuși
Coloana fără sfârșit localizat(ă) în Târgu Jiu
Târgu Jiu face parte din Gorj
Gorj face parte din România

Subiectele sunt instanțe ale unor clase, iar obiectele pot fi instanțe ale unor clase sau literali (e.g. șiruri de caractere).

Se vede că în aceste aserțiuni sunt implicate următoarele entități: una din clasa „persoană”, una din clasa „artefact”, una din clasa „localitate” și două din clasa „unități geo-politice”. Ca să aibă șanse ca aserțiunile care le implică să fie conectate, aceste entități ar trebui să aibă identificatori unici și persistenți, care să nu fie simple șiruri de caractere (ambigue, de regulă). Prin urmare, aserțiunile despre aceste entități ar trebui să arate cam așa:

subiect

predicat

obiect

id1 denumit(ă) Coloana fără sfârșit
id1 localizat(ă) în id2
id1 are ca autor pe id5
id2 denumit(ă) Târgu Jiu
id2 face parte din id3
id3 denumit(ă) Gorj
id3 face parte din id4
id4 denumit(ă) România
id5 denumit(ă) Brâncuși

Pentru a trata astfel datele catalografice, tradiționala fișă trebuie deconstruită, adică descompusă în aserțiuni elementare, cât mai granulare. Simplificând (până către grotesc), transformarea unor fișe exprimate tabelar în date interconectabile ar putea fi ilustrată ca în figura 1 și tabela care-o urmează.

Fig. 1. Exprimare tabelară a fișelor catalografice

subiect

predicat

obiect

id1 are ca titlu Război și Pace
id1 are ca autor pe Tolstoi
id2 are ca titlu Iliada
id2 are ca autor pe Homer

De fapt, nici nu e o reprezentare neobișnuită. De mulți ani, matricile/tabelele rare (i.e. cu puține celule ocupate) se reprezintă în memoria computerelor, cam la fel: (linia celulei, coloana celulei, conținutul celulei).

În figura 2 se ilustrează (foarte simplificat) cum se pot interconecta/agrega aserțiuni provenind din surse diferite (sugerate prin culori diferite). Adică, cineva asertează că „Război și pace” (o lucrare, în terminologia FRBR Functional Requirements for Bibliographic Records) are drept creator pe Tolstoi. Altcineva adaugă aserțiuni despre o expresie a lucrării în limba engleză, iar altcineva aserțiuni despre o expresie în limba română. În fine, din alte surse provin apelațiunile lui Tolstoi în engleză, respectiv în rusă.

Fig. 2. Exemplu de agregare de aserțiuni

Nu e obligatoriu ca un literal care e obiectul unei aserțiuni să fie un simplu șir de caractere sau un număr sau o dată. El poate avea o structură internă. Astfel, de pildă, el poate fi un document XML sau chiar un element MARC. Unor astfel de literali și se asociază o așa-zisă „schemă sintactică” (Syntax Encoding Scheme). De pildă, putem aserta atributul (tipic) al unei manifestări bibliografice (i.e. o ediție) „titlu și mențiune de responsabilitate” într-o schemă sintactică XML:

sau în schema sintactică UNIMARC:

Asta se afișează (în formalismul ISBD [International Standard Bibliographic Description] http://www.ifla.org/publications/international-standard-bibliographic-description) astfel:

Pour les valeurs bourgeoises / par Georges Hourdin. Contre les valeurs bourgeoises / par Gilbert Ganne

Modelul conceptual „clasic” pentru datele interconectate este RDF [Resource Description Framework] care, în esență, definește tripletele subiect-predicat-obiect.

Din punct de vedere practic, bazele de date ce implementează modelul RDF („triplestore”) au și avantajul că au tabele (abstracte și) puține, plus permit tratarea unitară a claselor și proprietăților (predicatelor), precum și a instanțelor acestora. Adică e posibilă adăugarea oricând de noi clase și proprietăți (care pot fi rafinări sau abstractizări ale celor deja existente), cu alte cuvinte se pot aduce modificări taxonomiei subiacente, fără a se modifica structura bazei de date. Așadar administratorul bazei de date poate face asta fără a apela la programatori. De pildă, dacă avem clasa „organizație”, oricând se poate adăuga o subclasă a acesteia, „persoană juridică”. Similar, dacă avem proprietatea „are drept contributor pe”, se poate adăuga o subproprietate a acesteia, „are drept scenograf pe”. Dezavantajul acestui gen de baze de date pare a fi complexitatea sporită pe care o impune interogărilor.

 

Deja biblioteci importante — cum ar fi British Library (2,6 milioane de înregistrări, care au generat 84.961.180 triplete – mai 2012) sau British Museum  — își oferă informațiile bibliografice sub formă de date interconectate deschise (adică atât gratuite, cât  și liber reutilizabile !).

 

În postarea următoare se va expune o schiță a proiectului portalului culturalia.ro.

Written by poliptic

29 mai 2012 at 10:58 pm