Chestiuni documentaristice (inclusiv bibliologice)

Dan Matei (care își dă și el cu părerea).

Archive for the ‘Europeana.eu’ Category

Expunerea în Europeana: șoc cultural în instituțiile memoriei

with one comment

I. Din nou despre bibliotecile digitale (contemporane)

„Noua generație” de biblioteci digitale a fost inaugurată de Biblioteca Digitală Europeană: Europeana. Aceasta este – de fapt – un catalog colectiv de resurse culturale digitale expuse online (mai ales) de către țările membre ale Uniunii Europene. Așadar, ea oferă acces la metadatele (i.e. fișele catalografice ale) obiectelor digitale care sunt efectiv consultabile pe saiturile contributorilor (peste 3.500 în întreaga Europă), deci într-un mod foarte distribuit. Expunerea metadatelor se face în două moduri: printr-un portal și printr-o interfață programată – API [Application Programming Interface]. Prin portal (fig. 1), utilizatorii pot interoga direct colecția, iar prin API, programatorii afiliați pot dezvolta interfețe de consultare proprii și pot îngloba înregistrări în propriile lor aplicații.

fig-1-europeana-landing

Fig. 1. Pagina natală a portalului Europeana (decembrie 2016)

Europeana a constituit un model pentru alte biblioteci digitale majore. Una dintre cele mai importante este Digital Public Library of America [DPLA] (fig. 2). De notat: DPLA că este una dintre (nu prea multele) inovații europene majore adoptate de americani în ultimii 25 de ani !

fig-2-dpla-landing

Fig. 2. Pagina natală a portalului DPLA (decembrie 2016)

La nivel european, Statele Membre (care se respectă) au dezvoltat biblioteci digitale naționale, pandante ale Europeana. Cea mai masivă este Deutsche Digitale Bibliothek [DDB] (fig. 3).

fig-3-ddb-landing

Fig. 3. Pagina natală a DDB (decembrie 2016)

Se observă că aceste biblioteci digitale expun colecții de multe milioane de lucrări. Dar, cu cele peste 54 de milioane de exponate, Europeana este de peste trei ori mai voluminoasă decât DPLA.

II. Expunerea online

Întâi, o banalitate prea des uitată: de ce conservăm colecțiile ? Desigur, pentru a ne bucura de ele. Adică publicul – cât mai larg – să se bucure de ele ! Prin „bucurie” înțeleg, de bună seamă, satisfacții estetice și intelectuale. De ce merită (re)amintită această banalitate ? Fiindcă, prea adesea instituțiile memoriei uită că trebuie să fie (mereu) orientate către public. Iar expunerea pe web, adică accesibilă celui mai larg public, scoate și mai tare în evidență deficiențele de prezentare ale multor instituții ale memoriei.

Să ne reamintim: la ce e bună expunerea online ? Răspunsurile mele:

  • Contracarează – (măcar) într-o oarecare măsură – „discriminarea geografică” oraș-sat și capitală-provincie. Un bun cultural expus online – chiar dacă sub forma de surogat digital, în cazul lucrărilor tangibile, mai ales obiectele muzeale – are șanse semnificativ mai mari de a ajunge la ochii unui cetățean defavorizat (cultural) de localizarea sa geografică. Iar un text online e la fel de „veritabil” ca și versiunea lui tipărită.
  • Dezvăluie și piesele „ascunse” veșnic prin depozite. Doar e de notorietate că mai toate muzeele își pot expune în expoziția permanentă abia o mică parte a colecției.
  • Permite afișarea de „legende” ample și conexiuni pentru piesele expuse, ceea ce în expozițiile „fizice” rareori se întâmplă.

III. De ce produce Europeana un șoc cultural în instituțiile memoriei ?

În esență: Europeana fiind o platformă online destinată publicului larg, instituțiile memoriei expozante sunt puse în situația de a-și (re)orienta fișele descriptive ale resurselor culturale expuse către ochiul utilizatorului și nu doar al profesionistului.

De regulă, muzeele nici nu-și expun public cataloagele, iar bibliotecile și arhivele pun în fișele lor – pe lângă descrierea pedantă a cărții ca obiect – cel mult câteva vedete de subiect și nelipsiții (dar inutilii) indici CZU. Așadar, cataloagele „tradiționale” nu prea se adresează „clientului”.

Prin urmare, în context digital, metadatele asociate unei lucrări – care în mod tradițional sunt destinate custodelui/curatorului/bibliotecarului – trebuie extinse cu informații destinate utilizatorului. Piesa se cere interpretată, i.e. plasată în context istoric și geografic, iar subiectul și eventualele aluzii, explicate. Așadar, exponatul – fie el imagine sau text – trebuie „înfășurat” într-o poveste contextualizantă.

Exemplificarea 1 (muzee):

Celebrul tablou al lui Poussin „Răpirea sabinelor”. O fișă precum cea din fig. 4 nu spune prea multe privitorului. La „descrierea” „par Poussin”, ce să zici ? Apoi, elementele „cifrate” (e.g. 77.P.Z.) poate semnifică ceva cel mult pentru custodele colecției. Ca să nu mai zicem de inducerea în eroare: „Type: Monograph” (chiar dacă imaginea este extrasă dintr-o monografie). Mai bine ne-ar spune ceva care să sporească înțelegerea lucrării: cine-s sabinele ? cine le răpește ? de ce ? În plus: informarea privind datarea reproducerii (1899) e mult mai puțin relevantă decât ar fi cea despre datarea originalului (c. 1640).
fig-4-poussin-sabine-europeana-2016-10-08a

 Fig. 4. Poussin. „Răpirea Sabinelor”. Fișa unei reproduceri

Din fericire, Luvru însuși oferă o expunere adecvată (fig. 5).

fig-5-poussin-sabine-louvre-2016-10-08

Fig. 5. Poussin. „Răpirea Sabinelor”. Expunerea pe saitul Luvrului

Încă un și mai bun exemplu găsim pe saitul Muzeului Național de Artă al României. „Adorația păstorilor” al lui El Greco (fig. 6.). Pe lângă o descriere textuală adecvată, o avem și în format audio, ba chiar și în format gestual ! (Păcat că la o scară așa de mică – doar 40 de piese se bucură de o asemenea expunere).

fig-6-mnar-el-greco-2016-10-09a

Fig. 6. El Greco. „Adorația păstorilor”. Expunerea pe saitul MNAR

Exemplificarea 2 (biblioteci):

Un roman „obscur”: „Război și pace”. Fișa din fig. 7 ne cam derutează: „2011” ? Sigur, meseriașii înțeleg că ăsta e anul ediției (al manifestării și nu al expresiei sau lucrării, în jargon FRBR). Dar cititorul obișnuit înțelege asta, sau crede că e anul genezei lucrării ? Nimic despre 1863-1869, nimic despre războaiele napoleoniene, nimic despre Borodino. Nici chiar despre Rusia ! Deci nu aflăm nimic despre subiectul romanului ! Și câtă lume înțelege că „821.161.1” înseamnă „literatură rusă”10 ? Și câți bibliotecari – în afara clasificatorilor – înțeleg ? Așadar, cui folosește limbajul ăsta cifrat ?

fig-7-tolstoi-razboi-si-pace-bna

Fig. 7. Tolstoi. „Război și Pace”

Nici fișa din fig. 8 nu e mai grozavă. Ce să înțelegi din „limba: rumrus” ? Că s-a tradus din rusă ? Frumos exprimat ! Apoi, bietul Tolstoi nici nu și-a închipuit că a scris o carte având drept subiecte „literatura rusă” și „roman” ! Similară și fișa din fig. 9.

fig-8-tolstoi-razboi-si-pace-bara

Fig. 8. Tolstoi. „Război și pace”

fig-9-tolstoi-razboi-si-pace-bcua

Fig. 9. Tolstoi. „Război și pace”

Exemplificarea 3 (arhive):

O imagine de arhivă, cu un personaj notoriu (fig. 10). Descriptori semnificativi ? „Künstler” (= artist) ? Apoi: „limba: germană” ? Ce e „lingvistic” în fotografie ? În schimb nu aflăm nimic despre cine mai e în fotografie ? Când a fost făcută ? În ce context ? Nu aflăm nici măcar cine e fotograful. Cu alte cuvinte, ce semnificație culturală are această fotografie ? De ce merită efortul s-o digitizăm, s-o expunem și să o privim ?

fig-10-hitler-ddb-2016-10-08a

Fig. 10. „Adolf Hitler”  în portalul Deutsche Digitale Bibliothek

Exemplele provin de la instituții de frunte. Dacă cele din „liga întâi” nu sunt adaptate încă „expunerii în piața publică”, ce pretenții să avem de la instituțiile mai mici, cu resurse semnificativ mai restrânse !

IV. Cum să ne adaptăm (noi, instituțiile memoriei) ?

Bineînțeles că adaptarea la mediul online nu e simplă și nici imediată. Cere eforturi. Prima cerință este – cred – conștientizarea faptului că trebuie schimbată mentalitatea. Și apoi regândirea fiecărei fișe (i.e. a codurilor de catalogare) prin prisma utilizatorului. Chiar și imaginile trebuie, poate, prelucrate având publicul în minte. Și expunerea textelor trebuie gândită pentru comoditatea utilizatorului. De pildă, fișiere pdf gigantice nu sunt recomandabile: poți aștepta îndelung să se descarce o carte în pdf (și poate să și plătești), ca apoi să constați că te interesau doar două pagini (sau nici măcar atât). Ca să nu mai zicem că fișierele pdf nu-s comod de citit pe dispozitive mobile, i.e. pe ecrane mici. Dacă se poate, e preferabil ca textele să fie expuse în HTML pur.

În privința descrierilor, putem imagina câteva „tactici” practice.

a) Să recuperăm textele descriptive din cataloagele de expoziție.

Mai ales muzeografii obișnuiesc să descrie amplu măcar unele piese pe care le expun, în cataloagele expozițiilor (un exemplu ilustrativ în fig. 11). De regulă, acestea sunt uitate după închiderea respectivelor expoziții. Și e păcat. Aceste descrieri pot fi reutilizate în fișele expuse online, în beneficiul privitorului.

fig-11-altar-votiv

Fig. 11. Text descriptiv dintr-un catalog de expoziție

b) Să „cooperăm” cu editorii și librarii

Putem prelua (cu folos) în fișele catalografice descrierile oferite de editori. În definitiv e și în interesul lor: poate unii utilizatori ai catalogului, decid să cumpere cartea, inspirați de acea descriere. În fig. 12 se vede o asemenea descriere, mult mai expresivă decât fișele catalografice obișnuite.

fig-12-tolstoi-razboi-si-pace-polirom

Fig. 12. Prezentarea unei ediții a romanului „Război și pace”, pe saitul editurii

c) Să „cooperăm” cu Wikipedia

Multă lume din comunitățile noastre profesionale tratează cu dispreț articolele din Wikipedia. Nejustificat. Și în orice caz, în detrimentul clienților noștri. Dacă nu suntem mulțumiți de un articol, n-avem decât să-l îmbunătățim ! Uite, de pildă, o fișa foarte „profesională” (fig. 13), în comparație cu un articol „de amatori” despre aceeași lucrare, din Wikipedia (fig. 14).

fig-13-brancusi-cumintenia-clasate-2016-10-10a

Fig. 13. Fișa „Cumințeniei Pământului” în Inventarul Bunurilor Culturale Mobile Clasate

fig-14-brancusi-cumintenia-wikipedia

Fig. 14. Articolul despre „Cumințenia Pământului” din Wikipedia

Pe de altă parte, să nu ne facem iluzii ! Când un utilizator caută o resursă culturală anume, interoghează Google. Așadar, contează foarte tare unde se regăsește pagina în lista de răspunsuri Google. În cazul „Cumințeniei Pământului”, în decembrie 2016, articolul Wikipedia era pe poziția 4, pe prima pagină, iar fișa din Inventarul clasatelor nu apărea nici în primele 15 pagini ! Bine, să zicem că „scandalul” Cumințeniei alterează ierarhia. Dar, de pildă, în căutarea bustului „Vitellius” al lui Brâncuși, articolul Wikipedia apare pe poziția 1, pe când fișa din Inventarul clasatelor apare abia pe poziția 7.

d) Să renunțăm la CZU

Clasificarea Zecimală Universală [CZU] a fost o mare realizare intelectuală, de mare folos în secolul XIX și secolul XX, până la pătrunderea calculatoarelor în biblioteci. De atunci însă, este un jargon profesional, chiar criptic, parcă anume făcut să ascundă informație prețioasă utilizatorilor. Bineînțeles că o lucrare trebuie clasificată. Dar de ce să mai folosim un limbaj cifrat pentru asta ? Limbajul natural nu e mai „natural” ? Occidentalii de ce folosesc de ani mulți vedete de subiect și descriptori ? Utilizatorul, nedecriptând indicii CZU (deci neavând un limbaj comun cu clasificatorul), poate rata regăsiri utile.

În plus, codificând în CZU, clasificatorii risipesc timp prețios, fiindcă, desigur, găsirea indicelui adecvat este mai consumatoare de timp decât găsirea (sau „inventarea”) unei vedete de subiect adecvate.

e) Să renunțăm la MARC(uri)

Și formatul MARC a fost o mare realizare biblioteconomică a anilor ’60. Dar, acum, după jumătate de secol, cramponarea de el este păguboasă. Nu degeaba Biblioteca Congresului – unde, de altfel, s-a inventat MARC – se pregătește (cam demult !) să treacă la BIBFRAME, un format mai adecvat vremurilor.

În fig. 15 se vede înregistrarea UNIMARC a unei ediții a romanului „Război și pace”. O să mă rezum la obiecția majoră, și anume: ce rost mai are efortul de a evidenția părțile titlului și a mențiunii de responsabilitate ? În afară de a permite afișarea în formalismul ISBD (la ce mai folosește acesta ? nici măcar stilurile consacrate de citare nu folosesc sintaxa ISBD), cui folosește ? N-am întâlnit OPAC care să-ți permită căutarea doar în „mențiunea secundară de responsabilitate”, să zicem. Și chiar dacă softurile ar permite, câți dintre utilizatori măcar înțeleg ce înseamnă această expresie ? Așadar, o transcriere brută sau, și mai bine, ocerizarea paginii de titlu ar fi mai economicoasă.

fig-15-marc-a

Fig. 15. Înregistrarea UNIMARC a fișei din fig. 7

În locul pedantei transcrieri a paginii de titlu, catalogatorii și-ar folosi mai profitabil expertiza la a identifica și caracteriza lucrarea/lucrările și expresia/expresiile cuprinse în manifestarea prelucrată.

Pentru clasificări – în cadrul formatului MARC (la care, desigur, bibliotecile cu ILS-uri tradiționale nu pot renunța, decât odată cu softul) – aș folosi (neortodox) câmpul 686 – Other Class Numbers, adică, în loc de indici numerici aș folosi (fără jenă) limbaj natural.

V. În loc de concluzii

Nu că ar putea asta să ne consoleze, dar nici alții nu-s (mult) mai breji. Vezi (fig. 16; Richard Pevear și Larissa Volokhonsky coautori cu Tolstoi ?).

fig-16-tolstoi-war-and-peace-worldcat-a

Fig. 16. Fișa „Război și pace” în WorldCat

În rezumat, teza mea este că schimbarea de paradigmă pe care o impune Europeana ne impune să ne concentrăm pe descriptori și pe descrieri cât mai ample. O lucrare, cu cât este mai semnificativă cultural, merită să fie „înfășurată” într-o poveste, adică să i se dezvăluie contextul geografic, istoric și cultural, să i se specifice nuanțat subiectul și să i se semnaleze conexiunile cu alte lucrări. Mai mult efort trebuie investit în descrierea lucrărilor, nu a „containerelor”. De pildă, nu descrierea fină a numărului de revistă e interesantă, ci a articolelor dinăuntru ! Și totul, având în minte utilizatorul final: publicul larg.

În fine, mari speranțe îmi pun în viitorul catalog național partajat: culturalia.ro. Acesta va fi deschis atât bibliotecilor, cât și muzeelor și arhivelor și va cuprinde și Biblioteca Digitală a României, pandantul național al Europeana. Modelul său de date se va baza pe modelele conceptuale CIDOC-CRM și FRBRoo, deci va fi foarte contemporan.

 

Written by poliptic

19 Ianuarie 2017 at 5:52 pm

Biblioteca Digitală Publică a României: o Misiune Imposibilă ?

leave a comment »

[intervenție la Conferința SRS, Sibiu, 2012]

Prolog

Desigur, titlul este o referință la „Digital Public Library of America” (DPLA) [Biblioteca Digitală Publică a Americii] (Fig. 1). Discuția din SUA despre DPLA este semnificativă și pentru noi, deși DPLA joacă în altă ligă: utilizatorul american are la îndemână multe biblioteci digitale (mari).

Figura 1. DPLA: pagina natală (http://dp.la)

A. Culturalia.ro: ce-ar trebui să fie ?

Culturalia[1] va fi biblioteca digitală[2] a resurselor culturale (digitale) liber accesibile, i.e. atât fără restricții, cât și gratuit. Ea ar trebui să indexeze toate tipurile de resurse, i.e. materiale textuale, audiovizuale, dar și reprezentări digitale de obiecte fizice.

Ea ar trebui să integreze fișiere de autoritate, adică înregistrări de persoane, colectivități, locuri, perioade, evenimente, concepte, subiecte, situații, toate organizate ca „date interconectate”[3].

B. Culturalia.ro: utilitatea

Precum modelul său[4] (i.e. Europeana.eu — Fig. 2), Culturalia ar trebui să fie:

  • pentru utilizatori: un punct de acces unitar la resursele culturale ale națiunii, o sursă autoritativă de cunoștințe și de satisfacții superioare;
  • pentru instituțiile memoriei (biblioteci, muzee, arhive, galerii): o oportunitate de a-și expune online colecțiile;
  • pentru profesioniști: o platformă pentru schimb de cunoștințe.

Figura 2. Europeana.eu: pagina natală (www.europeana.eu)

În plus, Culturalia ar putea constitui o facilitate convenabilă pentru expunerea colecțiilor românești și în Europeana.

Astfel, Culturalia ar putea să furnizeze un serviciu public folositor, într-o vreme când — din pricina mutațiilor tehnologice — biblioteca publică tradițională se transformă și când marea majoritate a muzeelor și a arhivelor pot să-și expună public doar o mică parte din colecții (la care contribuabilul este îndrituit să acceadă).

Mai mult, din pricina naturii sale de serviciu online, Culturalia ar putea fi o cale eficace de diminuare a ceea ce eu numesc „discriminarea geografică” (i.e. acces inegal la „Hochkultur” —  cultura înaltă — al contribuabilului din mediul urban față de cel din mediul rural, și celui bucureștean față de cel din provincie).

C. Culturalia.ro: arhitectura

În fapt, Culturalia va fi un catalog partajat, adică, va fi o bază de date (centrală) conținând metadatele descriptive (i.e. fișele) ale resurselor digitale expuse, și interfața sa utilizator va permite căutarea și baleierea înregistrărilor catalografice, pe lângă navigarea între ele.

 

Figura 3. Culturalia: arhitectura

Obiectele digitale propriu-zise vor fi expuse pe saiturile furnizorilor de conținut (Fig. 3).

După gustul meu, această arhitectură distribuită nu este cea mai bună soluție tehnică, din pricina calității modeste a infrastructurii informatice și a conexiunii lente la internet a multor furnizori de conținut. Totuși, din rațiuni „politice”, e improbabilă o arhitectură centralizată, cel puțin la început: instituțiile memoriei sunt (încă) foarte reticente să-și expună resursele pe saitul altcuiva. Sper măcar la implementarea unui repozit central, ca dublură de siguranță.

D. Probleme (și posibile soluții)

D.1. Probleme tehnice

Desigur metadatele descriptive diferă mult de la o instituție a memoriei la alta (atât în privința proprietăților consemnate, cât și a granularității acestora), iar un catalog partajat centralizat va necesita un model de date suficient de flexibil pentru a acomoda descrierile unei mari varietăți de resurse. Din fericire, modele de date precum CIDOC CRM[5] și FRBR-oo[6] sunt suficient de mature pentru a fi folosite în implementări de producție.

O problemă spinoasă este persistența. Un demers precum Culturalia se bazează pe resurse persistente, adică, când un obiect digital este expus într-o asemenea bibliotecă, se presupune că el va fi accesibil (la aceeași adresă) pe termen lung. Această ipoteză nu e evidentă: instituțiile memoriei își schimbă relativ frecvent furnizorii de internet și adresele web (URL) ale resurselor lor online. Astfel, este necesar un mecanism precum PURL [Persistent Uniform Resource Locators][7]. Totuși, chiar și purl.org este administrat/întreținut de o organizație americană privată (i.e. OCLC), așadar chiar și persistența ei pe termen lung nu e garantată.

D.2. Probleme legale

Din perspectivă legală, expunerea online a lucrărilor din domeniul public nu prezintă nici o problemă. Legalmente, problema principală o constituie resursele protejate încă de drepturi de autor. Din pricina dificultății de a publica online opere sub copyright, avem în Europeana (și în toate celelalte biblioteci digitale, de altfel) ceea ce numim „gaura neagră a secolului XX”, adică proporția minoră a materialului de secol XX (și XXI, desigur). Bineînțeles că vom avea aceeași problemă și în Culturalia. Totuși, există soluții ! Favorita mea este ceea ce numesc „modelul maghiar”: Digitális Irodalmi Akadémia[8] —biblioteca digitală a literaturii maghiare contemporane care cuprinde lucrările celor mai importanți scriitori maghiari de azi, începând cu cei mai premiați internațional (e acolo și Sütő András[9] al nostru). Pentru realizarea ei, guvernul maghiar a cumpărat drepturile de (re)publicare online a operelor. Cine oprește guvernul român să facă ceva similar ?

Tot o problemă legală majoră este (re)publicarea online a așa numitelor „opere orfane”, adică lucrările având deținătorii drepturilor intelectuale neidentificați. În cadrul legislativ curent, o lucrare orfană este — practic — exclusă de la expunerea online (de altfel și de la alt fel de expunere), ceea ce — în opinia mea — este contrar interesului autorului/autorilor ei.

Comisia Europeană a adoptat în 2011 (doar) o propunere de Directivă a Parlamentului European și a Consiliului privind anumite utilizări admise ale operelor orfane [Directive of the European Parliament and of the Council on certain permitted uses of orphan works][10], care e firavă, în opinia mea. Ea cere o „căutare diligentă” extensivă a deținătorilor de drepturi și remunerare pentru utilizarea operei, în caz de revendicare. Eu aș prefera o „naționalizare” a operelor orfane, publicarea lor online și acces public gratuit. Și, în caz de revendicare justificată,  restitutio in integrum ![11]

Pe de altă parte, în octombrie 2011, Comisia Europeană a emis Recomandarea C(2011) 7579 privind digitizarea și accesibilitatea online a materialelor culturale, precum și prezervarea digitală [Recommendation on the digitisation and online accessibility of cultural material and digital preservation][12], care, la articolul 5(a) zice:

să se asigure că materialul aflat în domeniul public rămâne în domeniul public după digitizare.

Dar ce se cheamă că un obiect fizic (să zicem o pictură) aflat în domeniul public e „digitizat” ? De regulă, e fotografiat digital. În cazul acesta, obiectul fizic rămâne în domeniul public, dar reprezentarea sa digitală, i.e. fotografia, este sub copyrightul fotografului (e un obiect distinct !). Pentru cazurile astea, sugestia mea ar fi o modificare a legii drepturilor de autor care să stipuleze o distincție între o fotografie artistică (i.e. o operă de artă) și o „reproducere” a unei opere. Asta ar presupune ca fotograful să specifice dacă fotografia e operă de artă sau reproducere. Iar reproducerea unei opere aflată în domeniul public să intre automat în domeniul public.

În cazul operelor textuale, dacă legea depozitului legal ar fi convenabil modificată astfel încât editorul să trebuiască să depună nu doar cele câteva exemplare tipărite, ci și „matrița” digitală a unei ediții[13], Biblioteca Națională ar putea (re)publica online ediția digitală, dacă ea se află în domeniul public, să zicem după 12 luni de la depunere.

D.3. Probleme practice

Desigur, o problemă practică majoră e finanțarea.

Niște bani sunt necesari pentru dezvoltarea platformei soft. Nu prea mulți, fiindcă există și componente open source disponibile.

Apoi, o problemă serioasă este finanțare proceselor de digitizare propriu-zise. Dar digitizarea e un proces scalabil. Digitizăm de câți bani avem. Nu e neapărat nevoie de investiții inițiale. Digitizarea se poate foarte bine externaliza. Există deja mai multe firme românești foarte competente/eficiente la digitizat. Mai mult, sunt instituții românești importante care au mici dar funcționale unități de digitizare, așadar există deja o finanțare implicită. Ca să nu mai zicem de fotografii muzeelor care — de când cu camerele digitale — digitizează prin definiție.

Pe de altă parte, deja există un volum semnificativ de resurse digitale românești pe web. Mulți „amatori” fac o treabă admirabilă (WikiLovesMonuments e un bun exemplu[14]). Problema cu aceste resurse e că au nevoie și de metadate descriptive (catalogare și indexare). Și asta ar fi mai degrabă treaba profesioniștilor din instituțiile memoriei.

Pe alt plan, avem problema (re)publicării materialelor „problematice”: cum să expui online materiale reprobabile, dar istoric semnificative ? Cum să publici online, să zicem, scrierile antisemite ale lui Eminescu ? Online e mai dificil decât într-un volum fizic să oferi o contextualizare adecvată. O „înrămare” specifică poate ?

E. Culturalia.ro: o misiune imposibilă ?

Principala problemă nu sunt banii. Principala problemă e voința (scuze pentru vorba mare) de a realiza Biblioteca Digitală Publică a României. Și aici Ministerul Culturii are rolul primordial.

Mentalitatea multor directori de instituții ale memoriei nu e de ajutor. Tradiționala temere de a nu pierde utilizatori este încă foarte prezentă în România de azi.

După părerea mea, Ministerul Culturii ar trebui să impună (măcar) instituțiilor naționale  obiective concrete de digitizare/expunere online. Pe de altă parte, guvernul ar trebui să impună recomandarea Comisiei Europene care cere ca toate materialele digitizate pe bani publici să fie expuse online.

Nu, Biblioteca Digitală Publică a României nu este o „misiune imposibilă”. Dar nici ușoară nu e. Speranța mea stă în comunitățile profesionale. Ele — cu sprijin substanțial din partea „amatorilor” și folosind isteț fonduri europene —vor dezvolta Culturalia în marginea activităților lor curente, chiar dacă guvernul nu manifestă un mare entuziasm.

Dezvăluire: angajatorul meu, Institutul Național al Patrimoniului, este agregatorul național pentru Biblioteca Digitală Europeană și eu sunt responsabil pentru această activitate.


[1] Stipulată prin Hotărârile Guvernului nr.  1410/2009 (art. 5) – www.legex.ro/Hotarare-1410-18.11.2009-101121.aspx și   nr. 593/2011 (art. 2/z) – www.legex.ro/Hotararea-593-2011-113280.aspx.
[2] Ca și în cazul altor proiecte similare (e.g. Europeana www.europeana.eu sau DPLA http://dp.la) îi spunem „bibliotecă digitală” prin extensie: ne lipsește un termen generic pentru biblioteci digitale, muzee digitale, arhive digitale etc.
[11] Prin analogie: care este atitudinea normală a statului față de o bucată de pământ pe care n-o revendică nimeni ? Sau chiar față de un copil „al nimănui” ?
[13] acum, practic, toate publicațiile sunt digitale înainte de a fi tipărite.

Written by poliptic

7 Iulie 2012 at 10:00 pm

Date interconectate: de-construcția înregistrărilor catalografice

with one comment

Biblioteca Digitală Europeană europeana.eu nu-și propune doar să ofere publicului larg un punct unic de acces la patrimoniul cultural european (vezi și postarea anterioară), ci și să ofere instituțiilor culturale, industriilor creative și chiar dezvoltatorilor individuali posibilitatea de a reutiliza metadatele pe care le acumulează (de unde și cerința de licențiere Creative Commons CC0 [„No rights reserved”]). Pentru aceasta, va expune aceste metadate sub formă de „date interconectate deschise” [Linked Open Data – LOD]. Semnificativ: sintagma „linked data” a fost propusă în 2006 de Tim Berners-Lee, „inventatorul” webului (vezi celebrele-i principii).

„Date interconectate” este o paradigmă (relativ) nouă, care presupune asocierea de enunțuri/aserțiuni pe web, în maniera în care sunt conectate paginile pe/între saituri. Rațiunea lor este ceea ce se cheamă „webul semantic”, adică asocieri semantice între entități pe web (sau cum zice sloganul recent lansatului Google Knowledge Graph: „things, not strings” [lucruri, nu șiruri (de caractere)]) care să permită agenților soft (e.g. motoarelor de căutare) să facă inferențe logice. Și ideea e ca aceste interconectări să se facă (și) între aserțiuni provenite din surse diferite.

De pildă, cineva poate să expună pe web aserțiunile:

„Coloana fără sfârșit” se află la Târgu Jiu.

Brâncuși este autorul „Coloanei fără sfârșit”

Altcineva expune aserțiunea:

Târgu Jiu se află în Gorj.

În fine, altcineva zice:

Județul Gorj se află în România.

Dacă aceste aserțiuni sunt conectate, un agent soft deștept poate include „Coloana fără sfârșit” în răspunsul la întrebarea „Care sunt operele lui Brâncuși aflate în România”.

Pentru a fi (convenabil) expuse/accesate pe web, aceste aserțiuni trebuie aduse la o formă procesabilă automat. Simplificând la maximum, acest formalism se reduce la exprimarea aserțiunilor ca triplete de forma:

<subiect> <predicat> <obiect>

Pentru exemplul meu, acestea ar fi:

subiect

predicat

obiect

Coloana fără sfârșit are ca autor pe Brâncuși
Coloana fără sfârșit localizat(ă) în Târgu Jiu
Târgu Jiu face parte din Gorj
Gorj face parte din România

Subiectele sunt instanțe ale unor clase, iar obiectele pot fi instanțe ale unor clase sau literali (e.g. șiruri de caractere).

Se vede că în aceste aserțiuni sunt implicate următoarele entități: una din clasa „persoană”, una din clasa „artefact”, una din clasa „localitate” și două din clasa „unități geo-politice”. Ca să aibă șanse ca aserțiunile care le implică să fie conectate, aceste entități ar trebui să aibă identificatori unici și persistenți, care să nu fie simple șiruri de caractere (ambigue, de regulă). Prin urmare, aserțiunile despre aceste entități ar trebui să arate cam așa:

subiect

predicat

obiect

id1 denumit(ă) Coloana fără sfârșit
id1 localizat(ă) în id2
id1 are ca autor pe id5
id2 denumit(ă) Târgu Jiu
id2 face parte din id3
id3 denumit(ă) Gorj
id3 face parte din id4
id4 denumit(ă) România
id5 denumit(ă) Brâncuși

Pentru a trata astfel datele catalografice, tradiționala fișă trebuie deconstruită, adică descompusă în aserțiuni elementare, cât mai granulare. Simplificând (până către grotesc), transformarea unor fișe exprimate tabelar în date interconectabile ar putea fi ilustrată ca în figura 1 și tabela care-o urmează.

Fig. 1. Exprimare tabelară a fișelor catalografice

subiect

predicat

obiect

id1 are ca titlu Război și Pace
id1 are ca autor pe Tolstoi
id2 are ca titlu Iliada
id2 are ca autor pe Homer

De fapt, nici nu e o reprezentare neobișnuită. De mulți ani, matricile/tabelele rare (i.e. cu puține celule ocupate) se reprezintă în memoria computerelor, cam la fel: (linia celulei, coloana celulei, conținutul celulei).

În figura 2 se ilustrează (foarte simplificat) cum se pot interconecta/agrega aserțiuni provenind din surse diferite (sugerate prin culori diferite). Adică, cineva asertează că „Război și pace” (o lucrare, în terminologia FRBR Functional Requirements for Bibliographic Records) are drept creator pe Tolstoi. Altcineva adaugă aserțiuni despre o expresie a lucrării în limba engleză, iar altcineva aserțiuni despre o expresie în limba română. În fine, din alte surse provin apelațiunile lui Tolstoi în engleză, respectiv în rusă.

Fig. 2. Exemplu de agregare de aserțiuni

Nu e obligatoriu ca un literal care e obiectul unei aserțiuni să fie un simplu șir de caractere sau un număr sau o dată. El poate avea o structură internă. Astfel, de pildă, el poate fi un document XML sau chiar un element MARC. Unor astfel de literali și se asociază o așa-zisă „schemă sintactică” (Syntax Encoding Scheme). De pildă, putem aserta atributul (tipic) al unei manifestări bibliografice (i.e. o ediție) „titlu și mențiune de responsabilitate” într-o schemă sintactică XML:

sau în schema sintactică UNIMARC:

Asta se afișează (în formalismul ISBD [International Standard Bibliographic Description] http://www.ifla.org/publications/international-standard-bibliographic-description) astfel:

Pour les valeurs bourgeoises / par Georges Hourdin. Contre les valeurs bourgeoises / par Gilbert Ganne

Modelul conceptual „clasic” pentru datele interconectate este RDF [Resource Description Framework] care, în esență, definește tripletele subiect-predicat-obiect.

Din punct de vedere practic, bazele de date ce implementează modelul RDF („triplestore”) au și avantajul că au tabele (abstracte și) puține, plus permit tratarea unitară a claselor și proprietăților (predicatelor), precum și a instanțelor acestora. Adică e posibilă adăugarea oricând de noi clase și proprietăți (care pot fi rafinări sau abstractizări ale celor deja existente), cu alte cuvinte se pot aduce modificări taxonomiei subiacente, fără a se modifica structura bazei de date. Așadar administratorul bazei de date poate face asta fără a apela la programatori. De pildă, dacă avem clasa „organizație”, oricând se poate adăuga o subclasă a acesteia, „persoană juridică”. Similar, dacă avem proprietatea „are drept contributor pe”, se poate adăuga o subproprietate a acesteia, „are drept scenograf pe”. Dezavantajul acestui gen de baze de date pare a fi complexitatea sporită pe care o impune interogărilor.

 

Deja biblioteci importante — cum ar fi British Library (2,6 milioane de înregistrări, care au generat 84.961.180 triplete – mai 2012) sau British Museum  — își oferă informațiile bibliografice sub formă de date interconectate deschise (adică atât gratuite, cât  și liber reutilizabile !).

 

În postarea următoare se va expune o schiță a proiectului portalului culturalia.ro.

Written by poliptic

29 Mai 2012 at 10:58 pm

Publicarea în Europeana.eu: probleme și (unele) soluții

leave a comment »

A. Problematica Europeana

A.1. Ce este portalul europeana.eu ?

Biblioteca Digitală Europeană [http://www.europeana.eu] este deja bine cunoscută lumii intelectuale europene (sper că și publicului larg.)

Fig. 1. Europeana. Pagina natală

Totuși auto-prezentarea fațetelor ei merită reamintită:

<citat>

  • Pentru utilizatori: Europeana este un punct de acces unic pentru milioane de cărți, tablouri, filme, obiecte muzeale și documente arhivistice care au fost digitizate în întreaga Europă. Ea este o sursă de informații de autoritate provenite de la instituțiile culturale și științifice europene.
  • Pentru instituțiile memoriei: Europeana este o oportunitate de a ajunge la mai mulți utilizatori, de a-și spori traficul web, de a îmbogăți experiența utilizatorilor lor și de a construi noi parteneriate.
  • Pentru profesioniștii din zona patrimonială: Europeana este o platformă pentru schimbul de cunoștințe între bibliotecari, curatori, arhiviști și industriile creative.
  • Pentru elaboratorii de politici și finanțatori: Europeana este o inițiativă prestigioasă susținută de Comisia Europeană și o cale de a stimula economia creativă și de a promova turismul cultural.

</citat>

Practic, Europeana este un catalog colectiv transnațional de resurse culturale digitale expuse de toate țările membre ale Uniunii Europene. E adevărat că are ambiții tehnice importante, dar, în esență, e un catalog, deoarece portalul stochează și expune metadatele (i.e. fișele catalografice ale) obiectelor digitale, astea fiind expuse pe saiturile furnizorilor, deci într-un mod foarte distribuit.

A2. Care sunt problemele expunerii obiectelor digitale ?

Din perspectivă tehnică, expunerea unui obiect digital în Europeana presupune:

  • obiectul să fie publicat pe un sait (al furnizorului) stabil (pe termen lung), cu o conexiune rezonabil de rapidă și să aibă o calitate acceptabilă (e.g. imagini de bună rezoluție). Printr-un „sait stabil pe termen lung” înțeleg un sait ce are garanții de persistență (saituri precum Youtube sau Flickr sau Wikimedia oferă oare garanții că materialul lor va fi la fel de accesibil și peste 10 sau 20 de ani ? Fiind deținute de organizații private, cine poate oferi această garanție ?). Adică să existe o probabilitate apreciabilă ca saitul respectiv să fie vizibil și peste 10-15 ani.
  • obiectul să aibă o calitate tehnică acceptabilă, adică:
    • o bună rezoluție, dar la dimensiuni rezonabile (pentru a nu implica un timp de acces excesiv). De pildă, în figura 2 se vede un document de peste 36 MB. Or, chiar la o conexiune relativ rapidă descopierea acestui fișier poate dura 2-3 minute (și poate costă !). Și poate că cititorul constată repede că documentul nu-l interesează. E preferabilă o prezentare ca cea din figura 3, în care un „foiletor” permite vizualizarea pagină cu pagină a unui volum facsimilat.
    • să nu necesite instalarea unor instrumente soft neuzuale, cum ar fi situația din figura 4, în care se vede cum documentele de vizualizat cer instalarea unui program de vizualizat fișiere DejaVu. Mulți cititori pot fi inhibați.

Fig. 2. Obiect digital prea mare

Fig. 3. Prezentarea paginată a unui facsimil digital de carte

Fig. 4. Documente ce necesită instalarea unui program

  • obiectul să aibă o adresă web (i.e. URL) unică. De pildă, în figurile 5 și 6, se vede un caz de „așa nu !”. Două obiecte digitale (imagini, în acest caz) distincte care au același adresă web. Altfel spus, nu pot fi adresate individual, direct, prin URL. În figura 7 se vede cum apare fișa unui obiect în Europeana, iar după click pe linkul (stânga-jos) „view item at …” se ajunge la fișa lui pe saitul furnizorului (figura 8). E evidentă necesitatea URL-ului unic.

Fig. 5. Așa nu (1): două obiecte cu aceeași adresă

Fig. 6. Așa nu (2): două obiecte cu aceeași adresă

  • adresa web (i.e. URL) a obiectului să fie persistentă pe termen lung;
  • metadatele asociate obiectului să fie scrise cu diacriticele corecte. Încă din 2004, prin norma SR 13392:2004 s-a standardizat codificarea corectă a caracterelor specifice limbii române. Mai mult, în 2006, utilizarea aceste codificări a fost legiferată prin legea nr. 183/2006 „privind utilizarea codificării standardizate a setului de caractere în documentele în formă electronică”. Diferențele semnificative au apărut la ș și ț. Nu doar aspectul grafic (trecerea de la sedilă la virguliță) este importantă, ci diferența de codificare Unicode a acestor caractere este capitală. Și dacă până acum sistemele de operare uzuale foloseau vechile codificări, apariția dispozitivelor mobile (e.g. tablete) ca și a versiunilor noi de sisteme de operare pentru PC-urile tradiționale, schimbă radical situația. Tabelul următor prezintă diferențele de codificare. Pare o problemă de detaliu, dar diavolul se ascunde în detalii. Figurile 7 și 8 arată consecințele practice (în Europeana) ale diferențelor de codificare. Metadatele exponatelor Brâncuși sunt scrise în codificarea veche, deci când cheia de căutare este scrisă cu codificarea nouă, obiectele nu sunt regăsite (motiv pentru care metadatele vechi vor fi retrase și re-furnizate cu codificarea corectă).

Vechi

Nou

ş

U+015F

ș

U+0219

Ş

U+015E

Ș

U+0218

ţ

U+0163

ț

U+021B

Ţ

U+0162

Ț

U+021A

__

Fig. 7. Căutare „Brâncuși” (scris cu ș „nou”)

Fig. 8. Căutare „Brâncuşi” (scris cu ș „vechi”)

  • metadatele asociate obiectului să fie conforme cu modelul de date specific Europeana: EDM [Europeana Data Model].

Fig. 9. Taxonomia claselor în modelul EDM

Modelul EDM cuprinde (în versiunea 5.2.3) 16 clase, din care 5 sunt preluate din alte ontologii. Taxonomia lor vede în figura 9, iar cea a proprietăților, în figura 10.

Fig. 10. Taxonomia proprietăților în modelul EDM

Din perspectiva drepturilor intelectuale, expunerea în Europeana presupune ca:

  • furnizorul să obțină drepturi depline de (re)publicare a obiectelor digitale. Aceasta nu e o problemă în cazul operelor din domeniul public (deși, în cazul operelor vizuale, de regulă, chiar dacă originalul — e.g. tabloul — este în domeniul public, reproducerea sa digitală e sub copyrightul fotografului). E însă o problemă în cazul operelor orfane și, mai ales, a celor sub copyright. Noi chiar vorbim de „gaura neagră a secolului XX”, adică lipsa masivă a operelor de secol XX, din pricina absurdei limite (viață + 70 de ani) din legile europene ale drepturilor de autor și a statutului incert al unei opere orfane.
  • furnizorul să furnizeze metadatele sub licența Creative Commons CC0 [„No rights reserved”], adică — din perspectivă practică —, echivalentul domeniului public.

 

Fig. 11. Licența CC0

 

 B. Experiența noastră practică: proiectul ATHENA 

Proiectul european ATHENA (2009 – 2011) a fost o rețea de bune practici, în cadrul programului eContentPlus. A avut 109 parteneri, inclusiv CIMEC – Institutul de Memorie Culturală, iar scopul lui major a fost furnizarea de resurse culturale în Europeana, mai ales material muzeal. În cadrul acestui proiect, CIMEC a furnizat  16.258 de exponate, mai ales obiecte de muzeu, dar și texte sau facsimile digitale de cărți. În figura 12 se vede expunerea un volum facsimilat. 

Fig. 12. Athena: Expunerea unei resurse

 Metadatele asociate volumului, convertite în formatul XML specific proiectului (LIDO [Lightweight Information Describing Objects]), se văd în figurile 13, 14 și 15. 

 

Fig. 13. Metadatele descriptive ale obiectului (în formatul LIDO)  

Fig. 14. Metadatele asociate evenimentului „creație” (în formatul LIDO)  

Fig. 15. Adresele web ale obiectelor digitale (în formatul LIDO)

 

 C. Experiența noastră practică: proiectul CARARE

CARARE este un proiect european de tip „rețea de bune practici” (2010-2012), în care Institutul Național al Patrimoniului este partener, alături de alte 28 de organizații, din 21 de țări.

Fig. 16. Expunerea unei resurse în contextul furnizorului (isShownAt)

Obiectivul proiectului este de a furniza Bibliotecii Digitale Europene resurse digitale reprezentând patrimoniul arheologic și arhitectural al partenerilor. Institutul nostru a furnizat deja peste 1.800 de resurse culturale (cu mult mai multe imagini) și va mai furniza peste 2.000 de resurse.

În figurile 16 și 17 se vede o resursă expusă în Europeana, prin intermediul proiectului CARARE. Cele două imagini ilustrează cele două moduri de expunere: în primul caz resursa se află în contextul paginii web a furnizorului, adică așa cum o vede vizitatorul saitului de origine (URL-ul acestei pagini este consemnat în atributul isShownAt al fișei descriptive). În al doilea caz, obiectul digital propriu-zis este expus scos din context, astfel încât poate fi folosit în expoziții virtuale sau antologii (embeded), în care curatorul poate asocia propria descriere (URL-ul acestei pagini este consemnat în atributul isShownBy al fișei descriptive).

Fig. 17. Expunerea unei resurse în scoasă din contextul furnizorului (isShownBy)

Fișa descriptivă a fiecărei resurse culturale trebuie convertită în formatul specific proiectului, adică să fie un fișier XML, care se conformează schemei CARARE. În figurile 18, 19 și 20 se văd fragmente din înregistrarea XML asociată resursei din figura 16. De remarcat în figura 20, elementul isShownAt, care conține adresa web a resursei (în contextul furnizorului).

Fig. 18. Identificarea înregistrării

Fig. 19. Descrierea resursei fizice reprezentate

Fig. 20. Descrierea obiectului digital 

D. Ce mai e de făcut ? 

Multe sunt de făcut ! În 27 octombrie 2011, Comisia Europeană a emis o recomandare „privind digitizarea și accesibilitatea online a materialului cultural și conservarea digitală” (în românește). În anexa II, se văd obiectivele cantitative pentru 2015 (stabilite pe bază de populație, PIB pe locuitor, cam așa ceva). Obiectivul pentru România este înfricoșător: 789.000 de exponate ! Asta înseamnă cam 1.000 de resurse per zi lucrătoare ! Nu văd cum… Dar măcar să furnizăm un număr semnificativ.

…..

Altă cerință „interesantă” este cea de la punctul c: „garantarea faptului că toate capodoperele aparținând domeniului public vor fi accesibile prin intermediul Europeana până în 2015”. Deci mai trebuie și să alegem „capodoperele” ! Să vedem cum definim o „capodoperă”.

Practic, nu cred că putem colecta/furniza un volum semnificativ de resurse culturale, dacă nu se instituie un mecanism gen catalog partajat, prin care instituțiile culturale și voluntarii să înregistreze/descrie materialul digital existent. Iar autoritățile trebuie să forțeze instituțiile care digitizează pe bani publici să descrie, să publice pe web și să înregistreze tot ce se digitizează.

Mai mult, Fundația Europeana (organismul care patronează Biblioteca Digitală Europeană) a recomandat, încă mai demult, ca fiecare Stat Membru să-și dezvolte un portal propriu — în paralel cu Europeana — în care să expună materialul pe care l-a expus în europeana.eu, în înfățișarea proprie specificului cultural al respectivei țări. Mai multe State Membre au pus deja în practică această recomandare. Exemple remarcabile sunt portalurile italian (CulturaItalia) și cel francez (Gallica).

Și România are în plan un astfel de portal, Culturalia.ro, pe numele lui (stipulat în Ordinul ministrului culturii și cultelor nr. 2467/2008, între atribuțiile agregatorului național). Cu resurse foarte limitate, se lucrează la el. În postarea următoare, o să descriu ce se face. 

 

Written by poliptic

24 Mai 2012 at 12:35 am

Europeana.eu: „Incidentul românesc” și lecțiile lui

with one comment

 

Ce este Europeana.eu (www.europeana.eu) ?

  Europeana - slogan

Descrierea „oficială” spune:

Europeana.eu — Biblioteca, Muzeul și Arhiva Digitală a Europei — este un proiect care a început în iulie 2007, având drept scop crearea prototipului unui sait care să ofere acces direct la circa două milioane de obiecte digitale (incluzând materiale filmate, fotografii, picturi, înregistrări sonore, hărţi, manuscrise, cărţi, ziare şi documente de arhivă).

Conţinutul digital al Europeana.eu va fi selectat din materialele deja digitizate şi disponibile online în muzeele, bibliotecile, arhivele şi colecţiile audio-vizuale ale Europei. Prototipul urmăreşte să expună conţinut reprezentativ provenind din toate aceste patru domenii ale patrimoniului cultural şi — totodată — provenind din întreaga Europă. Intenţia este ca, până în 2010, portalul Europeana.eu să ofere acces direct şi gratuit oricărui cetăţean, la peste şase milioane de cărţi, imagini, documente de arhivă, înregistrări sonore şi filme în format digital.

Ceva despre istoria proiectului se poate citi și în acest blog.

 

Doamna Viviane Reding (comisarul european pentru societatea informaţională şi mass-media) a „tăiat panglica” prototipului portalului Europeana.eu pe 20 noiembrie 2008, la Bruxelles, în prezenţa miniştrilor culturii din ţările membre ale Uniunii Europene (din România a participat secretarul de stat Demeter Andras). Lansarea publică a avut loc pe 27 noiembrie, la Paris (unde Preşedinţia franceză a Uniunii a organizat conferinţa „Numérisation du patrimoine culturel – Bibliothèque numérique européenne”, la Musée du quai Branly).

A doua zi după deschidere, portalul Europeana.eu, versiunea Beta (adică un prototip experimental) a fost închis din cauza unui număr record de accesări (zece milioane, se zice), care au blocat serverul. Redeschiderea a avut loc abia peste o lună, în jur de 20 decembrie 2008.

 

Pentru realizarea prototipului Europeana.eu s-a lansat, în iulie 2007, proiectul EDLnet [European Digital Library Network], la care au participat cel puţin câte o instituţie din fiecare ţară membră (din România, partenerul invitat a fost CIMEC – Institutul de Memorie Culturală). În 2008, partenerii din proiectul EDLnet au furnizat resurse culturale digitale care să fie expuse — experimental — publicului european prin acest portal. Miza este prezenţa patrimoniului cultural al fiecărui stat membru al Uniunii Europene în această „vitrină” a culturii europene.

Conform diverselor declaraţii oficiale (şi neoficiale), Comisia Europeană consideră această bibliotecă digitală principalul său proiect cultural, pentru următorii ani. Nimic surprinzător: fără îndoială este un proiect de mare importanţă şi semnificaţie atât culturală, cât şi politică.

   

Ce „știe” Europeana.eu

 Acum portalul, versiunea beta — accesibil public la adresa www.europeana.eu — permite căutarea după cuvinte-cheie (adică şiruri de caractere aflate, explicit, oriunde în conţinutul metadatelor unei resurse). Așa arată (acum) pagina lui natală:

  

clip_image004

  

De exemplu, la interogarea cu cuvântul-cheie „Europe” se obţin (acum: 31.01.2009) 152.870 de resurse digitale (texte, imagini, înregistrări audiovizuale, înregistrări audio). Observați că resursele audio n-au imagini-timbru (dar nici toate resursele imagini n-au încă).

  

clip_image006

La interogarea cu cuvântul-cheie „Europa”, se obţin 4.775 de resurse digitale (şi se poate observa că pe prima pagină apar şi trei resurse româneşti, provenite de la CIMEC):

  Interogarea "Europa"

În aceste interogări se văd binișor limitările curente ale portalului. De pildă nu „știe” că „Europe” și „Europa” e același lucru. Apoi, nu e limpede de ce piesele trimise de noi (i.e. CIMEC) apar la interogarea „Europa” (eu știu: în atributul „contributor” al acestor piese apare expresia „Şcoală din Europa centrală”; dar utilizatorul obișnuit, ar putea să afle asta doar mergând la detaliile piesei și apoi la contextul ei original, pe saitul CIMEC.)

Dar nu e grav ! Să nu uităm că acesta este un prototip ! Acest fapt a trecut cam neobservat de presă. Sigur, nici Comisia Europeană nu a subliniat suficient ca este (deocamdată) un experiment.

În practică, expunerea unei resurse culturale în Europeana.eu, presupune:

  • plasarea obiectului digital într-un „repozit” (i.e. un „depozit informatic”) naţional (la o adresă stabilă şi accesibilă permanent) — într-un format standard;
  • expedierea la Haga (locaţia portalului Europeana.eu) a fişei descriptive a respectivului obiect — într-un format standard — şi adresa lui (portalul se comportă ca un catalog de bibliotecă);
  • (eventual) plasarea fişei descriptive şi într-un portal naţional.

Diagramatic, un exemplu al acestui mecanism (statuia romană Şarpele Glycon de la Muzeul de Istorie Naţională şi Arheologie din Constanţa – în acest caz) este:

 

clip_image010

 

iar prezentarea resursei digitale respective în viitorul portal naţional va arăta nu foarte diferit de cum arată acum în lista bunurilor clasate (http://clasate.cimec.ro):

 

clip_image012

   

Ce se face în România ?

 Pentru a pune în practică un plan de perspectivă privind prezența românească în Europeana.eu, Ministerul Culturii şi Cultelor a elaborat la sfârşitul anului 2008 un Program naţional pentru digitizarea resurselor culturale naţionale şi crearea Bibliotecii Digitale a României — aprobat prin Hotărârea Guvernului nr. 1676 din 10/12/2008 — care permite demersuri coerente şi de durată pentru digitizarea patrimoniului românesc şi expunerea resurselor digitale astfel obţinute atât în Europeana.eu, cât şi în viitoarea Bibliotecă Digitală a României (probabil numită Culturalia.ro). Prin acest act, CIMEC – Institutul de Memorie Culturală a fost desemnat „agregatorul” naţional, cel ce administrează repozitul naţional de resurse culturale digitale şi asigură interfaţa dintre furnizorii de conţinut (instituţii publice sau alte organizaţii deţinătoare de resurse culturale din România) şi serviciul tehnic care gestionează portalul Europeana.eu. Organizaţional, Ministerul Culturii, Cultelor și Patrimoniului Național constituit cinci „piloni tematici” (cu comisiile de experţi aferente) pentru: patrimoniul scris (biblioteci), patrimoniu mobil (muzee), patrimoniu imobil (monumente şi arheologie), patrimoniul audio-vizual şi patrimoniul arhivistic.

Din punct de vedere practic,

  • până la 15 octombrie 2008 (termenul limită pentru 2008), CIMEC (în calitate de partener în proiectul european EDLnet) a constituit repozitul naţional şi a expus 3.299 de obiecte digitale (imagini de obiecte muzeale clasate provenite din baza de date a patrimoniului cultural naţional, administrată de CIMEC, prin urmare bunuri cu valoare deja confirmată de Comisia Naţională a Muzeelor, pentru care aveam şi imagini de calitate), a prelucrat (în formatul cerut) şi a expediat la Haga fişele descriptive pentru cele 3.299 de obiecte digitale.
  • s-au elaborat (și acum se experimentează) instrumente informatice care să permită prelucrarea resurselor digitale provenite de la pilonii patrimoniu mobil și patrimoniu imobil la „scară industrială”;
  • se lucrează la constituirea nucleului inițial al unui portal românesc (Culturalia.ro);
  • pentru fiecare pilon tematic în parte, comisiile de specialitate elaborează planuri care să stabilească ce se digitizează (și cu ce priorități);
  • pentru fiecare pilon tematic în parte, comisiile de specialitate elaborează metodologiile de fişare a obiectelor digitale.

În perspectivă (dacă totul merge bine şi va exista o susţinere financiară rezonabilă), din 2009 comunităţile profesionale se vor mobiliza:

  • să identifice, să fişeze şi să prelucreze resursele culturale deja digitizate (sistematic sau ocazional);
  • să digitizeze resurse culturale semnificative din patrimoniul naţional, să le fişeze și să le prelucreze;
  • să expună resursele astfel prelucrate atât în Europeana.eu, cât şi în Culturalia.ro.

Efortul va fi semnificativ: această integrare a resurselor culturale româneşti în contextul european impune o rigoare sporită şi cere — pe cât posibil — elaborarea de fişe descriptive şi în limbi de circulaţie. Însă această oportunitate majoră pentru imaginea României trebuie să fie valorificată.

 

„Incidentul românesc”

 Din păcate, la lansarea prototipului portalului Europeana.eu, la 20 noiembrie 2008, a apărut o situaţie neplăcută pentru România. La interogarea cu cuvântul-cheie „România” se obţinea următorul rezultat:

 

clip_image014

 

Chiar pe prima pagină a rezultatelor căutării, din cele 1.688 de rezultate (între care — după cum se vede în stânga — 1.482 provin din România), s-au nimerit 10 fotografii sinistre, cu copii din orfelinatele româneşti din 1990. Imaginile provin de pe un sait educațional scoţian (www.scran.ac.uk):

 

clip_image016

 

Desigur, nu era o conspiraţie. Dovadă: dacă se caută după cuvântul-cheie „României”, se obţineau:

 

clip_image018

 

adică 703 resurse, din care 697 provin de la CIMEC, iar pe prima pagină, din 12 resurse, 11 provin de la CIMEC.

Pe de altă parte, dacă se interoghează cu cuvântul-cheie „Roumanie”, se obţinea:

 

clip_image020

 

iar cu cuvântul-cheie „Rumänien”, se obținea:

 

clip_image022

 

Aşadar, nefericita situaţie este un simplu incident tehnic, datorat algoritmului de ordonare a obiectelor din rezultatul unei interogări (ranking algorithm). M-am interesat, desigur, și n-am aflat algoritmul complet. Dar, e sigur că resursele pentru care cuvântul-cheie căutat se găseşte explicit chiar în titlu au prioritate în listă, apoi urmează cele care au cuvântul-cheie în celelalte câmpuri (nu mi-e clar în ce ordine). În fine, resursele „echivalente” din punct de vedere al priorităților sunt sortate în ordinea inversă a introducerii în baza de date. Astfel, s-au conjugat următorii factori:

  • cuvântul-cheie „România” este transformat (automat) în „Romania” (unele caractere cu diacritice sunt convertite la caracterele de bază respective);
  • cuvântul „Romania” se află în titlurile acelor nefericite fotografii (e.g. „Children in Romania”);
  • puține dintre resursele trimise de noi aveau cuvântul „România” în titlu (mult mai multe aveau cuvântul „României”);
  • s-a întâmplat ca imaginile provenite de la Scran să fie introduse în baza de date mai târziu decât cele trimise de CIMEC.

Din păcate, situaţia a fost imediat observată în România şi a provocat — previzibil — o (prea) vie emoţie, cu accente de indignare (iar eu am primit și reproșuri, vagi, e adevărat).

Am semnalat situaţia administratorilor portalului (la Haga) încă din noaptea de 20 noiembrie (când — de altfel — saitul a fost închis, pe considerent că n-a făcut faţă marelui număr de accese), solicitând o remediere. Nu am cerut — desigur — să fie cenzurate imaginile incriminate, ci doar să fie mai „uniform” repartizate printre celelalte resurse rezultate în urma interogării cu „România”. Ba chiar, după câteva zile, am sugerat şi o soluţie tehnică simplă, „de avarie”. Din păcate, echipa de la Haga a neglijat pe moment problema (şi nici nu ne-a explicat la vreme cauzele întâmplării; între timp s-au scuzat că au fost plecați în concedii etc.), astfel că, la jumătatea lui decembrie — când saitul a fost repus online, fără tam-tam de astă dată — am constatat că nimic nu se schimbase.

Am încercat în repetate rânduri să contactăm echipa tehnică (chiar cu mesaje ce ameninţau voalat cu plângeri la CE) dar, poate din pricina sărbătorilor, n-am reuşit să obţinem nici o reacţie. Abia după 1 ianuarie am obţinut promisiunea unei abordări a problemei. Iar apoi, adică pe 6 ianuarie, a izbucnit scandalul în media românească şi acesta a ajuns iute la Comisia Europeană (prin intermediul comisarului Leonard Orban). Ca urmare a presiunilor de la Bruxelles, managementul proiectului (de altfel persoane de calitate şi competente) a reacţionat şi s-a găsit rapid o posibilă soluţie, dar care implica un efort tot din partea românilor: să mai trimitem (de urgenţă) un lot de obiecte digitale, astfel încât acestea, având o dată mai recentă de trimitere, să apară în primele pagini, conform algoritmului de ordonare actual din Europeana.eu.

Prin urmare, în 8 şi 9 ianuarie s-a lucrat foarte intens la CIMEC şi s-au pregătit alte peste 8.000 de înregistrări de bunuri culturale din patrimoniul naţional, și au fost trimise la Haga (de data asta, din păcate, cu imagini de mai slabă calitate, aşa cum se găsesc ele în dosarele de clasare în patrimoniul național). Astfel, acum, la interogarea „România” se obține:

 

clip_image024

 

Sigur, e cam bizar cum s-au grupat 8 scaune în primele 12 resurse. Dar i-am bodogănit deja destul pe amicii de la Haga…

Această situaţie putea fi — în cea mai mare măsură — evitată, dacă problema ar fi fost tratată serios de la început de echipa de la Haga, pentru că efortul de la începutul lui ianuarie puteam să-l facem la fel de bine și la sfârşitul lui noiembrie.

Ca o ironie, ia vedeți ce apare la interogarea „Hitler” (la 1.02.2009):

 

clip_image026

 

Primul exponat e un portret al lui Hitler pictat de un român (adevărat, mai celebru în Franța decât în România), încă din 1934 !

 

Problemele

 Acest incident a scos mai bine în evidență problemele proiectului Europeana.eu, cel puțin așa cum apar ele din perspectiva mea. Cele majore ar fi:

  • Biblioteca, muzeul și arhiva digitală a Europei n-ar trebui să fie un proiect finanțat din programe europene, adică discontinuu și incert. Europeana.eu ar trebui să fie un serviciu public, asigurat de o agenție europeană, finanțată continuu și adecvat (de altfel, acest serviciu ar utiliza cum nu se poate mai onorabil banii publici europeni).
  • Proiectul EDLnet a fost un proiect remarcabil de modest finanțat: a avut un buget de circa 1,5 milioane de euro, la o durată de 18 luni. Continuarea sa din cadrul programului eContentPlus, proiectul Europeana 1.0 (care-și propune realizarea serviciului operațional adevărat), are prevăzut un buget de câteva milioane de euro, pe o durată de 3 ani. Prin urmare, dacă CE declară că acesta este proiectul ei cultural major, de ce îl finanțează așa de precar ?
  • De altfel, cu ocazia acestui proiect s-au pus în evidență și unele deficiențe ale programelor europene, și anume lipsa de coordonare și de concentrare, atunci când acestea se dovedesc necesare. Astfel, între 2005 și 2008, CE se mândrește că a cheltuit circa 60 milioane de euro pentru proiecte legate de biblioteci digitale, dar atunci când a fost nevoie de o platformă informatică pentru o bibliotecă digitală adevărată, acesta a trebuit să fie — practic — improvizată în 6 luni, cu o echipă de dezvoltare de 3-4 oameni.
  • Europeana.eu ar trebui să revină la spiritul ei originar (așa cum a fost el sugerat, la începuturi, prin contrast cu „concurența”, i.e. Google Books Search, și anume o resursă cu material atent selectat, pe baza „semnificației culturale”. Cu alte cuvinte, se presupunea că vom expune în Europeana.eu doar resurse culturale cu adevărat semnificative (pentru a evita cuvântul „valoroase”). Or, în acest moment, deoarece pe parcurs a apărut ambiția de a expune (într-un prototip experimental !) peste 2 milioane de obiecte digitale, selecția materialului a fost — practic — abandonată. Cantitatea a doborât calitatea. La ce ne folosește ? Oricum, la cantitate Google ne va depăși cu mult.
  • Nu e OK să se expună resurse în Europeana fără, sau cu foarte puțină „interpretare”. Multe dintre resursele expuse au acum fișe descriptive cu totul rudimentare și deci, sunt lipsite de „context”. Sigur, un peisaj poate că n-are nevoie de multă „interpretare”. Dar „Mein Kampf” — de pildă — poate fi expus așa, pur și simplu ?
  • Prototipul este încă rudimentar, iar aceasta se trage — după mine — mai ales din rudimentaritatea metadatelor (un fel de Dublin Core, ușor extins). Fără „fișiere de autoritate”, căutarea o să dea mereu rezultate precare. Acum, sistemul nu „știe” că Firenze, Florența și Florence e același lucru, sau că (Firenze, Florența, Florence) e parte a (Italia, Italy, Italie).
  • Monolingvismul de facto al fișelor nu e acceptabil, pe termen lung. Desigur e o problemă grea de tot, dar nu poate fi amânată prea mult.

De altfel, la a 4-a reuniune a Grupului de Experți în Digitizare al Statelor Membre (Luxemburg, 29.01.2009), am sugerat formarea unui „consiliu editorial” al Europeana.eu, care să stabilească „regulile jocului”. Prima reacție a unui reprezentant al Comisiei Europene (de altfel o persoană foarte bine) a fost negativă, pe considerent că Europeana nu ar trebui să fie „cenzurată”, și că — de altfel — materialele sunt propuse de instituții culturale, deci … Nu era timp de multe discuții (și poate nici nu era locul potrivit), așa că n-am insistat. Eu cred că un asemenea consiliu ar trebui să filtreze nu atât ce se expune, cât cum se expune. În orice caz, o să încerc să conving ministerul nostru să insiste pe această idee.

Pe de altă parte, în chestiunea traducerilor, sunt conștient că tot noi, vorbitorii de „limbi mici”, avem de lucru. Dacă vrem să ne „vadă” mai multă lume, trebuie să ne traducem fișele în englezește, franțuzește, nemțește. Pe când, dacă vrem ca românofonii să „vadă” resursele britanice, franceze, germane, tot noi o să trebuiască să le traducem în românește. C’est la vie…

Pour terminer, Europeana.eu mi se pare un demers de toată lauda. Nu numai că ar putea fi în sine un serviciu cultural paneuropean realmente important și semnificativ (care ar întări sentimentul unității culturii europene !), dar ne-ar obliga și pe noi, operatorii culturali, ca, la noi acasă, să fim mai riguroși și mai grijulii cu resursele noastre digitale. Tocmai de aceea, abordarea lui ezitantă mi se pare regretabilă.

Written by poliptic

1 Februarie 2009 at 4:30 pm

Biblioteca Digitală a României [BDR]: „cu ce oameni se va lucra ?”

with 5 comments

În comentariul la postul precedent, doamna Şerbănuţă îmi pune două întrebări importante. Încerc să răspund aici la prima (care e multiplă :-) La a doua, poate mâine.

Aşadar, zice doamna Şerbănuţă:

… as repeta aici intrebarea mea postata pe Prolibro legata de acest proiect: cu ce oameni se va lucra ? Stiu ca bugetul va rezolva o parte din probleme, dar pregatirea oamenilor ia timp. Cine se va ocupa de asta ? Impresia mea este ca CIMEC-ul nu e foarte mare…se va extinde in viitor pentru a putea sustine acest proiect ? Vor fi adusi sa lucreze in proiect informaticienii ? Sau bibliotecarii? (Stiut fiind ca la noi rare sunt intersectiile dintre ei).

Întâi, răspunsurile scurte:

 

  1. Cu oamenii existenţi: a) pentru digitizări pretenţioase există firme specializate; scanări simple ştie/învaţă oricine; b) catalogatori (încă) există.
  2. CIMEC are cam 40 de oameni şi nu (cred că) se va extinde (poate va avea ocazionale colaborări externe). Şi n-am zis că proiectul BDR e strict treaba CIMEC.
  3. Desigur: trebuie „aduşi” informaticieni, bibliotecari, muzeografi, arhivişti.

 

Răspunsul lung:

Memento: de ce e nevoie ? a) de resurse digitale (text, imagine, sunet, video) şi b) de metadate, adică de fişe catalografice pentru fiecare resursă.

 

Sursele de material digital pe care le întrevăd (acum) sunt:

 

A. Clasările în patrimoniul cultural naţional: Comisia Muzeelor şi Colecţiilor clasează cam 300 de piese pe lună. Acum, imaginile pieselor sunt — de regulă — de slabă calitate. Dar descrierea catalografică e făcută de experţii care propun clasările. Aşadar, calitatea metadatelor e — cel mai adesea — OK.

Sigur că atât imaginile cât şi metadatele necesită postprocesare. Aceasta poate fi făcută de CIMEC.

 

B. Proiecte de digitizare importante (finanţate mai ales de stat) — câte-or fi —, cum a fost cel de facsimilare digitală de manuscrise medievale de la Batthyaneum (peste 100.000 de pagini).

În asemenea proiecte — fiindcă se presupune că sunt finanţate semnificativ, nu printre picături — digitizările le fac firmele specializate, iar metadatele le produc catalogatori angajaţi sau (uneori) catalogatorii instituţiilor deţinătoare (poate sunt deja produse, în cataloagele existente).

 

C. Digitizări locale, în instituţii ale memoriei, i.e. în biblioteci, muzee, arhive. Câte-or fi. Şi sunt deja (e.g. BCU Cluj, Metropolitana din Bucureşti).

În asemenea proiecte, instituţiile fac şi digitizările şi produc şi metadatele. Şi în acest caz e nevoie de postprocesări, desigur. Măcar să fie aşa de multe, cât să nu facem faţă !

 

D. Repozite externe, e.g. Google Books, Live Books, Internet Archive (aşa cum am inventariat pe www.biblioteca-digitala.ro).

Şi aici e nevoie de fişe catalografice româneşti. Pentru aceasta e însă suficient de angajat un catalogator, doi.

 

E. Voluntarii.

Oricât ar părea de ciudat (în România), există destui voluntari — mai ales tineri, pentru care munca voluntară nu e o activitate discreditată — dispuşi să digitizeze texte (de pildă). Vezi ro.wikisource.org. Sigur că şi în acest caz ar fi nevoie (uneori) de postprocesări. Un corector şi un catalogator ar fi suficienţi pentru început.

 

În concluzie, nu văd dificultăţi insurmontabile. Tot banii rămân problema, nu persoanalul. După părerea mea.

Written by poliptic

26 Mai 2008 at 10:59 pm