Chestiuni documentaristice (inclusiv bibliologice)

Dan Matei (care îşi dă şi el cu părerea).

Arhiva pentru categoria ‘biblioteci digitale

Europeana.eu: „Incidentul românesc” și lecțiile lui

cu un comentariu

 

Ce este Europeana.eu (www.europeana.eu) ?

  Europeana - slogan

Descrierea „oficială” spune:

Europeana.eu — Biblioteca, Muzeul și Arhiva Digitală a Europei — este un proiect care a început în iulie 2007, având drept scop crearea prototipului unui sait care să ofere acces direct la circa două milioane de obiecte digitale (incluzând materiale filmate, fotografii, picturi, înregistrări sonore, hărţi, manuscrise, cărţi, ziare şi documente de arhivă).

Conţinutul digital al Europeana.eu va fi selectat din materialele deja digitizate şi disponibile online în muzeele, bibliotecile, arhivele şi colecţiile audio-vizuale ale Europei. Prototipul urmăreşte să expună conţinut reprezentativ provenind din toate aceste patru domenii ale patrimoniului cultural şi — totodată — provenind din întreaga Europă. Intenţia este ca, până în 2010, portalul Europeana.eu să ofere acces direct şi gratuit oricărui cetăţean, la peste şase milioane de cărţi, imagini, documente de arhivă, înregistrări sonore şi filme în format digital.

Ceva despre istoria proiectului se poate citi și în acest blog.

 

Doamna Viviane Reding (comisarul european pentru societatea informaţională şi mass-media) a „tăiat panglica” prototipului portalului Europeana.eu pe 20 noiembrie 2008, la Bruxelles, în prezenţa miniştrilor culturii din ţările membre ale Uniunii Europene (din România a participat secretarul de stat Demeter Andras). Lansarea publică a avut loc pe 27 noiembrie, la Paris (unde Preşedinţia franceză a Uniunii a organizat conferinţa „Numérisation du patrimoine culturel – Bibliothèque numérique européenne”, la Musée du quai Branly).

A doua zi după deschidere, portalul Europeana.eu, versiunea Beta (adică un prototip experimental) a fost închis din cauza unui număr record de accesări (zece milioane, se zice), care au blocat serverul. Redeschiderea a avut loc abia peste o lună, în jur de 20 decembrie 2008.

 

Pentru realizarea prototipului Europeana.eu s-a lansat, în iulie 2007, proiectul EDLnet [European Digital Library Network], la care au participat cel puţin câte o instituţie din fiecare ţară membră (din România, partenerul invitat a fost CIMEC – Institutul de Memorie Culturală). În 2008, partenerii din proiectul EDLnet au furnizat resurse culturale digitale care să fie expuse — experimental — publicului european prin acest portal. Miza este prezenţa patrimoniului cultural al fiecărui stat membru al Uniunii Europene în această „vitrină” a culturii europene.

Conform diverselor declaraţii oficiale (şi neoficiale), Comisia Europeană consideră această bibliotecă digitală principalul său proiect cultural, pentru următorii ani. Nimic surprinzător: fără îndoială este un proiect de mare importanţă şi semnificaţie atât culturală, cât şi politică.

   

Ce „știe” Europeana.eu

 Acum portalul, versiunea beta — accesibil public la adresa www.europeana.eu — permite căutarea după cuvinte-cheie (adică şiruri de caractere aflate, explicit, oriunde în conţinutul metadatelor unei resurse). Așa arată (acum) pagina lui natală:

  

clip_image004

  

De exemplu, la interogarea cu cuvântul-cheie „Europe” se obţin (acum: 31.01.2009) 152.870 de resurse digitale (texte, imagini, înregistrări audiovizuale, înregistrări audio). Observați că resursele audio n-au imagini-timbru (dar nici toate resursele imagini n-au încă).

  

clip_image006

La interogarea cu cuvântul-cheie „Europa”, se obţin 4.775 de resurse digitale (şi se poate observa că pe prima pagină apar şi trei resurse româneşti, provenite de la CIMEC):

  Interogarea "Europa"

În aceste interogări se văd binișor limitările curente ale portalului. De pildă nu „știe” că „Europe” și „Europa” e același lucru. Apoi, nu e limpede de ce piesele trimise de noi (i.e. CIMEC) apar la interogarea „Europa” (eu știu: în atributul „contributor” al acestor piese apare expresia „Şcoală din Europa centrală”; dar utilizatorul obișnuit, ar putea să afle asta doar mergând la detaliile piesei și apoi la contextul ei original, pe saitul CIMEC.)

Dar nu e grav ! Să nu uităm că acesta este un prototip ! Acest fapt a trecut cam neobservat de presă. Sigur, nici Comisia Europeană nu a subliniat suficient ca este (deocamdată) un experiment.

În practică, expunerea unei resurse culturale în Europeana.eu, presupune:

  • plasarea obiectului digital într-un „repozit” (i.e. un „depozit informatic”) naţional (la o adresă stabilă şi accesibilă permanent) — într-un format standard;
  • expedierea la Haga (locaţia portalului Europeana.eu) a fişei descriptive a respectivului obiect — într-un format standard — şi adresa lui (portalul se comportă ca un catalog de bibliotecă);
  • (eventual) plasarea fişei descriptive şi într-un portal naţional.

Diagramatic, un exemplu al acestui mecanism (statuia romană Şarpele Glycon de la Muzeul de Istorie Naţională şi Arheologie din Constanţa – în acest caz) este:

 

clip_image010

 

iar prezentarea resursei digitale respective în viitorul portal naţional va arăta nu foarte diferit de cum arată acum în lista bunurilor clasate (http://clasate.cimec.ro):

 

clip_image012

   

Ce se face în România ?

 Pentru a pune în practică un plan de perspectivă privind prezența românească în Europeana.eu, Ministerul Culturii şi Cultelor a elaborat la sfârşitul anului 2008 un Program naţional pentru digitizarea resurselor culturale naţionale şi crearea Bibliotecii Digitale a României — aprobat prin Hotărârea Guvernului nr. 1676 din 10/12/2008 — care permite demersuri coerente şi de durată pentru digitizarea patrimoniului românesc şi expunerea resurselor digitale astfel obţinute atât în Europeana.eu, cât şi în viitoarea Bibliotecă Digitală a României (probabil numită Culturalia.ro). Prin acest act, CIMEC – Institutul de Memorie Culturală a fost desemnat „agregatorul” naţional, cel ce administrează repozitul naţional de resurse culturale digitale şi asigură interfaţa dintre furnizorii de conţinut (instituţii publice sau alte organizaţii deţinătoare de resurse culturale din România) şi serviciul tehnic care gestionează portalul Europeana.eu. Organizaţional, Ministerul Culturii, Cultelor și Patrimoniului Național constituit cinci „piloni tematici” (cu comisiile de experţi aferente) pentru: patrimoniul scris (biblioteci), patrimoniu mobil (muzee), patrimoniu imobil (monumente şi arheologie), patrimoniul audio-vizual şi patrimoniul arhivistic.

Din punct de vedere practic,

  • până la 15 octombrie 2008 (termenul limită pentru 2008), CIMEC (în calitate de partener în proiectul european EDLnet) a constituit repozitul naţional şi a expus 3.299 de obiecte digitale (imagini de obiecte muzeale clasate provenite din baza de date a patrimoniului cultural naţional, administrată de CIMEC, prin urmare bunuri cu valoare deja confirmată de Comisia Naţională a Muzeelor, pentru care aveam şi imagini de calitate), a prelucrat (în formatul cerut) şi a expediat la Haga fişele descriptive pentru cele 3.299 de obiecte digitale.
  • s-au elaborat (și acum se experimentează) instrumente informatice care să permită prelucrarea resurselor digitale provenite de la pilonii patrimoniu mobil și patrimoniu imobil la „scară industrială”;
  • se lucrează la constituirea nucleului inițial al unui portal românesc (Culturalia.ro);
  • pentru fiecare pilon tematic în parte, comisiile de specialitate elaborează planuri care să stabilească ce se digitizează (și cu ce priorități);
  • pentru fiecare pilon tematic în parte, comisiile de specialitate elaborează metodologiile de fişare a obiectelor digitale.

În perspectivă (dacă totul merge bine şi va exista o susţinere financiară rezonabilă), din 2009 comunităţile profesionale se vor mobiliza:

  • să identifice, să fişeze şi să prelucreze resursele culturale deja digitizate (sistematic sau ocazional);
  • să digitizeze resurse culturale semnificative din patrimoniul naţional, să le fişeze și să le prelucreze;
  • să expună resursele astfel prelucrate atât în Europeana.eu, cât şi în Culturalia.ro.

Efortul va fi semnificativ: această integrare a resurselor culturale româneşti în contextul european impune o rigoare sporită şi cere — pe cât posibil — elaborarea de fişe descriptive şi în limbi de circulaţie. Însă această oportunitate majoră pentru imaginea României trebuie să fie valorificată.

 

„Incidentul românesc”

 Din păcate, la lansarea prototipului portalului Europeana.eu, la 20 noiembrie 2008, a apărut o situaţie neplăcută pentru România. La interogarea cu cuvântul-cheie „România” se obţinea următorul rezultat:

 

clip_image014

 

Chiar pe prima pagină a rezultatelor căutării, din cele 1.688 de rezultate (între care — după cum se vede în stânga — 1.482 provin din România), s-au nimerit 10 fotografii sinistre, cu copii din orfelinatele româneşti din 1990. Imaginile provin de pe un sait educațional scoţian (www.scran.ac.uk):

 

clip_image016

 

Desigur, nu era o conspiraţie. Dovadă: dacă se caută după cuvântul-cheie „României”, se obţineau:

 

clip_image018

 

adică 703 resurse, din care 697 provin de la CIMEC, iar pe prima pagină, din 12 resurse, 11 provin de la CIMEC.

Pe de altă parte, dacă se interoghează cu cuvântul-cheie „Roumanie”, se obţinea:

 

clip_image020

 

iar cu cuvântul-cheie „Rumänien”, se obținea:

 

clip_image022

 

Aşadar, nefericita situaţie este un simplu incident tehnic, datorat algoritmului de ordonare a obiectelor din rezultatul unei interogări (ranking algorithm). M-am interesat, desigur, și n-am aflat algoritmul complet. Dar, e sigur că resursele pentru care cuvântul-cheie căutat se găseşte explicit chiar în titlu au prioritate în listă, apoi urmează cele care au cuvântul-cheie în celelalte câmpuri (nu mi-e clar în ce ordine). În fine, resursele „echivalente” din punct de vedere al priorităților sunt sortate în ordinea inversă a introducerii în baza de date. Astfel, s-au conjugat următorii factori:

  • cuvântul-cheie „România” este transformat (automat) în „Romania” (unele caractere cu diacritice sunt convertite la caracterele de bază respective);
  • cuvântul „Romania” se află în titlurile acelor nefericite fotografii (e.g. „Children in Romania”);
  • puține dintre resursele trimise de noi aveau cuvântul „România” în titlu (mult mai multe aveau cuvântul „României”);
  • s-a întâmplat ca imaginile provenite de la Scran să fie introduse în baza de date mai târziu decât cele trimise de CIMEC.

Din păcate, situaţia a fost imediat observată în România şi a provocat — previzibil — o (prea) vie emoţie, cu accente de indignare (iar eu am primit și reproșuri, vagi, e adevărat).

Am semnalat situaţia administratorilor portalului (la Haga) încă din noaptea de 20 noiembrie (când — de altfel — saitul a fost închis, pe considerent că n-a făcut faţă marelui număr de accese), solicitând o remediere. Nu am cerut — desigur — să fie cenzurate imaginile incriminate, ci doar să fie mai „uniform” repartizate printre celelalte resurse rezultate în urma interogării cu „România”. Ba chiar, după câteva zile, am sugerat şi o soluţie tehnică simplă, „de avarie”. Din păcate, echipa de la Haga a neglijat pe moment problema (şi nici nu ne-a explicat la vreme cauzele întâmplării; între timp s-au scuzat că au fost plecați în concedii etc.), astfel că, la jumătatea lui decembrie — când saitul a fost repus online, fără tam-tam de astă dată — am constatat că nimic nu se schimbase.

Am încercat în repetate rânduri să contactăm echipa tehnică (chiar cu mesaje ce ameninţau voalat cu plângeri la CE) dar, poate din pricina sărbătorilor, n-am reuşit să obţinem nici o reacţie. Abia după 1 ianuarie am obţinut promisiunea unei abordări a problemei. Iar apoi, adică pe 6 ianuarie, a izbucnit scandalul în media românească şi acesta a ajuns iute la Comisia Europeană (prin intermediul comisarului Leonard Orban). Ca urmare a presiunilor de la Bruxelles, managementul proiectului (de altfel persoane de calitate şi competente) a reacţionat şi s-a găsit rapid o posibilă soluţie, dar care implica un efort tot din partea românilor: să mai trimitem (de urgenţă) un lot de obiecte digitale, astfel încât acestea, având o dată mai recentă de trimitere, să apară în primele pagini, conform algoritmului de ordonare actual din Europeana.eu.

Prin urmare, în 8 şi 9 ianuarie s-a lucrat foarte intens la CIMEC şi s-au pregătit alte peste 8.000 de înregistrări de bunuri culturale din patrimoniul naţional, și au fost trimise la Haga (de data asta, din păcate, cu imagini de mai slabă calitate, aşa cum se găsesc ele în dosarele de clasare în patrimoniul național). Astfel, acum, la interogarea „România” se obține:

 

clip_image024

 

Sigur, e cam bizar cum s-au grupat 8 scaune în primele 12 resurse. Dar i-am bodogănit deja destul pe amicii de la Haga…

Această situaţie putea fi — în cea mai mare măsură — evitată, dacă problema ar fi fost tratată serios de la început de echipa de la Haga, pentru că efortul de la începutul lui ianuarie puteam să-l facem la fel de bine și la sfârşitul lui noiembrie.

Ca o ironie, ia vedeți ce apare la interogarea „Hitler” (la 1.02.2009):

 

clip_image026

 

Primul exponat e un portret al lui Hitler pictat de un român (adevărat, mai celebru în Franța decât în România), încă din 1934 !

 

Problemele

 Acest incident a scos mai bine în evidență problemele proiectului Europeana.eu, cel puțin așa cum apar ele din perspectiva mea. Cele majore ar fi:

  • Biblioteca, muzeul și arhiva digitală a Europei n-ar trebui să fie un proiect finanțat din programe europene, adică discontinuu și incert. Europeana.eu ar trebui să fie un serviciu public, asigurat de o agenție europeană, finanțată continuu și adecvat (de altfel, acest serviciu ar utiliza cum nu se poate mai onorabil banii publici europeni).
  • Proiectul EDLnet a fost un proiect remarcabil de modest finanțat: a avut un buget de circa 1,5 milioane de euro, la o durată de 18 luni. Continuarea sa din cadrul programului eContentPlus, proiectul Europeana 1.0 (care-și propune realizarea serviciului operațional adevărat), are prevăzut un buget de câteva milioane de euro, pe o durată de 3 ani. Prin urmare, dacă CE declară că acesta este proiectul ei cultural major, de ce îl finanțează așa de precar ?
  • De altfel, cu ocazia acestui proiect s-au pus în evidență și unele deficiențe ale programelor europene, și anume lipsa de coordonare și de concentrare, atunci când acestea se dovedesc necesare. Astfel, între 2005 și 2008, CE se mândrește că a cheltuit circa 60 milioane de euro pentru proiecte legate de biblioteci digitale, dar atunci când a fost nevoie de o platformă informatică pentru o bibliotecă digitală adevărată, acesta a trebuit să fie — practic — improvizată în 6 luni, cu o echipă de dezvoltare de 3-4 oameni.
  • Europeana.eu ar trebui să revină la spiritul ei originar (așa cum a fost el sugerat, la începuturi, prin contrast cu „concurența”, i.e. Google Books Search, și anume o resursă cu material atent selectat, pe baza „semnificației culturale”. Cu alte cuvinte, se presupunea că vom expune în Europeana.eu doar resurse culturale cu adevărat semnificative (pentru a evita cuvântul „valoroase”). Or, în acest moment, deoarece pe parcurs a apărut ambiția de a expune (într-un prototip experimental !) peste 2 milioane de obiecte digitale, selecția materialului a fost — practic — abandonată. Cantitatea a doborât calitatea. La ce ne folosește ? Oricum, la cantitate Google ne va depăși cu mult.
  • Nu e OK să se expună resurse în Europeana fără, sau cu foarte puțină „interpretare”. Multe dintre resursele expuse au acum fișe descriptive cu totul rudimentare și deci, sunt lipsite de „context”. Sigur, un peisaj poate că n-are nevoie de multă „interpretare”. Dar „Mein Kampf” — de pildă — poate fi expus așa, pur și simplu ?
  • Prototipul este încă rudimentar, iar aceasta se trage — după mine — mai ales din rudimentaritatea metadatelor (un fel de Dublin Core, ușor extins). Fără „fișiere de autoritate”, căutarea o să dea mereu rezultate precare. Acum, sistemul nu „știe” că Firenze, Florența și Florence e același lucru, sau că (Firenze, Florența, Florence) e parte a (Italia, Italy, Italie).
  • Monolingvismul de facto al fișelor nu e acceptabil, pe termen lung. Desigur e o problemă grea de tot, dar nu poate fi amânată prea mult.

De altfel, la a 4-a reuniune a Grupului de Experți în Digitizare al Statelor Membre (Luxemburg, 29.01.2009), am sugerat formarea unui „consiliu editorial” al Europeana.eu, care să stabilească „regulile jocului”. Prima reacție a unui reprezentant al Comisiei Europene (de altfel o persoană foarte bine) a fost negativă, pe considerent că Europeana nu ar trebui să fie „cenzurată”, și că — de altfel — materialele sunt propuse de instituții culturale, deci … Nu era timp de multe discuții (și poate nici nu era locul potrivit), așa că n-am insistat. Eu cred că un asemenea consiliu ar trebui să filtreze nu atât ce se expune, cât cum se expune. În orice caz, o să încerc să conving ministerul nostru să insiste pe această idee.

Pe de altă parte, în chestiunea traducerilor, sunt conștient că tot noi, vorbitorii de „limbi mici”, avem de lucru. Dacă vrem să ne „vadă” mai multă lume, trebuie să ne traducem fișele în englezește, franțuzește, nemțește. Pe când, dacă vrem ca românofonii să „vadă” resursele britanice, franceze, germane, tot noi o să trebuiască să le traducem în românește. C’est la vie…

Pour terminer, Europeana.eu mi se pare un demers de toată lauda. Nu numai că ar putea fi în sine un serviciu cultural paneuropean realmente important și semnificativ (care ar întări sentimentul unității culturii europene !), dar ne-ar obliga și pe noi, operatorii culturali, ca, la noi acasă, să fim mai riguroși și mai grijulii cu resursele noastre digitale. Tocmai de aceea, abordarea lui ezitantă mi se pare regretabilă.

Written by poliptic

1 februarie 2009 at 4:30 pm

Biblioteca Digitală a României [BDR]: „cu ce oameni se va lucra ?”

cu 5 comentarii

În comentariul la postul precedent, doamna Şerbănuţă îmi pune două întrebări importante. Încerc să răspund aici la prima (care e multiplă :-) La a doua, poate mâine.

Aşadar, zice doamna Şerbănuţă:

… as repeta aici intrebarea mea postata pe Prolibro legata de acest proiect: cu ce oameni se va lucra ? Stiu ca bugetul va rezolva o parte din probleme, dar pregatirea oamenilor ia timp. Cine se va ocupa de asta ? Impresia mea este ca CIMEC-ul nu e foarte mare…se va extinde in viitor pentru a putea sustine acest proiect ? Vor fi adusi sa lucreze in proiect informaticienii ? Sau bibliotecarii? (Stiut fiind ca la noi rare sunt intersectiile dintre ei).

Întâi, răspunsurile scurte:

 

  1. Cu oamenii existenţi: a) pentru digitizări pretenţioase există firme specializate; scanări simple ştie/învaţă oricine; b) catalogatori (încă) există.
  2. CIMEC are cam 40 de oameni şi nu (cred că) se va extinde (poate va avea ocazionale colaborări externe). Şi n-am zis că proiectul BDR e strict treaba CIMEC.
  3. Desigur: trebuie „aduşi” informaticieni, bibliotecari, muzeografi, arhivişti.

 

Răspunsul lung:

Memento: de ce e nevoie ? a) de resurse digitale (text, imagine, sunet, video) şi b) de metadate, adică de fişe catalografice pentru fiecare resursă.

 

Sursele de material digital pe care le întrevăd (acum) sunt:

 

A. Clasările în patrimoniul cultural naţional: Comisia Muzeelor şi Colecţiilor clasează cam 300 de piese pe lună. Acum, imaginile pieselor sunt — de regulă — de slabă calitate. Dar descrierea catalografică e făcută de experţii care propun clasările. Aşadar, calitatea metadatelor e — cel mai adesea — OK.

Sigur că atât imaginile cât şi metadatele necesită postprocesare. Aceasta poate fi făcută de CIMEC.

 

B. Proiecte de digitizare importante (finanţate mai ales de stat) — câte-or fi —, cum a fost cel de facsimilare digitală de manuscrise medievale de la Batthyaneum (peste 100.000 de pagini).

În asemenea proiecte — fiindcă se presupune că sunt finanţate semnificativ, nu printre picături — digitizările le fac firmele specializate, iar metadatele le produc catalogatori angajaţi sau (uneori) catalogatorii instituţiilor deţinătoare (poate sunt deja produse, în cataloagele existente).

 

C. Digitizări locale, în instituţii ale memoriei, i.e. în biblioteci, muzee, arhive. Câte-or fi. Şi sunt deja (e.g. BCU Cluj, Metropolitana din Bucureşti).

În asemenea proiecte, instituţiile fac şi digitizările şi produc şi metadatele. Şi în acest caz e nevoie de postprocesări, desigur. Măcar să fie aşa de multe, cât să nu facem faţă !

 

D. Repozite externe, e.g. Google Books, Live Books, Internet Archive (aşa cum am inventariat pe www.biblioteca-digitala.ro).

Şi aici e nevoie de fişe catalografice româneşti. Pentru aceasta e însă suficient de angajat un catalogator, doi.

 

E. Voluntarii.

Oricât ar părea de ciudat (în România), există destui voluntari — mai ales tineri, pentru care munca voluntară nu e o activitate discreditată — dispuşi să digitizeze texte (de pildă). Vezi ro.wikisource.org. Sigur că şi în acest caz ar fi nevoie (uneori) de postprocesări. Un corector şi un catalogator ar fi suficienţi pentru început.

 

În concluzie, nu văd dificultăţi insurmontabile. Tot banii rămân problema, nu persoanalul. După părerea mea.

Written by poliptic

26 mai 2008 at 10:59 pm

Biblioteca Digitală a României [BDR]: planuri şi speranţe

cu 2 comentarii

 

Postul ăsta (şi cel anterior) au fost provocate, de fapt, de postul al lui Nicolaie Constantinescu, care semnalează bucuros existenţa unei propuneri de de politică publică privind digitizarea resurselor culturale naţionale şi crearea Bibliotecii Digitale a României.

Sunt implicat în proiectul Bibliotecii Digitale a României. Dar, (mai) înăuntru fiind, nu împărtăşesc optimismul amicului Nicolaie Constantinescu. Sper ca el să aibă dreptate.

Adevărat: propunerea de „politică publică” a Ministerului Culturii este, în principiu, agreată de guvern. Dar până nu se alocă un buget, e doar un gând pios. Iar anul astă nu mă aştept să i se aloce un buget. Dă Doamne să mă înşel !

Adevărat: ministrul meu (Adrian Iorgulescu) a declarat public că BDR e una dintre priorităţile ministerului. Aici am ceva mai multe nădejdi, adică tot la bugetul existent.

 

A. Care e planul ?

1. Să inventariem ce e deja digitizat.

2. Să constituim un repozit (repository), unde să depunem resursele pe care le obţinem, împreună cu aplicaţiile de prezentare (randare), dacă sunt necesare, e.g. o aplicaţie de răsfoire. Şi să asigurăm URL-uri stabile.

3. Să constituim o bază de date cu metadatele descriptive ale acestor resurse (disponibile pentru recoltare de către europeana.eu).

4. Să dezvoltăm portalul naţional, i.e. BDR, cu interfaţă românească (şi măcar şi cu una englezească), şi care să permită acces nu doar la resursele din repozitul local, ci şi la alte resurse „de interes românesc” din repozite străine (i.e. Google Books, Live Books) sau resurse care — din diverse motive — nu sunt încă accesibile prin europeana. eu (de pildă fiindcă n-au metadatele conforme cu cerinţele acesteia).

NB. Europeana.eu nu va accepta resurse din repozite concurente (e.g. Google Books), aşa că BDR va colecta mai multe resurse „româneşti” decât europeana.eu. Ca să vedeţi ce vreau să zic: într-un week-end (în toamnă) am făcut un exerciţiu de vreo 3-4 ore. Am încercat să identific resurse „româneşti” în trei repozite mari (Google Books, Live Books şi Internet Archive). În acestea, neavând cataloage, e greu de găsit ceva, dacă nu ştii exact ce cauţi. Iniţial, am căutat orbeşte, folosind cuvinte cât mai „româneşti”, precum „mămăligă” sau „suflet”. Pe urmă am dat-o pe „Romania”, „Transylvania”, „Valachia” şi altele asemenea. Tot am găsit 102 cărţi. Iată rezultatul la www.biblioteca-digitala.ro.

5. Să încurajăm orice digitizare în ţară (plătită sau voluntară). Să convingem autorităţile (centrale şi locale) să nu finanţeze nici o digitizare, dacă rezultatul nu se include în BDR.

 

B. Conexiunea cu europeana.eu

Schematic vorbind, asocierea BDR cu Biblioteca Digitală Europeană Europeana.eu se va face în modul următor:

  • portalul Europeana.eu îşi va recolta metadatele (de sorginte românească) din baza de date BDR (prin protocolul OAI-PMH). Utilizatorii portalului Europeana.eu vor avea acces la resursele româneşti (pentru care s-au recoltat metadate) din repozitul românesc (alături de celelalte repozite europene);
  • utilizatorii BDR vor avea acces la toate resursele din repozitul românesc, dar şi la resurse din alte repozite (pentru care portalul are metadate).

Diagramatic (şi foarte simplificat), mecanismul sugerat este:

 Relatia-BDR-Europeana

… în care se vede cam cum e planul.

 

C. Care-i problema ?

Se poate rezuma astfel: (deocamdată) nu avem banii pentru softul adecvat.

Dar am intrat într-un parteneriat „european” şi am aplicat la apelul 3 (aprilie) la FP7, ca să obţinem finanţare pentru dezvoltarea unei platforme pentru biblioteci digitale („gen BDR” :-).

Încalc (puţin) confidenţialitatea ca să arăt cam ce mi-aş dori. Folosesc o variaţiune a unui exemplu pe care l-am pus în textul aplicaţiei (unul dintre parteneri e un laborator din Prato, aşa că – din simpatie – am ales un „exponat” pratoan).

Să presupunem că avem în biblioteca digitală următoarea resursă digitală:

 

 Prato-duomo-Globalgeografia.com

O foarte simplă înregistrare metadatală [metadata record] pentru ea ar fi:

 

[ro] Legendă: catedrala din Prato, după amiaza.

[en] Caption: Prato Cathedral in the afternoon.

ã Globalgeografia.com

  

O înregistrare metadatală mai complexă, ar fi o înregistrarea “Dublin Core” [ISO 15836:2003(E)]:

 

Title

prato1.jpg
Creator    ? 
Subject [en]   The Prato Cathedral    

Subject [ro]   Catedrala din Prato  
Description [en]   A photo of the famous Prato Cathedral (Santo Stefano di Borgo al Cornio) in the afternoon. Architect: Guidetto da Como. Creation date: 12th-15th century. Style: Romanesque; Gothic.  
Description [ro]   fotografie a faimoasei catedrale din Prato (Santo Stefano di Borgo al Cornio), la orele după amiezii. Arhitect: Guidetto da Como. Datare: sec. XII – XV. Stil: romanic; gotic.  
Publisher    Globalgeografia.com  
Contributor    ?  
Date    2002-2004 (?)  
Type [en]   digital image  
Type [ro]   imagine digitală  
Format    jpeg  
Identifier    www.globalgeografia.com/album/italia/toscana/prato1.jpg  
Source    www.globalgeografia.com  
Language    -  
Relation    -  
Coverage [en]   Prato, Italy  
Coverage [ro]   Prato, Italia  
Rights    ã Globalgeografia.com  

O reprezentare mai folositoare (şi nu mult mai complexă) ar arăta (diagramatic) cam aşa:

 

PratoArgument

Aşadar, pentru a reprezenta „obiecte culturale” (care sunt — prin natura lor — complexe), e necesar un model de date complex. Acel model de date trebuie să includă mai multe tipuri de înregistrări metadatale şi multe tipuri de relaţii între acestea, împreună cu exprimări plurilingve a termenilor implicaţi.

Astfel, un vizitator al prezumtivei noastre biblioteci digitale ar avea şansă să descopere imaginea frumoasei basilici pratoane nu doar după numele ei, ci şi baleind ale lucruri interesante aflate în Toscana sau construite în secolul XV sau aparţinând clasei „arhitectură” sau fiind asociate cumva cu Sfântul Ştefan. Utilizatorul nostru ar putea profita astfel nu doar de metadatele oferite de furnizorul imaginii, ci şi de cunoştinţele consemnate de alţi furnizori de conţinut, cum ar fi:

  • Prato se află în Toscana;
  • Toscana face parte din Italia;
  • basilica este o entitate arhitecturală.

     

  •  Dacă e relativ uşor (nu şi pentru mine !) să faci maioneză din ouă şi ulei, e foarte dificil să separi oul de uleiul dintr-o maioneză. Similar, e relativ uşor să degradezi [dumb-down] o asociere complexă de înregistrări metadatale (precum cele sugerate în diagramă) ca să obţii o înregistrarea Dublin Core (sau chiar o simplă legendă), dar este foarte dificil să transformi (automat) o înregistrare Dublin Core într-un set de înregistrări metadatale logic interconectate („degradarea” e aproape o funcţie neinversabilă — cum ar zice matematicianul).

    Morala e că ar fi nevoie de elaborarea unor modalităţi de reprezentare a informaţiei culturale complexe într-un format rafinat şi de a defini un model de date care să încurajeze experţii să-şi consemneze cunoştinţele culturale astfel încât să se favorizeze multiple căi de descoperire de către utilizator a resurselor dintr-o bibliotecă digitală. Din fericire, deja se cam ştie cum să se facă asta.

    Ne-ar plăcea ca Biblioteca Digitală a României să fie organizată astfel (cam ca o enciclopedie), ca să permită utilizatorului nu doar căutarea unei resurse bine precizate, ci şi baleierea şi navigarea printre entităţile asociate de catalogatori/indexatori cu resursele digitale aflate în acea bibliotecă. Să ne ţinem pumnii !

    Written by poliptic

    24 mai 2008 at 12:21 pm

    Europeana.eu: puţină istorie şi câteva comentarii (mai acide)

    cu un comentariu

     

    Zilele trecute, amicii de pe lista TIC-Lobby m-au „provocat” să comentez „politica publică privind digitizarea resurselor culturale naţionale şi crearea Bibliotecii Digitale a României, propusă de Ministerul Culturii şi Cultelor”. M-am conformat (cu chiu cu vai — sunt leneş la scris) şi am început expunând „rădăcinile istorice” ale acestei propuneri.

     

    A. Istoria

     

    14 decembrie 2004:

    Google anunţă proiectul “Google Print for Libraries” (acum se numeşte, oficial, Google Book Search): digitizarea a 15 milioane de cărţi (i.e. 4,5 miliarde de pagini), materialul provenind de la 5 (mari) biblioteci „anglo-saxone” (4 americane: Harvard, Stanford, Michigan, New York Public; una engleză: Oxford).

    Iniţial am crezut că ziariştii au notat greşit, şi că anunţul corect era de 15 milioane de pagini. Ei bine nu; era de 15 milioane de cărţi. Drept e că nu se specifică durata proiectului, dar se pare că e de 10 ani. NB. Se zice că au digitizat deja peste 2 milioane de cărţi.

     

    23 ianuarie 2005:

    Jean-Noël Jeanneney (preşedinte – atunci – al Bibliotecii Naţionale a Franţei publică „Quand Google défie l’Europe” în Le Monde (se poate citi şi pe www.lemonde.fr, dar costă).  Jeanneney se îngrozeşte de potenţiala hegemonie a „culturii anglo-saxone” pe Net.

    Citat:

    Le vrai défi est ailleurs, et il est immense. Voici que s’affirme le risque d’une domination écrasante de l’Amérique dans la définition de l’idée que les prochaines générations se feront du monde. [...] les critères du choix seront puissamment marqués (même si nous contribuons nous-mêmes, naturellement sans bouder, à ces richesses) par le regard qui est celui des Anglo-Saxons, avec ses couleurs spécifiques par rapport à la diversité des civilisations.

    (The real challenge is different, and it is huge. Here we have the risk of a crushing domination by America in defining the idea that later generations will have of the world [...] the criteria of choice will be powerfully marked (even if we contribute ourselves, naturally without sulking, to these riches) by the perspective which is that of the Anglo-Saxons, with its specific coloration with respect to the diversity of civilizations.)

    Mai târziu, în 2005, el publică şi o carte: „Quand Google défie l’Europe : plaidoyer pour un sursaut”.  Citat din prezentarea editorului american:

    Jean-Noël Jeanneney, president of France’s Bibliothèque Nationale, here takes aim at what he sees as a far more troubling aspect of Google’s Library Project: its potential to misrepresent—and even damage—the world’s cultural heritage. In this impassioned work, Jeanneney argues that Google’s unsystematic digitization of books from a few partner libraries and its reliance on works written mostly in English constitute acts of selection that can only extend the dominance of American culture abroad. This danger is made evident by a Google book search the author discusses here—one run on Hugo, Cervantes, Dante, and Goethe that resulted in just one non-English edition, and a German translation of Hugo at that. An archive that can so easily slight the masters of European literature—and whose development is driven by commercial interests—cannot provide the foundation for a universal library.

     

    1 iunie 2005:

    Comisia Europeană publică „strategia” “i2010 – A European Information Society for growth and employment“. Nu se pomeneşte de biblioteci digitale (nici cuvântul „cultură” nu-l găsesc), dar printre „provocări” e şi:

    “rich content: increased legal and economic certainty to encourage new services and on-line content”.

    Încurajator.

     

    28 aprilie 2005:

    Faimoasa scrisoare Chirac (co-semnată de Kwasniewski, Schroeder, Berlusconi, Zapatero, Gyurcsany) prin care se cere o „reacţie” europeană la iniţiativa Google (fără ca aceasta să fie numită).

    Citat:

    C’est la raison pour laquelle nous souhaitons prendre appui sur les actions de numérisation déjà engagées par nombre de bibliothèques européennes pour les mettre en réseau et constituer ainsi ce qu’on pourrait appeler une bibliothèque numérique européenne, c’est-àdire une action concertée de mise à disposition large et organisée de notre patrimoine culturel et scientifique sur les réseaux informatiques mondiaux.

     

    7 iulie 2005:

    Răspunsul lui Barosso, pozitiv, dar fără să angajeze Comisia Europeană.

    Citat:

    … le principe de subsidiarité doit etre respecté. Ce sont donc le Etats membres qui sont responsables au premier chef de leur politiques culturelles.

     

    30 septembrie 2005:

    Comisia Europeană adoptă cominicatul „i2010: Digital Libraries”, prin care îşi schiţează „viziunea” în chestiunea bibliotecilor digitale.

    Citat:

    Organising and funding the digitisation of cultural collections and digital preservation is primarily a responsibility of the Member States.

    Within the eContentplus programme, 60 MEUR will be available in the period 2005-2008 for projects improving the accessibility and usability of European cultural and scientific content. Achieving interoperability between national digital collections and services (e.g. through common standards) and facilitating access and use of the material in a multilingual context will be core objectives.

     

    24 august 2006:

    Recomandarea (2006/585/ce) a Comisiei Europene “on the digitisation and online accessibility of cultural material and digital preservation”.

    Citat:

    4. set-up and sustain large scale digitisation facilities, as part of, or in close collaboration with, competence centres for digitisation in Europe;

    5. promote a European digital library, in the form of a multilingual common access point to Europe’s distributed — that is to say, held in different places by different organisations — digital cultural material, by:

    (a) encouraging cultural institutions, as well as publishers and other rightholders to make their digitised material searchable through the European digital library,

    (b) ensuring that cultural institutions, and where relevant private companies, apply common digitisation standards in order to achieve interoperability of the digitised material at European level and to facilitate cross-language searchability;

    11. make provision in their legislation for the preservation of web-content by mandated institutions using techniques for collecting material from the Internet such as web harvesting, in full respect of Community and international legislation on intellectual property rights;

     

    27 septembrie 2007:

    Parlamentul European adoptă o rezoluţie care sprijină viziunea Comisie Europene expusă în „i2010: Digital Libraries”.

    Citat:

    1.  Recommends setting up in stages a European digital library in the form of a single, direct and multilingual access point for the European cultural heritage;

    13.  Points out that, although Community programmes are not able to fund digitisation as such, new methods of financing must be developed, including partnerships with the private sector, on the understanding, however, that every effort must be made to prevent digitisation proceeding at different paces in different Member States;

    14.  Encourages the establishment of a common interface providing access to content of guaranteed quality and accuracy via an integrated search engine enabling searches for meta-information and direct text when documents have been digitised in text mode;

    15.  Underlines the importance of achieving a multilingual interface giving direct access to content in all European Union languages in order to accommodate not just searches by author or title, but also searches by topic or keyword, the results of which must ultimately encompass the data from every library involved and in every catalogue language;

    18.  Points out that it would be desirable not to limit the European cultural heritage to the European Union’s own works, but also to take account of the cultural contributions of other European countries;

     

    B. Comentariile

     

    1. După mine, Jeanneney a perceput prea panicos proiectul Google Books: Google lucrează pe scară mare şi — acum se cam ştie — nimeni nu stă să aleagă cu grijă cărţile care se scanează. Se iau rafturi întregi. Şi, desigur, bibliotecile alea de elită (acum sunt mai multe) am masiv „cultură europeană”. Dovadă: am găsit şi cărţi „româneşti”.

    Dar, ţipătul lui a provocat emulaţie şi entuziasm — vezi „scrisoarea Chirac” — pentru care sunt foarte recunoscător. Drept că entuziasmul iniţial al guvernelor şi al Comisiei Europene (care-mi amintea de entuziasmul belicos din august 1914, când mergeam (aproape) toţi europenii, cântând, la răzbel) s-a pleoştit repede, adică nu s-a materializat în buget. S-a decis că statele membre îşi finanţează singure digitizările. Mă deranjează că nici măcar simbolic Comisia Europeană nu finanţează digitizări.

    <paranteză>

    Sigur, decizia asta are o logică, şi e normal ca în primul rând statele să-şi digitizeze producţiile culturale proprii. Totuşi, măcar simbolic …

    La o conferinţă dedicată unde era şi Horst Forster (Director responsible for “Digital content and cognitive systems” in the European Commission’s Directorate general for Information Society and Media”), m-am obraznicit şi am deplâns această decizie. Am propus ca CE să finanţeze măcar nişte digitizări de „material de interes european” dinafara UE. Şi am dat exemple: biblioteca Vaticanului, arhivele de la Washington, Moscova şi Istanbul, muzeele Ermitaj şi Metropolitan. Să avem şi o „avere digitală” comună. N-am provocat nici o reacţie „oficială”. Doar bătăi pe umăr şi glumiţe aprobatoare, în pauze.

    </paranteză>

     

    2. Îmi place la „viziunea europeană” trans-domenialitatea, i.e. Biblioteca Digitală Europeană [EDL] va conţine nu doar texte, ci material cultural în toate formele (aşadar, denumirea de „bibliotecă” e prea restrictivă; s-a şi remediat pe parcurs). Îmi pare singurul „selling point” real în concurenţă cu Google Books. Altfel, de ce ar merge un vizitator la EDL în loc să meargă la Google Books ? În 2010, EDL va avea (se presupune) 6 miloane de „items” vs. 15 milioane de cărţi pe care le va avea Google Books. Mai mult (după cum zicea amicul meu Theo van Veen de la Biblioteca Regală a Olandei): orice truc tehnic am inventa noi, Google o să-l facă mai bine.

     

    3. Nu-mi place ideea de „distribuit” („… European digital library, in the form of a multilingual common access point to Europe’s distributed — that is to say, held in different places by different organisations — digital cultural material…”). S-a decis că European Digital Library [EDL] să fie doar un portal (index, catalog …) şi ca resursele digitale propriu-zise să stea la mama lor. Aceasta va avea drept consecinţă (în mintea mea) că timpii de răspuns vor fi mereu mai proşti decât la Google. În plus, mi-ar fi plăcut ca toate resursele digitale să aibă şi câte o copie la Haga (măcar din raţiuni de securitate; memento: LOCKSS – Lots of Copies Keep the Stuff Safe).

     

    4. În prezent, continuă să se „cerceteze” în UE (pe bani bunişori – programul eContentPlus, de pildă) bibliotecile digitale (de parcă nu s-ar şti binişor să se facă asta). N-am nimic împotriva cercetării, bineînţeles, dar mi-ar plăcea să se cheltuie bani europeni şi pe chestii mai stabile, cumulative, cu alte cuvinte „resurse” cum ar fi — de pildă — „Biblioteca Digitală Europeană” sau „Ontologia Europeană” sau „Enciclopedia Europeană”.

     

    C. Ce se întâmplă (practic) la nivel european: Europeana.eu

     

    Ştiu câte ceva, deoarece CIMEC (angajatorul meu) e partener în proiectul EDLnet (mai nou „Europeana”). Asta înseamnă că particip – cam o dată la două luni – la şedinţele tehnice ale WG2, la Haga:

    • WG 2.1: Standards and Interoperability of Standards (focused on metadata)
    • WG 2.2: Semantic and Multilingual Interoperability
    • WG 2.3: Technical Architecture.

    Discuţiile sunt plăcute şi interesante, oamenii sunt competenţi şi drăguţi. Treaba noastră e să „proiectăm” portalul european europeana.eu (care nu e doar o bibliotecă ci e „the European digital library, museum and archive”. Dar — mă tem — va ieşi un tipic produs proiectat de un comitet. Dă Doamne să mă înşel.

    EDLnet este un proiect slab finanţat (se şi termină în toamnă) şi e construit pe o contradicţie (după mine): pe de o parte, proiectăm produsul final, iar pe de altă parte, echipa de dezvoltare (vreo 4-5 oameni angajaţi temporar) produce un prototip, care trebuie să fie lansat în noiembrie. Între cele două planuri nu e clară legătura, iar ce „producem” noi reflectă confuzia (după gustul meu). Puteţi să vă faceţi o idee despre „arhitectura” Europeana.eu, la www.edlproject.eu/conference/downloads/EDLconf_Gradmann.pdf.

    Pe plan politic, stăm relativ prost — (iar) după gustul meu. Pentru moment, ideea e ca portalul Europeana.eu să fie patronat de EDL Foundation, care e o asociaţie ce trăieşte din cotizaţii.

    <paranteză>

    Eu sunt scandalizat (asta-i cuvântul !) că draga de Comisie Europeană nu tratează europeana.eu ca pe „biblioteca, muzeul, arhiva unională”, i.e. a Uniunii Europene. Cu alte cuvinte, pe lângă milioanele de agenţii (bine bugetate) ale UE, nu se poate inventa o agenţie stabilă şi pentru asta ?

    </paranteză>

     

    Politico-arhitectural, este deja convenit ca fiecare ţară membră să aibă cel puţin un „agregator” (susţinut de ministerul culturii respectiv), care să adune resursele digitale din ţara respectivă, să le asigure URL-uri stabile, să le pregătească metadatele descriptive şi să le furnizeze portalului european. În practică vor fi mai mulţi agregatori, deoarece în unele ţări există diviziuni greu de reconciliat (e.g. pe domenii, pe limbi). Până la noi ordine, agregatorul român desemnat este CIMEC – Institutul de Memorie Culturală.

    Din pricina acestor „agregări”, mai multe ţări sunt decise să-şi organizeze (şi) portaluri naţionale. De altfel e şi o recomandare discretă a EDL Foundation:

    Citat:

    Strategic priorities for Ministries:

    • Support national portals for museums, audio-visual collections, libraries and archives. National portals establish consistent standards for digitised content, enabling Europeana to harvest heritage media of different types.
    • Support the development of digitisation programmes to bring priority national collections into Europeana.

     

    În următorul post o să spun câte ceva şi despre planurile Bibliotecii Digitale a României.

    Written by poliptic

    22 mai 2008 at 10:19 pm