Chestiuni documentaristice (inclusiv bibliologice)

Dan Matei (care își dă și el cu părerea).

Biblioteca Digitală Publică a României: o Misiune Imposibilă ?

leave a comment »

[intervenție la Conferința SRS, Sibiu, 2012]

Prolog

Desigur, titlul este o referință la „Digital Public Library of America” (DPLA) [Biblioteca Digitală Publică a Americii] (Fig. 1). Discuția din SUA despre DPLA este semnificativă și pentru noi, deși DPLA joacă în altă ligă: utilizatorul american are la îndemână multe biblioteci digitale (mari).

Figura 1. DPLA: pagina natală (http://dp.la)

A. Culturalia.ro: ce-ar trebui să fie ?

Culturalia[1] va fi biblioteca digitală[2] a resurselor culturale (digitale) liber accesibile, i.e. atât fără restricții, cât și gratuit. Ea ar trebui să indexeze toate tipurile de resurse, i.e. materiale textuale, audiovizuale, dar și reprezentări digitale de obiecte fizice.

Ea ar trebui să integreze fișiere de autoritate, adică înregistrări de persoane, colectivități, locuri, perioade, evenimente, concepte, subiecte, situații, toate organizate ca „date interconectate”[3].

B. Culturalia.ro: utilitatea

Precum modelul său[4] (i.e. Europeana.eu — Fig. 2), Culturalia ar trebui să fie:

  • pentru utilizatori: un punct de acces unitar la resursele culturale ale națiunii, o sursă autoritativă de cunoștințe și de satisfacții superioare;
  • pentru instituțiile memoriei (biblioteci, muzee, arhive, galerii): o oportunitate de a-și expune online colecțiile;
  • pentru profesioniști: o platformă pentru schimb de cunoștințe.

Figura 2. Europeana.eu: pagina natală (www.europeana.eu)

În plus, Culturalia ar putea constitui o facilitate convenabilă pentru expunerea colecțiilor românești și în Europeana.

Astfel, Culturalia ar putea să furnizeze un serviciu public folositor, într-o vreme când — din pricina mutațiilor tehnologice — biblioteca publică tradițională se transformă și când marea majoritate a muzeelor și a arhivelor pot să-și expună public doar o mică parte din colecții (la care contribuabilul este îndrituit să acceadă).

Mai mult, din pricina naturii sale de serviciu online, Culturalia ar putea fi o cale eficace de diminuare a ceea ce eu numesc „discriminarea geografică” (i.e. acces inegal la „Hochkultur” —  cultura înaltă — al contribuabilului din mediul urban față de cel din mediul rural, și celui bucureștean față de cel din provincie).

C. Culturalia.ro: arhitectura

În fapt, Culturalia va fi un catalog partajat, adică, va fi o bază de date (centrală) conținând metadatele descriptive (i.e. fișele) ale resurselor digitale expuse, și interfața sa utilizator va permite căutarea și baleierea înregistrărilor catalografice, pe lângă navigarea între ele.

 

Figura 3. Culturalia: arhitectura

Obiectele digitale propriu-zise vor fi expuse pe saiturile furnizorilor de conținut (Fig. 3).

După gustul meu, această arhitectură distribuită nu este cea mai bună soluție tehnică, din pricina calității modeste a infrastructurii informatice și a conexiunii lente la internet a multor furnizori de conținut. Totuși, din rațiuni „politice”, e improbabilă o arhitectură centralizată, cel puțin la început: instituțiile memoriei sunt (încă) foarte reticente să-și expună resursele pe saitul altcuiva. Sper măcar la implementarea unui repozit central, ca dublură de siguranță.

D. Probleme (și posibile soluții)

D.1. Probleme tehnice

Desigur metadatele descriptive diferă mult de la o instituție a memoriei la alta (atât în privința proprietăților consemnate, cât și a granularității acestora), iar un catalog partajat centralizat va necesita un model de date suficient de flexibil pentru a acomoda descrierile unei mari varietăți de resurse. Din fericire, modele de date precum CIDOC CRM[5] și FRBR-oo[6] sunt suficient de mature pentru a fi folosite în implementări de producție.

O problemă spinoasă este persistența. Un demers precum Culturalia se bazează pe resurse persistente, adică, când un obiect digital este expus într-o asemenea bibliotecă, se presupune că el va fi accesibil (la aceeași adresă) pe termen lung. Această ipoteză nu e evidentă: instituțiile memoriei își schimbă relativ frecvent furnizorii de internet și adresele web (URL) ale resurselor lor online. Astfel, este necesar un mecanism precum PURL [Persistent Uniform Resource Locators][7]. Totuși, chiar și purl.org este administrat/întreținut de o organizație americană privată (i.e. OCLC), așadar chiar și persistența ei pe termen lung nu e garantată.

D.2. Probleme legale

Din perspectivă legală, expunerea online a lucrărilor din domeniul public nu prezintă nici o problemă. Legalmente, problema principală o constituie resursele protejate încă de drepturi de autor. Din pricina dificultății de a publica online opere sub copyright, avem în Europeana (și în toate celelalte biblioteci digitale, de altfel) ceea ce numim „gaura neagră a secolului XX”, adică proporția minoră a materialului de secol XX (și XXI, desigur). Bineînțeles că vom avea aceeași problemă și în Culturalia. Totuși, există soluții ! Favorita mea este ceea ce numesc „modelul maghiar”: Digitális Irodalmi Akadémia[8] —biblioteca digitală a literaturii maghiare contemporane care cuprinde lucrările celor mai importanți scriitori maghiari de azi, începând cu cei mai premiați internațional (e acolo și Sütő András[9] al nostru). Pentru realizarea ei, guvernul maghiar a cumpărat drepturile de (re)publicare online a operelor. Cine oprește guvernul român să facă ceva similar ?

Tot o problemă legală majoră este (re)publicarea online a așa numitelor „opere orfane”, adică lucrările având deținătorii drepturilor intelectuale neidentificați. În cadrul legislativ curent, o lucrare orfană este — practic — exclusă de la expunerea online (de altfel și de la alt fel de expunere), ceea ce — în opinia mea — este contrar interesului autorului/autorilor ei.

Comisia Europeană a adoptat în 2011 (doar) o propunere de Directivă a Parlamentului European și a Consiliului privind anumite utilizări admise ale operelor orfane [Directive of the European Parliament and of the Council on certain permitted uses of orphan works][10], care e firavă, în opinia mea. Ea cere o „căutare diligentă” extensivă a deținătorilor de drepturi și remunerare pentru utilizarea operei, în caz de revendicare. Eu aș prefera o „naționalizare” a operelor orfane, publicarea lor online și acces public gratuit. Și, în caz de revendicare justificată,  restitutio in integrum ![11]

Pe de altă parte, în octombrie 2011, Comisia Europeană a emis Recomandarea C(2011) 7579 privind digitizarea și accesibilitatea online a materialelor culturale, precum și prezervarea digitală [Recommendation on the digitisation and online accessibility of cultural material and digital preservation][12], care, la articolul 5(a) zice:

să se asigure că materialul aflat în domeniul public rămâne în domeniul public după digitizare.

Dar ce se cheamă că un obiect fizic (să zicem o pictură) aflat în domeniul public e „digitizat” ? De regulă, e fotografiat digital. În cazul acesta, obiectul fizic rămâne în domeniul public, dar reprezentarea sa digitală, i.e. fotografia, este sub copyrightul fotografului (e un obiect distinct !). Pentru cazurile astea, sugestia mea ar fi o modificare a legii drepturilor de autor care să stipuleze o distincție între o fotografie artistică (i.e. o operă de artă) și o „reproducere” a unei opere. Asta ar presupune ca fotograful să specifice dacă fotografia e operă de artă sau reproducere. Iar reproducerea unei opere aflată în domeniul public să intre automat în domeniul public.

În cazul operelor textuale, dacă legea depozitului legal ar fi convenabil modificată astfel încât editorul să trebuiască să depună nu doar cele câteva exemplare tipărite, ci și „matrița” digitală a unei ediții[13], Biblioteca Națională ar putea (re)publica online ediția digitală, dacă ea se află în domeniul public, să zicem după 12 luni de la depunere.

D.3. Probleme practice

Desigur, o problemă practică majoră e finanțarea.

Niște bani sunt necesari pentru dezvoltarea platformei soft. Nu prea mulți, fiindcă există și componente open source disponibile.

Apoi, o problemă serioasă este finanțare proceselor de digitizare propriu-zise. Dar digitizarea e un proces scalabil. Digitizăm de câți bani avem. Nu e neapărat nevoie de investiții inițiale. Digitizarea se poate foarte bine externaliza. Există deja mai multe firme românești foarte competente/eficiente la digitizat. Mai mult, sunt instituții românești importante care au mici dar funcționale unități de digitizare, așadar există deja o finanțare implicită. Ca să nu mai zicem de fotografii muzeelor care — de când cu camerele digitale — digitizează prin definiție.

Pe de altă parte, deja există un volum semnificativ de resurse digitale românești pe web. Mulți „amatori” fac o treabă admirabilă (WikiLovesMonuments e un bun exemplu[14]). Problema cu aceste resurse e că au nevoie și de metadate descriptive (catalogare și indexare). Și asta ar fi mai degrabă treaba profesioniștilor din instituțiile memoriei.

Pe alt plan, avem problema (re)publicării materialelor „problematice”: cum să expui online materiale reprobabile, dar istoric semnificative ? Cum să publici online, să zicem, scrierile antisemite ale lui Eminescu ? Online e mai dificil decât într-un volum fizic să oferi o contextualizare adecvată. O „înrămare” specifică poate ?

E. Culturalia.ro: o misiune imposibilă ?

Principala problemă nu sunt banii. Principala problemă e voința (scuze pentru vorba mare) de a realiza Biblioteca Digitală Publică a României. Și aici Ministerul Culturii are rolul primordial.

Mentalitatea multor directori de instituții ale memoriei nu e de ajutor. Tradiționala temere de a nu pierde utilizatori este încă foarte prezentă în România de azi.

După părerea mea, Ministerul Culturii ar trebui să impună (măcar) instituțiilor naționale  obiective concrete de digitizare/expunere online. Pe de altă parte, guvernul ar trebui să impună recomandarea Comisiei Europene care cere ca toate materialele digitizate pe bani publici să fie expuse online.

Nu, Biblioteca Digitală Publică a României nu este o „misiune imposibilă”. Dar nici ușoară nu e. Speranța mea stă în comunitățile profesionale. Ele — cu sprijin substanțial din partea „amatorilor” și folosind isteț fonduri europene —vor dezvolta Culturalia în marginea activităților lor curente, chiar dacă guvernul nu manifestă un mare entuziasm.

Dezvăluire: angajatorul meu, Institutul Național al Patrimoniului, este agregatorul național pentru Biblioteca Digitală Europeană și eu sunt responsabil pentru această activitate.


[1] Stipulată prin Hotărârile Guvernului nr.  1410/2009 (art. 5) – www.legex.ro/Hotarare-1410-18.11.2009-101121.aspx și   nr. 593/2011 (art. 2/z) – www.legex.ro/Hotararea-593-2011-113280.aspx.
[2] Ca și în cazul altor proiecte similare (e.g. Europeana www.europeana.eu sau DPLA http://dp.la) îi spunem „bibliotecă digitală” prin extensie: ne lipsește un termen generic pentru biblioteci digitale, muzee digitale, arhive digitale etc.
[11] Prin analogie: care este atitudinea normală a statului față de o bucată de pământ pe care n-o revendică nimeni ? Sau chiar față de un copil „al nimănui” ?
[13] acum, practic, toate publicațiile sunt digitale înainte de a fi tipărite.

Written by poliptic

7 iulie 2012 at 10:00 pm

Culturalia: Un portal românesc (?) [2]

leave a comment »

În postarea anterioară  — unde am început să schițez „arhitectura” bazei de date care ar sta la baza saitului culturalia.ro  (cam ezit să-i spun portal) — am promis că o să explic și indexul general. Amân, pentru că prieteni programatori (mai programatori ca mine) mi-au semnalat un serios punct slab la jurnalizare, adică la mecanismul de monitorizare a modificărilor, adică al trasabilității genealogiei fiecărei resurse. Așa că, o re-gândire a dus la modificări. Structura nouă a tabelei-jurnal apare în figura 1.

Fig. 1. Culturalia. Structura unei înregistrări în tabela-jurnal

O intrare constă din:

  • resourceGuid – identificatorul resursei (entitate sau aserțiune) afectate;
  • provenanceGuid – identificatorul entității-eveniment (de tip „asignare de atribut”) care agregă informațiile despre cine și pe ce bază a operat asupra resursei;
  • timeStamp – momentul în care s-a produs intervenția asupra resursei;
  • previousStatus – starea resursei înainte de intervenție.

Dacă acțiunile asupra resurselor (i.e. înregistrărilor) ar fi:

  • creare;
  • modificare;
  • ștergere (din motive de redondanță);
  • revizie (validare, invalidare, punere la îndoială);
  • fuziune a două (sau mai multe);
  • scindare,

atunci stările posibile ale resurselor (i.e. ale înregistrărilor) ar fi:

-4

arhivată (clonă)

-3

arhivată (invalidată)

-2

arhivată (redondantă)

-1

arhivată (înlocuită)

0

creată

1

creată (înlocuitoare)

2

problematică

3

validată

iată tranziția stărilor, în funcție de acțiuni (și de drepturile editorilor) ar fi:

a) asupra celor originare/înlocuite:

Creare

Punere la îndoială

Validare

Înlocuire

Fisiune

Ștergere

Invalidare

0

2

3

0

2

3

-1

-4

-2

-3

1

2

3

-1

-4

-2

-3

2

3

-1

-4

-2

-3

3

2

-1

-4

-2

-3

-1

2

3

-2

3

-1

-3

2

3

-1

-4

b) asupra celor înlocuitoare:

Înlocuire

Fisiune

Punere la îndoială

Validare

1

1

2

3

Scenariile editoriale importante ar fi:

a) modificările unei aserțiuni individuale, care ar fi:

  • subiectul: înlocuirea identificatorului resursei (unificare de identificatori);
  • predicatul: 1) înlocuirea identificatorului predicatului (unificare de identificatori), 2) rafinare (înlocuirea cu o subproprietate);
  • obiectul unei proprietăți: înlocuirea identificatorului resursei (unificare de identificatori);
  • obiectul unui atribut: corecție;
  • celelalte elemente: 1) adăugare, 2) modificare, 3) ștergere.

b ) fuziunea a două relații (provenite din surse diferite):

Exemplu: două atribute:

subiect

predicat

object

id1(Twain) id(nume) Mark Twain

subiect

predicat

object

id2(Twain) id(nume) Twain, Mark

fuzionează în:

subiect

predicat

object

id2(Twain) id(nume) Mark Twain

dacă se preferă id2(Twain) din a doua relație, dar se preia literalul din prima.

Fig. 2. Fuziunea a două atribute, plus două revizii

În exemplificarea din figura 2 avem trei momente:

  • t1 – cele două atribute fuzionează, dând naștere celei de-a treia, fapt consemnat în trei înregistrări de jurnal distincte;
  • t2 – o revizie pune la îndoială noul atribut (starea lui trece din 1 în 2), fapt consemnat în jurnal;
  • t3 – o nouă revizie validează noul atribut (starea lui trece din 2 în 3), fapt consemnat în jurnal.

Aserțiunile modificate sunt arhivate (întră în starea -1) și punctează către aserțiunile înlocuitoare/succesoare (care intră în starea 1)  — cum se sugerează și în figură. Identificatorul aserțiunii succesoare este consemnat în câmpul „successorGuid” (vezi figurile 5 și 6).

c) fisiunea unui atribut:

Exemplu: un atribut:

subiect

predicat

object

id(Zenobia) id(autor) Gellu Naum

… fisionează în trei aserțiuni (o relație și două atribute):

subiect

predicat

object

id(Zenobia) id(autor) id(Naum)
id(Naum) id(prenume) Gellu
id(Naum) id(nume de familie) Naum

Fig. 3. Fisiunea unui atribut (cu clonele evidențiate)

În exemplificarea din figura 3 se sugerează soluția (nu prea elegantă — poate-mi sugerează cineva una mai isteață) prin care se memorează legătura dintre o aserțiune și succesoarele ei: aserțiunea originară este clonată (starea -4), doar ca să fie loc pentru fiecare pointer către succesoarele sale (în „successorGuid”). În plus, clonele memorează (refolosind „predicateTypeGuid”) pointeri către aserțiunea clonată. (Pentru economie de spațiu, s-ar putea renunța la stocarea literalului în clonele atributelor.)

Această soluție (care consumă spațiu, prin clonele generate și înregistrările de jurnal aferente) — i.e. cu pointeri de la aserțiunile înlocuite către cele înlocuitoare (în loc de invers) — fac mai „ieftine” fuziunile decât fisiunile. Și asta, din pricină că presupun — știind datele cu care vom avea de-a face — că fuziunile vor fi mai multe decât fisiunile. Iar dacă practica va dovedi că se consumă cam mult spațiu cu clonele, poate că s-ar putea adăuga o tabelă specifică pentru memorarea pointerilor de la aserțiunile înlocuite spre cele înlocuitoare.

Figurile 4, 5 și 6 arată noile versiuni ale tabelelor „entitate”, „instanță de relație” și „atribut”. La fiecare, noutatea semnificativă este „successorGuid”.

Fig. 4. Culturalia. Structura unei intrări din tabela „entitate”

Fig. 5. Culturalia. Structura unei intrări din tabela instanțelor de relație

Fig. 6. Culturalia. Structura unei intrări din tabela instanțelor de atribut

Abia în postarea următoare se va comenta (promisul) index general.

Written by poliptic

17 iunie 2012 at 11:34 pm

Culturalia: Un portal românesc (?)

with one comment

Și România are în plan un portal de tip Europeana (adică un catalog care să ofere acces la resurse culturale digitale, fie ele texte, imagini, audiograme sau videograme), Culturalia pe numele lui (stipulat în Ordinul ministrului culturii și cultelor nr. 2467/2008, între atribuțiile agregatorului național).  Cu resurse foarte limitate, se lucrează la proiectarea acestui portal.

Pe scurt — pentru a nu intra în prea fine detalii tehnice —, modelul de date Culturalia este conform paradigmei datelor interconectate  (vezi postarea anterioară). Nu doar pentru a fi „în trend”, ci și fiindcă această paradigmă permite atât agregarea de seturi de date foarte eterogene — cerință vitală pentru cataloagele de tip Europeana — cât și coexistența datele de granularitate variabilă. De pildă, e perfect posibil (deși nu foarte dezirabil) să avem alături aserțiunile:

subiect

predicat

object

id(Naum) nume Gellu Naum
id(Naum) prenume Gellu
id(Naum) nume de familie Naum
__

Însă mixtura de predicate și obiecte de granularitate diferită este inevitabilă atunci când sursele de date sunt eterogene.

În figura 1 se schițează model conceptual, adică ierarhia claselor (frunzele arborelui — cele albastre — reprezintă tabelele esențiale ale bazei de date) de nivel înalt.

Fig. 1. Culturalia: vârful ierarhiei claselor

De remarcat că se disting trei tipuri de aserțiuni (și această distincție constituie mica diferența față de modelul canonic RDF):

  • relații – asocieri între entități (atât clase cât și instanțe de clase);
  • atribute – asocieri între entități și literali (e.g. șiruri de caractere);
  • intrări de index – asocieri între signaturi (i.e. atribute de reprezentarea a entităților, e.g. nume pentru persoane, titluri pentru cărți) și cheile lor de sortare.

Fig. 2. Culturalia: relațiile dintre componentele modelului

În figura 2 sunt evidențiate legăturile între elementele modelului de date (care se identifică cu tabelele bazei de date). De remarcat că atât o relație, cât și un atribut poate fi subiectul unei alte aserțiuni (ceea ce în terminologia RDF se cheamă „reificarea” unei aserțiuni). Din acest motiv, aserțiunile au și ele identificatori.

Paranteză:

Identificatorii din prezentul model sunt un anume tip de identificatori standard, și anume „identificatori globali unici” — GUID [Globally Unique Identifier]  — care (cvasi)asigură unicitatea la nivel global. Partea proastă e că un asemenea identificator e de ne-citit/memorat pentru oameni. Exemplu:

ac16a9e1-8a01-4c2a-90f9-8970a0f3e553

De aceea, în ilustrările următoare, identificatorul elementului x este reprezentat prin guid(x).

Închis paranteza.

De pildă, să zicem că avem aserțiunea:

identificator guid(a1)
subiect guid(Jan van Eyck )
predicat guid(născut pe)
obiect 1390

și asertăm că această aserțiune este îndoielnică:

identificator guid(a2)
subiect guid(a1)
predicat guid(este îndoielnică)
obiect true

În figura 3 se vede cum fiecare aserțiune este înscrisă într-un „jurnal”, unde se consemnează cine a făcut afirmația, când și pe ce bază. Astfel, se pot urmări corecturile succesive și — mai ales — se evidențiază responsabilitățile intelectuale asupra aserțiunilor. De remarcat că proveniența aserțiunii (inclusiv responsabilitatea intelectuală)  se indică prin trimiterea la o entitate din clasa „eveniment” de tip „asignare de atribut” („E13 Attribute Assignment” în ontologia CIDOC-CRM [Conceptual Reference Model]). Acest eveniment poate fi o entitate complexă, adică să fie asociat cu mai mulți agenți și cu mai multe surse bibliografice.

Fig. 3. Culturalia: jurnalizarea fiecărei aserțiuni

Nota bene: aserțiunile „modificate” sau „șterse” sunt doar arhivate, nu sunt modificare sau șterse cu adevărat. Cu alte cuvinte, o aserțiune „ștearsă” e doar marcată ca „arhivată”, iar o aserțiune „modificată” este de fapt o versiune nouă, cea veche fiind arhivată. Aceasta permite să se urmărească „evoluția” unei aserțiuni și — la nevoie — să se revină la o stare anterioară.

Figurile 4, 5, 7 și 8 prezintă structurile tabelelor esențiale ale bazei de date Culturalia (versiunea alfa: o implementare Access experimentală — „proof-of-concept”, cum îi zic anglofonii).

Nota bene: se presupune că interfața-utilizator va fi suficient de elaborată pentru a ascunde complexitatea rețelei de aserțiuni pe care sistemul le va acumula.

Fig. 4. Culturalia: structura tabelei „entitate”

Tabela „entity” e simplă: o intrare conține doar identificatorul și (eventual) URI-ul http [Uniform Resource Identifier]  fiecărei entități (fie ea clasă sau instanță). La limită, această tabelă ar putea lipsi, fiindcă aserțiunile nu sunt aici. Dar poate se va dovedi util ca identificatorii entităților să fie centralizați undeva.

Fig. 5. Culturalia: structura tabelei „relație”

Cum îi spune numele, tabela  „relation” (figura 5) conține instanțele de relații (i.e. aserțiunile în care obiectul e o entitate). Pe lângă identificatorii membrilor tripletelor (canonici în modelul RDF):

  • subjectGuid – identificatorul subiectului;
  • predicateGuid – identificatorul predicatului (zis și „proprietate”);
  • objectGuid – identificatorul obiectului;

o intrare mai conține:

  • modifierGuid – identificatorul (eventualului) modificator  al obiectului. Ca de pildă „ante”, calificând un obiect-perioadă sau „la sud de”, calificând un obiect-loc.
  • predicateTypeGuid – identificatorul (eventualului) tip al predicatului.  Posibilitatea de a categorisi un predicat (ceea ce constituie un substitut pentru generarea de sub-predicate), permite evitarea proliferării predicatelor. În plus, ar putea fi un mecanism convenabil în cazul preluării datelor moștenite.

Un exemplu pentru a ilustra utilitatea categorisirii predicatului: să presupunem că avem relația „derivată din” dintre „L.H.O.O.Q.” lui Duchamp și „Mona Lisa” lui Leonardo (figura 6). Ulterior, se poate categorisi predicatul „derivată din” prin relaționarea cu conceptul „parodie”.

 

derivată din

(parodie)

 

Fig. 6. <L.H.O.O.Q. / Duchamp> <derivată din> <Mona Lisa / Leonardo>

Așadar, aserțiunea inițială:

subjectGuid guid(L.H.O.O.Q.)
predicateGuid guid(derivată din)
objectGuid guid(Mona Lisa)

se poate rafina, adăugându-i-se elementul:

predicateTypeGuid guid(parodie)

Abordarea alternativă, presupune:

a)      adăugarea unui nou predicat, prin aserțiunea:

subjectGuid guid(parodiază pe)
predicateGuid guid(e sub-proprietate a)
objectGuid guid(derivată din)

b)     înlocuirea aserțiunii inițiale cu:

subjectGuid guid(L.H.O.O.Q.)
predicateGuid guid(parodiază pe)
objectGuid guid(Mona Lisa)

Fig. 7. Culturalia: structura tabelei „atribut”

După cum îi spune numele, tabela „attribute” (figura 7) conține instanțele de atribute (i.e. aserțiunile în care obiectul e un literal). Pe lângă identificatorii subiectului și predicatului aserțiunii:

  • subjectGuid – identificatorul subiectului;
  • predicateGuid – identificatorul predicatului/proprietății;

o intrare conține și cinci forme (alternative) de literal:

  • textualValue – text (până în 255 de caractere);
  • longTextualValue – text lung;
  • booleanValue – boolean;
  • dateValue – dată calendaristică;
  • numericalValue – număr;

și mai conține:

  • modifierGuid – identificatorul (eventualului) modificator  al obiectului. Ca de pildă „ante”, calificând o dată calendaristică sau „mai mic(ă) decât”, calificând o cantitate;
  • unitGuid – identificatorul (eventualei) unități de măsură;
  • languageGuid – identificatorul (eventualei) limbi a literalului;
  • predicateTypeGuid – identificatorul (eventualului) tip al predicatului, similar cu cel din tabela „relation”;
  • objectTypeGuid – identificatorul (eventualului) tip al obiectului. Similar cu cazul predicatului, permite o categorisire a obiectului, ceea ce limitează și mai mult proliferarea predicatelor;
  • datatypeGuid – identificatorul naturii literalului, i.e. al tipului de dată (e.g. număr întreg);
  • qualifierGuid – identificatorul unui (eventual) calificator (e.g. o unitate de măsură);
  • syntaxEncodingScheme – (eventuala) schemă sintactică (pentru valorile structurate).

De notat că doar identificatorul limbii și cel al naturii literalului se regăsesc în modelul canonic RDF.

Un exemplu pentru a ilustra utilitatea modificatorului obiectului:

subjectGuid guid(David al lui  Michelangelo)
predicateGuid guid(are masa)
modifierGuid guid(mai mare de)
numericalValue 6.000
unitGuid guid(kg)

Sigur că această aserțiune s-ar putea exprima mult mai simplu astfel:

subjectGuid guid(David al lui  Michelangelo)
predicateGuid guid(are masa)
textualValue peste 6.000 kg
languageGuid guid(română)

Dar această formulare nu permite procesări numerice asupra literalului. Nici nu e independentă de limbă, deci pentru a exprima același lucru în rusă, ar fi necesară încă o aserțiune:

subjectGuid guid(David al lui  Michelangelo)
predicateGuid guid(are masa)
textualValue более 6.000 кг
languageGuid guid(rusă)

Pe de altă parte, tratarea kilogramului ca o entitate distinctă ar permite (pe lângă asertarea unei definiții, de pildă), folosirea ei convenabilă în contexte lingvistice diferite. Astfel, am putea avea aserțiunile:

subjectGuid

predicateGuid

textualValue

objectTypeGuid

guid(kilogram) guid(are abrevierea) кг guid(alfabet chirilic)
guid(kilogram) guid(are abrevierea) kg guid(alfabet latin)

Un exemplu pentru a ilustra utilitatea categorisirii predicatului:

subjectGuid guid(Turnul Eiffel)
predicateGuid guid(are dimensiunea)
numericalValue 324
unitGuid guid(m)
predicateTypeGuid guid(înălțime)

Un exemplu pentru a ilustra utilitatea categorisirii obiectului:

subjectGuid guid(conceptul de poem)
predicateGuid guid(e designat prin)
textualValue poems
languageGuid guid(engleză)
objectTypeGuid guid(plural)

Un exemplu pentru a ilustra utilizarea schemei sintactice (MARCXML în acest caz):

subjectGuid guid(Capcanele istoriei/Lucian Boia, ed.1)
predicateGuid guid(titlu și mențiune de responsabilitate)
textualValue <datafield tag=”245″ ind1=”1″ ind2=”0″>
<subfield code=”a”>Capcanele istoriei : </subfield>
<subfield code=”b”>
         Elita intelectuală românească între 1930 şi 1950 /
</subfield>
<subfield code=”c”>Lucian Boia</subfield></datafield
syntaxEncodingScheme http://www.loc.gov/standards/marcxml/schema/MARC21slim.xsd
Figura 8 prezintă structura tabelei „logEntry”.

Fig. 8. Culturalia: structura tabelei „intrare de jurnal”

În esență, o intrare în această tabelă constă din (vezi și figura 3):

  • resourceGuid – identificatorul resursei (entitate sau aserțiune) jurnalizate;
  • provenanceGuid – identificatorul entității-eveniment (de tip „asignare de atribut”) care agregă informațiile despre cine și pe ce bază a operat asupra resursei;
  • timeStamp – momentul în care s-a produs intervenția asupra resursei;
  • statusChange – ce schimbare de status a produs intervenția;
  • oldVersionGuid – identificatorul resursei înlocuite (în cazul modificărilor).

În postarea următoare se va comenta modul de constituire a indexului general (implică și decizii de proiectare mai subiective), respectiv se va prezenta tabela „indexEntry”.

Corecție: postarea următoare discută jurnalizarea. Indexul se amână :-)

Written by poliptic

3 iunie 2012 at 1:06 pm

Date interconectate: de-construcția înregistrărilor catalografice

with one comment

Biblioteca Digitală Europeană europeana.eu nu-și propune doar să ofere publicului larg un punct unic de acces la patrimoniul cultural european (vezi și postarea anterioară), ci și să ofere instituțiilor culturale, industriilor creative și chiar dezvoltatorilor individuali posibilitatea de a reutiliza metadatele pe care le acumulează (de unde și cerința de licențiere Creative Commons CC0 [„No rights reserved”]). Pentru aceasta, va expune aceste metadate sub formă de „date interconectate deschise” [Linked Open Data – LOD]. Semnificativ: sintagma „linked data” a fost propusă în 2006 de Tim Berners-Lee, „inventatorul” webului (vezi celebrele-i principii).

„Date interconectate” este o paradigmă (relativ) nouă, care presupune asocierea de enunțuri/aserțiuni pe web, în maniera în care sunt conectate paginile pe/între saituri. Rațiunea lor este ceea ce se cheamă „webul semantic”, adică asocieri semantice între entități pe web (sau cum zice sloganul recent lansatului Google Knowledge Graph: „things, not strings” [lucruri, nu șiruri (de caractere)]) care să permită agenților soft (e.g. motoarelor de căutare) să facă inferențe logice. Și ideea e ca aceste interconectări să se facă (și) între aserțiuni provenite din surse diferite.

De pildă, cineva poate să expună pe web aserțiunile:

„Coloana fără sfârșit” se află la Târgu Jiu.

Brâncuși este autorul „Coloanei fără sfârșit”

Altcineva expune aserțiunea:

Târgu Jiu se află în Gorj.

În fine, altcineva zice:

Județul Gorj se află în România.

Dacă aceste aserțiuni sunt conectate, un agent soft deștept poate include „Coloana fără sfârșit” în răspunsul la întrebarea „Care sunt operele lui Brâncuși aflate în România”.

Pentru a fi (convenabil) expuse/accesate pe web, aceste aserțiuni trebuie aduse la o formă procesabilă automat. Simplificând la maximum, acest formalism se reduce la exprimarea aserțiunilor ca triplete de forma:

<subiect> <predicat> <obiect>

Pentru exemplul meu, acestea ar fi:

subiect

predicat

obiect

Coloana fără sfârșit are ca autor pe Brâncuși
Coloana fără sfârșit localizat(ă) în Târgu Jiu
Târgu Jiu face parte din Gorj
Gorj face parte din România

Subiectele sunt instanțe ale unor clase, iar obiectele pot fi instanțe ale unor clase sau literali (e.g. șiruri de caractere).

Se vede că în aceste aserțiuni sunt implicate următoarele entități: una din clasa „persoană”, una din clasa „artefact”, una din clasa „localitate” și două din clasa „unități geo-politice”. Ca să aibă șanse ca aserțiunile care le implică să fie conectate, aceste entități ar trebui să aibă identificatori unici și persistenți, care să nu fie simple șiruri de caractere (ambigue, de regulă). Prin urmare, aserțiunile despre aceste entități ar trebui să arate cam așa:

subiect

predicat

obiect

id1 denumit(ă) Coloana fără sfârșit
id1 localizat(ă) în id2
id1 are ca autor pe id5
id2 denumit(ă) Târgu Jiu
id2 face parte din id3
id3 denumit(ă) Gorj
id3 face parte din id4
id4 denumit(ă) România
id5 denumit(ă) Brâncuși

Pentru a trata astfel datele catalografice, tradiționala fișă trebuie deconstruită, adică descompusă în aserțiuni elementare, cât mai granulare. Simplificând (până către grotesc), transformarea unor fișe exprimate tabelar în date interconectabile ar putea fi ilustrată ca în figura 1 și tabela care-o urmează.

Fig. 1. Exprimare tabelară a fișelor catalografice

subiect

predicat

obiect

id1 are ca titlu Război și Pace
id1 are ca autor pe Tolstoi
id2 are ca titlu Iliada
id2 are ca autor pe Homer

De fapt, nici nu e o reprezentare neobișnuită. De mulți ani, matricile/tabelele rare (i.e. cu puține celule ocupate) se reprezintă în memoria computerelor, cam la fel: (linia celulei, coloana celulei, conținutul celulei).

În figura 2 se ilustrează (foarte simplificat) cum se pot interconecta/agrega aserțiuni provenind din surse diferite (sugerate prin culori diferite). Adică, cineva asertează că „Război și pace” (o lucrare, în terminologia FRBR Functional Requirements for Bibliographic Records) are drept creator pe Tolstoi. Altcineva adaugă aserțiuni despre o expresie a lucrării în limba engleză, iar altcineva aserțiuni despre o expresie în limba română. În fine, din alte surse provin apelațiunile lui Tolstoi în engleză, respectiv în rusă.

Fig. 2. Exemplu de agregare de aserțiuni

Nu e obligatoriu ca un literal care e obiectul unei aserțiuni să fie un simplu șir de caractere sau un număr sau o dată. El poate avea o structură internă. Astfel, de pildă, el poate fi un document XML sau chiar un element MARC. Unor astfel de literali și se asociază o așa-zisă „schemă sintactică” (Syntax Encoding Scheme). De pildă, putem aserta atributul (tipic) al unei manifestări bibliografice (i.e. o ediție) „titlu și mențiune de responsabilitate” într-o schemă sintactică XML:

sau în schema sintactică UNIMARC:

Asta se afișează (în formalismul ISBD [International Standard Bibliographic Description] http://www.ifla.org/publications/international-standard-bibliographic-description) astfel:

Pour les valeurs bourgeoises / par Georges Hourdin. Contre les valeurs bourgeoises / par Gilbert Ganne

Modelul conceptual „clasic” pentru datele interconectate este RDF [Resource Description Framework] care, în esență, definește tripletele subiect-predicat-obiect.

Din punct de vedere practic, bazele de date ce implementează modelul RDF („triplestore”) au și avantajul că au tabele (abstracte și) puține, plus permit tratarea unitară a claselor și proprietăților (predicatelor), precum și a instanțelor acestora. Adică e posibilă adăugarea oricând de noi clase și proprietăți (care pot fi rafinări sau abstractizări ale celor deja existente), cu alte cuvinte se pot aduce modificări taxonomiei subiacente, fără a se modifica structura bazei de date. Așadar administratorul bazei de date poate face asta fără a apela la programatori. De pildă, dacă avem clasa „organizație”, oricând se poate adăuga o subclasă a acesteia, „persoană juridică”. Similar, dacă avem proprietatea „are drept contributor pe”, se poate adăuga o subproprietate a acesteia, „are drept scenograf pe”. Dezavantajul acestui gen de baze de date pare a fi complexitatea sporită pe care o impune interogărilor.

 

Deja biblioteci importante — cum ar fi British Library (2,6 milioane de înregistrări, care au generat 84.961.180 triplete – mai 2012) sau British Museum  — își oferă informațiile bibliografice sub formă de date interconectate deschise (adică atât gratuite, cât  și liber reutilizabile !).

 

În postarea următoare se va expune o schiță a proiectului portalului culturalia.ro.

Written by poliptic

29 mai 2012 at 10:58 pm

Publicarea în Europeana.eu: probleme și (unele) soluții

leave a comment »

A. Problematica Europeana

A.1. Ce este portalul europeana.eu ?

Biblioteca Digitală Europeană [http://www.europeana.eu] este deja bine cunoscută lumii intelectuale europene (sper că și publicului larg.)

Fig. 1. Europeana. Pagina natală

Totuși auto-prezentarea fațetelor ei merită reamintită:

<citat>

  • Pentru utilizatori: Europeana este un punct de acces unic pentru milioane de cărți, tablouri, filme, obiecte muzeale și documente arhivistice care au fost digitizate în întreaga Europă. Ea este o sursă de informații de autoritate provenite de la instituțiile culturale și științifice europene.
  • Pentru instituțiile memoriei: Europeana este o oportunitate de a ajunge la mai mulți utilizatori, de a-și spori traficul web, de a îmbogăți experiența utilizatorilor lor și de a construi noi parteneriate.
  • Pentru profesioniștii din zona patrimonială: Europeana este o platformă pentru schimbul de cunoștințe între bibliotecari, curatori, arhiviști și industriile creative.
  • Pentru elaboratorii de politici și finanțatori: Europeana este o inițiativă prestigioasă susținută de Comisia Europeană și o cale de a stimula economia creativă și de a promova turismul cultural.

</citat>

Practic, Europeana este un catalog colectiv transnațional de resurse culturale digitale expuse de toate țările membre ale Uniunii Europene. E adevărat că are ambiții tehnice importante, dar, în esență, e un catalog, deoarece portalul stochează și expune metadatele (i.e. fișele catalografice ale) obiectelor digitale, astea fiind expuse pe saiturile furnizorilor, deci într-un mod foarte distribuit.

A2. Care sunt problemele expunerii obiectelor digitale ?

Din perspectivă tehnică, expunerea unui obiect digital în Europeana presupune:

  • obiectul să fie publicat pe un sait (al furnizorului) stabil (pe termen lung), cu o conexiune rezonabil de rapidă și să aibă o calitate acceptabilă (e.g. imagini de bună rezoluție). Printr-un „sait stabil pe termen lung” înțeleg un sait ce are garanții de persistență (saituri precum Youtube sau Flickr sau Wikimedia oferă oare garanții că materialul lor va fi la fel de accesibil și peste 10 sau 20 de ani ? Fiind deținute de organizații private, cine poate oferi această garanție ?). Adică să existe o probabilitate apreciabilă ca saitul respectiv să fie vizibil și peste 10-15 ani.
  • obiectul să aibă o calitate tehnică acceptabilă, adică:
    • o bună rezoluție, dar la dimensiuni rezonabile (pentru a nu implica un timp de acces excesiv). De pildă, în figura 2 se vede un document de peste 36 MB. Or, chiar la o conexiune relativ rapidă descopierea acestui fișier poate dura 2-3 minute (și poate costă !). Și poate că cititorul constată repede că documentul nu-l interesează. E preferabilă o prezentare ca cea din figura 3, în care un „foiletor” permite vizualizarea pagină cu pagină a unui volum facsimilat.
    • să nu necesite instalarea unor instrumente soft neuzuale, cum ar fi situația din figura 4, în care se vede cum documentele de vizualizat cer instalarea unui program de vizualizat fișiere DejaVu. Mulți cititori pot fi inhibați.

Fig. 2. Obiect digital prea mare

Fig. 3. Prezentarea paginată a unui facsimil digital de carte

Fig. 4. Documente ce necesită instalarea unui program

  • obiectul să aibă o adresă web (i.e. URL) unică. De pildă, în figurile 5 și 6, se vede un caz de „așa nu !”. Două obiecte digitale (imagini, în acest caz) distincte care au același adresă web. Altfel spus, nu pot fi adresate individual, direct, prin URL. În figura 7 se vede cum apare fișa unui obiect în Europeana, iar după click pe linkul (stânga-jos) „view item at …” se ajunge la fișa lui pe saitul furnizorului (figura 8). E evidentă necesitatea URL-ului unic.

Fig. 5. Așa nu (1): două obiecte cu aceeași adresă

Fig. 6. Așa nu (2): două obiecte cu aceeași adresă

  • adresa web (i.e. URL) a obiectului să fie persistentă pe termen lung;
  • metadatele asociate obiectului să fie scrise cu diacriticele corecte. Încă din 2004, prin norma SR 13392:2004 s-a standardizat codificarea corectă a caracterelor specifice limbii române. Mai mult, în 2006, utilizarea aceste codificări a fost legiferată prin legea nr. 183/2006 „privind utilizarea codificării standardizate a setului de caractere în documentele în formă electronică”. Diferențele semnificative au apărut la ș și ț. Nu doar aspectul grafic (trecerea de la sedilă la virguliță) este importantă, ci diferența de codificare Unicode a acestor caractere este capitală. Și dacă până acum sistemele de operare uzuale foloseau vechile codificări, apariția dispozitivelor mobile (e.g. tablete) ca și a versiunilor noi de sisteme de operare pentru PC-urile tradiționale, schimbă radical situația. Tabelul următor prezintă diferențele de codificare. Pare o problemă de detaliu, dar diavolul se ascunde în detalii. Figurile 7 și 8 arată consecințele practice (în Europeana) ale diferențelor de codificare. Metadatele exponatelor Brâncuși sunt scrise în codificarea veche, deci când cheia de căutare este scrisă cu codificarea nouă, obiectele nu sunt regăsite (motiv pentru care metadatele vechi vor fi retrase și re-furnizate cu codificarea corectă).

Vechi

Nou

ş

U+015F

ș

U+0219

Ş

U+015E

Ș

U+0218

ţ

U+0163

ț

U+021B

Ţ

U+0162

Ț

U+021A

__

Fig. 7. Căutare „Brâncuși” (scris cu ș „nou”)

Fig. 8. Căutare „Brâncuşi” (scris cu ș „vechi”)

  • metadatele asociate obiectului să fie conforme cu modelul de date specific Europeana: EDM [Europeana Data Model].

Fig. 9. Taxonomia claselor în modelul EDM

Modelul EDM cuprinde (în versiunea 5.2.3) 16 clase, din care 5 sunt preluate din alte ontologii. Taxonomia lor vede în figura 9, iar cea a proprietăților, în figura 10.

Fig. 10. Taxonomia proprietăților în modelul EDM

Din perspectiva drepturilor intelectuale, expunerea în Europeana presupune ca:

  • furnizorul să obțină drepturi depline de (re)publicare a obiectelor digitale. Aceasta nu e o problemă în cazul operelor din domeniul public (deși, în cazul operelor vizuale, de regulă, chiar dacă originalul — e.g. tabloul — este în domeniul public, reproducerea sa digitală e sub copyrightul fotografului). E însă o problemă în cazul operelor orfane și, mai ales, a celor sub copyright. Noi chiar vorbim de „gaura neagră a secolului XX”, adică lipsa masivă a operelor de secol XX, din pricina absurdei limite (viață + 70 de ani) din legile europene ale drepturilor de autor și a statutului incert al unei opere orfane.
  • furnizorul să furnizeze metadatele sub licența Creative Commons CC0 [„No rights reserved”], adică — din perspectivă practică —, echivalentul domeniului public.

 

Fig. 11. Licența CC0

 

 B. Experiența noastră practică: proiectul ATHENA 

Proiectul european ATHENA (2009 – 2011) a fost o rețea de bune practici, în cadrul programului eContentPlus. A avut 109 parteneri, inclusiv CIMEC – Institutul de Memorie Culturală, iar scopul lui major a fost furnizarea de resurse culturale în Europeana, mai ales material muzeal. În cadrul acestui proiect, CIMEC a furnizat  16.258 de exponate, mai ales obiecte de muzeu, dar și texte sau facsimile digitale de cărți. În figura 12 se vede expunerea un volum facsimilat. 

Fig. 12. Athena: Expunerea unei resurse

 Metadatele asociate volumului, convertite în formatul XML specific proiectului (LIDO [Lightweight Information Describing Objects]), se văd în figurile 13, 14 și 15. 

 

Fig. 13. Metadatele descriptive ale obiectului (în formatul LIDO)  

Fig. 14. Metadatele asociate evenimentului „creație” (în formatul LIDO)  

Fig. 15. Adresele web ale obiectelor digitale (în formatul LIDO)

 

 C. Experiența noastră practică: proiectul CARARE

CARARE este un proiect european de tip „rețea de bune practici” (2010-2012), în care Institutul Național al Patrimoniului este partener, alături de alte 28 de organizații, din 21 de țări.

Fig. 16. Expunerea unei resurse în contextul furnizorului (isShownAt)

Obiectivul proiectului este de a furniza Bibliotecii Digitale Europene resurse digitale reprezentând patrimoniul arheologic și arhitectural al partenerilor. Institutul nostru a furnizat deja peste 1.800 de resurse culturale (cu mult mai multe imagini) și va mai furniza peste 2.000 de resurse.

În figurile 16 și 17 se vede o resursă expusă în Europeana, prin intermediul proiectului CARARE. Cele două imagini ilustrează cele două moduri de expunere: în primul caz resursa se află în contextul paginii web a furnizorului, adică așa cum o vede vizitatorul saitului de origine (URL-ul acestei pagini este consemnat în atributul isShownAt al fișei descriptive). În al doilea caz, obiectul digital propriu-zis este expus scos din context, astfel încât poate fi folosit în expoziții virtuale sau antologii (embeded), în care curatorul poate asocia propria descriere (URL-ul acestei pagini este consemnat în atributul isShownBy al fișei descriptive).

Fig. 17. Expunerea unei resurse în scoasă din contextul furnizorului (isShownBy)

Fișa descriptivă a fiecărei resurse culturale trebuie convertită în formatul specific proiectului, adică să fie un fișier XML, care se conformează schemei CARARE. În figurile 18, 19 și 20 se văd fragmente din înregistrarea XML asociată resursei din figura 16. De remarcat în figura 20, elementul isShownAt, care conține adresa web a resursei (în contextul furnizorului).

Fig. 18. Identificarea înregistrării

Fig. 19. Descrierea resursei fizice reprezentate

Fig. 20. Descrierea obiectului digital 

D. Ce mai e de făcut ? 

Multe sunt de făcut ! În 27 octombrie 2011, Comisia Europeană a emis o recomandare „privind digitizarea și accesibilitatea online a materialului cultural și conservarea digitală” (în românește). În anexa II, se văd obiectivele cantitative pentru 2015 (stabilite pe bază de populație, PIB pe locuitor, cam așa ceva). Obiectivul pentru România este înfricoșător: 789.000 de exponate ! Asta înseamnă cam 1.000 de resurse per zi lucrătoare ! Nu văd cum… Dar măcar să furnizăm un număr semnificativ.

…..

Altă cerință „interesantă” este cea de la punctul c: „garantarea faptului că toate capodoperele aparținând domeniului public vor fi accesibile prin intermediul Europeana până în 2015”. Deci mai trebuie și să alegem „capodoperele” ! Să vedem cum definim o „capodoperă”.

Practic, nu cred că putem colecta/furniza un volum semnificativ de resurse culturale, dacă nu se instituie un mecanism gen catalog partajat, prin care instituțiile culturale și voluntarii să înregistreze/descrie materialul digital existent. Iar autoritățile trebuie să forțeze instituțiile care digitizează pe bani publici să descrie, să publice pe web și să înregistreze tot ce se digitizează.

Mai mult, Fundația Europeana (organismul care patronează Biblioteca Digitală Europeană) a recomandat, încă mai demult, ca fiecare Stat Membru să-și dezvolte un portal propriu — în paralel cu Europeana — în care să expună materialul pe care l-a expus în europeana.eu, în înfățișarea proprie specificului cultural al respectivei țări. Mai multe State Membre au pus deja în practică această recomandare. Exemple remarcabile sunt portalurile italian (CulturaItalia) și cel francez (Gallica).

Și România are în plan un astfel de portal, Culturalia.ro, pe numele lui (stipulat în Ordinul ministrului culturii și cultelor nr. 2467/2008, între atribuțiile agregatorului național). Cu resurse foarte limitate, se lucrează la el. În postarea următoare, o să descriu ce se face. 

 

Written by poliptic

24 mai 2012 at 12:35 am

Scrisoare deschisă domnului ministru Valerian Vreme

leave a comment »

07.09.2010
Ministerul Comunicațiilor și Societății Informaționale
Scrisoare deschisă domnului ministru Valerian Vreme

Stimate domnule ministru
Acum aproape o lună am adresat o scrisoare domnului ministru Sandu, la care dânsul nu a apucat să răspundă. Problema fiind importantă, reiau demersul, ușor extins.

Întâi, vă semnalez că proiectele depuse în cadrul operațiunii 3.2.1. Susţinerea implementării de soluţii de e-guvernare şi asigurarea conexiunii la boadband, acolo unde este necesar așteaptă din 26 octombrie 2009 să fie evaluate ! Adică niște buni bani structurali zac nefolosiți de aproape un an ! Cu ceva timp în urmă, am propus în public să se aleagă câștigătorii prin tragere la sorți. Nu glumeam; dacă respectiva comisie nu poate să se decidă, să decidă Domnul !
Dar dacă metoda propusă de mine nu s-a aplicat, atunci vă înștiințez că Ministerul Culturii și Patrimoniului Național a depus, alături de alte cinci bune proiecte, — în cadrul acestei operațiuni 3.2.1. — un proiect direct destinat internetizării serviciilor de bibliotecă, intitulat: Platforma națională integrată pentru management de bibliotecă publică” (cod SMIS: 14242).
Chiar dacă unora o să li se pară scandalos, vă rog să interveniți energic pentru ca acest proiect să fie selectat. Notez că serviciile de bibliotecă (greșit traduse în HG 195/2010 prin sintagma „librăria publică”) sunt pe poziția 8 între cele 20 de servicii monitorizate la nivel european, prin urmare proiectul Ministerului Culturii ar rezolva deplin unul dintre cele 20 de servicii prioritare ale programului eRomânia.

Sigur, se poate spune că există o comisie care evaluează proiectele pe baza unor reguli, iar eu vă cer să interveniți nereglementar. Se poate, dar o asemenea intervenție s-ar justifica printr-un interes superior — folosind cuvinte mari, aș putea chiar spune „interes național”. (În paranteză fie spus, concursul de proiecte din cadrul operațiunii 3.2.1. mi se pare straniu; parcă ar fi un concurs literar la care concurează romane-fluviu alături de epigrame.)

Sistemul biblioteconomic propus de Ministerul Culturii ar fi o componentă foarte utilă și foarte vizibilă a sistemului eRomânia. El ar oferi un mecanism la nivel național prin care, în principal:
  1. s-ar evita risipa de efort de catalogare (în prezent, dacă 100 de biblioteci achiziționează o carte, se elaborează 100 de fișe bibliografice, desigur în multe variante ușor diferite !);
  2. s-ar substanția împrumutul interbibliotecar (și acum biblioteca mea de cartier poate să împrumute pentru mine o carte de la altă bibliotecă; problema e că nu știe care bibliotecă din țară are cartea cu pricina).
Dar, în subsidiar, sistemul ar putea să ofere și alte funcționalități foarte utile. De pildă, editurile ar putea să-și ofere titlurile bibliotecilor/utilizatorilor, chiar înainte de a fi publicate, iar cercetătorii ar putea fi asistați să-și elaboreze bibliografiile de lucru într-unul din formatele consacrate, și în același timp s-ar acumula (gratuit) informații bibliografice într-o bază de date națională. Mai mult, dacă acest sistem va fi dezvoltat în regim open source, mai precis sub licența EUPL v1.1 (European Union Public Licence) care este promovată de Comisia Europeană, s-ar da un bun exemplu pentru viitoarele sisteme informatice dezvoltate pe bani publici.

Institutul de Memorie Culturală – CIMEC dezvoltă și întreține Catalogul Colectiv Național al Cărții Vechi Românești și Catalogul Colectiv Național al Incunabulelor. Așadar, în chestiunea informatizării colecțiilor de bibliotecă vă vorbesc în oarecare cunoștință de cauză, dar — mai ales — în calitate de important utilizator potențial al sistemului propus de proiect.

Prin urmare, insistând asupra utilității sociale a sistemului, vă rog să tratați cu bunăvoință propunerea mea.

Cu considerație,

Dan Matei, director (Institutul de Memorie Culturală – CIMEC)
PS. Breasla bibliotecară îmi șoptește că sunteți de mult un suporter important al bibliotecii publice din Onești. Asta îmi sporește speranțele.

PPS. Notă personală:
Chiar la o privire superficială asupra listei proiectelor propuse în cadrul operațiunii 3.2.1, se vede că zeci de autorități locale propun, practic, același proiect, cu titulaturi mai mult sau mai puțin imaginative. Să zicem că din acestea sunt selectate trei proiecte pentru consilii județene, cinci pentru primării de oraș și zece pentru primării de comună. Ce se va întâmpla ? Trei județe, cinci orașe și zece comune vor avea sisteme diferite, dar cu funcționalități similare. Și celelalte 38 județe ? și zeci de orașe ? și mii de comune ?

În condițiile date, mi s-ar părea rațional să se finanțeze dezvoltarea open source a:
  1. trei sisteme generice pentru consiliile județene;
  2. trei sisteme generice pentru prefecturi;
  3. trei sisteme generice pentru primăriile de oraș;
  4. trei sisteme generice pentru primăriile de comună,
desigur, toate compatibile între ele și compatibile cu sistemele guvernamentale, i.e. interoperabile, i.e. respectând standarde de intercomunicare, aprioric elaborate.

Apoi aceste sisteme să fie oferite gratuit tuturor autorităților publice. Zic câte trei sisteme (cifra e simbolică) , pentru ca beneficiarii să aibă de unde alege. Să nu li se pară că li se impune un singur stil. Ulterior, autoritățile publice n-ar mai avea motive să achiziționeze pe bani publici sisteme similare.
Nu spun că nu trebuie să existe o secțiune și pentru proiectele unicat. Dar această secțiune să fie separată și bugetată distinct.

Written by poliptic

8 septembrie 2010 at 8:24 am

IFLA a publicat forma finală a „Declarației de Principii Internaționale de Catalogare”

with one comment

 

La adresa www.ifla.org/VII/s13/icp/ poate fi citită forma finală a Declarației.

Am început o traducere (n-ar trebui să-mi fie prea greu, fiindca am tradus în 2004 prima formă, cea de la Frankfurt: www.cimec.ro/Metodologice/Catalogare.htm#Frank, deși forma de acum e de două ori mai lungă).

Problema mea acum: acuratețea traducerii formulărilor principiilor propriu-zise. De aceea le expun aici (preliminar), pentru a profita de eventualele critici.

Principiile, în versia mea, sunt:

2.1. Satisfacerea nevoilor de informare ale utilizatorului [convenience of the user]. Deciziile privind descrierile și formele controlate de apelațiuni din punctele de acces ar trebui luate din perspectiva utilizatorului.

2.2. Uzanța [common usage]. Vocabularul folosit în descrieri și acces ar trebui să fie conform cu cel al majorității utilizatorilor.

2.3. Reprezentativitatea [representation]. Descrierile și formele controlate ale numelor ar trebui să se bazeze pe felul în care o entitate se autodescrie.

2.4. Acuratețea [accurecy]. Entitatea descrisă ar trebui să fie înfățișată cu exactitate.

2.5. Suficiența și necesitatea [sufficiency and necessity]. Ar trebui incluse doar acele elemente ale descrierilor și ale formelor controlate de apela’iuni care sunt necesare operațiunilor utilizatorului și sunt esențiale pentru a identifica în mod unic o entitate.

2.6. Relevanța [significance]. Elementele informaționale ar trebui să fie semnificative din punct de vedere bibliografic.

2.7. Economia [economy]. Dacă există căi alternative de a atinge un obiectiv, ar trebui preferată calea care favorizează la maximum economia de ansamblu (i.e. costul cel mai redus sau abordarea cea mai simplă).

2.8. Coerența și standardizarea [consistency and standardization]. Descrierile și elaborarea punctelor de acces ar trebui să fie cât mai standardizate posibil. Aceasta asigură mai multă coerență care, la rândul ei, sporește posibilitățile de partajare a datelor bibliografice și de autoritate.

2.9. Tratarea unitară [integration]. Descrierile tuturor tipurilor de materiale și forme controlate de apelațiuni pentru toate tipurile de entități ar trebui să se bazeze pe un set comun de reguli, in măsura în care acesta este relevant.

Concizia principiilor face traducerea problematică. Mai ales din pricina mulțimii „falșilor prieteni”.

A doua problemă pe care aș vrea s-o expun (înainte de publicarea traducerii) este invenția adjectivului „subiectual/subiectuală”.  Adjectivul mi s-a părut convenabil în expresii precum „catalogarea subiectuală” pentru „subject cataloguing” (prin analogie cu „catalogare descriptivă” [descriptive cataloguing]) sau „tezaure subiectuale” pentru „subject thesauri”. Adjectivul e convenabil dar nu-s sigur că e „legitim”.

 

Actualizare (05.03.2009):

Prietana Florica Câmpeanu mi-a făcut câteva bune sugestii:

  • „reprezentativitate” în loc de „reprezentare”;
  • „exact înfățișată” în loc de „corect înfățișată”;
  • „semnificativitate” în loc de „însemnătate”.

Între timp văd că a apărut și versia franceză, care va fi de mare ajutor.

În povestea cu „subiectual”, încă nici Florica și nici Claudia nu m-au convins.  În calitate de terminolog (:-) sunt mare amator de neologisme. Dar ăsta n-ar fi un motiv suficient. Mie „subiectual” mi se pare sugestiv, iar „catalogarea pe subiecte” mi s-a părut totdeauna cam chinuit și — stilistic — șubred. Dacă am zice „catalogare pe materii” cum sugerează Florica, mă tem că tare puțină lume ar înțelege. Să ne mai gândim.

 

Actulizare (09.03.2009):

Colegele/colegii de la Brașov, mi-au făcut câteva bune sugestii. De pildă „relevanță” și „satisfacerea nevoilor de informare…”. Nu m-au convins cu toate sugestiile, dar nu-i timpul pierdut :-)

Pe de altă parte, m-am decis să folosesc „trebuie” pentru „must” și „ar trebui” pentru „should”.

Written by poliptic

1 martie 2009 at 8:17 pm

Postat in cataloage, catalogare

Urmărește

Fiecare nou articol să fie livrat pe email.