digital library
digital library

L’organizzazione delle raccolte documentarie

L’informazione presente in Rete è ingente e in continuo aumento, nella maggior parte dei casi non è di qualità, spesso non è strutturata. Le innovazioni tecnologiche e telematiche applicate alla comunicazione scientifica hanno in questi anni modificato la catena documentaria, più simile ad una rete ipertestuale. In questo reticolo la biblioteca diviene mediatore all’informazione e non più solo conservatrice del proprio patrimonio in attesa di un utente interessato “just in time”. La biblioteca oggi deve essere in grado di fornire risposte “just in case”, documenti al momento attraverso ILL, DD e accessi controllati alle risorse digitali. E’ dunque necessario filtrare e organizzare le informazioni attraverso la professionalità del bibliotecario, da sempre intermediario tra utenti e docuverso.[1]

La biblioteca digitale è orientata verso utenti remoti, interessati ad una porzione di docuverso che risponde a precisi criteri, accessibili attraverso un catalogo e interamente fruibili.

L’organizzazione dell’intera biblioteca digitale come in quella tradizionale è imperniata sul catalogo, ossia su un insieme organizzato di informazioni per permettere il recupero dei documenti bibliografici coerentemente descritti, attraverso accessi controllati.

Il futuro del bibliotecario consiste dunque nell’indicizzare le informazioni disponibili in Rete attraverso l’intermediazione catalografica, descrivere formalmente le fonti di informazione, soggettarle e classificarne il contenuto.[2]

ISBD (ER)

Il formato utilizzato per la catalogazione descrittiva oggi adottato dalla comunità internazionale è ISBD dell’IFLA, che attraverso una griglia organizzativa formalizza la descrizione bibliografica. Dal 1997 per le risorse elettroniche è disponibile il formato ISBD (ER), in cui sono confluite le precedenti esperienze di applicazioni dello standard ISBD alle risorse elettroniche, ISBD (NBM) e ISBD (CF) su modello delle regole anglomericane di catalogazione AACR2R.

Da un punto di vista catalografico le difficoltà presentate dalle risorse elettroniche sono rappresentate da

  • la descrizione del documento elettronico attraverso standard catalografici tradizionali che mal si adattano alla mancanza di tangibilità del supporto.
  • la fluidità interna dei documenti elettronici, facilmente modificabili o aggiornabili
  • volatilità e fluidità esterna, causata dalla mancanza di coordinamento del ciclo di vita dell’informazione elettronica.
  • pluralità di formati in cui è disponibile la stessa risorsa
  • il reperimento delle fonti, dalla responsabilità intellettuale del contenuto alla responsabilità di pubblicazione. [3]
Un metodo di catalogazione alternativa è invece quello che vede un ruolo attivo dell’autore che inserendo alcuni elementi descrittivi direttamente all’interno del documento funge da catalogatore o auto-catalogatore rinunciando al ruolo terzo tra autore e lettore tradizionalmente assolto dal bibliotecario. Il problema che si pone con la diffusione di informazione e conoscenza tramite Internet è l’individuazione del soggetto preposto alla catalogazione del documento. Internet modifica i ruoli degli attori del modello di iter catalografico tradizionale: nel web è l’autore stesso a fornire la descrizione della risorsa senza alcuna intermediazione, quindi salta il ruolo “terzo” del catalogatore tra autore e lettore.[4]
Metadati

I metadati sono letteralmente dati su dati, come ad esempio le schede bibliografiche cartacee di un tradizionale catalogo di biblioteca. Sono usati per identificare e descrivere risorse informative e localizzarle. La descrizione dei documenti, ossia dei data, permette di individuare, selezionare, localizzare e recuperare l’informazione, attraverso cataloghi, bibliografie e repertori, sistemi di dati su dati o meta-data, permettendo ad ogni lettore di individuare il suo libro salvando il suo tempo.

In ambiente digitale i metadati sono definiti in formati e sono stati estesi per garantire oltre al recupero anche l’accesso al documento. I metadati per essere funzionali devono essere standard, in modo da consentire lo scambio tra sistemi di rete e in particolare in ambiente elettronico sono concepiti per essere prodotti in modo più efficiente dei record catalografici.[5]

I metadati digitali sono usati come:

  • metatag nelle intestazioni dei documenti HTML
  • archivio
  • banca dati di un server o di un archivio distribuito con un solo motore di ricerca.

e si dividono in:

  • descrittivi: MARC, TEI, EAD, DC
  • amministrativo gestionali: MAG
  • strutturali: DOI[6]

 Metadati descrittivi

Nei progetti di biblioteca digitale sono impiegati i metadati descrittivi e tra essi più diffusi sono:

TEI, Text Encoding Iniziative. Intestazione nata in area dell’informatica umanistica grazie ad un progetto sponsorizzato da ACL, Association for Computational Linguistics, ALLC, Association for Literary and Linguistic Computer, ACH, Association for Computer and Humanities, per sviluppare uno schema di codifica testuale per complessi oggetti elettronici costituiti dal testo.[7] La finalità del progetto Tei è di definire uno standard di codifica specifico per i dati umanistico-letterari e creare una normalizzazione dei formati di memorizzazione al fine di consentire l’interscambio dei documenti.[8]

Le linee guida TEI[9] sono un’applicazione dello standard SGML-TEI e indicano quali parti del testo codificare dettandone le modalità. Le specifiche TEI forniscono i metadati necessari ad un uso multifunzionale, documentando revisioni, fonti, registrazioni di elementi bibliografici con possibilità di utilizzare la registrazione delle informazioni relative al documento indipendentemente dal documento stesso.

Ogni testo codificato in base allo standard Tei è costituito da due parti:

  • TeiHeader, contente le informazioni editoriali relative al testo, utili per la descrizione bibliografica
  • TeiText, contenente la trascrizione codificata del testo.[10]

In particolare i bibliotecari sono interessati alla sezione “file description” che fornisce la descrizione bibliografica del documento e della sua fonte, descrizione modellata sullo standard AACR con campi che corrispondono approssimativamente alle aree ISBD:

File description:

– <titleStmt> comprende campi title, author, sponsor, funder, principal, respstmt, utilizzando le liste di autorità della Library of Congress Name authority list per tutti i nomi personali comuni

– <editionStmt> dati relativi ad una edizione di un testo
– <extent>

– <pubblicationStmt> informazioni sulla pubblicazione e distribuzione di un testo elettronico o meno

– <seriesStmt>
– <notesStmt>

– <sourceDesc> descrizione bibliografica del testo di copia da cui un testo elettronico è stato derivato o generato.

La sezione “Profile description” include invece dati non prettamente bibliografici, ma utili per il reperimento o analisi del testo supportata dalla macchina, spesso utilizzati per registrare voci di soggetto.[11]

Dublin Core

Dublin Core è un progetto nato dalla conferenza tenuta nel marzo del 1995, a Dublin, Ohio, sede di OCLC, Online Computer Library Center, con l’obiettivo di definire uno standard per permettere la descrizione delle risorse online da parte degli stessi autori e l’eventuale l’indicizzazione.[12]

Per descrivere le risorse disponibili è stato individuato un set di metadata standard individuati come core, per l’identificazione e la definizione ad uso di autori/editori.[13]

Il core è attualmente strutturato in 15 elementi che si possono dividere in tre classi con relativi elementi:

  • content: title, subject, description, source, language, relation, coverage
  • intellectual property: creator, publischer, contributor, rights
  • instantation: date, type, format, identifer[14]

così riportati dalla traduzione italiana curata dall’ICCU:

  • Nome – Etichetta assegnata al dato
  • Identificatore – Identificativo univoco assegnato al dato
  • Versione – Versione del dato
  • Registrazione di autorità – Entità autorizzata a registrare il dato
  • Lingua – Lingua nella quale il dato è indicato
  • Definizione – Indicazione che rappresenta chiaramente il concetto e la natura essenziale del dato.
  • Obbligatorietà – Indica se il dato è richiesto sempre o solo in alcuni casi (contiene un valore).
  • Tipo di dato – Indica la tipologia del dato che può essere rappresentato nel valore del dato stesso.
  • Occorrenza massima – Indica un limite alla ripetibilità del dato.
  • Commento – Un’osservazione che concerne l’applicazione del dato.

Ogni elemento è definito usando un set di attributi ricavati dalla norma ISO-11179 e può essere collocato ad esempio nel file Html, il più diffuso per le risorse catalografiche online, entro il tag <Meta> nell’Header, per essere letto dai motori di ricerca.[15]

 

Metadati amministrativo gestionali

MAG, Metadati Amministrativi Gestionali, sviluppati da Gruppo di studio sugli standard e le applicazioni di metadati nei beni culturali promosso dall’ICCU nell’ambito del progetto BDI, Biblioteca Digitale Italiana, come modello di base per l’accesso, la gestione e la conservazione delle risorse digitali.[16]

Includono elementi finalizzati alla descrizione standardizzata dei metadati amministrativi gestionali in formato XML, relativi ad elementi quali le condizioni d’uso, le licenze, i diritti di proprietà e l’utilizzo nel tempo delle risorse digitali. [17]

Lo schema generale è composto dalle sezioni:

  • gen: informazioni generali sul progetto e sul tipo di digitalizzazione
  • bib: metadati descrittivi sull’oggetto digitalizzato (formato DC)
  • stru: metadati strutturali
  • img: metadati specifici relativi alle immagini fisse
  • ocr: metadati specifici relativi al riconoscimento ottico del testo
  • doc: sezione utilizzata per descrivere ad esempio un file in formato pdf o rtf .[18]

Metadati strutturali

DOI

Nel campo editoriale si è affermato il formato DOI, Digital Object Identifier, principale metadata per identificare il proprietario, realizzato dall’Association of American publischer che intende sviluppare un identificatore per la gestione di materiale protetto da diritto d’autore. [19]

Il Doi è uno strumento che serve ad identificare in modo persistente un frammento di proprietà intellettuale sulle reti digitali costituito da quattro compenenti:

  • una stringa alfanumerica assegnata all’entità oggetto di proprietà intellettuale.
  • descrizione bibliografica dell’entità identificata da DOI, attraverso metadati contenuti in <indecs>
  • un meccanismo di risoluzione per l’uso sulle reti
  • la politica di concessione ad alcune agenzie secondo strategie settoriali.

La politica generale è controllata dalla Internation Doi Foundation, mentre l’assegnazione del codice è curata da varie agenzie che offrono ai loro clienti anche alcuni servizi, come l’infrastruttura utile per mantenere i metadati. Tali agenzie sono numerose, vale però la pena citare il consorzio di società europee, coordinato dall’Associane italiana editori, MEDRA e l’agenzia di maggior successo, CrossRef che fornisce un’applicazione per l’identificazione degli oggetti ed il loro recupero in full text.[20]

Il problema aperto è l’interoperabilità tra i sistemi di metadata sviluppati autonomamente dai vari attori della catena. Secondo P. Gabriele Weston le condizioni essenziali affinché i sistemi possano interoperare tra loro sono la struttura coerente delle registrazioni ed i criteri di normalizzazione per l’immissione e la gestione dei dati.[21]

Per favorire l’uniformità della descrizione dei documenti in qualunque formato o supporto essi si presentino l’IFLA ha fornito un quadro concettuale in cui possono essere armonizzati i diversi ruoli dei metadata: FRBR, Functional Requirements Bibliographic Records.

FRBR definisce le entità e permette di associare le manifestazioni che materializzano la medesima espressione, eventualmente su supporti diversi, o le espressioni che realizzano la medesima opera sia pur in lingue o edizioni differenti. [22]

Proprio la difficoltà di interscambio tra diverse biblioteche digitali e le rispettive collezioni è uno dei grandi limiti della biblioteca digitale. Il passaggio dell’utente da un interfaccia ad un altra con differenti modalità di ricerca è il risultato della mancanza di interoperabilità dell’infrastruttura tecnologica e mancanza di collaborazione di cui spesso soffrono i progetti di biblioteca digitale. La tendenza è dunque quella di identificare il documento più che descriverlo per superare diversi livelli di difficoltà per una piena interoperabilità, da quella tecnica a quella semantica, a quella multidisciplinare.

Dal punto di vista tecnologico invece, vista le difficoltà di accordarsi su in insieme di standard e convertire il sistema esistente, ci si concentra sui servizi di ricerca più facilmente adattabili a standard condivisi da opac e banche dati, dai comuni marcatori e identificatori web, come HTML e URL, allo standard z39.50 e SGML ai metadata più familiari ai bibliotecari come al già visto Dublin Core. L’ambizione dei curatori delle biblioteche digitali è di rendere possibile la ricerca integrando diversi sistemi, in un sistema di ricerca distribuito, Network information discovery in grado di fornire il servizio di controllo unificato degli accessi, di facilitare la gestione della collezione in cooperazione, i servizi di localizzazione, attraverso l’identificazione della risorsa ed i thesauri. Negli ultimi anni si sono visti numerosi progetti di catalogazione delle risorse internet nel mondo bibliotecario, come The Scorpion project[23], compatibile con il Dublin Core, l’americano Intercat (1991-1996), promosso da OCLC, ALA e Library of Congress, la cui impostazione è oggi ripresa da CORC (1999-2002), Cooperative on line resource catalog, il progetto Catriona (1994-1995) in gran Bratagna, e le raccomandazioni del W3C per la descrizione di un documento online, raccolte in Rdf, Resource description framework[24].[25] Dal 2004 è stato approvato dal W3C anche un altro importante standard legato alla costruzione del Web semantico OWL, Web Ontology Language.[26]

Metatag

I metadati sono la chiave di accesso alle risorse e nel loro utilizzo risiede l’efficienza delle biblioteche digitali. Per questo di fronte alla vasta produzione di documentazione e alla incapacità degli standard descrittivi di matrice bibliotecaria di coprire l’intera informazione, una strada percorribile sembra quella dell’autocatalogazione attraverso semplici elementi standard inseriti nel codice e non visualizzabili graficamente.

La diffusione di tali elementi standard permette, infatti, non solo di identificare le risorse grazie ad una sorta di carta d’identità compilata dall’autore, ma anche il recupero da parte di agenti intelligenti in grado di individuare le parole chiave contenute nel titolo e nei campi standard. La semplicità di detti campi permette dunque agli autori di catalogare e gestire il proprio documento, anche se nulla vieta all’autore di inserire dati non veritieri per favorire il recupero dell’informazione da essi prodotta in sintonia con i criteri di recupero dei motori di ricerca che considerano metatag quali:

<Author> indica l’autore della pagina o di chi ha responsabilità sul contenuto.

<Copyright> indica chi detiene i diritti relativi al documento

<Generetor> indica il software utilizzato per la creazione della pagina.

<Robot> fornisce indicazione ai motori di ricerca su come “catturare” la pagina

<Title> indica la risorsa attraverso termini significativi che i motori di ricerca permettono di visualizzare in seguito ad interrogazione, appare inoltre nei bookmark e in testa alla finestra del browser, è importanet dunque che indichi il soggetto del documento.

<Description> una breve sintesi del contenuto della pagina, visualizzato dai motori di ricerca, è sostituito dalle prime parole del BODY in caso di assenza del metatag

<Keyword> parole chiave per caratterizzare il contenuto.

I metatags che risiedono nella parte iniziale del codice HTML, HEAD, rispondono ad alcuni criteri utilizzati dai motori per effettuare l’ordinamento o ranking dei risultati, fondamentale se si pensa che ogni ricerca viene effettuata su decine di milioni di documenti e produce migliaia di risultati dei quali un utente medio prende in considerazione solo le prime decine.[27]

In realtà gli autori potrebbero non essere in grado di catalogare bene, non riuscendo a creare i giusti legami con altre opere o non seguendo gli standard o peggio introducendo falsi elementi descrittivi per avere un pubblico più vasto.[28] L’estraneità di una figura preposta ad estrarre i metadati di data creati da altri, come il bibliotecario, garantirebbe la fedeltà della descrizione attraverso standard stabiliti ai soli fini della conservazione e del recupero del documento. La professione del bibliotecario, rimane dunque centrale nella catena documentaria, ma più complessa la sua formazione sulla valutazione e descrizione delle risorse digitali.

 Localizzatori

Qualsiasi risorsa internet è individuata da un identificativo, unico e persistente, come standard entro il progetto Word Wide Web del CERN di Ginevra dallo stesso Tim Berners Lee, sperimentata nell’architettura URI, Uniform Resource Identification, comprende tre elementi: URN, Uniform Resource Name, che identifica la risorsa, URC, Uniform Resource Characteristics, riguardante la semantica, URL, Uniform Resource Locators, per localizzare la risorsa e PURL per garantire l’uso del documento anche a seguito di uno spostamento.[29] PURL, Persistent URL è un localizzatore che rimane immutato anche quando la risorsa si sposta nel cyberspace , grazie al controllo di agenzie incaricate di tenere sotto controllo le frequenti migrazioni e renderle trasparenti agli utenti.[30] Questa complessa architettura, attualmente al centro degli interessi bibliotecari, è stata sperimentata dalle biblioteche nord europee e recentemente in realizzazioni europee, come la BN Digital portoghese, di cui si parlerà nel seguente capitolo.[31]

 


[1] Ridi, [1998], p. 15.

[2] Bassi, [2002], p. 34.

[3] Bassi, [2002], p. 48 -53.

[4] Ridi, [1999].

[5] Bassi, [2002], p. 27-35; Salarelli-Tammaro [2000], p. 181-185.

[6] Bassi, [2002], p. 135.

[7] TEI, The Text Encoding Initiative, [2000-2005].

[8] Numerico-Vespignani, [2003], p. 144-147.

[9] The TEI Guidelines, [2002].

[10] Numerico- Vespignani, [2003], p. 147.

[11] Bassi, [1999], p. 142-145.

[12] Dublin Core Metadata Initiative (DCMI), [1995-2005].

[13] Tedd-Large, [2005], p. 88-97.

[14] Bassi, [2002], p. 155

[15] Dublin Core element set, version 1.1: reference description, [1999].

[16] Magliano, [2004].
[18] Schema MAG, [2005].

[19] Tajoli, [2005], p. 77-81 ; The Digital Object Identifier System, [2003-2005].

[20] Vitiello, [2004], p. 67-80; mEDRA,[2003-2005]; Crossref.org: the reference linking backbone, [2003-2005].

[21] Weston, [2002], p 129-151.

[22] Ifla Study Group on the Functional Requirements for Bibliographic Records, [1998], p. 7-10.

[23] Scorpion [OCLC – Software], [2003-2005].
[24] Resource Description Framework (RDF), [2002-2005].
[25] Metitieri-Ridi, [2002], p. 56-57.
[26] Web Ontology Language OWL, [2004].
[27] Ridi, [1999].

[28] Ridi, [1999].

[29] De Robbio, [2002b], p. 31-32.

[30] Metitieri-Ridi, [2002], p. 54-55.

[31] Persistent URL, [1997-2005].

Tratto da

Le biblioteche digitali per gli studi medievistici / Stefania Manni tesi di Laurea Magistrale discussa all’Università di Ca’ Foscari nel 2005, relatore Riccardo Ridi. LS/5 ARCHIVISTICA E BIBLIOTECONOMIA

 

Licenza Creative Commons
La Storia in BIT di Stefania Manni è distribuito con Licenza Creative Commons Attribuzione – Non commerciale – Condividi allo stesso modo 4.0 Internazionale.