digital library
digital library

La collezione digitale

La collezione documentaria rappresenta il cuore della biblioteca e incentra su di sè le principali funzioni:

  • selezione e acquisizione delle risorse che compongono la collezione.
  • catalogazione, metodi e tecniche per permettere il reperimento dell’informazione.
  • archiviazione e preservazione, per garantire l’accesso ed il recupero dei documenti nel tempo.

La stessa definizione di collezione digitale ha valenze differenti in ambito bibliotecario, in quanto può essere interpretata come collezione locale ad accesso remoto o come infrastruttura di servizio per l’accesso alle risorse informative distribuite. Anche in questo caso la definizione si allarga a realtà sostanzialmente differenti. La collezione locale ad accesso remoto è spesso un continuo della collezione tradizionale con la costruzione di una “collezione ristretta” che fornisce l’accesso alle risorse elettroniche locali, REL, cioè ad una selezione di accessi remoti indicizzati entro banche dati e dalla produzione di surrogati di documenti cartacei. Le risorse informative distribuite o RER, Risorse Elettroniche Remote, invece, sono intese come “collezione estesa” a tutte le risorse accessibili in Rete, in una biblioteca digitale vicina ad un portale, o ad un repertorio, dove il servizio è la selezione e l’aggiornamento.[1] Una biblioteca digitale può comprendere entrambe le collezioni, a seconda della propria mission e origine ed inserire nel catalogo metadata utili al recupero dei documenti, locali o remoti, utilizzando il tradizionale OPAC o il più innovativo” OPAL, Online Public/patron Access Library, acronimo coniato da Corrado Pettenati nel 1987 per indicare un “futuristico” catalogo da cui accedere a testi completi”.[2]

La biblioteca digitale funge da filtro qualità rispetto ad un utente che ha la percezione di interagire sempre entro la stessa biblioteca, quindi un servizio basato su un’infrastruttura apposita per una risposta just in time. La stessa architettura della biblioteca digitale è costruita intorno alla collezione che può essere interpretata come mediazione o “infrastruttura di servizio” la cui funzione è assistere l’utente nella ricerca e nelle condizioni di accesso.[3]

Un modello di collezione di biblioteca digitale è orientato verso:

  • lo sviluppo della collezione primaria di documenti digitali nativi, che trasforma la biblioteca in distributrice di comunicazione scientifica rendendo accessibili i documenti prodotti per la comunità di utenti servita.
  • la costruzione di una collezione secondaria, costituita dalle digitalizzazione di originali analogici, da parte di biblioteche, enti, privati o editori.

Prima di analizzare nel dettaglio la formazione, consistenza e organizzazione delle raccolte digitali è utile definire il concetto di documento digitale per capire vantaggi e limiti del suo impiego nella ricerca e nella comunicazione scientifica.

Documento digitale

Il documento digitale, ovvero la rappresentazione di un testo su supporto digitale, “in linea generale è costituito da un flusso di caratteri (o stringa), in cui il carattere è l’unità atomica per la rappresentazione, l’organizzazione e il controllo di dati testuali sull’elaboratore”[4]. Il documento digitale può essere nativo, quindi pubblicato originariamente in digitale o nato in formato analogico e digitalizzato a posteriori in modalità manuale o meccanica. Nel primo caso la trasformazione del documento cartaceo in forma binaria è affidata ad un operatore che tramite tastiera inserirà una lettera alla volta, mentre l’acquisizione meccanica prevede l’impiego di strumenti quali scanner o fotocamere in base alla tipologia di documento destinata alla trasposizione digitale. La modalità manuale è certo la più dispendiosa in termini di tempo, sebbene anche l’acquisizione meccanica preveda spesso un filtraggio manuale, come nel caso di utilizzo di software di riconoscimento ottico dei caratteri, OCR, Optical Character Ricognition, mentre l’acquisizione di immagini è sempre automatizzata.

La scelta delle modalità di digitalizzazione è in primo luogo vincolata dalla tipologia del materiale e al suo supporto, ad esempio la scansione del testo si utilizza per fonti edite su supporti a prova di forti fasci di luce, mentre manoscritti e fotografie vengono riprodotti attraverso speciali apparecchiature in grado di preservare gli originali. La differente modalità di digitalizzazione stabilisce il formato del nuovo documento digitale, da testuale ai linguaggi di marcatura, alle applicazioni per e-book al formato immagine, oltre ai formati audio, video.

Il formato testuale più semplice è ASCII, American Standard Code for Information Interchange, permette di codificare i 128 caratteri più comuni. Lo stesso TXT del blocco note di Windows è un’estensione generica, solitamente indicata per file testuali in ASCII privi di formattazione.

Diffusissimo è il formato testuale proprietario di Microsoft per il programma di video scrittura Word, DOC, il cui limite è non essere comprensibile da tutti gli altri programmi di videoscrittura, comprese le versioni precedenti dello stesso Word, per questo si preferisce il formato RTF, in quanto mantiene la formattazione del testo nel passaggio da un programma all’altro sfruttando caratteri ASCII.

Il passaggio dal materiale al digitale avviene tramite codifica, attraverso un sistema di marcatura, cioè su specifici linguaggi che descrivono l’aspetto di ciascun elemento testuale assicurandosi che nella trasposizione elettronica siano perdute il minor numero possibile di informazioni contenute nella fonte originale. “I linguaggi di marcatura sono costituiti da un insieme di istruzioni, dette tag (marcatori), che servono a descrivere la struttura, la composizione e l’impaginazione del documento. I marcatori sono sequenze di normali caratteri e vengono introdotti, secondo una determinata sintassi, all’interno del documento, accanto alla porzione di testo cui si riferiscono.”[5]

SGML, Standard Generalized Markup Language, ad esempio è un linguaggio di marcatura che prescrive precise regole sintattiche per definire un insieme di marcatori e le loro reciproche relazioni, senza marcare direttamente documenti, e garantendo attraverso le sue applicazioni linguaggi di marcatura specifici, detti DTD, Document Type Definition, tra cui TEI, un progetto internazionale per la codifica dei testi a carattere umanistico.[6]

HTML, Hyper Text Markup Language, è il linguaggio di marcatura utilizzato per costruire pagine web, è composto da tags o marcatori non visibili alla lettura che contengono istruzioni per la visualizzazione del testo. Sviluppato dal più complesso SGML si adatta alle esigenze di ipertestualità della Rete e di internazionalizzazione degli standard. Grazie alla sua semplicità è oggi il linguaggio maggiormente diffuso e indicato dal W3C quale linguaggio ufficiale del World Wide Web, preferibilmente abbinato a fogli di stile CSS che ne dichiarino la struttura.

Sempre da SGML trae origine un altro linguaggio di marcatura, XML, extensible markup language, scelto dal W3C, il World Wide Web Consortium promosso nel 1994 dallo stesso Tim Berners, per le applicazioni testuali del web in sostituzione del linguaggio HTML ritenuto troppo povero per specifiche esigenze e presto sostituito da XHTML, extensible HTML.[7]

PDF, Portable Document Format, e PostScript, invece, sono standard proprietari dell’azienda Adobe e determinano la visualizzazione del documento precedentemente confezionato da altri software. Il documento così prodotto non è modificabile, ma si può scaricare o stampare attraverso la versione gratuita fornita online dalla stessa azienda, mentre per produrre documenti in PDF è necessario acquistare il programma AdobeWriter. Il formato PDF è di solito utilizzato per documenti testuali, anche e-book: libri elettronici, proprio per l’impossibilità di intervenire dall’esterno sul contenuto, anche se i formati specifici per gli e-book, sono OEB, Open EBook, standard elaborato da un’associazione privata, la Open EBook forum cui partecipano case produttrice e case editrici tra cui Mondatori, e LIT che è il formato proprietario per Microsoft Reader.[8]

I formati di immagini digitali standard su Web sono GIF, Graphic Interchange Format, JPEG, Join Photographic Experts Group, PNG, portable network graphics, MNG, Multiple-image Network Graphics, si tratta di sistemi di codifica grafica in grado di comprimere notevolmente la dimensione del file, e pertanto particolarmente adatti a un uso in Rete, mentre per l’archiviazione di immagine è utilizzato TIFF, Tegged Image File Format, sviluppato da Adobe e Microsoft.[9]

Selezione e acquisizione: collezione digitale primaria

Il procedimento di selezione e acquisizione dei documenti è uno dei momenti attraverso il quale si realizza la gestione della collezione documentaria in base alla mission della biblioteca, incentrata sull’utente, attenta alle risorse e ai programmi cooperativi cui aderisce.

Nel caso della biblioteca digitale è importante definire l’utenza da soddisfare, l’uso che ne farà della collezione e le modalità di accesso remoto e quindi formalizzarla in un documento programmatico come avviene per la biblioteca tradizionale. Una dichiarazione di intenti per l’utente e lo staff, che definisce l’identità della biblioteca e permette di verificare nel tempo il raggiungimento degli obiettivi.

Anche in ambito digitale potrebbero essere utili documenti come la carta delle collezioni ed il piano di sviluppo delle collezioni. Dunque proporre gli obiettivi generali della biblioteca ed i principi cui si ispira in modo da valutare:

  • le aree disciplinari in base alla tipologia di bisogni dell’ utenza che intende soddisfare.
  • la politica di revisione periodica delle collezioni
  • la politica di acquisizione, completa di indicazioni sulle risorse, fornitori, produttori, politica di cooperazione ed i nominativi delle figure preposte a tale incarico.

Inoltre, uno strumento interno, valido per lo staff di una biblioteca digitale quanto per quello di una biblioteca tradizionale, permette di conoscere i criteri di utilizzo delle risorse finanziarie ed il programma di spesa suddiviso per settori necessario per il mantenimento e lo sviluppo della collezione, sia analogica che digitale.

La politica di acquisizione ha come naturale complemento una periodica revisione delle collezioni, intesa come strategia di programmazione a seguito di un’analisi della collezione, che tiene conto di vari fattori come la data di pubblicazione, l’ultimo utilizzo da parte dell’utenza e la presenza di fattori negativi come inadeguatezza, inesattezza, incoerenza. L’attività di revisione è necessaria soprattutto in ambiente elettronico, in cui la volatilità dei documenti che costituiscono le collezioni esterne e l’evoluzione tecnologica che investe i sistemi di conservazione obbligano ad un costante monitoraggio e ad una più frequente esame della politica documentaria perseguita.

La biblioteca anche nel contesto digitale, dunque, necessita della stessa regolamentazione seguita dalle biblioteca tradizionali per la gestione delle raccolte e la loro implementazione. Le stesse griglie di valutazione possono essere adattate alla biblioteca digitale, garantendo anche qui una metodologia per la definizione del grado di copertura bibliografica.[10] La selezione, valutazione della documentazione digitale e l’accesso facilitato garantito nel tempo sono elementi che creano valore aggiunto alla biblioteca che altrimenti avrebbe solo il ruolo di aggregatore di informazioni. Questo percorso deve essere affrontato con professionalità adeguate, con competenze specifiche sia sul piano biblioteconomico che su quello dell’editoria elettronica, un vero “collection management librarian”.[11]

Produzione

Nel panorama editoriale internazionale l’affermazione dell’editoria digitale ed il conseguente ripensamento della catena del valore tra autore e lettore hanno favorito la sperimentazione e lo sviluppo di modelli di comunicazione scientifica alternativi al modello tradizionale controllato per lo più da editori commerciali e soggetto a fenomeni di concentrazione. Infatti, la necessità di assicurare un’efficace diffusione ed un facile accesso ai contributi scientifici ha spinto molte università ed enti di ricerca a promuovere iniziative editoriali con l’obiettivo di assistere gli autori nell’intero ciclo di vita dell’informazione scientifica, dalla creazione del documento, alla peer review, fino alla distribuzione e all’accesso, proponendosi sul lungo periodo come soluzione strategica alla spirale dei prezzi delle pubblicazioni scientifiche.[12]

I progetti per l’affermazione delle Università e Istituti di Ricerca come editore sono numerosi, orientati a superare i maggiori ostacoli:

  • il diritto d’autore, spesso ceduto agli editori da docenti e ricercatori appartenenti a Università o Istituti così destinati ad acquistare da terzi i risultati delle ricerche da loro stessi finanziate[13].
  • il controllo qualità della pubblicazione, tradizionalmente sottoposto alla peer review
  • la conservazione delle pubblicazioni digitali attraverso identificatori
  • integrazione con il mercato editoriale commerciale.[14]

Da alcuni anni anche in Italia si registra una tendenza verso la sperimentazione di nuovi uffici editoriali rivolti verso l’editoria digitale, attraverso piani editoriali strutturati in collane e riviste, entro specifiche aree disciplinari.[15] La produzione di pubblicazioni digitali si è sviluppata negli ultimi anni in ambito accademico con lo scopo di favorire la comunicazione scientifica riacquistando i diritti d’autore spesso ceduti ad editori.[16]

La produzione editoriale delle Università impegnate nella sperimentazione del digitale si orienta verso due livelli di comunicazione scientifica:

  • canale di comunicazioni tra studiosi, attraverso periodici eletronici ed e-book
  • supporto bibliografico per la didattica, attraverso la messa online di dispense ad uso degli studenti.

La biblioteca dell’Università è così “impegnata in una produzione e distribuzione dell’informazione significativa in ambito scientifico, possibilmente in stretta collaborazione con il centro di calcolo ed il centro editoriale di Ateneo”[17].

Documenti nativi

La collezione digitale, spesso cooperativa, è incentrata soprattutto sulle risorse originariamente digitali, sulla loro organizzazione, accessibilità e preservazione.

Le tipologie di documenti digitali nativi sono:

  • periodici elettronici: lo sviluppo della tecnologia ha offerto la possibilità di ridurre i costi di produzione dei periodici scientifici in Internet, ormai importante mezzo di comunicazione tra studiosi, in risposta all’aumento dei prezzi imposto dagli editori negli ultimi anni.[18]I vantaggi dei periodici elettronici sono la rapidità della pubblicazione dei risultati della ricerca, la disseminazione più efficiente, la possibilità di sfruttare l’ipermedialità per presentare i risultati della ricerca, la possibilità di avere una peer review pubblica, una distribuzione a costi inferiori rispetto a quella tradizionale, l’interattività per la velocità di pubblicazione e comunicazione. Il vantaggio principale rispetto alle pubblicazioni analogiche è l’accesso diretto da parte dell’utente, oggi venduto come servizio da editori e fornitori attraverso licenze d’uso limitate nel tempo che pongono alle biblioteche notevoli problemi di gestione della collezione.[19]
  • e-book: letteralmente libro elettronico, la mancata fortuna dopo gli urlati annunci degli anni passati vanno di pari passo con la mancanza di un’univoca definizione dell’oggetto. Con tale termine, infatti, vengono indicati testi online diffusi via internet, supporti e software per la lettura ed anche l’hardware in commercio. Mancano dunque standard comuni per la definizione di e-book ed il mercato attualmente tende alla moltiplicazione anziché alla convergenza. Diversi dunque i fattori che hanno portato a smorzare gli entusiasmi di chi vedeva nell’introduzione dei libri elettronici il tramonto della carta stampata, dalla difficoltà di lettura da monitor che porta al trionfo della stampata su carta, alla protezione dei diritti legati alla pubblicazione[20]. La necessità di uno standard comune per commercializzare e conservare gli e-books è alla base della nascita del consorzio OeBF[21]. OeBf ha fornito una specifica OEB, cioè un formato creato utilizzando l’XML e supporta gli elementi di matatadata Dublin Core. Mentre per la tutela e la protezione dei contenuti digitali gli USA hanno sviluppato il progetto DOI-EB, equivalente al codice ISBN per le monografie a stampa, per garantire l’identificazione in modo univoco e la proprietà intellettuale.
  • e-prints o articoli elettronici sono testi che una volta elaborati dagli autori vengono immessi in Internet senza alcuna intermendiazione da parte dell’autore. Le versioni antecedenti la pubblicazione da parte dell’editore, cioè la versione pre-correzione, pre-print, possono essere liberamente usate dall’autore, essendo costui l’unico responsabile del diritto intellettuale e morale del contenuto, e depositati liberamente in server o archivi digitali per garantire un maggior fruizione dei contenuti come è accaduto nel settore pionieristico della fisica.

Per facilitare la ricerca entro questi archivi di preprint sono nati progetti come NCSTRL, indice distribuito che poggia su un motore di ricerca specializzato, DIENST.[22]

Proprio sul versante della ricerca bibliografica si contano le maggiori iniziative degli ultimi anni da parte di editori commerciali. A fronte dell’aumento della produzione editoriale digitale si sono affermati nuovi attori della filiera editoriale, gli aggregatori, che offrono un servizio di intermediazione attraverso banche dati contenenti prodotti di diversi editori, fornendo quindi all’utente un unico punto di partenza attraverso una interfaccia completa di sistema di interrogazione come ADONIS di Elzevire o OVID di EBSCO, e aggregatori di contenuti per un singolo editore, è il caso dei gateway, come ECO di OCLC, inteso dunque come un servizio offerto dall’editore che ne stabilisce il valore commerciale.[23]

Digitalizzazione: la collezione digitale secondaria

La digitalizzazione

La collezione digitale secondaria è formata dalle pubblicazioni elettroniche e copie digitali di pubblicazioni a stampa, prodotte da biblioteche e istituzioni.

La conversione da analogico a digitale è stata largamente adottata nel corso degli anni dal mondo bibliotecario, sia per conservare e proteggere il patrimonio cartaceo sia e soprattutto oggi per facilitarne l’accesso. La conversione del materiale cartaceo posseduto dalla biblioteca in materiale digitale è una parte importante dell’acquisizione del materiale per lo sviluppo della biblioteca digitale. Tali esperienze hanno dato vita a progetti e realizzazioni disomogenee e a fronte di un notevole numero di iniziative intraprese ad ogni livello corrisponde anche una forte frammentarietà, uno scarso coordinamento e la mancanza di un disegno complessivo di riferimento.[24]

Il panorama d’insieme si presenta, dunque, vario per qualità e contenuti determinati da tecniche e strumenti in piena evoluzione. Per questo si sono rese necessarie e preziose le proposte di coordinamento e gli studi sulle modalità e finalità della digitalizzazione, come Guidelines for digitizing archival materials for electronic access[25] o le indicazioni sulla digitalizzazione dell’ICCU per seguire precisi criteri di selezione e modalità per costituire una collezione omogenea in armonia con standard europei, messi a punto dal Manuale di buone pratiche per la digitalizzazione del patrimonio culturale, del Progetto Minerva.[26]

La digitalizzazione è inoltre stata sperimentata come sistema editoriale, sia per la creazione di nuovo collane nate dalla digitalizzazione di opere cartacee appartenenti a diverse collezioni, sia come reprint, conversione delle annate di periodici scientifici, come nel caso dell’editore JSTOR[27].

Molte di queste iniziative sono state sviluppate dalle Università americane, come il progetto Perseus per la Harvard University, o il progetto Alexandria dell’University of California Santa Barbara per la ricerca spaziale, entrambe prese in esame nei capitoli seguenti.

 


[1] Salarelli-Tammaro, [2000], p. 141-143; Ridi, [2004], p. 15-16.

[2] Ridi, [2004], p. 15, da Pettenati, [1987].

[3] Per la definizione “infrastruttura di servizio” ed i concetti correlati si veda Salarelli-Tammaro, [2000], p. 141-146.

[4] Internet 2004, [2003]; Ridi, [2004], p. 4-7.
[5] Internet 2004, [2003].

[6] Projects using the TEI, [1996-2005].

[7] World Wide Web Consortium, [1994-2005].

[8] International Digital Publishing Forum (formerly Open eBook Forum), [2003-2005].

[9] Arms, [2000], p. 163-185; Ridi, [2004], p. 4-7; Tedd-Large, [2005], p. 100-102.

[10] Whittaker, [2002]; Boretti, [2000].

[11] Weston, [2002], in Biblioteca digitale, [2002], p. 177-180; Morriello, [2005], p. 123-141.

[12] Tammaro, [2001], p. 22-34.

[13] Gargiulo, [2000].

[14] Pellizzari, [2000], p. 46-56.

[15] In Italia i maggiori esempi di University Press fanno capo all’Università di Bari, in accordo con l’editore Laterza, le iniziative editoriali dell’Università di Bologna che comprendono tra le altre la pubblicazione digitale del periodico Bibliotime dedicato agli studi biblioteconomici, il progetto BUP per le attività editoriali, ed il progetto di biblioteca digitale ALMA-DL per l’accesso integrato e la fornitura di documenti digitali. La diffusione dell’editoria scientica attraverso la “riappropriazione” del copyright è alla base del progetto FUP dell’Università di Firenze

[16] De Robbio, [2003a].
[17] Atkinson, [1990], p. 355-358.
[18] Cfr. Capitolo IV.

[19] De Robbio, [1998], p. 40-56.

[20] Editoria multimediale, [2004], p. 94-99.

[21] International Digital Publishing Forum, [2003-2005].

[22] NCSTRL, Networked Computer Science Technical Reference Library, [2001] ; Arms, [2000], p. 218-220.

[23] Online Computer Library Center, [aggiornato al 2005]; Al di fuori del mercato editoriale i termini aggregatori o gatway si equivalgono, riferendosi ad interfacce che permettono una ricerca in un’unica banca dati i cui contenuti sono disseminati nella Rete.

[24] La biblioteca digitale, [2002], p 10-12.

[25] Linee guida elaborate da National Archives and Records Adminastration, NARA – U.S. National Archives and Records Administration, [1995-2005].

[26] Falchetta, [2000], p. 52-67; Manuale di buone pratiche per la digitalizzazione del patrimonio culturale,[2004].

[27] JSTOR – The Scholarly Journal Archive, [2000-2005].

 

Tratto da

Le biblioteche digitali per gli studi medievistici / Stefania Manni tesi di Laurea Magistrale discussa all’Università di Ca’ Foscari nel 2005, relatore Riccardo Ridi. LS/5 ARCHIVISTICA E BIBLIOTECONOMIA

 

Licenza Creative Commons
La Storia in BIT di Stefania Manni è distribuito con Licenza Creative Commons Attribuzione – Non commerciale – Condividi allo stesso modo 4.0 Internazionale.