Archivio digitale, strumento di lavoro e patrimonio culturale
Nella primavera del
1995 a l’Unità si concludeva la fase di definizione dell’organizzazione
della produzione su cui modellare il nuovo sistema editoriale che avremmo
installato di lì a poco. Volevamo compiere il salto definitivo verso una
gestione realmente “integrata” della ideazione e produzione di ogni singola
pagina, e dei fascicoli nel loro insieme.”Integrato” è per noi quel
processo in cui chi ha la responsabilità del prodotto (direttore, redattori
capo, strutture dirigenti dei servizi), abbia anche in mano gli strumenti,
materiali e di conoscenza, per determinare, controllare e gestire ogni
singolo segmento del processo stesso.
L’integrazione dell’archivio storico
Fondamentale fra questi strumenti è l’archivio storico del giornale, che
non poteva continuare ad essere avulso da questo schema organizzativo. Ci
sembrava inoltre che l’archivio de l’Unità costituisse un patrimonio tanto
cospicuo quanto sottoutilizzato. Custodiamo informazioni, testimonianze,
documenti, risorse, il cui valore non può più essere racchiuso nel semplice
supporto alla produzione quotidiana. Bisognava inserire quindi queste
informazioni nel circuito generale, e nel farlo liberare risorse per una
riorganizzazione del materiale archiviato secondo criteri di
riproducibilità , distribuzione e commercializzazione. Volevamo arrivare in
tempo ragionevole a chiudere il circuito della produzione quotidiana in un
ambito tutto digitale, con le informazioni in mano agli “utenti finali”,
per poter considerare il grande archivio storico su carta in qualche modo
congelato, un qualcosa a cui si poteva mettere mano in modo radicale senza
grandi impatti sulla fattura del giornale.
I sistemi di archiviazione: immagini…
Per quanto riguarda le immagini il discorso era relativamente semplice.
Portare sul terminale di chi aveva responsabilità nella scelta
iconografica, uno strumento su cui visualizzare e selezionare in modo
omogeneo sia il flusso delle agenzie, già allora diffuse in formato
digitale, sia l’archivio storico. Dare su quello stesso strumento la
possibilità di taglio della foto e passaggio in produzione.
La scelta è caduta sul sistema Tecnavia, basato su due server NT in
mirroring, due juke-box per CD, stazioni di ricezione telefoto, e software
applicativo caricato su una dozzina di stazioni di lavoro, tra grafiche,
archivistiche e dell’area di preparazione. L’applicativo permette
l’archiviazione delle foto, le queries sull’archivio e sui canali di
agenzia, il taglio della foto, il suo passaggio in produzione, la
scansione, la lavorazione cromatica, il controllo delle foto passate e
lavorate pagina per pagina. Inoltre prevede una zona di prearchivio, in cui
confluisce tutto il materiale da schedare, alcune code di parcheggio
temporaneo per preselezioni ad uso dei grafici ed una coda di importazione
in cui confluisce tutto il materiale fotografico ricevuto su normale linea
commutata o come attachment a messaggi di posta elettronica spediti alla
nostra casella di servizio.
Si è deciso di utilizzare per la catalogazione la struttura Anpa-Iptc per
omogeneità con le agenzie, “rivestendo” alcuni campi testuali con labels a
noi più utili. Abbiamo definito un glossario di catalogazione non
particolarmente esteso, la cui utilità si è dimostrata soprattutto nella
manutenzione dell’archivio, essendo la ricerca full-text (che opera su
tutti i campi della scheda e non solo sulla didascalia) più che sufficiente
per le queries.
Confidavamo in un progressivo calo, fino alla tendenziale scomparsa, delle
richieste all’archivio cartaceo, e nella affermazione di un circuito tutto
digitale in cui la foto veniva presa dall’archivio elettronico,
direttamente “dall’utente finale”, e passata in produzione.
Il sistema è entrato in produzione il 1 luglio 1996, oggi abbiamo circa
40.000 foto archiviate, e sostanzialmente le nostre aspettative sono state
soddisfatte. L’informazione “immagine” è direttamente alla portata di chi
la deve usare, le richieste su carta sono quasi scomparse, cominciamo a
mettere mano alla riorganizzazione di quell’immenso patrimonio costituito
da quelle foto di altissimo valore storico-documentale che conserviamo da
anni senza veramente poterle usare come meritano.
Ad alimentare l’archivio elettronico è stata la produzione stessa: ogni
foto pubblicata, e per questo scansionata, è stata archiviata, oltre a una
selezione delle foto di agenzia giornaliere fatta da una struttura mista di
grafici e archivisti. Abbiamo messo parecchia enfasi su questa
“contaminazione” fra logiche differenti nei criteri di alimentazione
dell’archivio, pensiamo che il punto di vista grafico e quello archivistico
non possano essere esclusivi, ma debbano integrarsi.
…e testi
Parecchio più complessa è stata la scelta per la conservazione delle
notizie. L’analisi dell’offerta di mercato in quel periodo non ci facilitò
il compito. Molti buoni sistemi, molto costosi, ma nessuno che rispondesse
al nostro requisito fondamentale: ridurre al massimo la catalogazione
manuale.
Non volevamo più avere persone che schedassero il giornale, dibattendosi
tra glossari, argomenti, oggetti, non volevamo più dubbi tra “catastrofe” e
“calamità “.
Già allora era evidente una realtà con cui tutti noi oggi facciamo
quotidianamente i conti: la quantità delle notizie, la velocità con cui si
propagano sono tali da non permettere più il lusso della catalogazione. E’
essenziale dotarsi di strumenti che ci permettano di trovare quello che
cerchiamo così come arriva, imparando a trarre il meglio dai motori di
ricerca sofisticati che il mercato ci offre. Bisognava che il giornale “si
archiviasse da solo”.
Il primo passo è stato la definizione del formato di archiviazione. Noi
abbiamo scelto il PDF. Abbiamo ritenuto essenziale aderire ad uno standard,
o a ciò che allora si andava definendo come uno standard, disposti anche a
pagare qualche prezzo per questo. Nella nostra testa c’era una base di
dati, di nostra produzione o provenienti dall’esterno, omogenea nel formato
e a cui fosse possibile applicare criteri e strumenti omogenei. Era
fondamentale svincolarsi dal sistema di produzione e da ogni fattore
contingente.
Un altro elemento che per noi costituiva un valore, era la possibilità di
avere come risultato della query la pagina intera, fedelmente
riproducibile. Offrire, per quanto possibile, non solo un’informazione ma
anche un contesto.
Ultima considerazione: dovevamo fare presto. Per ragioni tutte nostre, ma
anche perché non si poteva più procrastinare quell’anno zero dell’archivio,
il momento cioè in cui si fermava l’accumulazione di pregresso, problema le
cui dimensioni già gigantesche non dovevano aumentare. Di grande aiuto in
questa analisi sono stati Fabio ed Ezio Villani, del Centro Stampa Pavese
che stavano seguendo un percorso di sviluppo analogo.
Il primo luglio 1996 quindi, insieme alle foto, è partita l’archiviazione
elettronica del nostro giornale. Il file Postscript di ogni pagina mandata
ai centri stampa, viene immediatamente passato nel Distiller, il prodotto
Adobe per la generazione del file PDF, il risultato viene indicizzato ed
entra a far parte della base di dati. I file PDF e gli indici vengono
salvati su una catena di dischi SCSI gestiti da un file server NT. Su
alcune stazioni di lavoro, attualmente in mano ad archivisti, è caricato lo
strumento di ricerca, costituito da una personalizzazione di Adobe
Exchange, e basato sul motore di ricerca Verity. La query è in linguaggio
naturale, può essere supportata da operatori booleani, restituisce un
valore di congruenza per ogni pagina corrispondente al filtro, agisce su
tutti gli elementi testuali della pagina, compresi i testi dell’infografica
e della pubblicità , che noi impaginiamo in formato EPS. Le pagine, o
porzioni di queste, vengono stampate su laser A3 per la distribuzione. Si
può anche selezionare il testo dell’articolo richiesto e inserirlo sul
sistema editoriale nella coda testi del servizio che ha fatto la richiesta.
I progetti in corso
Consideriamo questo schema un punto di partenza. Incassiamo intanto il
fatto che senza alcuno sforzo e con un piccolo investimento abbiamo il
giornale archiviato, indicizzato, e interrogabile in linea. Il costo
calante e l’efficacia crescente dei supporti magnetici gioca a nostro
favore. Il materiale accumulato fino ad oggi in formato PDF resta
agganciato agli sviluppi che questo formato ha avuto e avrà , è un qualcosa
di vivo che può essere adattato alle scelte future.
Fronteggiamo alcuni problemi, e su questi ci stiamo muovendo. In primo
luogo il peso di ogni pagina (circa 400 Kb), non permette di distribuire il
prodotto altro che in rete locale. L’ipotesi su cui stiamo lavorando è
quella di affiancare all’archiviazione della pagina intera, quella dei
blocchi di notizia, che verrebbero definiti con una rapida operazione
manuale direttamente sullo schermo. Da ogni blocco verrebbe generato un
piccolo file PDF con immagini, ma senza le fonti originali (circa 20 Kb
l’uno). Inoltre il blocco di notizia verrebbe esportato in formato HTML,
con l’estrazione automatica del titolo, basata sulla dimensione del
carattere, e l’indicizzazione del testo.
Questo processo dovrebbe aver luogo la sera stessa, immediatamente dopo la
trasmissione della pagina ai centri stampa, permettendo quindi l’utilizzo
di una copia dei files HTML per un’eventuale pubblicazione in rete del
giornale.
Come architettura di sistema si arriverebbe a uno schema simile a quello
dell’archivio fotografico: piccoli files HTML o PDF (ma senza fonti
embedded) in linea su dischi magnetici, che fornirebbero il materiale di
risposta alle queries, con link ai corrispondenti PDF di pagina salvati su
CD.
E arriviamo quindi ai progetti futuri. L’obiettivo finale è avere sotto un
browser Internet standard, sia l’applicativo di ricerca foto, che notizie.
L’informazione di archivio sarebbe disponibile per tutti gli utenti, siano
essi in sede o fuori, registrati con un account valido sul nostro
Web-server (abbiamo già Netscape su tutte le stazioni di lavoro).
Inoltre vi sarebbe spazio per una commercializzazione in linea dei nostri
archivi.
A questo proposito stiamo ragionando su un terzo elemento archiviabile
(oltre a foto e notizie): un contenitore virtuale, al quale daremmo il nome
di dossier. Il dossier avrebbe un nome, una data di creazione, una data di
ultimo aggiornamento, un campo didascalia. Ad ogni oggetto archiviato
(testo o foto) verrebbe associato un campo da utilizzare come puntatore
verso il dossier di competenza, che assumerebbe l’aspetto di una query
salvata, a cui sono associati campi di descrizione. Il passo ulteriore, che
caratterizza il dossier come terzo oggetto archiviabile, è che questi campi
siano indicizzati e ricercabili sia in modo strutturato che full-text.
L’utente avrebbe quindi la possibilità di ricercare foto, notizie o
dossier. Se cerca un dossier, il risultato della query è una schermata in
cui appaiono i campi della scheda dossier, e da cui possano essere
richiamati i thumbnail delle foto associate e i titoli delle notizie.
Questo schema risponde ad un utilizzo dell’archivio che non è soltanto
diretto alla produzione del giornale. La composizione di un dossier
comporta la capacità di porsi davanti alla richiesta proveniente
dall’esterno, di anticipare temi di interesse generale per un mercato di
fruitori di informazione storica di qualità . Il tentativo è quello di
fornire un valore aggiunto, dato dalla selezione e organizzazione delle
informazioni. Se è lecito attendersi da chi manipola informazioni per
mestiere (un giornalista della redazione) la capacità di utilizzare
direttamente al meglio gli strumenti correntemente in linea per l’analisi e
la selezione, ad un’utenza più disomogenea (università , istituti di
ricerca, broadcasters) crediamo vada offerto il servizio della
sistematizzazione, un filtro che riorganizzi il materiale in un formato
direttamente fruibile.
Alcuni piccoli passi sono già stati fatti. Siamo in condizione di
diffondere porzioni del nostro archivio fotografico su CD consultabili
tramite un browser Internet. L’utente visualizza i thumbnail delle immagini
con associate le nostre schede di archivio, a cui sono linkate le alte
risoluzioni per la riproduzione.
Conclusione
Riassumendo. Cerchiamo, e in parte abbiamo trovato, strumenti che
automatizzino al massimo l’archiviazione del nostro giornale, portando le
informazioni direttamente nelle mani degli utenti finali. Requisito
fondamentale di questi strumenti è che il prodotto possa essere
confezionato e distribuito prescindendo a monte dal sistema di produzione e
a valle dall’attrezzatura dell’utente. Le risorse liberate da questa
automatizzazione vanno impiegate in un’opera di riorganizzazione del nostro
grande patrimonio storico che guardi oltre la nostra utenza interna. Il
passo successivo, tutto da immaginare, è collegare il nostro patrimonio ai
molti altri giacimenti culturali della sinistra del nostro paese,
costituendo una base documentale omogenea di inestimabile valore. Ma questa
è veramente un’altra storia.
Alfonso Gennari
direttore tecnico, l’UnitÃ
