iData tutorial: Document Cloud
DocumentCloud è una piattaforma gratuita e aperta sviluppata da tre giornalisti (Aron Pilhofer del NYTimes insieme a Scott Klein ed Eric Umansky ora a ProPublica) sulla tecnologia di Open Calais (www.opencalais.com) per la condivisione di fonti documentali primarie.
Ecco un rapido “How To” di come funziona DocumentCloud. Il sistema è una piattaforma gratuita e aperta sviluppata da tre giornalisti (Aron Pilhofer del NYTimes insieme a Scott Klein ed Eric Umansky ora a ProPublica) sulla tecnologia di Open Calais per la condivisione di fonti documentali primarie e verificate tra giornalisti. Attenzione, qui per “giornalisti” non si intendono necessariamente quelli dotati di tesserino, ma “chiunque si prenda la briga di verificare un documento e lo vuole condividere. E infatti tra i “contributors” ci sono sia grandi testate come NYTimes e 60 Minutes, ma anche Ong e freelancers (e da qualche settimana anche la fondazione Ahref).
Il sistema è formidabile per collaborare sull'editing e l'annotazione di documenti e si presta molto bene anche per esercizi di factchecking allargati o pubblici.
Gratuito e aperto non vuol però dire libero. Bisogna registrarsi scrivendo ai gestori, specificando cosa si fa e sottoscrivendo i termini di accordo.
Dentro c'è un po' di tutto, moltissimi documenti del Congresso, ma anche i file di Wikileaks utilizzati dal NYTimes e da altri. E perfino qualche decina di documenti riferiti all'Italia.
Schermata 001

La forza più evidente di DocumentCloud è il suo motore di ricerca semantico interno e il riconoscimento ottico dei caratteri che permette di attivare diverse funzioni per lavorare sui documenti in maniera collaborativa, sia pubblica che privata.
Tutta la piattaforma per ora è in inglese, ma sono in arrivo localizzazioni in diverse lingue tra cui l’italiano.
Ciò significa che per ora si possono caricare documenti in lingue diverse dall’inglese, condividerli e annotarli e beneficiare del sistema di riconoscimento ottico del testo e delle altre funzioni, ma non della parte semantica del software.
Schermata 002

L’interfaccia di gestione dei documenti prevede due sezioni principali:
- documents
- entities
In documents si possono creare nuovi progetti e caricarvi nuovi documenti. Il sistema a tasti è molto intuitivo e facile da navigare e permette anche di condividere i documenti a diversi collaboratori prima di renderli pubblici (agli altri utenti di DC) o di pubblicarli in chiaro sul web.
Qui posso anche utilizzare diversi opeartori all'interno del campo “Search”. Ad esempio “Source: Library of Congress” mi permette di trovare tutti i documenti che sono stati attribuiti a quella fonte.
Posso ovviamente caricare nuovi documenti e crear nuovi progetti condividendoli con altri collaboratori che invito.
Schermata 003

Un doppio click su un singlo documento permette in entrare in un documento (visualizzandolo in vari formati) e annotarlo (privatamente o pubblicamente) e perfino di cancellarne delle parti.
Questa è una funzione importante e ben fatta perché quando si decide di censurare un particolare (magari il nome di una persona come nel caso di alcuni documenti rilasciati da WikiLeaks), il documento viene riscansito dal sistema di lettura ottica e il testo sotto alla “pecetta” di fatto non esiste più.
Schermata 004

L'altra sezione è “Entities” e qui si comincia a vedere la potenza del software dietro a DC perché la macchina estrae tutte le persone, i luoghi, le organizzazioni e i termini salienti che ricorrono in un singolo documento o in una serie.
Schermata 005

In entities, selezionando più file, e scegliendo “Timeline” dal bottone Analyse, il sistema costruisce un'utile linea temporale dei all'interno delle informazioni che vi sono raccolte.
Schermata 006

L'ultimo passaggio è la pubblicazione
Schermata 007

DC mi offre varie soluzioni: posso scaricare il documento, oppure embeddarlo o farlo apparire in un visore.
Buon divertimento!
(Di Guido Romeo)


