iData tutorial: Document Cloud

DocumentCloud è una piattaforma gratuita e aperta sviluppata da tre giornalisti (Aron Pilhofer del NYTimes insieme a Scott Klein ed Eric Umansky ora a ProPublica) sulla tecnologia di Open Calais (www.opencalais.com) per la condivisione di fonti documentali primarie.

Ecco un rapido “How To” di come funziona DocumentCloud. Il sistema è una piattaforma gratuita e aperta sviluppata da tre giornalisti (Aron Pilhofer del NYTimes insieme a Scott Klein ed Eric Umansky ora a ProPublica) sulla tecnologia di Open Calais per la condivisione di fonti documentali primarie e verificate tra giornalisti. Attenzione, qui per “giornalisti” non si intendono necessariamente quelli dotati di tesserino, ma “chiunque si prenda la briga di verificare un documento e lo vuole condividere. E infatti tra i “contributors” ci sono sia grandi testate come NYTimes e 60 Minutes, ma anche Ong e freelancers (e da qualche settimana anche la fondazione Ahref).

Il sistema è formidabile per collaborare sull'editing e l'annotazione di documenti e si presta molto bene anche per esercizi di factchecking allargati o pubblici.

Gratuito e aperto non vuol però dire libero. Bisogna registrarsi scrivendo ai gestori, specificando cosa si fa e sottoscrivendo i termini di accordo.

Dentro c'è un po' di tutto, moltissimi documenti del Congresso, ma anche i file di Wikileaks utilizzati dal NYTimes e da altri. E perfino qualche decina di documenti riferiti all'Italia.

Schermata 001

Schermata n. 1

La forza più evidente di DocumentCloud è il suo motore di ricerca semantico interno e il riconoscimento ottico dei caratteri che permette di attivare diverse funzioni per lavorare sui documenti in maniera collaborativa, sia pubblica che privata.

Tutta la piattaforma per ora è in inglese, ma sono in arrivo localizzazioni in diverse lingue tra cui l’italiano.

Ciò significa che per ora si possono caricare documenti in lingue diverse dall’inglese, condividerli e annotarli e beneficiare del sistema di riconoscimento ottico del testo e delle altre funzioni, ma non della parte semantica del software.

Schermata 002

Schermata n. 2

L’interfaccia di gestione dei documenti prevede due sezioni principali:

- documents

- entities

In documents si possono creare nuovi progetti e caricarvi nuovi documenti. Il sistema a tasti è molto intuitivo e facile da navigare e permette anche di condividere i documenti a diversi collaboratori prima di renderli pubblici (agli altri utenti di DC) o di pubblicarli in chiaro sul web.

Qui posso anche utilizzare diversi opeartori all'interno del campo “Search”. Ad esempio “Source: Library of Congress” mi permette di trovare tutti i documenti che sono stati attribuiti a quella fonte.

Posso ovviamente caricare nuovi documenti e crear nuovi progetti condividendoli con altri collaboratori che invito.

Schermata 003

Schermata004.png

Un doppio click su un singlo documento permette in entrare in un documento (visualizzandolo in vari formati) e annotarlo (privatamente o pubblicamente) e perfino di cancellarne delle parti.

Questa è una funzione importante e ben fatta perché quando si decide di censurare un particolare (magari il nome di una persona come nel caso di alcuni documenti rilasciati da WikiLeaks), il documento viene riscansito dal sistema di lettura ottica e il testo sotto alla “pecetta” di fatto non esiste più.

Schermata 004

Schermata n. 3

L'altra sezione è “Entities” e qui si comincia a vedere la potenza del software dietro a DC perché la macchina estrae tutte le persone, i luoghi, le organizzazioni e i termini salienti che ricorrono in un singolo documento o in una serie.

Schermata 005

Schermata n. 5

In entities, selezionando più file, e scegliendo “Timeline” dal bottone Analyse, il sistema costruisce un'utile linea temporale dei all'interno delle informazioni che vi sono raccolte.

Schermata 006

Schermata n. 6

L'ultimo passaggio è la pubblicazione

Schermata 007

Schermata n. 7

DC mi offre varie soluzioni: posso scaricare il documento, oppure embeddarlo o farlo apparire in un visore.

Buon divertimento!

(Di Guido Romeo)

blog comments powered by Disqus
Articoli
Data Journalism Awards: tre progetti italiani in finale (e un making of)
Precisione, dati, accesso e partecipazione: gli spin-off dei civic media
HacksHackers: call per progetti e nuova sede - Milano 8 gennaio
DataViz, il centro Knight lancia un corso aperto e online di massa
#scuolesicure: i dati per battere i terremoti (e la burocrazia)
Ddl sviluppo: cosa c'è per il giornalismo dei dati
HacksHackers: appuntamento a Milano l'11 luglio
Hacks and Hackers Italy: dopo Perugia e Bologna parte Milano
I materiali della prima Data Journalism School Ahref-Istat
Data Journalism Awards: come sono nate le inchieste vincitrici
Il data journalism è punk!
Data Journalism School: l'Italia è una nuova terra di opportunità per il giornalismo dei dati
Data Journalism Awards: tra una settimana il Pulitzer del giornalismo dei dati
Assegnati i fondi PON per le scuole medie del Sud
I numeri della scuola/2 – la popolazione scolastica italiana
I numeri della scuola/1 – lavorare con i dati della scuola
Data Journalism Awards: il giornalismo dei dati si mette in gara
Data journalism in italia: c'è una mailing list
Due ebook sul giornalismo dei dati
Open Data, la regione Emilia Romagna presenta il suo portale
Come NON ingannare con le visualizzazioni
iData tutorial: Document Cloud
Scuole trasparenti
Appunti da 'news: rewired' – noise to signal
Referendum sul nucleare: la forza dei dati
I dati confessano sempre
I dati vincono il Pulitzer
Dollars for Docs
Strade pericolose
Il futuro del giornalismo è nei dati
Hello Data!
RSS

Feed RSS

© 2012 Fondazione <ahref | Sede legale: Vicolo Dallapiccola 12 - 38122 Trento - Italy | P. IVA 02178080228 Creative Commons License