Dati aperti, riuso e fuffa
Spesso si tende a filosofeggiare del dove tutte le informazioni sono disponibili al cittadino smart sotto forma di app (perchè i servizi web forse sono passati di moda, tant’è che io preferisco avere il mio browser tuttofare… Sono un cittadino digitale comunque?) ma, appunto, si ci sofferma a disquisire della forma -non me ne vogliano i professionisti della user experience e delle interfacce-.
In un mondo connesso il vero tesoro sono le informazioni: da quelle più o meno statiche (“dove si trova Palazzo Ducale?”, “cosa contengono i friscieu?”) a quelle in tempo reale (“quanto traffico c’è sulla Sopraelevata?”, “quanto è distante Santo Stefano d’Aveto da dove sono ora e che temperatura c’è in questo momento?”): se non ci sono le informazioni il servizio che viene offerto ad un utente è paragonabile al fargli mangiare solo la glassa di una fetta di torta invece che la fetta intera.
Non mi interessano i dati elaborati, mi interessano i dati così come nascono: la conoscenza aperta ha una definizione chiara e per punti scritta dall’Open Knowledge Foundation ma sembra che ci sia una netta differenza fra chi produce dati aperti per cultura e chi li produce per obbligo (legislativo), non ci sono studi sistematici ma l’impressione che deriva dal confrontare sistemi studiati da tempo e magari prodotti seguendo i consigli dei potenziali utilizzatori o attivisti ed altri che sembrano messi in piedi frettolosamente.
Non mi interessano i dati aggregati, voglio essere libero di arrivare alle conclusioni corrette o di mostrare aspetti di una informazione secondo il contesto in cui la voglio inserire: il livello di dettaglio lo devo decidere io, non chi mi fornisce i dati (a meno della legislazione riguardante la privacy).
Il riuso, o riutilizzo dell’informazione, esiste quando il dato è utile (interessante) ed è facilmente accessibile.
Un dato non è utile se è incompleto (un elenco di farmacie senza il posizionamento geografico non è utile se non è possibile confrontarlo con altri dati), non aggiornato (il numero delle auto di servizio per un certo comune nel 1985 se non ha un corrispettivo attuale non vale nemmeno per un confronto storico) o non è bello (se il costo per ricavarne qualcosa di utile supera l’utilità potenziale del dato, perchè devo lavorarci sopra?).
L’accessibilità del dato la possiamo valutare sia sulla distribuzione sia sul formato col quale è distribuito.
Se un dato è presentato inbellettato da un web design che ne permette la navigazione semplificata all’utente (per mezzo di tecniche tipo ajax ad esempio, con la quale si negano tecniche di scraping per raccogliere dati in modo automatico) ma non si forniscono i dati “nudi e crudi”, si nega l’accessibilità ad analisi su vasta scala; analogamente un dato aperto a rigor di logica sarebbe utile che fosse (anche) disponibile in un formato aperto (mi accontento di tre stelle sulla scala di Tim Berners-Lee…), e facilmente utilizzabile: dando una occhiata al sito Bad Data della OKFN si possono trovare alcuni esempi che esulano dall’argomento formato chiuso vs formato aperto, dal supplemento con i dati delle ricerche allegato a Nature (un pdf con tabelle ruotate!) a fogli di calcolo “testuali”.
Se le percentuali sono di poco interesse, poichè ri-calcolabili rapidamente a posteriori, guardandosi in giro ci sono cose che al male aggiungono il peggio: avete mai provato a guardare gli allegati agli atti amministrativi sugli albi pretori comunali? Non solo sono in pdf, ma molte volte sono scansioni in pdf (ovvero, se da un pdf prodotto appositamente posso estrarre dati con strumenti come Tabula, un pdf derivato da scansioni contiene solo immagini, e a forza di OCR si ritorna alla riflessione che “il gioco non vale la candela”).