Piccola novità su ARPA Sicilia

Posted by Andrea Borruso on
URL: http://opendatasicilia.195.s1.nabble.com/Piccola-novita-su-ARPA-Sicilia-tp2536.html

Vi scrivo per una piccola novità.

Da un po’ di tempo il file opendata scaricabile in questa pagina (c’è il tasto in basso) è cambiato: infatti se scorrete sulla destra, trovate un po’ tutti i dati in formato grezzo.

E’ una sorta di xls che contiene dentro un csv. L’URL è http://88.53.168.210/Bollettino2/MAria_report.xls, ma purtroppo nelle ultime settimane non è quasi mai raggiungibile.
Una copia non aggiornatissima la potete scaricare da qui.

Si presenta più o meno così:

Non è adatto a farci subito delle elaborazioni: ci sono intestazioni da rimuovere, colonne totalmente vuote e/o inutili, nomi di colonna da normalizzare, ecc..

Però è un file che si presta a essere modificato e “ricostruito”. Ho creato uno script in bash che consente di avere come output un file csv che può essere usato per analisi, grafici e mappe.
Questo file csv di output non è ancora la fine del mondo, così come non lo è lo script, ma consente di avere un file pronto per ulteriori elaborazioni.

L’output attuale dello script è questo, mentre lo script è questo.

Il file originario presenta due righe di intestazione:

  • una con nome stazione, inquinante e unità di misura (ad esempio “partinico SO2(µg/m3)-2014”);
  • una con il tipo di misura in elenco (ad esempio “Max orario”).

    Ho ridotto tutto a una sola intestazione con un nome di questo tipo “partinico_SO2_Max_orario”.
    In questo file trovate il passaggio dalle due intestazioni alla singola.

Lo script

E’ basato su csvkit, agate e sulle classiche meravigliose utility di Linux.

Fa essenzialmente questo:

  • estrae soltanto le colonne che possono essere utili;
  • rimuove le righe di intestazione;
  • inserisce i nomi di colonna normalizzati;
  • verifica quali colonne sono vuote;
  • rimuove le colonne vuote.

Le stazioni

Non ho verificato, ma dovrebbero essere sempre quelle di questo elenco.

Futuro

Per il momento mi fermo qui, e lascio sopratutto a Patrick, Giovanni e Davide (che hanno lavorato sui primi dati ARPA) la palla. Secondo me ci si può iniziare a giocare.

Un grazie ad Antonio Conti di ARPA che mi ha dato informazioni utili sul file xls (ne è il creatore).