Presentació de la informació, d’eines de visualització i infografies

5. Treballem amb les dades: netejar i processar

5.1. Anàlisi d’un cas

Suposem que disposem d’una taula on hi consten els habitants de sexe masculí de la província de Barcelona; un fragment de la taula és el que conté les dades següents:

NOM I COGNOMS

ADREÇA

MUNICIPI

DATA DE NAIXEMENT


José Ma Martínez Sánchez


Carrer de la Llibertat, número 2, Primer pis


L’Hospitalet


9 de desembre de 1984


José María López Martínez


Calle Princesa, 2, 1.1.


Hospitalet de Llobregat


04/02/1955


Joan Miquel Pou i Martí


Carrer Princesa, número 2, 1r 1a


L’Hospitalet de Llobregat


03.02.2005


López Martínez, José


C. Llibertat, 2, 1.1.


L’H


02.04.84


Suposem que apliquem filtres i eines de gestió de dades, donat que la taula conté excessius registres per fer-ho manualment.

Fem-nos les preguntes següents:

  1. Quants homes viuen a “L’Hospitalet de Llobregat”? La resposta seria 1, donat que “Hospitalet”, “L’H” i “Hospitalet de Llobregat” no serien recomptats.
  2. Quants homes són més grans de 30 anys? La resposta sempre serà 1, perquè el format de les dates informades són diferents.
  3. Quants homes viuen al “Carrer de la Llibertat”? La resposta serà 1, ja que l’home que viu al “C. Llibertat” no seria recomptat.

Podem fer, encara, algunes preguntes més, però ja ens hem adonat que els resultats seran incorrectes i el motiu és sempre el mateix, els errors en formats de dades. Per tant, caldrà una homogeneïtzació del contingut de les dades per poder treballar-les.

Qüestions per reflexionar

  • Les dades de què disposen les Administracions públiques són sempre homogènies?
  • Les dades obertes de les Administracions públiques tenen formats iguals?

5.2. Millorar la qualitat de les dades

Abans de fer un tractament massiu de les dades amb les quals volem treballar, caldrà netejar i millorar la seva qualitat. Per fer-ho, serà necessari tenir en compte el següent:

  • Quin tipus de dades tenim? Text/Nombre/Dates/Coordinades.
  • Dades estructurades o desestructurades?
  • Dades absolutes o relatives?
  • Quina qualitat tenen les nostres dades? Verificar, comparar amb altres sets de dades.
  • Estan en el format apropiat? Estan totes les dades en les mateixes unitats?
  • Codi entitat: ens permet fer agrupacions amb seguretat.

Per millorar la qualitat de les dades, tenim eines com Open Refine.

Per aprendre a utilitzar correctament Open Refine, abans Google Refine, es pot visualitzar el tutorial de Natalia Sampietro, cap de Data Mining, de la Dirección de Gobierno Abierto del Gobierno de la Ciudad de Buenos Aires (Argentina).