Suposem que disposem d’una taula on hi consten els habitants de sexe masculí de la província de Barcelona; un fragment de la taula és el que conté les dades següents:
NOM I COGNOMS |
ADREÇA |
MUNICIPI |
DATA DE NAIXEMENT |
José Ma Martínez Sánchez |
Carrer de la Llibertat, número 2, Primer pis |
L’Hospitalet |
9 de desembre de 1984 |
José María López Martínez |
Calle Princesa, 2, 1.1. |
Hospitalet de Llobregat |
04/02/1955 |
Joan Miquel Pou i Martí |
Carrer Princesa, número 2, 1r 1a |
L’Hospitalet de Llobregat |
03.02.2005 |
López Martínez, José |
C. Llibertat, 2, 1.1. |
L’H |
02.04.84 |
Suposem que apliquem filtres i eines de gestió de dades, donat que la taula conté excessius registres per fer-ho manualment.
Fem-nos les preguntes següents:
Podem fer, encara, algunes preguntes més, però ja ens hem adonat que els resultats seran incorrectes i el motiu és sempre el mateix, els errors en formats de dades. Per tant, caldrà una homogeneïtzació del contingut de les dades per poder treballar-les.
Qüestions per reflexionar
Abans de fer un tractament massiu de les dades amb les quals volem treballar, caldrà netejar i millorar la seva qualitat. Per fer-ho, serà necessari tenir en compte el següent:
Per millorar la qualitat de les dades, tenim eines com Open Refine.
Per aprendre a utilitzar correctament Open Refine, abans Google Refine, es pot visualitzar el tutorial de Natalia Sampietro, cap de Data Mining, de la Dirección de Gobierno Abierto del Gobierno de la Ciudad de Buenos Aires (Argentina).