Datakwaliteit – Hoe ga je er mee om?

Zorgvuldig omgaan met je data voorkomt namelijk foute aannames

Datagebruik is booming. Toch zien we dat in veel gevallen niet optimaal gebruik gemaakt wordt van de beschikbare data. Of dat er correlaties worden gemaakt zonder samenhang. Datakwaliteit dient meer dan ooit tevoren veel aandacht te krijgen, idealiter voordat de data door medewerkers gebruikt gaat worden.

De eerste stap in datakwaliteit is definitiegebruik. We zeggen altijd dat de kenmerken van de gebruikte data herkenbaar moeten zijn. Binnen corporatieland zijn de CORA/VERA definities leidend. Data wordt bruikbaarder en daardoor breder inzetbaarder binnen organisaties. De vastgoedsector maakt tevens gebruik van OSCRE definities (bijvoorbeeld REDEX). Het is belangrijk om te herkennen als de kenmerken tussen data-sets niet aan elkaar gelijk. Veelal gaat dan de informatiewaarde verderop in het proces scheef.

De tweede stap is het completeren van de data input, oftewel de volledigheid. Datasets beschikken vaak over meerdere parameters. Immers niet altijd is bij elke dimensie de complete set aan meetwaarden en getallen. Vul deze waar mogelijk (uit eigen data) aan. Incomplete dimensies kunnen niet worden meegenomen.

Als laatste stap is het belangrijk dat de gegeven input aan elkaar gelijk is. Bij gebruik van meerdere data sets zien we dat afkortingen of leestekens niet altijd consistent gebruikt worden. Schrijf je bijvoorbeeld mevr. of mw. Zorg er altijd voor dat er maar één benaming gebruikt wordt. Verschillende bedrijven kunnen hierin helpen m.b.t. het aanleveren van Data Cleansing Tools die middels een formule de data consistent maakt.

Bij het gebruik van data dient wel altijd nog de datum van meting meegenomen te worden. Het is namelijk de vraag of de input uit het verleden de huidige markt wel weerspiegeld.

Pin Oak ondersteunt organisaties door adequaat om te gaan met data en waar nodig deze aan te vullen om vervolgens de stap te maken richting data visualisatie.