Data cleansing

Bij het standaardiseren, delen en analyseren van data in de gezondheidszorg is er een probleem dat vaak over het hoofd wordt gezien en zeker onderschat; de databases zijn zeer vervuild.

In de afgelopen jaren zijn steeds meer organisaties in de gezondheidszorg ertoe overgegaan om de gegevens van patiënten op te slaan in geïntegreerde informatiesystemen; soms vanuit papieren dossiers, soms vanuit allerlei lijstjes in Word en Excel of verouderde stand-alone systemen. Doordat organisaties door talrijke fusies en overnames ook nog eens deze systemen weer in lijn moeten brengen, is er een situatie ontstaan waarin veel gegevens dubbel, of zelf meerdere keren, in de systemen staan of niet eenduidig zijn ingevoerd of op verschillende plaatsen (velden) in de database staan en verschillend van format zijn.

Of het nu gaat om projecten waarbij de systemen gemoderniseerd, naar de cloud gebracht of gestandaardiseerd worden of dat er stappen worden gezet om de data binnen en tussen organisaties digitaal te delen, het opschonen van al deze gegevens is van wezenlijk belang voor het slagen van de projecten. Het spreekt vanzelf dat ook projecten waarbij de gezondheidsgegevens worden geanalyseerd zeer gebaat zijn bij opgeschoonde sets met gegevens. Patiënten merken hier niet direct wat van, maar zullen op termijn toch tevreden zijn (1). Met name de medewerkers ondervinden op termijn zeer grote voordelen van deze opgeschoonde databases (3).