Data en Kennis
Hoe kunnen we data inzetten om kinderen en gezinnen beter preventief te helpen? Bij Smart Start willen we stoppen met dweilen met de kraan open, door hulp aan te bieden vóórdat problemen groot zijn.
Problemen bij kinderen en in gezinnen zijn niet opeens heel groot. Een situatie begint vaak klein. Waarom heeft iemand zijn huur niet betaald? Waarom kan een kind niet thuis wonen? Waarom komt iemand bij de Voedselbank? Als we nadenken over het ‘waarom’ achter een situatie, kunnen we problemen in een vroeg stadium signaleren en daarop anticiperen.
Het idee is dat er al veel bruikbare data, kennis en informatie beschikbaar is. Als we bijvoorbeeld op basis van data weten dat een bepaalde groep meer risico loopt op problemen, dan kunnen we al in een vroeg stadium gericht actie ondernemen. Zo kunnen we iets betekenen vóórdat het te laat is en kunnen we verdriet en ellende zoveel mogelijk voorkomen.
Zo werken wij met data
Data helpen om complexe vraagstukken vanuit een ander perspectief te benaderen. Bij Smart Start benutten we daarom data in de breedste zin van het woord: van inzichten uit wetenschappelijke onderzoeken en microdata van het Centraal Bureau voor de Statistiek (CBS), tot kwalitatieve data uit interviews; ervaringen en kennis van inwoners en professionals. Door relevante datasets met elkaar te combineren en vervolgens te analyseren, komen we tot nieuwe inzichten die kunnen helpen bij de aanpak van een vraagstuk. Welke oplossingen kunnen we op basis wat we weten uit de data inzetten om voor kinderen gelijke kansen te creëren?
Maar in Smart Start kijken we verder dan data alléén. We kiezen een onderzoeksvraag en combineren data, kennis, visies en ervaringen om die vraag te verkennen en een oplossingsrichting te bepalen. Dat doen we door jongeren, ouders en professionals aan het woord te laten. Op die manier leren we het vraagstuk pas écht begrijpen.
Met innovatieve en interactieve werkvormen van Design Thinking werken de projectteams vervolgens stapsgewijs aan vernieuwende oplossingen, die aansluiten bij de behoeften van de doelgroep.
Data in de zorg: een goed idee?
Heel terecht vragen veel mensen zich tegenwoordig af of het allemaal wel is toegestaan om ‘overal data vandaan te plukken’. Zo werkt dat in de onderzoekswereld gelukkig niet. Data mogen we niet zomaar gebruiken.
In Smart Start werken we onder andere met CBS-microdata. Het CBS heeft ontzettend veel gegevens verzameld over onze samenleving: hoeveel verdienen Nederlanders? Hoeveel mensen maken er gebruik van gezondheidszorg? Met deze zogenoemde koppelbare data mogen onderzoekers alleen onder strikte voorwaarden onderzoek doen. Zo krijgt geen enkele onderzoeker informatie over individuele personen te zien. Hier zijn strenge regels aan verbonden.
Bij Smart Start kijken we dus alléén naar groepen mensen, en niet naar individuele personen. Dat maakt dat de privacy goed is gewaarborgd. Lees meer over dit onderwerp in de Q&A.
Leren van elkaar
Slim gebruik maken van de combinatie van data en kennis is in het sociaal domein nog redelijk onalledaags. Smart Start is in die zin óók een lerend programma voor de betrokken professionals en stakeholders. Door samen op te trekken leren zij hoe je goed met data omgaat en welke vragen je op basis van data kunt beantwoorden.
Smart Start wil óók een inspiratiebron zijn, door de ‘datageletterdheid’ van beleidmakers, professionals, inwoners en te vergroten. Zodat we steeds meer gewend aan het combineren van data en kennis het correct interpreteren ervan. Zodat ze leren om inzichten uit data te halen. En zodat ze deze inzichten kunnen vertalen naar oplossingen voor de dagelijkse praktijk.
‘Data Science for the Social Good’
Smart Start sluit naadloos aan bij het gedachtegoed ‘Data Science for the Social Good’ van Tilburg University. Samen met Brabantse bedrijven en organisaties bouwt de universiteit aan een programma waarbij de onderzoekers allemaal hetzelfde doel voor ogen hebben: data science-projecten die ertoe doen en maatschappelijk een verschil maken. Waarmee we bijdragen aan de VN-doelen voor duurzame ontwikkeling.
De omvang van deze onrechtvaardigheid, die naast persoonlijke schade ook hoge maatschappelijk kosten met zich meebrengt, triggerde mij en mede-onderzoekers van Centerdata en het programma Data Science for the Social Good van Tilburg University, om ons in te zetten voor Smart Start. We hopen samen met de andere partijen bij te dragen aan wat Albert Einstein al wist: ‘In de kern van moeilijkheden schuilen de mogelijkheden’.”
Hoe zit het met (data)veiligheid?
Het programma Smart Start ontwikkelt oplossingen voor sociale vraagstukken, op basis van data, kennis en design thinking (zie kader onderaan). Het gebruik van data in het sociaal domein, zeker in relatie tot kinderen: bij veel mensen roept het nog altijd een angstbeeld op van stigmatisering en privacyschendingen. Een terechte zorg? Of is de angst voor deze vorm van data overtrokken? We vroegen het twee deskundigen: een data scientist en een zorgethicus.
Schending van privacy, stigmatisering, profiling: Patricia Prüfer, hoofd Data Science van Centerdata in Tilburg (een van de partners binnen Smart Start), kent de bezwaren tegen het gebruik van data in de zorg maar al te goed. “En ik snáp dat op zich ook; als je hoort dat we op basis van data en algoritmes gaan kijken naar zware onderwerpen als uithuisplaatsing en verwaarlozing, dan zou je al snel kunnen concluderen dat we stempeltjes gaan zetten op individuele gezinnen en kinderen.”
Q&A
Veilig werken met data
in Smart Start
Mag dat eigenlijk wel: allerlei data gebruiken? En komt de privacy van personen niet in gevaar?
In deze Q&A lichten we toe hoe we binnen Smart Start werken met data.
Data zijn niet meer weg te denken uit de samenleving van nu. Iedereen laat online gegevens achter. Denk maar aan alle berichtjes die we posten op social media, of aan de online aankopen die we doen.
Data kom je dus overal tegen. Zo verzamelen bedrijven data over welke producten het meest populair zijn. Ook gebruiken ze data om hun klanten beter te leren kennen, zodat ze betere service kunnen bieden en wellicht meer producten en diensten kunnen verkopen.
Ook overheden gebruiken data om betere service te bieden. Zo kunnen data helpen om te bepalen hoe publiek geld het beste ingezet kan worden. Wat de overheid ook vaak doet, is technologie en data combineren om dingen wat gemakkelijker te maken. Denk bijvoorbeeld aan de vooraf ingevulde belastingaangifteformulieren.
Wetenschappers ten slotte gebruiken data om nieuwe inzichten en kennis te krijgen. Deze kennis kan worden ingezet om nieuw beleid te ontwikkelen of tot nog betere oplossingen te komen.
Het CBS verzamelt data over Nederlanders. Deze data gaan over ongeveer alles wat voor onze samenleving belangrijk is. Het CBS doet dit op heel veel gebieden, bijvoorbeeld: hoeveel verdienen wij? Hoe goed gaat het met onze economie? Hoeveel mensen maken er gebruik van gezondheidszorg?
Bij Smart Start gebruiken we data altijd in combinatie met mensenkennis. Welke informatie we precies gebruiken, is afhankelijk van de onderzoeksvraag die we beantwoorden. We verkennen wetenschappelijke onderzoeken en we kijken welke data bij het CBS inzicht kunnen geven in de onderzoeksvraag. Want we maken vooral gebruik van CBS microdata. Microdata zijn koppelbare data waarmee onderzoekers onder strikte voorwaarden onderzoek mogen doen.
Het doel van Smart Start is om voor kinderen in Nederland gelijke kansen te creëren. Hoe mooi zou het zijn als we problemen bij kinderen kunnen voorkomen, in plaats van ze pas op te lossen als het eigenlijk al te laat is? Bij Smart Start vinden we voorkomen beter dan genezen. Pas dan hebben kinderen immers écht een goede start.
De combinatie van data en kennis kan hierbij helpen. Op basis van de data van het CBS kunnen we mogelijke kansen en risico’s in kaart brengen. Data helpen kortom om een vraagstuk beter te begrijpen en oplossingen en antwoorden te bedenken. Dat werkt het beste samen met mensen uit de praktijk.
Data mogen we niet zomaar gebruiken; het gebruik van CBS-data is gebonden aan allerlei strenge regels. De onderzoekers die mogen werken met deze CBS-data weten dus niets van individuele personen of gezinnen. Bovendien kijken we in Smart Start sowieso nooit naar individuele gezinnen. Wél kijken we naar groepen van gezinnen die erg op elkaar lijken. Zoals: hoe zijn gezinnen met maar één ouder en meerdere kinderen anders dan gezinnen met twee ouders en een kind? Geen enkele onderzoeker krijgt dus informatie over individuele personen te zien.
Het CBS maakt gebruik van een beveiligde online omgeving, waarin alléén mensen kunnen werken die daar speciale toestemming voor hebben. Niet iedereen kan dus zomaar met de data van het CBS aan de slag. Als onderzoeker teken je bovendien een geheimhoudingsverklaring waarin je belooft zorgvuldig met de data om te gaan.
Het CBS heeft heel veel databestanden. Alle bestanden van het CBS zijn versleuteld: er staat niet in wie wie is. Hiervoor hebben ze bij het CBS een soort sleutel gemaakt. Dit is een nummer dat aan een bepaald persoon gegeven wordt. Dat nummer wordt in alle bestanden gebruikt voor de gegevens die bij die bepaalde persoon horen. Omdat wij niet weten welk nummer bij welk persoon hoort, kunnen we dus nooit weten om wie het precies gaat.
Binnen Smart Start voegen we datasets uit verschillende bronnen samen; het zogenoemde ‘koppelen’. Hierbij koppelen we bijvoorbeeld data van andere partijen aan data van het CBS, zoals data van gemeenten.
Het CBS zorgt ervoor dat deze data anoniem gekoppeld worden. Alle gegevens waaraan je iemand zou kunnen herkennen – zoals naam, adres en woonplaats – worden verwijderd. Deze informatie wordt vervangen door het sleuteltje dat ook in de CBS-bestanden zit. Hiermee kunnen we het bestand ook weer aan andere databestanden koppelen. Hierdoor is de privacy van individuen en hun eventuele gezinsleden maximaal beschermd.
Alle resultaten die we uit de beveiligde CBS-omgeving willen halen, worden eerst nog een keer streng door het CBS gecontroleerd. Zij controleren de resultaten op het zogenoemde onthullingsrisico, waarbij er toch nog valt te achterhalen wie iemand is. Lijkt dit het geval te zijn? Dan mogen de resultaten niet uit de CBS-omgeving worden gehaald en kunnen en zullen wij ze dus ook niet gebruiken. Ook levert het CBS nooit herkenbare gegevens aan derden, ook niet aan gemeenten en dergelijke. Zo kan nog steeds niemand te weten komen dat jij de enige bent in de straat die gebruikmaakt van een bepaalde voorziening.
De Algemene Verordening Persoonsgegevens (AVG) is een Europese privacyrichtlijn, die betrekking heeft op de bescherming van persoonsgegevens. Kort gezegd komt het erop neer dat wij persoonsgegevens alléén mogen verwerken voor het doel waarvoor we de data verkregen hebben.
Soms komt het voor dat het niet meteen duidelijk is van wie bepaalde data zijn en wat ermee mag gebeuren. Ook dan maken wij duidelijke afspraken met de mensen met wie we samenwerken. Het moet heel duidelijk zijn waar de data voor gebruikt wordt en waarom. Samen checken we dit en zorgen we ervoor dat gegevens niet terug te herleiden zijn naar een bepaalde persoon. Ook maken we afspraken over hoe de data beveiligd worden. En verder zorgen we er altijd voor dat data verstuurd kunnen worden in een beveiligde omgeving. Ook in deze gevallen houden we ons dus altijd strikt aan de AVG.
Algoritmische profilering kan op verschillende manieren worden toegepast. Bij Smart Start analyseren de onderzoekers de data met behulp van algoritmen en maken zij clusters van huishoudens. Dat wil zeggen dat Centerdata op basis van de data groepen maakt die erg op elkaar lijken. Een cluster is dan bijvoorbeeld: ‘’Tweepersoons huishoudens met een bijstandsuitkering’’. Een cluster is nooit herleidbaar tot individuele personen.
Deze clustering op basis van algoritmen heeft niets te maken met geautomatiseerde besluitvorming. Bij Smart Start zeggen we nooit “omdat jij in cluster X zit zijn dit de consequenties voor jou”. De clusters worden samen met professionals en de doelgroep (in design thinking sessies) besproken en verder vormgegeven. Zo wordt er soms aanvullende (kwalitatieve) data verzameld, bijvoorbeeld door interviews of door afname van de al eerder genoemde schriftelijke of online vragenlijsten. Smart Start rapportages bevatten nooit persoonsgegevens.
Smart Start werkt voor data tot op heden niet met commerciële partijen samen. De stichting Centerdata is partner van Smart Start, en wordt door opdrachtgevers ingehuurd voor data-analyses. Alleen de gecertificeerde onderzoekers van Centerdata analyseren data. Zij werken met de microdata van het CBS en analyseren deze altijd in de omgeving van CBS. Ook wanneer lokale partners hun data in de CBS-omgeving uploaden; die neemt Centerdata dan mee in de analyse en deze data ontvangen zij niet zelf.
De onderzoekers van Centerdata analyseren data in de omgeving van CBS. Ook wanneer lokale partners hun data in de CBS-omgeving uploaden; die neemt Centerdata dan mee in de analyse en deze data ontvangen zij niet zelf. De periode van beschikbaarheid van de gegevens in de CBS-omgeving voor de onderzoekers wordt altijd vooraf afgesproken. Na afloop van het project wordt het projectarchief vijf jaar lang bewaard bij het CBS. Deze periode kan Centerdata – beargumenteerd – verlengen met vijf jaar. Tijdens deze archiefperiode kan het project eventueel heropend worden, om er bijvoorbeeld nieuwe data aan toe te voegen en nieuwe analyses te maken. Hieraan zijn wel kosten verbonden.
Soms werken we bij Smart Start met aanvullend onderzoek, met bijvoorbeeld vragenlijsten voor ouders, leerkrachten of pedagogisch medewerkers. Deze vragenlijsten zijn altijd anoniem en kunnen vrijwillig ingevuld worden. Centerdata ontvangt en verwerkt deze vragenlijsten, deelt uitsluitend de analyse en verwijdert na twee jaar de ingevulde vragenlijsten. Voor het verwerken van de gegevens maakt Centerdata gebruik van een beveiligde server (ISO 27001 gecertificeerd).
Nee, dat doen wij niet. Dit is ook onmogelijk. De manier waarop de data wordt verwerkt, zorgt ervoor
dat individuen niet herleidbaar zijn. CBS maakt gebruik van pseudonimisering; CBS versleutelt de data in onherkenbare codes. Het CBS verwijdert de Burgerservicenummers en eventuele andere directe variabelen die met de naam te maken hebben, waardoor het tijdens het verdere verloop van het project niet inzichtelijk is welke omstandigheden bij welk individu of individueel gezin horen en de gegevens op geen enkele manier herleidbaar zijn tot een persoon of huishouden.
CBS heeft diverse maatregelen getroffen om te voorkomen dat de gecertificeerde onderzoeker gegevens kan linken aan een individueel persoon of gezin. In de beveiligde omgeving van het CBS krijgt Centerdata enkel toegang tot de lijst met omstandigheden. Hierdoor kan Centerdata, zonder de hulp van het CBS, op geen enkele manier toegang of inzage krijgen in de individuele omstandigheden die tot een bepaalde situatie geleid hebben.
Alle gegevens blijven te allen tijde binnen de beveiligde omgeving van CBS. Wanneer Centerdata gegevens buiten de beveiligde omgeving brengt, kan dit alleen via de exportmap en dan controleert het CBS of de resultaten geen onthullingsrisico bevatten.
Wanneer we bij Smart Start met vragenlijsten werken, staat dit los van het CBS. Centerdata ontwikkelt, deelt en analyseert de geanonimiseerde vragenlijsten. De onderzoekers kunnen gegevens uit de vragenlijst linken aan een individueel persoon door middel van het IP-adres of als dit ook uitgevraagd is het e-mailadres. Dit is niet toegestaan. De risico’s worden zoveel mogelijk ingeperkt door de genomen technische en organisatorische maatregelen. De beveiligde systemen van Centerdata worden gebruikt. Er zijn verschillende afdelingen betrokken bij de dataverzameling. De onderzoekers die de data analyseren krijgen een versleutelde datafile, zonder e-mailadressen of IP-adressen. Het risico op herleidbaarheid wordt ook bij resultaten uit vragenlijsten geminimaliseerd door onderzoeksresultaten met te kleine aantallen niet te publiceren. Uitgangspunt is dat aantallen kleiner dan tien niet worden gerapporteerd.