thumb-bigdata

Databerg wordt datahoopje

Het zou jaren kosten om de informatie voor zijn proefschrift in een database te stoppen. Maar dankzij de list van Tomas Zwinkels duurde het maar een paar weken. En collega's mogen meegenieten.

Hij houdt van slechte ideeën, zegt Tomas Zwinkels. En dat meent hij oprecht. ‘Het leuke van een slecht idee is dat ze je in een situatie brengen, waar je je weer uit moet redden’, zegt hij. ‘En dat zorgt dan weer voor een heerlijke uitdaging.’

Hij kan het weten.

De PhD-student sleepte drie jaar geleden een NWO Talentbeurs in de wacht. Hij wilde de carrières van alle Nederlandse politici van na de Tweede Wereldoorlog napluizen, om vervolgens te kunnen achterhalen wat de factoren zijn voor succes of falen, en hoe het nou écht komt dat er te veel of te weinig vrouwen in de Kamer zitten. Om maar enkele van zijn aandachtspunten te noemen.

Chaotische berg

Waar hij even niet aan had gedacht: er zijn héél veel politici en de chaotische berg informatie alleen al zou jaren kosten om in een database te stoppen. Dus wat te doen?

En toen bedacht hij het, letterlijk op de achterkant van een servetje. CodeThing. Een programmaatje waarmee hij erin slaagde de invoertijd van zijn gegevens terug te brengen van jaren tot enkele dagen. Ook handig: zijn broer is programmeur en kon helpen het programma in de juiste vorm te gieten.

Het idee? Mens en computer werken samen om de data te beoordelen en vervolgens te labelen.

Samenwerken

‘Het idee is behoorlijk simpel’, geeft Zwinkels toe. ‘Zeker voor programmeurs. Maar als die een computerprogramma schrijven, proberen ze de computer te laten werken als een mens en dat is ingewikkeld. Maar in dit programma laat ik mensen doen waar zij goed in zijn – beoordelen – en de computer waar híj goed in is, namelijk een code toekennen aan grote hoeveelheden data.’

Dat betekent dat de computer een bult informatie krijgt – bijvoorbeeld: ‘Wat doe jij op dit moment?’ Je kunt antwoorden geven als: internetten, lezen, soggen, werken… De computer beoordeelt die antwoorden en stelt een code voor. De mens kijkt mee en beslist of die klopt en corrigeert waar nodig.

Verbluffend

Het resultaat was verbluffend. In enkele dagen verdween de bult gegevens die jaren verwerkingstijd had moeten kosten. En het werkt niet alleen bij Zwinkels.

‘We werden benaderd door een groep onderzoekers uit Oxford die onderzoek deden naar tijdsindeling en ook een enorme berg data hadden verzameld. Een student-assistent was begonnen met de verwerking, maar had in enkele maanden nog maar een paar procent verwerkt. Wij zijn een middagje wezen klooien en hadden in enkele uren driekwart gecodeerd’, vertelt Zwinkels. ‘De onderzoekers moesten bijna huilen.’

Ruchtbaarheid

Tot nu toe maakten een stuk of elf, twaalf mensen gebruik van Zwinkels CodeThing, dat hij – althans voor academici – vrij beschikbaar stelt. Dat zijn er niet zoveel, maar dat komt ook omdat hij nog nauwelijks ruchtbaarheid gaf aan zijn vinding, zegt hij. Maar hij hoopt en verwacht dat dat verandert. ‘Na mijn promotie neem ik een jaar vrij om het verder te ontwikkelen’, zegt Zwinkels. ‘Daar heb ik bewust voor gespaard.’

Dat is ook de reden dat hij het weliswaar deelt voor academici, maar níet open source maakt. ‘Als een groot marktonderzoeksbedrijf het zou gebruiken, dan mogen die best betalen’, vindt hij.

En lukt het niet? ‘Dan kan ik het altijd nog uit handen geven aan de opensourcecommunity’, zegt Zwinkels.

Maar voorlopig blijft CodeThing dus van hem. En van zijn broer natuurlijk.

Interesse? Check www.codething.net

04-11-2015