Big data is een big deal. Ook aan de RUG.

Big Data. Het zou het digitale goud zijn. Een datarevolutie zelfs – ook voor de wetenschap. Maar wat is het eigenlijk precies?

Big data is een gigantische berg data, zo ver kom ik nog wel, als leek. En dat die berg data verzameld wordt op of via internet, digitaal zeg maar, dat snap ik ook. Maar wát verzamelen ‘ze’ dan en – belangrijker nog –wat doen ‘ze’ er mee, daar heb ik eigenlijk geen idee van.

Elke 10 seconden 5 miljard data

Een definitie geven blijkt niet makkelijk, ook niet voor wetenschappers. ‘Big data is vooral heel veel informatie’, zegt mediahistoricus Susan Aasman. En ook Ronald Stolk, wetenschappelijk directeur van LifeLines, komt niet verder dan ‘heel veel gekoppelde data.’

Op internet is te vinden, dat er op dit moment zo’n 600 miljard gigabyte aan data over het internet zwerft: Netflix, het geklets op Twitter en Facebook, de informatie in de clouds. Big data is dus vooral big, zegt Andrej Zwitter, hoogleraar internationale betrekkingen en politieke ethiek.

Hij somt op: vanaf het begin dat we zijn gaan tellen tot 2003 was er 5 miljard gigabyte aan data. Tot 2011 kwam daar elke twee dagen 5 miljard bij en tot 2013 elke 10 minuten 5 miljard. De verwachting is dat er tot 2015 elke 10 seconden 5 miljard aan data bij komt.

1 miljoen paar borsten

Maar big data gaat eigenlijk niet zozeer om de omvang, de hoeveelheid, maar vooral om de ontwikkeling die het veroorzaakt. Het maakt het mogelijk om in een verzameling losse data betekenis te vinden. In informatie over 1 miljoen paar borsten bijvoorbeeld.

Een Amerikaanse webshop verzamelde die informatie met een borstquiz. Die miljoen vrouwen vulden de test in, waaruit vervolgens een persoonlijke selectie wordt gemaakt voor de beste pasvorm. Al die unieke data werd gebruikt voor het ontwerpen van een eigen lijn waarin de veel voorkomende pasproblemen worden aangepakt.

Onderzoeksterrein veel groter

De vraag wat big data eigenlijk is, is voor veel wetenschappers ook minder belangrijk dan de vraag wat we er mee kunnen. Genoeg, blijkt. Ook aan de RUG zetten ze volop in op big data. Bij astronomie natuurlijk, een van de eerste vakgebieden die hier mee te maken kreeg en waar de dataopslag exponentieel is toegenomen sinds de digitalisering.

Maar ook op andere, minder voor de hand liggende vakgebieden werken ze inmiddels met deze gigantische datasets. Bij geschiedenis bijvoorbeeld. ‘Het vergroot ons onderzoeksterrein, ook omdat de beschikbaarheid en toegankelijkheid is toegenomen’, zegt mediahistoricus Susan Aasman. ‘Geschiedenis vond vooral op papier plaats. Dat is niet meer zo. Daardoor kunnen we nu meer data met elkaar vergelijken en verbanden leggen tussen die informatie. Daardoor komen ook er ook nieuwe vragen naar voren.’

Pop Tarts en tornado’s

Nieuwe onderzoeksvragen uiteraard, maar ook vragen die gaan over de manier waarop we onderzoek doen. ‘Vroeger deden we onderzoek op basis van een hypothese’, zegt hoogleraar informatica Jos Roerdink. ‘Die we vervolgens konden verwerpen of verifiëren. Nu is data vaak het uitgangspunt van onderzoek. We zijn van alles aan het meten en verzamelen. Daar zoeken we dan verbanden in. Wat blijft is dat we de complexe systemen willen begrijpen die achter de data zitten.’

Bij big data gaat het inderdaad meer om de samenhang dan om de oorzaak en het gevolg, zegt Andrej Zwitter. Een klassiek voorbeeld is dat het veel waarschijnlijker is dat een man die luiers koopt ook bier koopt, dan een man die geen luiers koopt.

‘Maar’, zegt hij, ‘er kan ook een verborgen variabele in het spel zijn, bijvoorbeeld de stress die een pasgeboren kindje met zich meebrengt.’

Maar voor de wetenschap is dat, volgens Zwitter, niet alleen belangrijk. Hij geeft een ander voorbeeld. ‘Bij Walmart bijvoorbeeld koppelden ze verkoopdata aan het weer’, vertelt hij. ‘Zo blijkt dus dat er voor een tornado veel meer Pop Tarts worden verkocht. Die kopen ze nu dus groot in, als er een tornado op komst is.’

Meer dan een hype

Kenniscafé in teken van Big Data

BigDataStudium

Het Kenniscafé van donderdag 25 september gaat dieper in op big data en de manier waarop dat gebruikt kan worden.

Alex van den Berg gaat in gesprek met Edwin Valentijn, hoogleraar sterrenkunde aan de RUG, oprichter van het Infoversum en coördinator van Target; Chris Broekema, onderzoeker high-performance computing bij ASTRON, het Nederland Instituut voor Radio Astronomie en Rick Koopman, ‘deep computing’-deskundige van IBM en expert op het gebied van Big Data.

Waar?  Infoversum, 17:00

Big data is dus overal. Maar is het ook een hype? Iets dat over gaat, maar wat nu even heel interessant is omdat het nieuw is? ‘Het is zeker een hype’, zegt ook Roerdink. ‘In de astronomie werken ze al heel lang met deze enorme datasets. De wetenschap liep hier sowieso in voorop, met dna-sequences bijvoorbeeld die via internet werden gedeeld. Dat het nu overal is, ook in de industrie en commercie, dat maakt het een hype.’

Maar het is niet alleen een hype, zegt Zwitter. ‘Het verandert fundamenteel hoe we dingen doen. Hoe bedrijven in hun productstrategieën analyseren bijvoorbeeld, of hoe politieke sentimenten liggen voor de verkiezingen. We zoeken naar verbanden die we niet zouden vinden zonder big data. Voor het eerst in de geschiedenis kunnen we omgaan met de complexiteit van de echte wereld en kunnen we beginnen met voorspellen – het eerste wetenschappelijk orakel. En als het klopt, dan weten we misschien niet waarom iets gebeurt, maar we weten wel dat het gebeurt.’

Basis van de wetenschap

Maar de vraag waarom iets zo is, is wel de basis van de wetenschap. En die blijft nu liggen, lijkt het. ‘Dat is jammer natuurlijk’, zegt Zwitter. ‘Daarom mag de traditionele wetenschappelijke manier van onderzoek doen niet verdwijnen. Die is nog steeds van groot belang.’

24-09-2014