Campus

Het belang van duurzame data

Subsidieverleners willen graag dat wetenschappers hun onderzoeksdata openbaar maken. Ook 3TU.Datacentrum, onderdeel van TU Delft Library, ziet het belang hiervan in en stimuleert Delftse onderzoekers hun gegevens te delen.

Maar wat voor haken en ogen zitten er aan datamanagement en waar moet je op letten?

Hij was nog niet eens halverwege zijn promotieonderzoek of de eerste onderzoeksdata van John-Alan Pascoe stonden al online, zodat ze – in theorie – beschikbaar waren voor alle wetenschappers ter wereld. Begin 2014 schreef de promovendus van de faculteit Luchtvaart en Ruimtevaarttechniek samen met zijn collega René Alderliesten en promotor Rinze Benedictus een paper over wanneer twee stukken aluminium van elkaar scheuren, als ze met lijm aan elkaar zijn geplakt. Door met lijm te werken, kunnen metalen structuren zoals vliegtuigen, veel lichter worden. En dat heeft weer als voordeel dat ze minder brandstof gebruiken en dus duurzamer zijn. Inmiddels staan de data anderhalf jaar online, heeft Pascoe hiernaar verwezen in zowel een conferentieartikel als een tijdschriftartikel en is hij door een Italiaanse onderzoeker benaderd die zijn data wil hergebruiken.

Publiceren is logisch, maar het delen van de onderliggende data is nog helemaal nieuw voor de meeste wetenschappers. Toch is het alweer twaalf jaar geleden (oktober 2003) dat Nederlandse universiteiten en hogescholen hun handtekening zetten onder de ‘Berlin declaration on Open Access’. In dit formele document spraken ze in ingewikkelde bewoordingen met elkaar af dat wetenschappelijke kennis gratis voor iedereen via internet beschikbaar zou moeten zijn. In andere woorden: met publieke middelen gefinancierd onderzoek moet publiekelijk toegankelijk en herbruikbaar zijn. Dat idee landde vier jaar later ook bij het 3TU-netwerk.

Zevenduizend datasets
“In 2007 is het idee geboren om voor de drie technische universiteiten een infrastructuur op te zetten: een data-archief, ook wel datarepository genoemd, voor de lange termijn. Sinds 2013 is die infrastructuur in productie en verzamelen we data”, zegt Annemiek van der Kuil, research data officer van het 3TU.Datacentrum. Een dag in het leven van Van der Kuil bestaat uit het geven van voorlichting en ondersteuning over datamanagement aan wetenschappers. Ze helpt hen vervolgens om onderzoeksgegevens in de repository te zetten en als dat gelukt is, vertelt ze het aan de rest van de wereld.

Voor hoeveel wetenschappers dit datadelen nu een normale gang van zaken is, weet ze niet precies. Wel is bekend dat er al bijna zevenduizend datasets zijn, met in totaal 25 terabyte aan informatie, wat vergelijkbaar is met het opslaan van 200 duizend foto’s of 120 uur
video van hoge kwaliteit.

Dat lijkt op het eerste gezicht nog niet verschrikkelijk veel. Maar het blijkt best omvangrijk, als je bedenkt dat sommige datasets niet zoveel ruimte innemen als een fotoalbum of een film. “Mijn gegevens bestonden uit dertig megabyte, wat qua grootte gelijk staat aan vijf foto’s”, zegt Pascoe, die het heel makkelijk vond om zijn data in de
repository van het 3TU.Datacentrum te zetten. “Ik vulde een formulier in op de website en sleepte mijn bestanden erin.”

Vervolgens kregen zijn datasets een DOI (Digital Object Identifier), net zoals publicaties dat nu krijgen zodat je kunt bijhouden of anderen je citeren. Pascoe verwees naar zijn eigen dataset, in zijn publicatie voor het tijdschrift Engineering Fracture Mechanics, zodat lezers zijn onderbouwing kunnen checken.

“Dat de datasets zelf citeerbaar zijn, is nog een nieuw onderdeel in het wetenschappelijk discours. Daardoor kun je ze niet alleen makkelijk vinden, ook de onderzoeker zelf is zo nog beter op te sporen. Als je weet dat iemand zijn data beschikbaar maakt, dan weet je dat iemand open staat voor samenwerking”, zegt Van der Kuil.

“We stimuleren wetenschappers om de DOI van de dataset op te nemen in hun publicatie. Dat gebeurt nog niet zoveel, maar eigenlijk is het linken van publicaties en datasets heel makkelijk. De moeilijkheid ligt vooral in het beschikbaar maken van de datasets zelf, omdat onderzoekers daar wat tijd aan kwijt zullen zijn. Ik verwacht dat het nog wel even duurt voordat iedereen dat doet.”

Meer citaties
Herman Russchenberg, hoofd van het TU Delft Climate Institute bij de faculteit Civiele Techniek en Geowetenschappen (CiTG), is al door meerdere onderzoekers benaderd die zijn data gebruiken. Hij denkt dat er elke maand twintig mensen naar kijken. Ook wordt hij vaker geciteerd. “Niet heel veel, maar dat komt wel denk ik”, zegt de hoogleraar, die in zijn onderzoeksgebied gewend is zijn gegevens te delen met het KNMI en andere universiteiten. Dat doet hij sinds 2009 in het Cesar Consortium, waar met een groot aantal instrumenten atmosfeermetingen worden gedaan. Die data worden via 3TU.Datacentrum gedeeld. “We moeten niet moeilijk doen over het openbaar maken, want we zouden er veel meer mee kunnen doen. Dat geldt niet alleen voor wetenschappers, maar ook voor commerciële partijen. Bovendien vergroot je dan de kans op onverwachte vindingen.”

Niet iedereen bij de TU Delft is overtuigd van het credo dat delen goed is voor elk. Onderzoekers hebben hier verschillende visies op en angsten over. Zo vinden sommigen het onprettig om niet te weten wat er met hun data gebeurt als anderen ze ook kunnen gebruiken. Ook speelt de gevoeligheid van het bedrijfsleven of de concurrentie in de wetenschap een rol. “Ik besteed mijn tijd en energie vooral aan wetenschappers die graag data delen. Met hun goede voorbeelden hoop ik de twijfelaars over de streep te trekken,” aldus Van der Kuil.

Integriteit
Uit onderzoek dat een vijftal Amerikanen in oktober vorig jaar publiceerde in het open access tijdschrift BioScience blijkt dat het voor sommige vakgebieden, zoals de meteorologie, astronomie en genomics, al doodnormaal is om gegevens te delen. Maar dat dit bij milieuwetenschappen, zoals de ecologie, nog helemaal niet de norm is.

Toch geloven velen wel dat het delen voordelen heeft, bijvoorbeeld om de integriteit van data vast te stellen, om onderzoeksresultaten te kunnen repliceren en om de wetenschap vooruit te helpen. “Maar als een wetenschapper een collega naar zijn data vraagt, wordt zijn verzoek niet beantwoord of gewoon genegeerd. Daardoor lopen onderzoeksprojecten vertraging op of worden in het ergste geval gestopt”, schrijven de Amerikanen. “Dat gebeurt niet alleen in de milieuhoek, maar ook in vakgebieden zoals genetica, biologie, chemie en engineering.”

Of diezelfde vakgebieden ook zijn ondervertegenwoordigd in de data repository van 3TU.Datacentrum, is niet bekend. Wel weet Van der Kuil dat vanuit civiele techniek de grootste behoefte is om te delen. “Veel van die data zijn ook feitelijk, die kun je maar één keer meten en die wil je voor de lange termijn hebben. Bijvoorbeeld hoeveel het op 5 oktober 2015 regende in De Bilt. Onderzoekers snappen het nut daarvan wel”. Onderzoekers zoals Russchenberg dus, die op zijn beurt ook snapt dat jonge wetenschappers wat meer haken en ogen zien. “Er komt steeds meer druk om in korte tijd een carrière op te bouwen. Ze zijn bang dat ze geen vaste aanstelling krijgen, waardoor ze steeds banger worden voor concurrentie. Soms heb ik daar wel eens gesprekken over met promovendi”, zegt hij.

Gierig
De vraag is waarom jonge wetenschappers zo gierig met hun informatie omgaan. Het lijkt juist heel averechts om informatie achter te houden, omdat wetenschappelijke vooruitgang juist voortbouwt op eerder onderzoek. Voor The Atlantic, schreef journalist Maggie

Puniewska in december vorig jaar als verklaring: ‘De cultuur van innovatie zorgt juist voor keiharde competitie, want degenen die een baanbrekende ontdekking doen willen de eersten zijn die erover publiceren. Want alleen dan worden ze uitgenodigd voor bijeenkomsten, komen ze in aanmerking voor promoties en onderzoeksawards waaronder de Nobelprijs.’

Alle onwilligheid ten spijt, lijkt het steeds meer een verplichting te worden om je gegevens de wijde wereld in te slingeren. Of in ieder geval na te denken over de vraag of je je data openbaar zou kúnnen maken. Zo is onderzoeksfinancier NWO op 1 januari 2015 gestart met een pilot.

“Bij enkele financieringsrondes, waaronder vici, is een datamanagementparagraaf opgenomen, als verplicht onderdeel van de subsidieaanvraag. Daarin vragen we wetenschappers om uit te werken hoe ze met de data in hun onderzoek willen omgaan en welke data nuttig en geschikt zijn om te delen. Niet alle soorten data
lenen zich hiervoor. De paragraaf is overigens geen criterium om financiering te krijgen, maar zodra dat laatste het geval is, vragen we ze om een concreet plan”, licht voorlichter Maarten Muns toe. “In 2017 moet in alle financieringsrondes die dataparagraaf zitten.”

Ook de Europese Commissie stelt in haar nieuwste programma Horizon2020 als subsidievoorwaarde dat onderzoekers hun werk beschikbaar maakt. Ook stellen steeds meer vakbladen het verplicht om de ruwe data publiek toegankelijk te maken. Dat gold in 2011 al voor 44 van de 50 journals met hoogste impactfactor, schreef het gezaghebbende tijdschrift Nature.

Maar voorlopig zijn er veel Delftenaren die nog nooit van het 3TU.Datacentrum hebben gehoord. Zoals Patrick van der Duin, toekomstonderzoeker bij de faculteit Techniek, Bestuur en Management: “Dat soort dingen gaat langs mij heen”, zegt hij. “Ik vraag me ook af of het nuttig is: ik interview vaak mensen en dat is vertrouwelijk. Ik weet niet of je kwalitatieve gegevens in zo’n datacentrum moet willen bewaren.” Daar mag Van der Kuil een antwoord op geven. Bovendien gaat zij het komende jaar ervoor zorgen dat iedereen van de TU Delft bekend is met het begrip data management en open access.

3TU.Datacentrum is een samenwerkingsverband van de drie technische universiteiten (Delft, Eindhoven, Twente) en biedt onderzoekers in alle stadia van hun onderzoek ondersteuning op het gebied van duurzaam databeheer. Hieronder valt het opzetten van een datamanagementplan, het faciliteren van een data-lab tot het deponeren van de data in de repository. Het idee voor duurzaam databeheer hangt samen met de ‘roadmap’ Open Science. Deze wordt opgesteld door de Library en 3Tu.Datacentrum, in samenspraak met alle faculteiten, in opdracht van het college van bestuur. Het college bespreekt in november de concept roadmap.

Redacteur Redactie

Heb je een vraag of opmerking over dit artikel?

delta@tudelft.nl

Comments are closed.