OAI9 : CERN Workshop on Innovations in Scholarly Communications

Elke twee jaar is er in Genève een congres over “scholarly communications”. Dit jaar zijn Jeroen Bosman, Bianca Kramer en Marina Muilwijk daarheen geweest. Deze post bevat het verslag van Marina.

Voorafgaand aan het congres zelf was er een dag voor de DSpace User Group. Ik heb daar iets verteld over hoe onze DSpace samenwerkt met Pure, Narcis en Google Scholar. Een paar aardige dingen die ik daar leerde waren How open is it, om op basis van een DOI te kijken wat nu eigenlijk de licentie van een artikel is voor de eindgebruiker; en de tip om voor je statistieken vooral meerdere bronnen te gebruiken (bijvoorbeeld de statistieken van DSpace zelf plus Google Analytics), omdat ze geen van alle exacte cijfers kunnen leveren. Verder was er de presentatie van de plannen voor nieuwe features van DSpace, met de smeekbede aan instituten om toch vooral ontwikkelaars te leveren. Ze willen vanaf volgend jaar in sprints van één tot twee weken gaan werken, dus de tijdsinvestering is overzichtelijk; en Java-kennis is niet langer vereist.

Het gaat te ver om hier over alle presentaties van het congres te schrijven. Daarom hieronder alleen de dingen die mij het meest opvielen. Daarbij moet ik opmerken dat ik vooral aantekeningen heb gemaakt bij de meer technische sessies, dus ik hoop dat Bianca en Jeroen aanvullingen kunnen geven over de rest. De slides en de video-opnames van alles presentaties zijn te vinden via http://indico.cern.ch/event/332370/timetable/.

In de keynote gaf Michael Nielsen voorbeelden van wat er nog meer kan, behalve een gewoon artikel. Bijvoorbeeld een interactief essay, met daarin code die je zelf kunt uitvoeren en aanpassen. Zo kun je zien hoe een model zich gedraagt als je een parameter verandert. Een andere mogelijkheid is een grafisch model: pas de grafiek aan en kijk wat dat met je resultaten doet. Helaas willen uitgevers dit soort publicaties nog niet opnemen in hun tijdschriften.

’s Middags was de technische sessie, met twee presentaties over Linked Data en één over “reference rot”. Als eerste werd het idee van Linked Data Fragments gepresenteerd: een sneller en stabieler alternatief voor SPARQL endpoints: Linked Data Fragments. Daarna werd uitleg gegeven over “trusty URIs”: een manier om zeker te weten dat de (nano)publicatie of dataset waarnaar je een verwijzing hebt, sindsdien niet veranderd is: Trusty URI. Daaraan verwant is het probleem van “reference rot”: in een publicatie staat een referentie met een URL, maar die URL blijkt niet meer te bestaan of naar iets anders te verwijzen dan wat de auteur bedoelde. De oplossing die wordt voorgesteld is om je publicaties altijd van een (machineleesbare) datum te voorzien, elke online bron die je gebruikt in een web-archief te zetten als ze daar nog niet staan en de link in je publicatie te voorzien van de informatie over het archief plus de datum (zie http://www.socialsciencespace.com/2015/02/the-digital-scholar-reference-rot-and-link-decorations/ voor uitleg enhttp://journals.plos.org/plosone/article?id=10.1371/journal.pone.0115253 voor details).

Op de tweede dag vielen mij vooral twee posters op, beiden over het gebruik van repositories voor andere dingen dan alleen artikelen. Voor de learning objects, foto’s en video’s op http://digitalcollections.qut.edu.au hebben ze de metadata door inhoudsdeskundigen laten invoeren in Excel en daarna ingelezen in het repository. Op die manier kregen ze goede metadata zonder dat de inhoudsdeskundigen de werking van de repository software hoefden te leren. Het TIB/AV Portal (http://av.getinfo.de) gaat nog een stukje verder. Naast de normale invoer van metadata, worden de video’s ook door beeldherkennings- en transcriptie-software gehaald, en de transcriptie door een textmining programma. Op deze manier worden geautomatiseerd metadata toegekend aan videofragmenten. Elk fragment krijgt bovendien een eigen DOI, zodat er makkelijk naar verwezen kan worden.

Op de laatste dag ging het over “Institution as Publisher”, iets waar wij natuurlijk al ruime ervaring mee hebben, en over “Digital curation and preservation of large and complex scientific objects”. De belangrijkste reden om je onderzoeksdata te bewaren is hergebruik. Maar dat blijkt in praktijk moeilijk, omdat je niet exact weet hoe de data verzameld en eventueel bewerkt zijn. Natuurlijk staat in de bijbehorende publicatie wel “we gebruikten apparaat X om de meting te doen en software Y voor beeldbewerking”. Maar het blijkt dat het voor het resultaat significant verschil kan maken of je versie 3.1.1 van software Y hebt gebruikt op Windows, of versie 3.1.0 op een Mac. En zelfs de versie van het apparaat kan verschil maken. Dus zijn mensen bezig met oplossingen te verzinnen waarmee zo precies mogelijk kan worden vastgelegd wat er gebeurt tijdens het hele meet- en analyseproces. Het liefst natuurlijk geheel automatisch, zodat het de onderzoeker geen extra moeite kost. En daarmee waren we weer terug bij wat er ook al in de keynote was opgemerkt: wetenschappelijke communicatie gaat over meer dan alleen artikelen.

2 reacties op OAI9 : CERN Workshop on Innovations in Scholarly Communications

Jan de Boer zegt:

23/06/2015 om 12:01 pm

Gaan wij ook ontwikkelaars leveren aan DSpace? Dat is toch een beetje het idee achter Open Source?

Beantwoorden
Marina Muilwijk zegt:

23/06/2015 om 1:37 pm

Jan: vooralsnog lijkt dat niet de bedoeling, hoe graag de ontwikkelaars ook willen.

Beantwoorden