Full speed ahead with open science

Jeroen Bosman & Bianca Kramer

Crick Institute – October 19, London. 20161020_135118Some 35 researchers and 20 publishers, funders and librarians gather at the brand new magnificent Francis Crick Institute premises, between the equally magnificent St. Pancras railway station and the British Library. The Crick Institute is a partnership between the Medical Research Council, Cancer Research UK, the Wellcome Trust and three London universities – Imperial College London, King’s College London and University College London.

Open Research London – The meeting is organised by Open Research London (@OpenResLDN), and is an irregularly returning event originally started by Ross Mounce, John Tennant and Torsten Reimer and now coordinated by Frank Norman from the Crick Institute. Open Research London (ORL) is an informal group formed to promote the idea of sharing and collaboration of research. This specific ORL meeting focused on Open Science tools and workflows. There were presentations on bioRxiv and Wellcome Open Research and we moderated a 1-hour mini workshop.

BioRxiv – John Inglis, executive director of Cold Spring Harbor Laboratory Press and co-founder of bioRxiv, told us how this pre-print archive, launched in November 2013, was modeled on arXiv, the preprint platform that over the last 2 decades gained a dominant position in sharing of papers in physics, astronomy and mathematics. Cold Spring Harbor Laboratory Press manages bioRxiv which is directed at the broad spectrum of life sciences, from computational biology to paleontology. So far, over 6200 papers have been accepted from over 30,000 authors, with and current submission levels at ~450/month.

biorxiv-basic-stats

BiorXiv has rejected less than 10% of the submissions, e.g. because they were off topic or contained plagiarism. First indications are that some 60% of the papers shared through bioRxiv is published within two years. The initial success of bioRxiv is at least partially ascribed to the high level support, with for instance Anurag Acharya (Google Scholar) and Paul Ginsparg (arXiv) on the advisory board. BiorXiv now seems out of the experimental phase as it is accepted by researchers and many journals. Still though, it is working on further improvements, together with HighWire that hosts the archive. Also, they are trying to find solutions for some issues such as what to do with the preprint when the related journal article publication is retracted.

Wellcome Open Research – Equally interesting is the experimental online journal Wellcome Open Research presented on by Robert Kiley (Head of Digital Services at the Wellcome Library). While its setup with fast publishing and post-pub peer review and focus on sharing all kinds of research outputs is already innovative, the real experiment lies in ownership and author selection. This journal is a funder’s journal (anyone know of other examples?) and submissions are restricted to papers, datasets etc. with at least one Wellcome-funded (co-)­author. This journal, hosted and operated by F1000, will be fully open with expected (but internally paid) APC’s of between 150 and 900 US$.

full-frontal-audienceOpen Science workflow – We were granted the second half of the evening and led the group in a pursuit of Open Science workflows. For that we built on the insights and material developed in the 101 innovations in scholarly communication project. After a short introduction on the concept of workflows, illustrated by some hypothetical workflow examples, the participants got into action.
First, in pairs, they briefly discussed the function and use of specific scholarly communication tools. These had been given to them as small button-like plastic circles. Next, people had to match ‘their’ tool to one of the 120+ cards with research practices that hang from the wall, organized by research activity. Of course people could create additional cards and circles with practices and tools.

circles-and-cardsThen came the  most exciting part: we jointly composed an open science workflow by taking cards with research practices that should be part of such a workflow from the wall and hanging them together on an empty canvas with 7 research phases. In what little time remained after that we annotated some parts of the resulting workflow with suns and clouds, indicating specific enabling and constraining factors. The resulting workflow consisted of 69 practices of which 31 were supported by some 50 tools.

open_science_workflow_orl_201610

The whole process was actually less chaotic and messy than expected, though it would have been good to discuss the resulting workflow more in depth. Is it not too crowded? Are all practices relevant for every researcher? Why were some practices included and others left out? Which tools work well together and which don’t? And what about the practices that have no supporting tool attached to them: was that caused simply by lack of time during this session? 

Though there was indeed not enough time to dive into those questions, the participants seemed quite interested to see the final result and keen to work on this together. And if we left any pieces of tape etc. on the wall, we sincerely apologize to Crick’s ;-)

For us, the meeting brought a very good end to three intensive days that also included a workshop and presentation for librarians at Internet Librarian International on research support by libraries. And one of the great pleasures was meeting @DVDGC13!

Geplaatst in congressen, I&M2.0, innovatie, Open science, presentaties, projecten | Tags: , , , , , , , , , | 4 reacties

Pay It Forward, gedegen onderzoek naar duurzaamheid van Gold Open Access model

De University of California Libraries hebben een groot opgezet onderzoek gedaan naar de duurzaamheid van een volledig Gold open accessmodel. De Scholarly Kitchen reageerde enigszins zuur dat het onderzoek alleen maar aantoonde wat we al jaren wisten.

Eén interessant element uit het rapport is de mogelijke verhouding tussen financiering van APC’s uit het institutionele budget en vanuit de budgetten van onderzoeksfinanciers. hebben gekeken naar het “Library Break Even Point”. Als het bibliotheekbudget voor abonnementen wordt getransformeerd in een OA fonds voor APC’s en alle tijdschriftartikelen worden in Gold OA gepubliceerd, wat mag dan de gemiddelde hoogte van een APC zijn?

De hoogte van die gemiddelde APC verschilt zoals verwacht sterk per universiteit, immers de ene universiteit produceert meer publicaties dan de andere. Maar de onderzoekers schetsen meerdere scenario’s. Als de universiteit alle kosten voor open access publiceren moet dragen, dan kunnen zij niet de APC’s betalen die nu worden gevraagd. Maar in een tweede scenario waarin de onderzoeksfinanciers de publicatiekosten dragen voor “hun” onderzoek kunnen de universiteiten wel degelijk de APC’s betalen die nu worden gevraagd. Bij alle behalve de meest onderzoeksintensieve universiteiten ligt het break even point zelfs ver boven de gemiddelde APC die nu gevraagd wordt.

Dit tweede scenario komt overeen met de praktijk in Nederland, met EU en NWO die open access financieren. Dat de universiteiten de kosten voor open access in dit scenario kunnen dragen neemt natuurlijk niet weg dat de onderzoeksfinanciers wel met extra kosten worden geconfronteerd.

Zie pagina 95-99 in het rapport.

Een andere interessant element vond ik de berekening van Costs per article (p. 83-90). Wat kost het een uitgever om een artikel te produceren en is (dus) een mogelijke/rechtvaardige/verwachtte APC?

In de workshop over open access financiering die ik heb gegeven verwijs ik naar een artikel uit Nature, waarin wordt voorgerekend dat uitgevers per artikel gemiddeld 5.000 USD aan inkomsten genereren en dat dit (bij een geschatte winst van 20 a 30%) betekent dat het produceren van een artikel hen gemiddeld 3.500-4.000 USD moet kosten.

Dit onderzoek uit California komt met andere cijfers. Zij hebben op vijf verschillende manieren geprobeerd die kosten te achterhalen, variërend van vragen aan de uitgevers tot het interpreteren van openbare belastinggegevens. De gemiddelde kostprijs die daar uit komt varieert van 960 USD tot 2.508 USD.

De onderzoekers geven zelf aan dat hun aanpak ” is not meant to replicate current operations for established subscription-based publishers”. Dit zijn niet de kosten die de grote uitgevers maken voor het produceren van één artikel (de 3.500-4.000 USD uit het artikel in Nature), maar de APC’s waarbij een uitgever (volledig open access, not-for-profit) goed kan renderen.

Ik ben pas bij pagina 99 van het rapport, misschien later meer.

Geplaatst in Open Access | 2 reacties

Ik ga op reis en ik neem mee…

door Ingrid van der Heijde en Anja Bastenhof

In juni hebben wij in Utrecht twee bijeenkomsten over de Customer journey bezocht, georganiseerd door de vakverenigingen Content Café en Cultuurmarketing.  Hoe richt je de klantenreis in, wat kan het opleveren en hoe werkt het nu in de praktijk? We leggen uit wat deze methode inhoudt en doen verslag hoe andere  organisaties het in de praktijk momenteel toepassen. Iets waar wij als bibliotheek wellicht inspiratie uit kunnen halen.

Echt klantgericht denken is niet zo makkelijk als het klinkt. En dat terwijl ieder van ons dagelijks zelf klant is. Bedenk zelf maar toen je de laatste keer een vlucht ging boeken, een vakantiehuisje moest regelen, een nieuwe telefoonabonnement wilde afsluiten. Hoeveel tijd ben je daar niet mee bezig geweest?  Hoe zo’n proces ook in de praktijk verloopt, alle  stappen zijn te herleiden tot een paar principes, of je het nu hebt over producten of diensten, commercieel of niet-commercieel, online of offline. De stappen van  jou als klant die leiden van oriëntatie tot aankoop, van voorpret tot nazorg, noemen marketeers de ‘customer journey’, oftewel klantenreis.

Waarom zou je deze methode inzetten, en zo ja, hoe wel/niet?
Met welk doel pas je de methode van de klantenreis toe? De winst op korte termijn is dat je pijnpunten in kaart brengt om die vervolgens op te lossen. Maar deze methode is vooral interessant om echt klantgericht te leren denken en voelen. Door in de schoenen van een klant te gaan staan en voor zijn perspectief te kiezen, leef je je automatisch in en worden bedrijfsprocessen concreet en zinvol. Je gaat als het ware mee op reis door een opeenvolging van handelingen en gevoelens. Je laat niet alleen zien hoe het kopen of gebruiken van een dienst of product idealiter moet verlopen, maar concreet met alle subjectieve en niet altijd rationele gedrag en emoties die erbij horen.

Wil je de klantenreis inzetten voorbij de hype en een blijvend effect binnen de organisatie bereiken, neem dan kennis van een recent onderzoek onder Nederlandse managers op het gebied van User Experience: “Customer Journeys in Nederland, van last minute backpacking tot georganiseerde reis”. Barbara Werdmüller deelde haar conclusies tijdens het Content Café: de klantenreis kan als breekijzer dienen om afdelingen samen te laten werken, mits een aantal zaken binnen de organisatie op elkaar zijn afgestemd: draagvlak, eenduidige strategie, mandaat en de wil om de resultaten ook echt om te zetten in de praktijk. De klantenreis heeft veel potentie maar wordt ook vaak ad hoc en vrijblijvend ingezet, waardoor de winst op lange termijn wegblijft.

Hoe zit de klantenreis in elkaar?
De klantenreis is een analysemodel dat raakpunten ontleedt tussen klant en product (of dienst) tijdens het aanschaf- of gebruiksproces. De klantenreis is een manier om alle beschikbare informatie te visualiseren in de vorm van een tabel.

De klantenreis kent vaste stappen. Het proces start met een behoefte, eerst latent en onbewust (1)  die  op een bepaald moment bewust wordt (2). Als klant ga je dan oriënteren naar de mogelijkheden en zet  je alle opties op een rijtje (3). Je gaat op stap, soms letterlijk, vaak online, al dan niet met behulp van een vergelijkingssite. Hoe lastig het kiezen soms ook kan zijn, er komt een moment dat je overgaat tot de aankoop (4) en je gaat het product of de dienst ook echt gebruiken (5).  Is er na de aankoop nog een aanleiding om contact op te nemen met de leverancier?  Dat is het laatste raakpunt: de klantenreis eindigt met de nazorgfase (6), waarin je ook wordt gevraagd naar je tevredenheid.

Elke stap worden de handelingen opgesomd die bij het uitvoeren van de taak horen. Maar daarnaast is er ook gelegenheid om de persoonlijke beleving van een klant per handeling in kaart te brengen: waar verliep het helemaal naar wens, waar traden er obstakels op, welke frustraties en ergernissen maakten de beleving minder prettig.

Kwantitatieve data centraal
De klantenreis is een handige manier om interpretaties van kwantitatieve data te ordenen en te presenteren. Sommige presentaties van de middag van Cultuurmarketing bestonden uit een hele rits tabellen en grafieken om de missers tijdens het verkoopproces van theaterkaartjes te identificeren en vervolgens te verhelpen. De klantenreis dwingt ertoe om vanaf de zee met cijfers in gedachten terug te gaan naar de concrete klant en diens persoonlijke beleving. Zwakke contactpunten (‘touch points’), die ontevredenheid en frustratie opleveren, moesten als eerste worden verholpen.

De gestelde vraag was op een gegeven moment: Waarom haken 50% van de bezoekers af tijdens het betaalproces van theaterkaartjes? Door veel data kwamen voor dit probleem een reeks oorzaken die heel gedetailleerd waren en stuk voor stuk aangepakt konden worden. Door een klantenreis in kaart te brengen, zou ook kunnen blijken dat er over bepaalde onderdelen van het proces weinig of helemaal geen data beschikbaar zijn, dat kan vervolgens de aanzet zijn voor vervolgonderzoek, wellicht kwalitatief onderzoek.

Of toch meer dan cijfers alleen?
Ook zijn er methodes om de klantenreis in te vullen zonder kwantitatieve data uit zeg Google Analytics. Er kunnen enquêtes worden afgenomen, of focusgroepen opgericht waarmee klanten aan het woord worden gelaten. Tijdens deze twee bijeenkomsten kwamen verschillende andere methodes naar voren die intuïever zijn en minder op harde feiten gebaseerd. De natuurlijke eigenschap van mensen tot empathie wordt benut om een klantenreis als een scenario  aan te kleden, op basis van eigen ervaring, observaties en ‘educated guess’. De deelnemers hoeven ook geen specialisten te zijn om inschattingen te maken van de klant en diens emoties.

Werkvorm 1: brainstorm terwijl iemand de rol van klant inneemt
Tijdens het Content Café gingen we aan de slag met de casus van Slachtofferhulp. Achter de schermen maakt deze organisatie een grote inhaalslag in de modernisering van haar communicatie. De ambitie is nu om hun dienstverlening zodanig te verbeteren, dat zij eind 2017 30% slachtoffers willen ondersteunen en eind 2019 zelfs 50% meer. De aandacht richt zich in het bijzonder op jongeren. De vraag was hier dus ook gericht op inspiratie spuien voor het opzetten van een effectieve campagne gericht op deze doelgroep.

In de workshop gingen wij in groepjes de klantenreis nalopen van een zestienjarige jongen die slachtoffer werd van een mishandeling en beroving op straat. We kregen een leeg sjabloon op grote flipover vellen, veel pennen en post-its. Dit ging geheel zonder data, maar op basis van ieders mensenkennis en ervaringen met deze leeftijdgroep. Bijzonder was de afspraak dat één persoon in de groep de rol van de jongen op zich zou nemen en in de ik-vorm vragen van de andere deelnemers zou beantwoorden.

We gingen eerst de stappen van het proces identificeren, de handelingen en de emoties bij elke stap. De startvraag was: zoekt hij hulp en bij wie? We stuitten bij die zestienjarige op veel drempels om hulp te zoeken, tegelijkertijd werd ons de urgentie duidelijk (gestolen telefoon, gebroken tand). Met alle deelnemende communicatieprofessionals gingen we de geleidelijk ontstane inzichten van deze klantenreis gebruiken om de juiste kanalen op het juiste moment in te zetten om deze jongen te bereiken. Enerzijds zou de campagne zich richten op de jongen zelf via sociale media (Instagram), aan de andere kant op de volwassenen in de sociale kring van deze jongen, met name de mentor op school. Het was verrassend hoe wij in een uur tijd door deze werkwijze een heel stappenplan voor concrete, innovatieve vervolgacties hebben opgezet.

Werkvorm 2: Ga zelf even in de schoenen staan van je klant
Koen Brakenhoff, Hoofd marketing van het Mauritshuis, vertelde bij Cultuurmarketing over een aantal expedities die hij organiseerde met medewerkers van zijn museum, afkomstig uit alle delen van de organisatie.
Zo ging hij samen met een collega in de rol van de begeleider van een bejaarde moeder in een rolstoel, letterlijk de route afleggen vanaf het station van Den Haag Centraal tot aan het Museum. Brakhoff werd hier laaiend enthousiast over:

“Doe het zelf! Wanneer ben je voor de laatste keer als museummarketeer écht door de ogen van je bezoeker door het museum heengelopen? Als je zelf de klantreis maakt, wordt het ook jouw probleem, want jij hebt gezien dat de toiletten niet goed aangewezen worden, of dat de mevrouw achter de kassa niet zo aardig is. Als het jouw probleem is, ben je ook veel meer bereid om daar iets aan te doen”.

Werkvorm 3: Neem je eigen ‘real life’ klantengedrag eens onder de loep
Mark Westbeek vertelde bij het Content Café dat hij zichzelf als proefkonijn voor een klantenreis heeft genomen. Dus niet alsof, maar vanuit zichzelf als echte consument met een bepaalde behoefte en op zoek naar een oplossing. Onlangs had hij georiënteerd naar een kookpakket abonnement. Elke stap die hij daarbij doorliep, bracht hij in kaart in een klantenreis, van oriëntatie tot koop en nazorg toe. Zijn conclusie: er gaat veel mis wanneer dat de verschillende communicatiekanalen van een bedrijf verschillende inhoud (‘content’) geven: informatie op de website moet stroken met wat een medewerker over de telefoon vertelt. Komt dat niet overeen, dan kan het bedrijf niet op veel begrip van klanten rekenen. Immers, als klant reken je erop dat je zonder hindernissen vloeiend navigeert in een continuum waar online en offline elkaar afwisselen. Een pleidooi dus voor ‘content’ dat op alle kanalen op elkaar is afgestemd.

Waar eindigt de klantenreis?
In de klantenreis is er ruimte om bestaande data uit onderzoek te ordenen op een concrete manier, die zich goed laat visualiseren en ook communiceren.
De klantenreis kan een gelegenheid zijn om te signaleren over welke aspecten minder informatie beschikbaar is, zodat dat verder onderzocht kan gaan worden.

Een klantenreis kan primair dienen om knelpunten en problemen te signaleren die je vervolgens gaat oplossen. Voor het oplossen van problemen kun je alle betrokken partijen betrekken, want alle perspectieven op een probleem hebben een toegevoegde waarde. Zo kun je al doende elkaar aansteken en inspireren tot innovatieve ideeën waar iemand alleen niet zo snel op zou zijn gekomen.
De grootste winst door betrokken afdelingen rond de klant te verzamelen is om echt klantgericht te gaan denken en voelen, om als mens verbinding te leggen met de mensen voor wie je werkt.

In zijn conclusie onderstreepte Brakhoff van het Mauritshuis dat de klantenreis een belangrijke rol kan spelen in het hele relatiebeleid van een organisatie. Zijn museum betrekt al anderhalf jaar alle werknemers bij de klantenreis.

“Als organisatie moet je zeggen: zo willen we met onze bezoekers omgaan. Dat geldt niet alleen voor de marketingmedewerkers, maar ook bijvoorbeeld beveiligers, en medewerkers bij de garderobe en achter de kassa.”

Mooie aanmoediging om ook in bibliotheken de klantenreis als instrument te gebruiken om zowel beschikbare data te ordenen als om de aanwezige mensenkennis te mobiliseren om ‘de klant’ een gezicht te geven in de hele breedte van de organisatie.

 

Meer lezen over de klantenreis?

  • Op de blog van Cultuurmarketing staan diverse artikelen hierover, zoals Customer Journey Mapping
  • Frankwatching heeft er onlangs een reeks artikelen aan gewijd, waarin elke stap wordt ontleed, gericht op optimalisering van de verkoop.

 

Geplaatst in Marketing, user experience (UX) | 1 reactie

Open Repositories 2016

Het Open Repositories congres vond dit jaar plaats in Dublin (Ierland, niet Ohio) van 13 t/m 16 juni. Ik was al een paar jaar niet geweest, dus ik vond het tijd om weer eens te gaan. Hier wat ontdekkingen en impressies.

Voorafgaand aan het eigenlijke congres waren er workshops. De eerste waar ik naar toe ben geweest ging over “Mining Repositories”: hoe kunnen we teksten en data die in repositories zitten geschikt maken voor hergebruik. Tijdens deze workshop heb ik kennis gemaakt met het OpenMinTeD project. Een verslag van dat deel van de workshop staat op de site van het project: http://openminted.eu/1409-2/. Zowel door OpenMinTeD als door de overige presentaties in de workshop  werd de nadruk gelegd op het belang van goede metadata. In het geval van teksten kan dat ook betekenen dat je de OCR opschoont, zodat bijvoorbeeld namen goed herkend kunnen worden.

De tweede workshop was geheel gewijd aan IIIF, het International Image Interoperability Framework (http://iiif.io). Deze workshop was vooral technisch, met uitleg van de APIs die er bij horen en een overzicht van viewers en servers.
Er was wel een mooi voorbeeld van wat je met dit alles kan doen: de virtuele hereniging van een handschrift, waarvan delen in verschillende bibliotheken zijn terechtgekomen.

De opvallendste presentatie op dinsdag was “Researching researchers”, een onderzoek naar het gebruik van audio en video door geesteswetenschappers. Hiervoor werd ethnografisch onderzoek gedaan, waarbij iemand van de bibliotheek meekeek
met een student of onderzoeker terwijl die bezig was met audio en video. De bibliotheekmedewerker probeerde daarbij alles op te schrijven wat de klant zei of deed, dus ook details als “beweegt muis heen en weer zonder iets aan te klikken”.
De zelfde klanten vulden daarna gedurende enige tijd een dagboek in met hun ervaringen. De eerste resultaten uit dit onderzoek laten zien dat het de mensen niet kan schelen welke tool of site ze gebruiken, als ze maar bij de content kunnen. In praktijk gebruiken ze daarom heel veel tools naast elkaar. De grootste frustratie van klanten was dat ze vaak niet kunnen terugvinden wat ze kort geleden opgeslagen hadden.

De woensdag plus donderdagochtend waren voor mij gevuld met bijeenkomsten van de DSpace Interest Group. Drie dingen daaruit wil ik even noemen:

  • CSpace, de Chinese afgeleide van DSpace. Hierin is het nu ook mogelijk om samengestelde objecten op te slaan, met audio, video, workflowcode en pdfs in één package. De makers van DSpace gaan nu kijken of er een mogelijkheid is
    dit ook in de standaard-DSpace te doen, in samenwerking met China
  • Een manier om grote PDFs te streamen vanuit DSpace, zodat de klant niet eerst de hele PDF hoeft te downloaden.
  • En van meer technische aard: de nieuwe DSpace UI die gebaseerd zal zijn op AngularJS. Wat dit in praktijk betekent is dat het makkelijker zal worden om bv de landingspagina aan te passen aan nieuwe wensen

Donderdagmiddag was de Ideas Challenge, waarover je kunt lezen op http://or2016.net/ideas-challenge-results/. Dit is altijd het vrolijkste onderdeel van Open Repositories, waar ad hoc gevormde teams een idee presenteren dat ze tijdens het congres gekregen hebben. Zoals je op de site kunt lezen, waren niet alle ideeën even serieus, maar sommige zouden best uitgevoerd kunnen worden.

Hoewel er dus allerlei interessante dingen gepresenteerd werden, had ik toch het gevoel dat er iets ontbrak. Terugkijkend denk ik dat voor veel deelnemers het repository een doel is, niet een middel. Dingen in het repository krijgen lijkt nog steeds belangrijker dan kijken naar wat studenten en onderzoekers daadwerkelijk nodig hebben. Als je dat zou doen, zou misschien blijken dat een repository een heel andere rol kan vervullen.
Wie weet wat we daarover nog gaan ontdekken in de innovatie-impuls van onze bibliotheek.

Geplaatst in congressen, I&M2.0, repository | Een reactie plaatsen

De data revolutie omarmen op IASSIST

Van 31 mei tot 3 juni bezocht ik de jaarlijkse conferentie van IASSIST: een internationale organisatie van professionals in informatie technologie en data diensten, om onderzoek en onderwijs in sociale wetenschappen te ondersteunen.

De conferentie werd gehost door het NSD (Norwegian Centre for Research Data). Het leuke van de conferentie was dat deze ook inging op de dagelijkse praktijk en data analyse.

Ik mocht er ook een praatje geven, over het spel-theoretische model van data delen dat ik vorig jaar met Paulien, Anne, en UU onderzoeker Feike Schieving geschreven heb. De conferentie was in Bergen, Noorwegen; een mooie stad aan zee omringd door bergen.

Interessante ideeën waren onder anderen:

  • Data librarians geven instructies over data cleaning, Git, visualisaties in R, text mining, al dan niet met hulp van Jupyter (hierin kan je uitvoerbare code en tekst voor uitleg zetten, cursisten kunnen dit dan uitvoeren).
  • Programmerende data librarians: b.v. een script voor het automatisch omzetten van .csv tabel naar codeboek
  • Repositories die hun data tot op variabelen niveau doorzoekbaar maken zoals UK data archive (en zie CESSDA voor meer data repositories in Sociale Wetenschappen)
  • Universiteitsbibliotheken met een expliciet stimulerend beleid op collectioneren van onderzoeksdatabases
  • Google analytics zoektermen-gebruik inzetten om gaten in de data collectie op te sporen: op wat voor trefwoorden wordt gezocht, en wat voor datasets zitten er daarvan in de collectie?
  • Veel praatjes over data curatie: het controleren van datasets en hun waarde vergroten door verbeteringen en het toevoegen van extra informatie
  • Actief (en automatisch) benaderen van onderzoekers, bijvoorbeeld die die te maken krijgen met Data Management eisen van financiers
  • Er zijn diverse assessment tools (maturity models) om na te gaan hoe ver je als organisatie bent met data diensten/infrastructuur

Verder bleek dat de metadata standaard DDI zeer actief ontwikkeld wordt, en dat dit echt de standaard is voor Sociale Wetenschappen om onderzoek te beschrijven. Bij DDI zitten ook veel gecontroleerde vocabulaires. Er was ook een leuk praatje die uitzocht wat een dataset herbruikbaar maakt. Datasets rechtstreeks gedeponeerd door onderzoekers zonder controle of curatie, werden het àllerminst gedownload. Een ander praatje keek naar de invloed van persoonlijke opvattingen op gedrag in data delen. O.a. welke onderzoekers aangaven data te delen, en hoeveel dit daadwerkelijk ook deden. Daar zat een flink gat.

Geplaatst in I&M2.0 | Een reactie plaatsen

Sci-Hub: access or convenience? A Utrecht case study (part 2)

In April of this year, John Bohannon , a freelance journalist working for Science magazine, in cooperation with Alexandra Elbakyan, Sci-Hub’s founder, released and analysed 6 months of Sci-Hub download data for the period September 2015-February 2016 (see:  Who’s downloading pirated papers? Everyone). Download data for individual articles and e-book chapters were attributed to country and city level using IP-geolocation.

Since at least part of the Sci-Hub downloads from a university city like Utrecht can be expected to come from download requests from the academic community (with a lower bound of 9%, see part 1 of this blog series), I set out to investigate the case of access versus convenience for the set of Sci-Hub downloads attributed to Utrecht.

Do people use Sci-Hub to get papers they do not otherwise have access to, or do they (also) go to Sci-Hub for convenience: a one-stop shop  to get access, without having to navigate library and publisher websites?

Starting from the subset of Sci-Hub download data attributed to The Netherlands that I created from the original dataset, I selected those downloads that were attributed to Utrecht. This resulted in a set of 3437 DOIs (digital object identifiers) for downloaded articles and e-book chapters. A number of DOIs was requested multiple times; after deduplication a set of 2968 DOIs remained. I then converted these to URLs by adding the prefix  https://dx.doi.org/

DOI: 10.1126/science.aaf5664 → URL: https://dx.doi.org/10.1126/science.aaf5664

 

Calling all DOIs

For this part of my analysis, I focused on availability through publishers – either via our library subscriptions or as Gold Open Access/otherwise free from publisherI did this by opening all URLs constructed from DOIs, both from inside and outside our institutional IP-range. I checked if the full-text version of the article (or e-book chapter) was available in either case. Information on our library subscriptions is publicly available.

In the Sci-Hub data release, John Bohannon included a lookup table matching DOI prefixes to publishers (e.g. 10.1126 for Science). This table, scraped from the website of CrossRef, made it easier to sort the DOIs by publisher and look them up in batches.

It would likely have been possible to at least partially automate the task of checking all DOIs for full-text availability from publishers, for instance by employing the CrossRef Text and Data Mining API. I did  not pursue this for this project, but for even larger datasets, it would definitely be an avenue to explore.

One advantage of manually checking all DOIs was that it allowed a window onto the variety of publisher platform and journal interfaces, with various degrees of ease in getting information on full-text availability. It certainly highlights the issue of ‘convenience’ in the discussion around obtaining access to scientific information.

The results

For each DOI, I noted whether it was available only from within our university IP-range (i.e. through our library subscriptions), also from outside this IP-range (i.e. gold Open Access or otherwise free from publisher) or neither (not available through publisher). Where access was provided by the publisher without subscription, but only after personal registration, I  did not count this as free access.

In Table 1 the results are presented, both for the overall Utrecht dataset and broken down by publisher. In total, 2878 of 2968 unique DOIs could be resolved, the others giving error messages.

Availability Utrecht Sci-Hub downloads through publishers

Table 1  – Availability of Utrecht Sci-Hub downloads through publishers

Overall, 75% of Utrecht Sci-Hub downloads would have been available either through our library subscriptions (60%) or as Gold Open Access/free from publisher (15%). In so far as these downloads were requested by academic users (i.e. affiliated with Utrecht University), use of Sci-Hub for these materials could be seen as ‘convenience’. For the remaining 25%, Sci-Hub use could be seen as a way of getting access to articles that are not freely available through publishers.

As always, the picture is more complicated than that, though. First, since we already established that only a subset of  downloads from university cities (up from 9%) can be directly attributed to use from within a university IP-range, it could still be that any Sci-Hub use from within university IP-ranges specifically concerns those materials that are not available through publishers (25% of Utrecht Sci-Hub downloads), thus representing a need for access rather than (just) convenience after all.

Conversely, even if we take into account possible use by academics, including students, from home (where they could also get institutional access by using their university’s proxy or VPN), a large proportion of downloads is likely requested by people outside academia. Unlike academics, who can’t access 25% of material in this Sci-Hub dataset, people outside academia don’t have legal access to up to 85% (depending on personal subscriptions or access through non-university employers). For this group, the conclusion that people primarily revert to Sci-Hub for access reasons also still looms large.

I have so far only looked at availability through publishers, not at Green Open Access. It will be interesting to see how many of requested downloads  are (or could be) freely and legally available because a version of the article or book chapter was deposited in an institutional or disciplinary repository, either as a preprint or after publication with a traditional publisher. I plan to do this analysis next (this time hopefully through the use of APIs!) and publish it as part 3 of this series.

Looking at the breakdown across publishers, Table 1 shows large differences between publishers, both in availability of subscription content (blue vs. red bars, reflecting the extent of our library subscriptions) and percentage of material downloaded from Sci-Hub that is available as Gold Open Access/free from publisher (green bars). The fact that for some publishers, a substantial proportion of Sci-Hub downloads concerns Gold Open Access/free from publisher material provides additional support for the ‘convenience’ hypothesis.

Two final remarks: first, in this analysis I have not tried to break down Sci-Hub downloads across disciplines, by looking at journal or article titles. This might be an interesting exercise though. To facilitate this, I have made the list of articles (metadata only, not full text) in the Utrecht subset of the Sci-Hub dataset available in Mendeley. To make this list, I used the Mendeley browser plugin to import article information based on the DOI. While not all DOIs could be retrieved in this way, the collection contains information on 2695 papers, representing 91% of unique Utrecht Sci-Hub downloads.

Finally, the number of Sci-Hub downloads as identified in this dataset is still very much lower than the millions of downloads done yearly through our library journal subscriptions. In this respect, Sci-Hub does not seem to pose a large ‘threat’ to the traditional system of paywalled access, at least not in the context of a large Western European university. Though theoretically this may change with growing awareness of Sci-Hub, the importance of Sci-Hub perhaps predominantly lies in bringing to the fore multiple issues in scholarly publishing, ranging from privileged access to pay-walled articles to  a demonstrated need for ease and convenience in accessing scientific literature.

Geplaatst in I&M2.0 | 8 reacties