Paperity: a multidisciplinary Open Access content aggregator

Although the main target of Open Access is … well, just that, content being freely and openly accessible for anyone in perpetuity, it does have the additional advantage that content may be re-used. Of course that use has to fit with the license given, but with most OA having a CC-BY license, there are a lot of opportunities for aggregation, text mining and the like. It is interesting that up to now only a few aggregation initiatives have sprung up, most notably PubMed Central (3.2M full text OA papers) and Europe PubMed Central  (570K full text OA papers), that aggregate OA content in biomedical and life science. In PMC and PMC Europe most content is deposited by publishers and authors. Apart from these subject specific initiatives there aren’t many full text OA aggregators. Other sites either are not limited to OA and do not aggregate the papers in one place (e.g. Google Scholar) or  do no full text indexing and also no aggregation (e.g. BASE, Oaister, DOAJ).

Enter Paperity, that was launched last week (so in October 2014): a multidisciplinary aggregator of Open Access scholarly content. It holds over 160K articles from over 2,100 journals. It is an initiative from Poland (well at least the founder is from Poland, although the website is registered in France) and led by Marcin Wojnarski. Paperity has a slick and friendly website that offers access to aggregated OA content, with full text search and a built-in PDF-reader. It promises more functionality to communicate around papers and use Web 2.0 options. It has a list of journals covered, and links to versions of the same paper on publisher websites. Publishers/editors of OA journals can request for their journals to be included.

Almost immediately, on Twitter and  in a thread over at the GOAL Open Access discussion list, questions were raised, and answers given, that I will summarize here.

1) What are the inclusion criteria used by Paperity? Paperity aims at 100% of Open Access peer reviewed papers. Currently it is at 160K papers, which is somewhere around 10% of Gold OA papers but below 2 percent if you include of Green OA content. It is not stated explicitly but it seems logical y that Paperity only aggregates stuff that it is allowed to aggregate (so not if ‘no derivatives’ is in the CC license).
2) What is the business model of Paperity? Paperity seems to have started as a ‘non-profit academic project’, but it will have to look for more structural funding, which might include adds or charging journals.
3) Will Paperity allow text mining through a API or otherwise? According to Wojnarski that is not possible currently but Paperity is certainly sympathetic to the idea.
4) Why does Paperity focus on Gold OA journals? Paperity regards this content as the most reliable in terms of bibliographic data. Although repositories are easy to harvest, Paperity says that determining the version and status of texts is more difficult than with publisher provided full text journals. This initial focus on Gold OA also makes it easier to strictly have only peer reviewed content, according to Paperity.

If Paperity develops further I would like to see them start aggregating Green OA soon and also add more functionality in the built in PDF reader (e.g. annotations), text mining options, more advanced search and browsing and faceted search results.

Jeroen Bosman, @jeroenbosman

Geplaatst in I&M2.0 | 4 reacties

Waarom hebben wij een etalage voor de scripties?

Ik doe onderzoek naar het gebruik van en alternatieven voor onze scriptie etalage (http://studenttheses.library.uu.nl/), als dienst bij ons Scriptie Archief. Waarom bieden wij een aparte ingang met blader- en zoekfunctionaliteit voor Utrechtse scripties? Ongeveer 90% van het gebruik van de scripties in het archief gaat buiten onze etalage om.

Hieronder een aantal specifieke doelen die de etalage mogelijk dient.

  1. Known item search: zoeken naar een specifieke Utrechtse scriptie.
  2. Overzicht van binnen een opleiding gepubliceerde scripties, als voorbeeld/inspiratie voor studenten die starten met een scriptie.
  3. Idem, maar dan voor een specifieke supervisor.
  4. Overzicht van binnen een opleiding gepubliceerde scripties tbv een visitatie
  5. Overzicht van binnen een opleiding gepubliceerde scripties tbv aankomende studenten.

Heeft iemand hier iets aan toe te voegen?

Een mogelijk alternatief voor onze etalage is een landelijk zoeksysteem voor scripties, gemaakt in Groningen (http://scripties.ned.ub.rug.nl/). Ik dacht dat er ook nog een Engelse/Amerikaanse zoekmachine was waarmee onze scripties te vinden waren, maar kan die nergens terug vinden. Iemand een idee?

Geplaatst in I&M2.0 | 9 reacties

ORCID en DataCite bijeenkomst: standaarden voor identificatie

ORCID http://orcid.org/ is een internationaal, onafhankelijk initiatief om unieke identificatie van auteurs te bereiken door het toekennen van een uniek, persistent nummer. Dit kan dan gelinkt worden aan publicaties en andere objecten: weg probleem dat 1001 auteurs hetzelfde heten.
DataCite http://www.datacite.org/whatisdatacite is een internationaal initiatief om de volgende optie onder de aandacht te brengen: Onderzoeksdata als citeerbaar object, door unieke ‘persistent identifiers’ (PID) te geven aan gepubliceerde sets met onderzoeksdata.

Afgelopen woensdag 24 september was ik in Amsterdam voor de ORCID en DataCite bijeenkomst.

Het belang van een klikbare link tussen publicatie en onderzoeksdata werd nogmaals benadrukt. Dit kan door de PID’s van beide objecten ook op te nemen in beide objecten.
Ook het belang van het opnemen van deze identificeerders (ORCID, PID) in het CRIS systeem van een instituut werd genoemd.

Ook goede voorbeelden: Bij Emperial College besloot het CvB om IEDERE onderzoeker van de universiteit een ORCID toe te kennen via mail, met de optie deze privé te houden. Een universiteit in Texas besloot juist om alle graduate students een ORCID toe te kennen.

Er werd geconcludeerd dat ORCID en PID de basis zijn voor een goede en duurzame link tussen auteurs en hun producten. Het zijn inderdaad hele goede en nuttige initiatieven, om in mee te gaan of ten minste goed in de gaten te houden.

Geplaatst in I&M2.0 | 2 reacties

Diensten voor text mining in de bibliotheek: verslag van het symposium bij de universiteitsbibliotheek Leiden.

Afgelopen maandagmiddag 22 september was ik in Leiden waar de resultaten werden gepresenteerd van een studie naar de mogelijke rol van de bibliotheek bij text mining, onder leiding van Isabel de Brouwer en Kurt de Belder. Intuïtief is dit direct een dienst die heel erg bij de bibliotheek hoort; informatie onttrekken aan geschreven text. Met een mooie term: ‘literature based discovery’. Er waren een aantal praatjes met voorbeelden van text mining: analyse van patronen van een dichter, analyse van ‘records’ van Ierse landverdelingen, analyse van karakteristiek woordgebruik van diverse politici, vergelijking woordgebruik tussen krant en tabloid en zelfs het voorspellen van stakingen op basis van nieuwsberichten. Bij text mining komt dan ook een portie statistiek kijken.

Wat betreft text mining tools was de conclusie dat er generieke tools zijn, maar dat per project toch vaak aanpassingen worden gedaan voor het specifieke doel.

Er werden heel expliciet rollen van de bibliotheek besproken:

- Het verder digitaliseren van de collectie
– Deze beschikbaar stellen (ook buiten de bibliotheek)
– Een basis expertise opdoen wat betreft text mining om onderzoekers op weg te kunnen helpen, en ondersteuning enkele basis text mining tools.
– API toegang verschaffen corpora
– Cursussen geven digital literacy, text mining
– Hard maken voor gunstige licenties voor text mining bij licentie onderhandelingen uitgevers
– Informatie overzicht verschaffen text mining projecten en tools

Al met al een interessante middag. Ik denk dat dit voor de UB ook een interessante dienst zou zijn om te bieden, ik ben in ieder geval overtuigd!

Met vriendelijke groeten,
Tessa Pronk

Geplaatst in I&M2.0 | 6 reacties

Meer weten over PURE?

Ik kwam toevallig op het Youtube kanaal van de UU twee filmpjes tegen over PURE. Interessant! (Denk ik tenminste, ik heb nog geen tijd gehad er zelf naar te kijken).

https://www.youtube.com/user/UniversiteitUtrecht/videos

 

Geplaatst in I&M2.0 | 2 reacties

Verslag m-libraries 2014

Voor de zomer was ik op het m-libraries-congres, dat de Open University (UK) dit jaar samen met de Chinese University of Hong Kong organiseerde en dat daarom deze keer in Hong Kong plaatsvond.

In 2012 was ik (samen met Bianca Kramer) ook aanwezig op dit congres; toen in Milton Keynes, UK. Destijds zaten we hier middenin het UBUSmart-project en viel er voor mij vooral veel te consumeren. Deze keer heb ik weer goed rondgekeken, maar kon (en mocht) ik zelf ook een concreet verhaal vertellen, natuurlijk gebaseerd op onze eigen ervaringen en ‘lessons learned’ uit het UBUSmart-project.

‘Mobiel’ is natuurlijk een brede verzamelnaam, dus het zal niet verbazen dat één van de dingen die ik heb meegenomen van het congres, een lange lijst met interessante gedachten, ideeën en projecten van wisselend niveau is. Hier een aantal zaken die naar mijn idee ook voor de UBU interessant zijn:

  • Bereikbaar zijn via Whatsapp (dus als extra communicatiekanaal, naast e-mail, telefoon en face to face). Handig, omdat op smartphones whatsapp handiger en laagdrempeliger is dan e-mail (wat überhaupt steeds minder wordt gebruikt). Een aansprekend voorbeeld vond ik de situatie waarin een bibliotheekgebruiker een foto’tje stuurde van een deurkruk die kapot was – dat lijkt me typisch iets wat je met whatsapp veel eerder doet dan met e-mail. Gebruikers gaven aan het informele karakter van de communicatie erg te waarderen.
  • Een Google Glass-bril aanschaffen en uitlenen (voor maximaal een week oid per keer). Google Glass schijnt bij uitstek iets te zijn wat je moet ervaren om het te kunnen begrijpen; iets wat wij heel goed zouden kunnen faciliteren. Wel prijzig nog, geloof ik – zo’n $1500, maar voor dat geld komen we dan wel heel fancy over.
  • Een chat robot inzetten voor 24/7 bereikbaarheid. Hét onderscheidende kenmerk van zo’n chat robot bleek niet, zoals ik zelf dacht, de bereikbaarheid rond de klok te zijn, maar juist de neutraliteit van de antwoorden – gebruikers durfden (in de bibliotheek waar ‘ie werd ingezet) vragen te stellen die ze bij mensen van vlees en bloed niet zo snel kwijt durfden. Ik word dan wel nieuwsgierig naar wat dat zegt over het personeel daar, maar ook naar hoe dat hier zou zijn en naar wat het verschil is tussen de vragen aan personeel en aan de chat robot. Overigens: deze robot was gebaseerd op OSS en ‘leert’ van de interactie met gebruikers, waardoor ‘ie om de zoveel tijd ook gereset moest worden om van alle aangeleerde schunnige taal af te komen.. Al met al flink genoeg redenen om ermee te experimenteren :)
  • Simpel maar effectief, denk ik: geef gebruikers de mogelijkheid om de locatiegegevens van items die ze hebben opgezocht in de catalogus, simpel door te sturen naar hun smartphone of tablet. Dat scheelt het noteren van reeksen geheimzinnige codes op een papiertje, of het maken van een foto van het scherm. En, voor het vervolg: zet de smartphone of tablet in bij het vinden van de juiste kast en de juiste plank.
  • ‘User Response Systemen’ – of gewoon ‘stemkastjes’ – via je smartphone of tablet, bijvoorbeeld via http://ureply.mobi of http://www.socrative.com/ (er zijn er vast meer). Hiermee kun je plenair groepen laten reageren op vragen of feedback laten geven, op een gebruiksvriendelijke manier. (Je kunt je hierbij afvragen in hoeverre dit een UB-dienst is en of zoiets niet geleverd zou moeten worden door ITS. Of wordt het dat misschien al?)

Wat ik op dit congres verder heb meegekregen, is hoe lastig bibliotheken wereldwijd het vinden om om te gaan met zoiets ingrijpends als de zogenaamde mobiele revolutie. Veel van de key notes gaven een enthousiast overzicht van de ‘wondere wereld‘ van de mobiele techniek (ondersteund met de nodige cijfers over penetratiegraden en ‘meer telefoons dan mensen’ en dergelijke), maar blijven vervolgens steken in de aankondiging van een mooie toekomst en wat dan allemaal mogelijk zal zijn. Ik zou juist graag willen weten wat we nú kunnen en zouden moeten doen voor onze gebruikers.

Zo vind ik de QR-code één van de mooiste illustraties van een techniek waarover mensen ongebreideld enthousiast kunnen raken. Ook op dit congres werd een aantal keer enthousiast gepresenteerd wat je er allemaal wel niet mee zou kunnen in bibliotheken. Vergelijk dat met de presentatie van Alison MacKenzie, waarin zij benadrukte dat je je enkel moet focussen op lacunes waarvan je het bestaan kunt bewijzen. Zij stelt, na het een en ander te hebben uitgeprobeerd, dat je vooral géén QR-codes moet inzetten: zelfs als je mensen op de man of vraagt óf ze meer QR-codes willen, zeggen ze ‘ja’, maar in de (haar) praktijk bleken ze uiteindelijk toch nauwelijks te worden gebruikt. Dit lijkt me het soort inzichten waar andere bibliotheken direct hun voordeel mee kunnen doen!

Mooie ideeën over wat er allemaal mogelijk is worden extra waardevol als je ze daadwerkelijk in de praktijk hebt getoetst – en ze die toetsing ook hebben doorstaan. Lang niet in elke UB lijkt de ruimte en gelegenheid te bestaan om ook die tweede slag te maken. Hier in Utrecht mogen we daarom in onze handen knijpen dat we wél over de mogelijkheden beschikken (ontwikkelaars, een management met oog voor innovatie) om onze mooie ideeën – al dan niet over mobiel – aan de harde praktijk te toetsen.

Geplaatst in I&M2.0 | Een reactie plaatsen