Diensten voor text mining in de bibliotheek: verslag van het symposium bij de universiteitsbibliotheek Leiden.

Afgelopen maandagmiddag 22 september was ik in Leiden waar de resultaten werden gepresenteerd van een studie naar de mogelijke rol van de bibliotheek bij text mining, onder leiding van Isabel de Brouwer en Kurt de Belder. Intuïtief is dit direct een dienst die heel erg bij de bibliotheek hoort; informatie onttrekken aan geschreven text. Met een mooie term: ‘literature based discovery’. Er waren een aantal praatjes met voorbeelden van text mining: analyse van patronen van een dichter, analyse van ‘records’ van Ierse landverdelingen, analyse van karakteristiek woordgebruik van diverse politici, vergelijking woordgebruik tussen krant en tabloid en zelfs het voorspellen van stakingen op basis van nieuwsberichten. Bij text mining komt dan ook een portie statistiek kijken.

Wat betreft text mining tools was de conclusie dat er generieke tools zijn, maar dat per project toch vaak aanpassingen worden gedaan voor het specifieke doel.

Er werden heel expliciet rollen van de bibliotheek besproken:

– Het verder digitaliseren van de collectie
– Deze beschikbaar stellen (ook buiten de bibliotheek)
– Een basis expertise opdoen wat betreft text mining om onderzoekers op weg te kunnen helpen, en ondersteuning enkele basis text mining tools.
– API toegang verschaffen corpora
– Cursussen geven digital literacy, text mining
– Hard maken voor gunstige licenties voor text mining bij licentie onderhandelingen uitgevers
– Informatie overzicht verschaffen text mining projecten en tools

Al met al een interessante middag. Ik denk dat dit voor de UB ook een interessante dienst zou zijn om te bieden, ik ben in ieder geval overtuigd!

Met vriendelijke groeten,
Tessa Pronk

Dit bericht werd geplaatst in I&M2.0. Bookmark de permalink .

6 reacties op Diensten voor text mining in de bibliotheek: verslag van het symposium bij de universiteitsbibliotheek Leiden.

  1. Jan de Boer zegt:

    Een mooi praktijkvoorbeeld is het onderzoek dat Els Stronks gaat doen als fellow bij de KB/NIAS: http://blog.kb.nl/blogs/els-stronks. En als bonus leer je iets over mondige kinderen, voor het geval je daar zelf weer praktijkvoorbeelden van hebt rondlopen.

  2. Jan de Boer zegt:

    En de uitspraak over generieke tools en aanpassingen is heel herkenbaar. Onze ervaringen met de annotatietool als mogelijke dienst van de bibliotheek laten precies hetzelfde zien.
    Ik zie die tools als een soort lego. In de basis bestaan ze allemaal uit dezelfde stukken, het gaat er vooral om hoe je ze in elkaar zet en soms heb je daarbij een speciaal stukje nodig dat je nog niet had.

  3. Dafne Jansen zegt:

    Ik moet dan ook meteen aan CLARIN en bv. het PoliMedia project (http://www.clarin.nl/node/450) Ik zie de UB in eerste instantie als leverancier. Maar voor text mining doeleinden mogen we onze OCR wel eens onder handen nemen…

  4. tepronk zegt:

    Ja optical character recognition de basis om woorden te kunnen herkennen bij het daarna text minen van de digitale versie. Maar wie weet is daar ook wel weer tooling voor: text eerst opschonen voor analyse. Toevallig was polimedia een van de voorbeelden op de middag trouwens.

Geef een reactie

Vul je gegevens in of klik op een icoon om in te loggen.

WordPress.com logo

Je reageert onder je WordPress.com account. Log uit / Bijwerken )

Twitter-afbeelding

Je reageert onder je Twitter account. Log uit / Bijwerken )

Facebook foto

Je reageert onder je Facebook account. Log uit / Bijwerken )

Google+ photo

Je reageert onder je Google+ account. Log uit / Bijwerken )

Verbinden met %s