DH Clinics 3: Natural language processing en Linked Data

Op 17 oktober woonde ik samen met collega’s Jan de Boer en Coen van der Stappen het ochtendprogramma van de derde Digital Humanities Clinic bij, gewijd aan het thema: Natural language processing en Linked Data. De locatie was een zeer sfeervolle, nl.: de onlangs gerestaureerde bibliotheekzaal van het Rijksmuseum. In haar welkomstwoord verbond Saskia Scheltjens, hoofd Research Services van het Rijksmuseum, de geschiedenis met de toekomst: de indrukwekkende bibliotheekzaal met de hoog opgetaste collectie (die overigens maar een klein deel van de totale bibliotheekbezit omvat) is inmiddels aangevuld met vele omvangrijke databases, die ook een belangrijke rol (gaan) spelen in Linked Data-projecten in samenwerking met andere instellingen.

Hierna was het woord aan Marieke van Erp, werkzaam bij het KNAW Humanities Cluster. Zij ging op buitengewoon heldere wijze in op Natural Language Processing: het programmeren van computers op zodanige wijze dat zij grote hoeveelheden natuurlijke tekst kunnen analyseren. Marieke onderscheidde verschillende analyseniveaus: woordanalyse, syntactische analyse, contextanalyse en semantische analyse. Er worden zeker grote vorderingen gemaakt met betrekking tot het hanteren van statistische methodes, b.v. Named Entity Recognition, waarbij “namen” van personen, organisaties, plaatsen of wat dan ook “herkend” worden en (mede op basis van contextanalyse) op de juiste wijze worden geklasseerd. Hiervoor is overigens training van de software d.m.v het vooraf ingeven van (gedefinieerde) termen een voorwaarde. Met name de semantische analyse blijft echter een moeilijk punt: wat heeft de spreker of auteur nu eigenlijk bedoeld? Kortom: ook hier bleek naar mijn smaak weer dat digitale analysemethodes en close reading elkaar aanvullen.

De hierna volgende presentatie door Seth van Hooland (Vrije Universiteit Brussel) was aangekondigd als een lezing over Linked Data. Linked data kwam ook wel aan de orde, maar binnen een veel breder kader. Seth besprak vier methodes voor het modelleren van informatie die sinds de jaren zestig/zeventig gefunctioneerd hebben: eenvoudige tabellen, b.v. in Excel (waarbij het aanbrengen van een hiërarchie onmogelijk is); databases (die bij uitstek gericht zijn op het aanbrengen van een hiërarchische ordening van de informatie); XML (waarbij een hiërarchie wordt gecombineerd met extra semantische lagen) en RDF (waarbij “triples”, bestaande uit een subject, een predikaat en een object, onbeperkt aan elkaar gekoppeld kunnen worden.) Seth meldde dat hij enigszins gereserveerd stond t.o.v. RDF. RDF is naar zijn mening in feite een terugkeer naar het hiërarchieloze Excel-principe: de mogelijkheden om informatie af te schermen (zoals geboden door databases en XML) worden hiermee verlaten. Dat is op zichzelf prachtig maar kan ook veel problemen opleveren: de keten van triples kan eindeloos uitgebreid worden.

Ik heb genoten van deze zeer leerzame en breed georiënteerde ochtend. Het historische besef van Saskia Scheltjens, de state of the art-lezing van Marieke van Erp en de knappe conceptuele, en eigenlijk ook historische, presentatie van Seth van Hooland gingen prachtig samen.

Joost van Gemert

Een reactie op DH Clinics 3: Natural language processing en Linked Data

eduhackenitz zegt:

20/10/2017 om 9:29 am

Bij het IBM machine learning team hebben ze altijd een aardige quote die een computeralgorithme geheel van slag brengt. “We drive on a parkway but we park on a driveway”.
Named Entities in combinatie met bv. WikiData gaat vermoedelijk een grote vlucht nemen. Dat zou voor bibliotheken ook een speerpunt kunnen zijn.

Beantwoorden