Nederlab maakt miljoenen teksten doorzoekbaar

  • 0

Onlangs lanceerden het Meertens Instituut en het Instituut voor de Nederlandse Taal de zoekmachine Nederlab. Dankzij Nederlab zijn miljoenen oude en nieuwe Nederlandse teksten, van het vroegste Middelnederlands tot het Nederlands uit de eenentwintigste eeuw, voor het eerst op één plek doorzoekbaar.

Nederlab telt op dit moment zo’n 74,5 miljoen titels en 18,5 miljard woorden. De oudste bron is het Corpus 14e-eeuws Nederlands van Piet van Reenen en Maaike Mulder, dat ongeveer 3000 ambtelijke documenten uit de veertiende eeuw bevat. Het meest eigentijds is het SoNaR-corpus, dat ruim 500 miljoen woorden bevat uit onder meer websites, sms-berichten, e-mail en chats. Nederlab geeft toegang tot teksten in verschillende genres, zoals historische kranten, romans, Bijbelteksten, dagboekfragmenten, briefwisselingen, oorkonden en gebeden.

Fascinerende bronnen die in Nederlab zijn opgenomen, zijn onder meer de correspondentie tussen verschillende zeventiende-eeuwse geleerden (onder wie Barlaeus, Descartes, Hugo de Groot, Antonie van Leeuwenhoek en de broers Christiaan en Constantijn Huygens), de “gekaapte brieven” van zeelieden en hun familie die tijdens de vier Engels-Nederlandse oorlogen uit de zeventiende en achttiende eeuw in Britse handen waren gevallen, en de brieven van Vincent van Gogh.

De meeste teksten waren al digitaal beschikbaar (bijvoorbeeld via de DBNL of Delpher), maar elk instituut gebruikte zijn eigen manier van digitaliseren, zodat de tekstcorpora niet gezamenlijk doorzoekbaar waren. Vijf jaar hebben het Meertens Instituut en het Instituut van de Nederlandse Taal met het Huygens ING, de Radboud Universiteit en de Rijksuniversiteit Groningen gewerkt aan het op elkaar afstemmen van de bestanden. Onder meer het Huygens ING en de Koninklijke Bibliotheek hebben toegang tot diverse collecties gegeven.

Ook zijn de data taalkundig verrijkt met lemma en woordsoort. Dat laatste betekent bijvoorbeeld dat “mensch” (oude spelling) en “mens” (nieuwe spelling) tegelijk uit de zoekmachine rollen. Of juist dat je alleen kunt zoeken op het bijvoeglijk naamwoord “arm” (weinig bezit hebben), en dat alle verschijningen van het zelfstandig naamwoord “arm” (lichaamsdeel) automatisch genegeerd worden.

Nu kun je met één druk op de knop miljoenen teksten tegelijk doorzoeken, waardoor er allerlei diachrone en synchrone verbanden zichtbaar worden. Nederlab biedt ook geavanceerde zoek- en analysemogelijkheden, visualisaties en statistieken. Te verwachten valt dan ook dat Nederlab voor het taalkundig, letterkundig en historisch onderzoek een belangrijk hulpmiddel zal worden.

De Nederlab-website is voor iedereen – niet alleen in Nederland, maar ook daarbuiten – gratis toegankelijk. Onderzoekers die aan een Europese universiteit verbonden zijn, kunnen inloggen om meer mogelijkheden krijgen, zoals toegang tot tekstfragmenten van auteursrechtelijk beschermd materiaal. Daarnaast biedt een account de gelegenheid om zoekresultaten op te slaan en als virtueel onderzoekscorpus te gebruiken binnen de Nederlab-onderzoeksomgeving.

Lees ook

Historische taalkunde voor de 21e eeuw

Buro: IG
  • 0
Top