Corpora & lexica

Computationele lexica

Computationele lexica zijn gestructureerde datasets met woorden en taalkundige informatie over die woorden (woordsoort, uitspraak, betekenis, etc.), bedoeld om door een computerprogramma gebruikt te worden. De INT-lexica zijn GiGaNT, DiaMaNT, de IMPACT-lexica en het PAROLE-lexicon.

English version

Computational lexicons

Computational lexicons are structured data sets containing words and linguistic information about those words, intended to be used by a computer programme. The type of information that can be found in a computational lexicon depends on the purpose the lexicon will serve.

Examples of information offered by a computational lexicon are: lemma and part of speech, information on paradigms, valence, pronunciation, word breaks, morphology and semantics, etc.

Computational lexicons exist for both contemporary and historical Dutch. Usually corpora are used as sources for the lexicons, but sometimes other lexicons are used, or scientific dictionaries containing citations.

Further reading

Computationele lexica zijn gestructureerde datasets met woorden en informatie over die woorden, bedoeld om door een computerprogramma gebruikt te worden. De informatie die in een computationeel lexicon te vinden is, hangt af van het doel waarvoor het lexicon wordt ingezet.

Voorbeelden van informatie die wordt geboden in een computationeel lexicon zijn: lemmata en woordsoort, paradigma-informatie, valentie-informatie, uitspraakinformatie, informatie over afbreekplaatsen van woorden, morfologische informatie, semantische informatie, etc.

Computationele lexica bestaan er zowel voor het hedendaags als voor het historisch Nederlands. Als bron voor de lexica worden er meestal corpora gebruikt (grote verzamelingen van geschreven of gesproken teksten), maar soms ook andere lexica, of wetenschappelijke woordenboeken met citatenmateriaal.

Meer lezen