Key words:
|
Corpus Nederlandse taal Vlaams geschreven woord STEVIN |
Organization:
|
Taalwetenschap CLST - Centre for Language and Speech Technology |
Abstract:
|
Het SoNaR-corpus is een tekstcorpus dat bestaat uit twee delen, nl. SoNaR-500 en SoNaR-1.
SONAR-500 bevat meer dan 500 miljoen woorden tekst afkomstig uit uiteenlopende domeinen en genres. Alle teksten werden getokeniseerd, ge-POS-tagd en gelemmatiseerd. Ook de named entities werden gelabeld. Alle annotaties van SoNaR-500 werden automatisch geproduceerd.
SoNaR-1 is grotendeels een subset van SoNaR-500 en bevat 1 miljoen woorden. SoNaR-1 werd voorzien van verschillende soorten semantische annotaties, nl. named entity labelling, coreferentieannotatie en de annotatie van spatiële en temporele relaties. Alle annotaties van SoNaR-1 werden manueel geverifieerd.
De nieuwemediateksten (tweets, chats en sms'en), die ook verzameld werden in het kader van het STEVIN-project SoNaR maken geen deel uit van het SoNaR-corpus 1.0. en zijn apart als SoNar Nieuwe Media Corpus beschikbaar.
[ISBN: 9789491325021]
|
Audience(s):
|
Language and literature studies |