Recursos

Corpus

SenSem Català >

Aquest corpus s´ha format a partir de la traducció de la secció de textos periodístics del corpus SenSem de l´espanyol. Està format per unes 600.000 paraules (20.000 oracions). El corpus SenSem espanyol està anotat amb informació sintàctico-semàntica que s´ha mantingut per al català, tot realitzant els ajustos oportuns. Els dos corpus estan paral·lelitzats, tot i que a través de la interfície de consulta sols es poden visualitzar les oracions de cada llengua de forma separada. La interfície de cerca permet moltes possibilitats d´interrogació i fins i tot permet visualitzar l´anotació de les oracions.

+ informació

 

SenSem Espanyol >

Aquest corpus inclou textos de l´àmbit periodistic i, en menor mesura, del literari. És un corpus format per prop d´un milió de paraules (30.000 oracions). El corpus s´ha format a partir de l´extracció de 125 frases dels 250 verbs més freqüents de l´espanyol. Les oracions estan anotades manualment a nivell sintàctico-semàntic (rols semàntics, funcions sintàctiques, categories sintagmàtiques, construccions, aspectualitat, modalitat i polaritat). La interfície de consulta és molt completa i permet fer cerques per verb/s  i/o per fenomen/fenòmens lingüístic/s. També es permet visualitzar l´anotació de les frases cercades.

+ informació

 

Anotació semàntica dels noms del corpus SenSem

En aquest recurs s’ha ampliat l’anotació a nivel lèxic del corpus SenSem amb l’etiquetació dels noms argumentals de les oracions d’aquest corpus. Com a recurs semàntic s’ha utlitzat el WordNet 1.6 de l’espanyol.

+ informació

 

Corpus Trilingüe Paral·lel GRIAL >

Aquest corpus pertany a l´àmbit de la informàtica i és un corpus paral·lel per a l´anglès, espanyol i català. Compèn un total de 2.257.498 mots (1.031.911, anglès; 891.903, espanyol; 393.684, català) i està anotat automàticament a nivell morfosintàctic.

+ informació