Recursos
Corpus
Gold Standard de Factualitat TAGFACT
Aquest corpus conté l’anotació de la factualitat dels predicats verbals d’un corpus periodístic de l’espanyol de 22 notícies extretes de 6 diaris. Conté més de 10.000 mots i han estat etiquetats uns 1.300 predicats. Les notícies són bàsicament de temàtica política. Ha estat anotat manualment amb una fase d’entrenament prèvia. Es troba disponible per al públic en l’apartat Descàrrega.
SenSem Català >
Aquest corpus s´ha format a partir de la traducció de la secció de textos periodístics del corpus SenSem de l´espanyol. Està format per unes 600.000 paraules (20.000 oracions). El corpus SenSem espanyol està anotat amb informació sintàctico-semàntica que s´ha mantingut per al català, tot realitzant els ajustos oportuns. Els dos corpus estan paral·lelitzats, tot i que a través de la interfície de consulta sols es poden visualitzar les oracions de cada llengua de forma separada. La interfície de cerca permet moltes possibilitats d´interrogació i fins i tot permet visualitzar l´anotació de les oracions.
SenSem Espanyol >
Aquest corpus inclou textos de l´àmbit periodistic i, en menor mesura, del literari. És un corpus format per prop d´un milió de paraules (30.000 oracions). El corpus s´ha format a partir de l´extracció de 125 frases dels 250 verbs més freqüents de l´espanyol. Les oracions estan anotades manualment a nivell sintàctico-semàntic (rols semàntics, funcions sintàctiques, categories sintagmàtiques, construccions, aspectualitat, modalitat i polaritat). La interfície de consulta és molt completa i permet fer cerques per verb/s i/o per fenomen/fenòmens lingüístic/s. També es permet visualitzar l´anotació de les frases cercades.
Anotació semàntica dels noms del corpus SenSem
En aquest recurs s’ha ampliat l’anotació a nivel lèxic del corpus SenSem amb l’etiquetació dels noms argumentals de les oracions d’aquest corpus. Com a recurs semàntic s’ha utlitzat el WordNet 1.6 de l’espanyol.
Corpus Trilingüe Paral·lel GRIAL >
Aquest corpus pertany a l´àmbit de la informàtica i és un corpus paral·lel per a l´anglès, espanyol i català. Compèn un total de 2.257.498 mots (1.031.911, anglès; 891.903, espanyol; 393.684, català) i està anotat automàticament a nivell morfosintàctic.