Recursos

Corpus

Gold Standard de Factualitat TAGFACT

Aquest corpus conté l’anotació de la factualitat dels predicats verbals d’un corpus periodístic de l’espanyol de 22 notícies extretes de 6 diaris. Conté més de 10.000 mots i han estat etiquetats uns 1.300 predicats. Les notícies són bàsicament de temàtica política. Ha estat anotat manualment amb una fase d’entrenament prèvia. Es troba disponible per al públic en l’apartat Descàrrega.

+ informació

SenSem Català >

Aquest corpus s´ha format a partir de la traducció de la secció de textos periodístics del corpus SenSem de l´espanyol. Està format per unes 600.000 paraules (20.000 oracions). El corpus SenSem espanyol està anotat amb informació sintàctico-semàntica que s´ha mantingut per al català, tot realitzant els ajustos oportuns. Els dos corpus estan paral·lelitzats, tot i que a través de la interfície de consulta sols es poden visualitzar les oracions de cada llengua de forma separada. La interfície de cerca permet moltes possibilitats d´interrogació i fins i tot permet visualitzar l´anotació de les oracions.

+ informació

SenSem Espanyol >

Aquest corpus inclou textos de l´àmbit periodistic i, en menor mesura, del literari. És un corpus format per prop d´un milió de paraules (30.000 oracions). El corpus s´ha format a partir de l´extracció de 125 frases dels 250 verbs més freqüents de l´espanyol. Les oracions estan anotades manualment a nivell sintàctico-semàntic (rols semàntics, funcions sintàctiques, categories sintagmàtiques, construccions, aspectualitat, modalitat i polaritat). La interfície de consulta és molt completa i permet fer cerques per verb/s i/o per fenomen/fenòmens lingüístic/s. També es permet visualitzar l´anotació de les frases cercades.

+ informació

Anotació semàntica dels noms del corpus SenSem

En aquest recurs s’ha ampliat l’anotació a nivel lèxic del corpus SenSem amb l’etiquetació dels noms argumentals de les oracions d’aquest corpus. Com a recurs semàntic s’ha utlitzat el WordNet 1.6 de l’espanyol.

+ informació

Corpus Trilingüe Paral·lel GRIAL >

Aquest corpus pertany a l´àmbit de la informàtica i és un corpus paral·lel per a l´anglès, espanyol i català. Compèn un total de 2.257.498 mots (1.031.911, anglès; 891.903, espanyol; 393.684, català) i està anotat automàticament a nivell morfosintàctic.

+ informació