Recursos

Corpus

Corpus Gold Standard de Factualidad TAGFACT

Este corpus contiene la anotación de la factualidad de los predicados verbales de un corpus periodístico del español de 22 noticias extraídas de 6 diarios. Contiene más de 10.000 palabras y han sido etiquetados unos 1.300 predicados. Las noticias son básicamente de temática política. Ha sido anotado manualmente con una fase de entrenamiento previa. Se encuentra disponible para el público en el apartado Descarga.

+ información

SenSem Catalán >

Este corpus se ha constituido a partir de la traducción de la sección de textos periodísticos del corpus SenSem del español. Está formado por unas 600.000 palabras (20.000 oraciones). El corpus SenSem español está anotado con información sintáctico-semántica que se ha mantenido para el catalán, realizando los ajustes oportunos. Los dos corpus están paralelizados, aunque a través de la interfaz de consulta sólo se pueden visualizar las oraciones de cada lengua de forma separada. La interfaz de búsqueda permite muchas posibilidades de interrogación e incluso permite visualizar la anotación de las oraciones.

+ información

SenSem Español >

Este corpus incluye textos del ámbito periodístico y, en menor medida, del literario. Es un corpus formado por cerca de un millón de palabras (30.000 oraciones). El corpus se ha formado a partir de la extracción de 125 frases de los 250 verbos más frecuentes del español. Las oraciones están anotadas manualmente a nivel sintáctico-semántico (roles semánticos, funciones sintácticas, categorías sintagmáticas, construcciones, aspectualidad, modalidad y polaridad). La interfaz de consulta es muy completa y permite hacer búsquedas por verbo/s y/o por fenómeno/s lingüístico/s. También se puede visualizar la anotación de las frases obtenidas en la búsqueda.

+ información

Anotación semántica de los nombres del corpus SenSem

En este recurso se ha ampliado la anotación a nivel léxico del corpus SenSem con la etiquetación de los nombres argumentales de las oraciones de dicho corpus. Como recurso semántico se ha utilizado WordNet 1.6 del español.

+ información

Corpus Trilingüe Paralelo GRIAL >

Este corpus pertenece al ámbito de la informática y es un corpus paralelo para el inglés, el español y el catalán. Comprende un total de 2.257.498 palabras (1.031.911, inglés; 891.903, español, 393.684, catalán) y está anotado automáticamente a nivel morfosintáctico.

+ información