Proyectos

Estandarización y Transferencia de recursos léxicos y textuales

El objetivo principal de este proyecto es estandarizar el Banco de Datos SenSem (corpus y léxico del español y el catalán). Dicha estandarización se realiza en dos sentidos. Por un lado, se reforma la estructura de la información ya anotada para poder ofrecerla en un formato estándard y se crea la jerarquía adecuada (conversión a XML). Tambien se incluye la definición del tipo de documento (DTD). Por otro lado, se trabaja en la estandarización de las etiquetas usadas en la anotación del texto a partir del establecimiento de los paralelismos entre las diferentes propuestas de otros proyectos para el español y el catalán y también para el inglés, así como de algunes propuestas de estándares a nivel internacional (consultar documentación).
Por último, se subespecifica la anotación de un tipo de oraciones del corpus, aquellas que expresan modalidad no asertiva. De este modo se enriquece el corpus con nueva información semántica  a nivel oracional, como por ejemplo el significado que aportan los auxiliares de perífrasis. Dicha subespecificación es clave a la hora de distinguir cuándo se está transmitiendo un mandato, o realizando una pregunta, o haciendo una suposición, o expresando una creencia, etc., ya que las inferencias que subyacen en unos u otros casos son bien distintas.

Las interfaces actuales del proyecto, tanto la del corpus como la del léxico incluyen estas mejoras y todos los recursos se pueden descargar.

Financiación:

Ministerio de Ciencia e Innovación (FFI2011-27774)

Miembros:

Ana Fernández Montraveta

Glòria Vázquez García

Jaume Tió i Casacuberta