Proyectos

SenSem: Banco de datos sintáctico y semántico del español

En el marco del proyecto SenSem (Sentence Semantics: Creación de una Base de Datos de Semántica Oracional) se ha creado  un corpus de frases anotadas a los niveles sintáctico y semántico.

El corpus fuente está formado por unos 13 millones de palabras extraídas de las versiones online de un diario escrito en español (El Periódico). De este corpus se han seleccionado aleatoriamente 25.000 frases, 100 para cada uno de los 250 verbos más frecuentes del español actual. Cada oración se ha etiqeutado de acuerdo con el sentido verbal que ejemplifica, el tipo de complementos, así como la categoria y la función sintáctica y semántica de éstos. También se ha incluido el tipo de semántica oracional que expresa la oración tanto en relación con la información aspectual como por lo que se refiere a la construcción.

A partir de este corpus anotado se ha creado una base de datos léxicos verbales donde se recoge toda la información incorporada a las oraciones. La unidad de descripción de los verbos es el sentido. En la descripción de los verbos se incluye la estructura argumental, incluyendo los patrones de subcategorización, la frecuencia de éstos, los roles semánticos y la información relativa a la semántica oracional.

El léxico y el corpus anotado estan asociados a nivel del sentido y juntamente configuran lo que llamamos banco de datos de la semántica oracional de los verbos en español. Los dos recursos están disponibles vía web y constituyen una fuente importante de información lingüística que resulta de gran utilidad en varias áreas del procesamiento del lenguaje natural, así como para la investigación lingüística en general.

Este proyecto se ha continuado con posterior financiación.

Financiación:

2004-2006 – Ministerio de Ciencia y Tecnología (BFF2003-06456)

Miembros:

Ana Fernández Montraveta

Irene Castellón Masalles

Glòria Vázquez García

Mihaela Topor

Jaume Tió i Casacuberta

 

Desarrollo:

Joan Antoni Capilla Pérez

Laura Alonso i Alemany

Iolanda Mateu Dolcet

Marta Coll-Florit

José Lara

Publicaciones:

  • Fernández, A., G. Vázquez, I. Castellón (2004). «La desambigüación automática de oraciones pronominales». J. Valera, J.M. Oró, J. Anderson (ed.), Lengua y Sociedad: Lingüística aplicada en la era global y multicultural. Universidad de Santiago de Compostela:, p. 127-144. ISBN: 84-9750-398-9
  • Vázquez, G., L. Alonso, I. Castellón, A. Fernández Montraveta (2004). «A Set of Heuristics for Semantic Sentence Disambiguation for Spanish», 4th International Conference on Language Resources and Evaluation (LREC 2004). Lisboa, Portugal. ISBN: 2-9517408-1-6
  • Vázquez, G., A. Fernández, I. Castellón (2004). «El corpus Sensem: caracterización sintáctico-semántica de los verbos del español». XXXIV Simposio de la Sociedad Española de Lingüística. Madrid
  • Castellón, I., A. Fernández, G. Vázquez (2005). «La semántica oracional del español: perspectiva desde el léxico». G. Wotjak, J. Cantero (ed.), Entre semántica léxica, teoría del léxico y sintaxis. Frankfurt:Leipzig. Peter Lang, Europaishcher Verlag der Wissenschaften, p. 113-122. ISBN: 3-631-53207-5. ISSN: 1436-1914
  • Vázquez, G., A. Fernández, L. Alonso (2005). «Description of the Guidelines for the Syntactico-semantic Annotations of a Corpus in Spanish». Angelova, G., K. Bontcheva, R. Mitkov, N. Nicolov (ed.), International Conference Recent Advances in Natural Language. Shoumen (Bulgaria):, p. 603-607. ISBN: 954-91743-3-6
  • Fernández, A., G. Vázquez, I. Castellón (2004). «Sensem: base de datos verbal del español». G. de Ita, O. Fuentes, M. Osorio (ed.), IX Ibero-American Workshop on Artificial Intelligence, IBERAMIA. Puebla de los Ángeles, Mexico:, p. 155-163. ISBN: 968-863-786-6
  • Alonso, L., J.A. Capilla, I. Castellón, A. Fernández, G. Vázquez (2005). «The Sensem Project: Syntactico-Semantic Annotation of Sentences in Spanish», Proceedings of the International Conference RANLP, p. 39-46. Borovets, Bulgaria. ISBN: 954-91743-3-6
  • Castellón, I., A. Fernández, G. Vázquez, L. Alonso, J.A. Capilla (2006). «The Sensem Corpus: a Corpus Annotated at the Syntactic and Semantic Level», Fifth International Conference on Language Resources and Evaluation (LREC), p. 355-359
  • Alonso, L., I. Castellón, N. Tincheva (2006). «Detección automática de errores en el Corpus Sensem», Congreso de la Asociación Española de Lingüística Aplicada (AESLA)
  • Vázquez, G., L. Alonso, J.A. Capilla, I. Castellón, A. Fernández (2006). «SenSem: sentidos verbales, semántica oracional y anotación de corpus», Procesamiento del Lenguaje Natural, 37, p. 113-120. ISSN: 1135-5948
  • Fernández, A., G. Vázquez, I. Castellón (2006). «SenSem: a Databank for Spanish Verbs», Proceedings of the X Ibero-American Workshop on Artificial Intelligence, IBERAMIA.. Ribeirão Preto, Brasil
  • Fernández, A., G. Vázquez y D. Teruel (2007). «Interfaz de explotación del corpus SenSem». R. Mairal et al. (ed.), Aprendizaje de lengua, uso del lenguaje y modelación cognitiva. Perspectivas aplicadas entre disciplinas.. Madrid:UNED, p. 1501-08. ISBN: 978-84-611-6897-2. ISSN: 978-84-611-6897-2