Projectes

SenSem: Banc de dades sintàctic i semàntic de l’espanyol

En el marc del projecte SenSem (Sentence Semantics: Creación de una Base de Datos de Semántica Oracional) s’ha creat un corpus de frases anotades als nivells sintàctic i semàntic.

El corpus font està format per 13 milions de paraules extretes de les versions online d’un diari escrit en espanyol (El Periódico). D’aquest corpus s’han seleccionat aleatòriament 25.000 frases, 100 per cadascun dels 250 verbs més freqüents de l’espanyol actual. Cada oració s’ha etiquetat pel que fa al sentit verbal que exemplifica, al tipus de complements, així com la categoria i la funció sintàctica i semàntica d’aquests. També s’hi ha inclòs el tipus de semàntica oracional que expressa l’oració tant pel que fa a la informació aspectual com a la construcció.

A partir d’aquest corpus s’ha creat una base de dades lèxica verbal on es recull tota la informació incorporada a les oracions. La unitat de descripció dels verbs és el sentit. En la descripció dels verbs s’inclou l’estructura argumental, incloent els patrons de subcategorització, la freqüència d’aquests, els rols semàntics i la informació relativa a la semàntica oracional.

El lèxic i el corpus anotat estan associates a nivell de sentit i juntament configuren el que anomenem banc de dades de la semàntica oracional dels verbs en espanyol. Ambdós recursos estan disponibles via web i constitueixen una font molt important d’informació lingüística que resulta de gran utilitat en diverses àrees del processament del llenguatge natural, així com per a la investigació lingüística en general.

Aquest projecte s’ha continuat amb posterior finançament.

Finançament:

2004-2006 – Ministerio de Ciencia y Tecnología (BFF2003-06456)

Membres:

Ana Fernández Montraveta

Irene Castellón Masalles

Glòria Vázquez García

Mihaela Topor

Jaume Tió i Casacuberta

Desenvolupament:

Joan Antoni Capilla Pérez

Laura Alonso i Alemany

Iolanda Mateu Dolcet

Marta Coll-Florit

José Lara

Publicacions:

Fernández, A., G. Vázquez, I. Castellón (2004). “La desambigüación automática de oraciones pronominales”. J. Valera, J.M. Oró, J. Anderson (ed.), Lengua y Sociedad: Lingüística aplicada en la era global y multicultural. Universidad de Santiago de Compostela:, p. 127-144. ISBN: 84-9750-398-9
Vázquez, G., L. Alonso, I. Castellón, A. Fernández Montraveta (2004). “A Set of Heuristics for Semantic Sentence Disambiguation for Spanish”, 4th International Conference on Language Resources and Evaluation (LREC 2004). Lisboa, Portugal. ISBN: 2-9517408-1-6
Vázquez, G., A. Fernández, I. Castellón (2004). “El corpus Sensem: caracterización sintáctico-semántica de los verbos del español”. XXXIV Simposio de la Sociedad Española de Lingüística. Madrid
Castellón, I., A. Fernández, G. Vázquez (2005). “La semántica oracional del español: perspectiva desde el léxico”. G. Wotjak, J. Cantero (ed.), Entre semántica léxica, teoría del léxico y sintaxis. Frankfurt:Leipzig. Peter Lang, Europaishcher Verlag der Wissenschaften, p. 113-122. ISBN: 3-631-53207-5. ISSN: 1436-1914
Vázquez, G., A. Fernández, L. Alonso (2005). “Description of the Guidelines for the Syntactico-semantic Annotations of a Corpus in Spanish”. Angelova, G., K. Bontcheva, R. Mitkov, N. Nicolov (ed.), International Conference Recent Advances in Natural Language. Shoumen (Bulgaria):, p. 603-607. ISBN: 954-91743-3-6
Fernández, A., G. Vázquez, I. Castellón (2004). “Sensem: base de datos verbal del español”. G. de Ita, O. Fuentes, M. Osorio (ed.), IX Ibero-American Workshop on Artificial Intelligence, IBERAMIA. Puebla de los Ángeles, Mexico:, p. 155-163. ISBN: 968-863-786-6
Alonso, L., J.A. Capilla, I. Castellón, A. Fernández, G. Vázquez (2005). “The Sensem Project: Syntactico-Semantic Annotation of Sentences in Spanish”, Proceedings of the International Conference RANLP, p. 39-46. Borovets, Bulgaria. ISBN: 954-91743-3-6
Castellón, I., A. Fernández, G. Vázquez, L. Alonso, J.A. Capilla (2006). “The Sensem Corpus: a Corpus Annotated at the Syntactic and Semantic Level”, Fifth International Conference on Language Resources and Evaluation (LREC), p. 355-359
Alonso, L., I. Castellón, N. Tincheva (2006). “Detección automática de errores en el Corpus Sensem”, Congreso de la Asociación Española de Lingüística Aplicada (AESLA)
Vázquez, G., L. Alonso, J.A. Capilla, I. Castellón, A. Fernández (2006). “SenSem: sentidos verbales, semántica oracional y anotación de corpus”, Procesamiento del Lenguaje Natural, 37, p. 113-120. ISSN: 1135-5948
Fernández, A., G. Vázquez, I. Castellón (2006). “SenSem: a Databank for Spanish Verbs”, Proceedings of the X Ibero-American Workshop on Artificial Intelligence, IBERAMIA.. Ribeirão Preto, Brasil
Fernández, A., G. Vázquez y D. Teruel (2007). “Interfaz de explotación del corpus SenSem”. R. Mairal et al. (ed.), Aprendizaje de lengua, uso del lenguaje y modelación cognitiva. Perspectivas aplicadas entre disciplinas.. Madrid:UNED, p. 1501-08. ISBN: 978-84-611-6897-2. ISSN: 978-84-611-6897-2