Tesis

Adquisició d’informació lèxica i morfosintàctica a partir de corpus sense anotar: aplicació al rus i al croat (2004)

Autor/a: Antoni Oliver Gonzalez

Dirección: Irene Castellón y Lluís Màrquez

En esta tesis se presentan diversas metodologías de adquisición automática de información léxica y morfosintáctica y de aprendizaje no supervisado de la morfología a partir de corpus sin anotar. Las metodologías que presentamos se han probado para dos lenguas eslavas: el ruso y el croata; lenguas que se caracterizan por tener una morfología muy rica y predominantemente concatenativa. Esta característica se ha aprovechado en el diseño de los algoritmos, que se pueden adoptar fácilmente para funcionar con otras lenguas, siempre y cuando presenten una morfología relativamente rica y con los principales procesos morfológicos, ya sean sufixales o prefixales, que se puedan describir de un modo concatenativo. Se ha hecho una evaluación exhaustiva de las metodologías presentadas y se ha demostrado que funcionan muy satisfactoriamente para estas lenguas. El hecho que los algoritmos funcionen a partir de corpus sin anotar hace que sean muy interesantes para la creación de nuevos recursos léxicos o bien para la ampliación de recursos existentes. Los algoritmos presentados en este trabajo pueden hacer uso de internet para buscar información no presente en el corpus. Eso hace que se puedan aplicar los procesos sin la necesidad de recopilar corpus de gran medida.