Tesis

Adquisició d’informació lèxica i morfosintàctica a partir de corpus sense anotar: aplicació al rus i al croat (2004)

Autor/a: Antoni Oliver Gonzalez

Direcció: Irene Castellón and Lluís Màrquez

En aquesta tesi es presenten diverses metodologies d’adquisició automàtica d’informació lèxica i morfosintàctica i d’aprenentatge no supervisat de la morfologia a partir de corpus sense anotar. Les metodologies que presentem s’han provat per a dues llengües eslaves: el rus i el croat; llengües que es caracteritzen per tenir una morfologia molt rica i predominantment concatenativa. Aquesta característica s’ha aprofitat en el disseny dels algorismes, que es poden adaptar fàcilment per funcionar per altres llengües, sempre i quan presentin una morfologia relativament rica i amb els principals processos morfològics, ja siguin sufixals o prefixals, que es puguin descriure d’una manera concatenativa. S’ha fet una avaluació exhaustiva de les metodologies presentades i s’ha demostrat que funcionen molt satisfactòriament per aquestes llengües. El fet que els algorismes funcionin a partir de corpus sense anotar fa que siguin molt interessants per a la creació de nous recursos lèxics o bé per a l’ampliació de recursos existents. Els algorismes presentats en aquest treball poden fer ús d’internet per cercar informació no present al corpus. Això fa que es puguin aplicar els processos sense la necessitat de recopilar corpus de gran mida.