Tesis

Significado, distribución y frecuencia de la categoría preposicional del español. Una aproximación computacional (2020)

Autor: Francesc Reina González

Direcció: Irene Castellón iLluís Padró

 

La categoria preposicional ha estat, tradicionalment, una classe de paraula proveïda de trets lingüístics i conductes gramaticals controvertides. A la tesi s’examina la controvèrsia des d’una metodologia quantitativa, computacional i de lingüística de corpus. La bretxa més inexplicada en la història d’aquesta dificultat d’anàlisi ha estat com identificar el seu significat.

Des d’una concepció neodistribucionalista, segons la qual el significat de les peces lingüístiques es troba en la seva distribució contextual, la hipòtesi que es planteja és que aquesta expressió semàntica de les preposicions en espanyol és gradual. L’anomenada Hipòtesi Gradual del Significat estableix quatre subclasses preposicionals, des de la funcionalitat fins a la lexicidad, passat per fases intermèdies com semifuncionales i semiléxicas.

La justificació empírica de la Hipòtesi Gradual de l’Significat es realitza amb quatre experiments.

El primer s’insereix en la metodologia de l’aprenentatge automàtic (machine learning). Per a això, i fent servir la tècnica de l’clustering, observem un conjunt de 79.097 tripletes de la forma X – P – Z, on P és una preposició de l’espanyol -basades en sintagmes preposicionals complements. Són tripletes amb les preposicions a, cap i fins de verbs de moviment, i extretes de quatre corpus lingüístics molt reconeguts de l’espanyol. Obtingudes les agrupacions automàtiques indiquem fins on es confirmen, percentualment, la coincidència entre les prediccions de l’anotador humà -les classes preposicionals sugeridas- i de la màquina -els clusters-.

En el segon i el tercer experiments vam canviar de metodologia i vam acudir al mesurament de l’entropia -variable de la Teoria de la Informació-. En el segon classifiquem els noms de 3.898 tripletes que depenen de verbs de l’espanyol representatiu de la majoria de camps semàntics; i en el tercer són 3903 que complementen a altres noms.

Aquesta classificació dels noms es realitza a partir d’una proposta de sis tipus de categories semàntiques: Animat, inanimat, Entitat abstracta, Locatiu, Temporal i Esdeveniment. Un cop classificats els noms es mesura la seva organització entròpica i es verifica que existeix una correlació entre el grau d’entropia i la classe preposicional: a major entropia major significat.

El quart experiment part de l’ús preposicional. A partir d’un test s’analitza el grau de variació d’aquestes respostes segons la classe preposicional. De nou tornem a fer servir l’entropia com a índex d’identificació de l’significat.

El balanç dels quatre experiments -a través dels resultats- és favorable a la predicció de la hipòtesi. La diversitat d’eines d’anàlisi és una forma metodològicament robusta per a la investigació i les seves conclusions.