Tesis

Significado, distribución y frecuencia de la categoría preposicional del español. Una aproximación computacional (2020)

Autor: Francesc Reina González

Dirección: Irene Castellón and Lluís Padró

La categoría preposicional ha sido, tradicionalmente, una clase de palabra provista de rasgos lingüísticos y conductas gramaticales controvertidas. En la tesis se examina la controversia desde una metodología cuantitativa, computacional y de lingüística de corpus. La brecha más inexplicada en la historia de esta dificultad de análisis ha sido como identificar su significado.

Desde una concepción neodistribucionalista, según la cual el significado de las piezas lingüísticas se encuentra en su distribución contextual, la hipótesis que se plantea es que esta expresión semántica de las preposiciones en español es gradual. La llamada Hipótesis Gradual del Significado establece cuatro subclases preposicionales, desde la funcionalidad hasta la lexicidad, pasado por fases intermedias como semifuncionales y semiléxicas.

La justificación empírica de la Hipótesis Gradual del Significado se realiza con cuatro experimentos.

El primero inserta en la metodología del aprendizaje automático (machine learning). Para ello, y utilizando la técnica del clustering, observamos un conjunto de 79.097 tripletas de la forma X – P – Z, donde P es una preposición del español -basadas en sintagmas preposicionales complementos. Son tripletas con las preposiciones a, cabeza y hasta de verbos de movimiento, y extraídas de cuatro corpus lingüísticos muy reconocidos del español. Obtenidas las agrupaciones automáticas indicamos hasta donde se confirman, porcentualmente, la coincidencia entre las predicciones del anotador humano -las clases preposicionales sugeridas- y de la máquina -los clusters-.

En el segundo y el tercer experimentos cambiamos de metodología y acudimos a la medición de la entropía -variable de la Teoría de la Información-. En el segundo clasificamos los nombres de 3.898 tripletas que dependen de verbos del español representativo de la mayoría de campos semánticos; y en el tercero son 3903 que complementan a otros nombres.

Esta clasificación de los nombres se realiza a partir de una propuesta de seis tipos de categorías semánticas: Animado, inanimado, Entidad abstracta, Locativo, Temporal y Evento. Una vez clasificados los nombres se mide su organización entrópica y se verifica que existe una correlación entre el grado de entropía y la clase preposicional: a mayor entropía mayor significado.

El cuarto experimento parte del uso preposicional. A partir de un test se analiza el grado de variación de estas respuestas según la clase preposicional. De nuevo volvemos a utilizar la entropía como índice de identificación del significado.

El balance de los cuatro experimentos -a través de los resultados- es favorable a la predicción de la hipótesis. La diversidad de herramientas de análisis es una forma metodológicamente robusta para la investigación y sus conclusiones.

← The Analysis Of Verbal Lexical Items And Translation Mismatches In English And Spanish: A Theoretical Framework (2000) Exploiting verb similarity for event modelling (2020) →