Tesis

Representing discourse for automatic text summarization via shallow NLP (2005)

Autor/a: Laura Alonso i Alemany

Dirección: Irene Castellón and Lluís Padró

En esta tesis se trata el problema del resumen automático des de una perspectiva lingüística. Se sostiene que algunas propiedades de la organización discursiva de los textos se pueden identificar mediante una análisis superficial, que aporta evidencia objetiva para las teorías sobre la organización de los textos y que pueden ser de utilidad para mejorar las aproximaciones a resumen automático actuales. Se han determinado cuales claves superficiales son indicativas de la organización del discurso, y, de estas, cuales son tratadas mediante las técnicas de procesamiento del lenguaje natural de las que disponemos para el catalán y el castellano: puntuación, algunas estructuras sintácticas y, sobretodo, marcadores de discurso. Se ha desarrollado un marco para representar la organización discursiva de los textos a nivel intraoracional y interoracional. Se ha propuesto un inventario de relaciones discursivas básicas motivado en la evidencia que aportan los marcadores de discurso. Se ha mostrado también como esta representación contribuye a mejorar la cualidad de los resúmenes automáticos. En experimentos con jueces humanos, se ha mostrado que la representación de los textos propuesta es útil para explicar como ciertas características discursivas influyen en la percepción de la relevancia.