Tesis

Representing discourse for automatic text summarization via shallow NLP (2005)

Autor/a: Laura Alonso i Alemany

Direcció: Irene Castellón and Lluís Padró

En aquesta tesi es tracta el problema del resum automàtic des d’una perspectiva lingüística. Se sosté que algunes propietats de l’organització discursiva dels textos es poden identificar mitjançant una anàlisi superficial, que aporten evidència objectiva per a les teories sobre l’organització dels textos i que poden ser d’utilitat per millorar les aproximacions a resum automàtic actuals. S’han determinat quines claus superficials són indicatives de l’organització del discurs, i, d’aquestes, quines són tractables mitjançant les tècniques de processament del llenguatge natural de què disposem per al català i castellà: puntuació, algunes estructures sintàctiques i, sobretot, marcadors del discurs. S’ha desenvolupat un marc per representar l’organització discursiva dels textos a nivell intraoracional i interoracional. S’ha proposat un inventari de relacions discursives bàsiques motivat en l’evidència que aporten els marcadors del discurs. S’ha mostrat també com aquesta representació contribueix a millorar la qualitat dels resums automàtics. En experiments amb jutges humans, s’ha mostrat que la representació dels textos proposada és útil per explicar com certes característiques discursives influencien la percepció de la rellevància.