Projectes

Estandarització i Transferència de recursos lèxics i textuals

L´objectiu principal d´aquest projecte és estandarditzar el Banc de Dades SenSem (corpus i lèxic de l´espanyol i del català). Aquesta estandarditzacioó es realitza en dos sentits. D`una banda, es reforma l´estructura estàndard  i es crea la jerarquia adequada (conversió a XML). També s´inclou la definició del tipus de document (DTD). D´altra banda es treballa en l`estandardització de les etiquetes usades en l´anotació del text a partir de l´establiment dels paral·lelismes entre les diferents propostes d`altres projectes per a l´espanyol i el català i també per a l´anglès, així com d´algunes propostes d´estàndards a nivell internacional (consultar documentació).

Per últim, se subespecifica l´anotació d´un tipus d´oracions del corpus, aquelles que expressen modalitat no assertiva. D´aquesta forma, s´enriqueix el corpus amb nova informació semàntica a nivell oracional, com per exemple el significat que aporten els auxiliars de perífrasis. Aquesta subespecificació és clau a l´hora de distingir quan s´està transmetent una ordre, o realitzant una pregunta, o fent una suposició, o expressant una creeència, etc., ja que les inferències que s´extreuen en uns o altres casos són ben diferents.

Les interfícies actuals del projecte, tant la del corpus com la del lèxic, inclouen aquestes millores i tots els recursos es poden descarregar.

Finançament:

Ministerio de Ciencia e Innovación (FFI2011-27774)

Membres:

Ana Fernández Montraveta

Glòria Vázquez García

Jaume Tió i Casacuberta