Recursos

Recursos lèxics i semàntics

Bases de dades verbals amb informació sintàctico-semàntica

En aquestes bases de dades es descriuen les diverses construccions en què pot aparèixer un mateix verb.

 

SenSem Espanyol >

En aquesta base de dades lèxica es descriuen els 250 verbs més freqüents de l´espanyol des del punt de vista sintàctic i semàntic a partir de la informació extreta d´un corpus periodístic de més de 700.000 mots i d´un de literari de menors dimensions complementari. Cada lema està organitzat en sentits i s´indica la representació de cadascun d´aquests sentits en el corpus. Per a cada sentit s´indiquen les propietats semàntiques bàsiques, com l´Aktionsart, els rols semàntics, el synset corresponent d´EuroWordNet i les frases del corpus associades. Les frases es presenten organitzades segons els diferents patrons sintàctics que representen i de cada patró s´indica la freqüència.

+ informació

 

Volem Espanyol >

Per a la construcció d’aquest recurs s’ha partit del diccionari espanyol inclòs en el diccionari multilingüe VOLEM. Aquest nou lèxic inclou més entrades, així com més nombre de construccions.

 

Volem Multilingüe >

Aquest diccionari és un recurs verbal multilingüe (espanyol-català-francès-basc). Per a cada verb s’especifiquen els esquemes de subcategorització i la semàntica associada a aquests esquemes, a més dels rols semàntics i exemples d’ús.

 

SenSem Català >

En aquesta base de dades lèxica es descriuen uns 250 verbs del català des del punt de vista sintàctic i semàntic a partir de la informació extreta d´un corpus periodístic de més de 700.000 mots. Cada lema està organitzat en sentits i s´indica la representació de cadascun d´aquests sentits en el corpus. Per a cada sentit s´indiquen les propietats semàntiques bàsiques, com l´Aktionsart, els rols semàntics, el synset corresponent d´EuroWordNet i les frases del corpus associades. Les frases es presenten organitzades segons els diferents patrons sintàctics que representen i de cada patró s´indica la freqüència.

+ informació

Xarxes semàntiques

S´ha treballat en les actualitzacions del WordNet de l´espanyol i el català. Les actuacions sobre aquestes xarxes semàntiques han estat diverses i estan integrades en el Multilingual Central Repository (MCR). El MCR inclou, a més, les versions de l´anglès, l´euskera i el gallec i ha estat construït conjuntament amb els grups TALP, IXA, IULA i U.de Vigo.

 

Anotació interlingüística d´EuroWordNet amb la Top Concept Ontology >

Anotació ontològica completa de la part nominal de WordNet 1.6 amb els trets semàntics definits en la EuroWordNet Top Concept Ontology. Atès que l´anotació s´ha realitzat sobre una versió de WordNet alineada a l´índex interlingüístic d´EuroWordNet (ILI) també es pot utilitzar per a qualsevol altre WordNet de qualsevol llengua que hi estigui ´mapejat´. Aquest WordNet annotat amb trets semàntics pot ser útil per a un gran nombre de tasques de processament semàntic.

Referència:
Álvez J., J. Atserias, J. Carrera, S. Climent, A. Oliver and G. Rigau (2008) Consistent annotation of EuroWordNet with the Top Concept Ontology. In Proceedings of The 4th Global Wordnet Association Conference. Szeged. Hungary. http://cv.uoc.es/~grc0_001091_web/files/Alvez-et-al-GWA2008.pdf
Aquest recurs s`ha desenvolupat en el marc dels següents projectes:
MEANING: Developing Multilingual Web-Scale Language Technologies. UE. IST Programme. FP5. IST-2001-34460 (2002-2005)
KNOW. Desarrollo de tecnologias multilingues a gran escala para la comprension del lenguaje. Ministerio de Educación y Ciencia. TIN2006-15049-C03-02. (2006-2009)

 

Construcció automàtica de WordNet 3.0 per a l´espanyol i el català >

A través de mètodes automàtics hem construït el WordNet 3.0 del català i hem completat el WordNet 3.0 de l´espanyol. Els mètodes aplicats són diversos i es basen en la traducció automática de corpus anotats, glosses de WordNet i l´ús de diccionarios bilingües i recursos enciclopèdics.

 

Construcció manual del WordNet 3.0 de l´espanyol >

Constitueix la primera versió disponible del WordNet 3.0 de l´espanyol. Es va crear a partir de l´adaptació del recurs ja existent per a l´anglès. S’ha dut a terme la traducció d’aproximadament unes 10.000 glosses, la qual cosa vol dir que estan disponibles unes 30.000 entrades lèxiques per a l’espanyol. La novetat que presenta aquesta versió és que el corpus de les defincions i els mots dels exemples estan etiquetats a nivell morfosintàctic i semàntic.

+ informació

 

WN-Toolkit >

WN-Toolkit és un paquet d`eines per a creació semiautomàtica de wordnets en qualsevol llengua. Es basa o bé en diccionaris o bé en corpus paral·lels. S`ha desenvolupat dins del projecte SKR (Representación del conocimiento semántico). Ministerio de Ciencia e Innovación. TIN2009-14715-C04.

Referència:
Oliver A. (2014) WN-Toolkit: Automatic Generation of WordNets following the expand model. In Proceedings of the 7th International Global WordNet Conference. Tartu, Estonia.

Diccionaris i terminologia

 

Diccionario de metáforas de salud mental >

Aquest diccionari ha estat confeccionat en el marc del projecte de recerca MOMENT PROJECT: Metaphors of severe mental disorders. Discourse analysis of affected people and mental health professionals (FFI2017-86969-R AEI/FEDER, UE), un dels objectius principals del qual és detectar quines metàfores s’utilitzen en l’àmbit de la salut mental.
En aquest diccionari trobareu una mostra representativa de les expressions que corresponen a les metàfores principals que utilitzen les persones que pateixen esquizofrènia, trastorn bipolar, depressió i TOC a l’hora de parlar de la seva pròpia experiència. Totes aquestes expressions metafòriques s’han extret de textos que ells mateixos han publicat a Internet a través de blocs o comptes de Twitter. Aquests canals tenen un avantatge evident respecte d’altres: les paraules dels autors no estan filtrades per cap entrevistador extern, sinó que neixen d’una voluntat genuïna i espontània de compartir la pròpia experiència a través de les xarxes. Per això, el ventall de metàfores detectat és molt més extens respecte al d’estudis previs similars.

 

Diccionari Català-Alemany >

Aquest diccionari ha estat creat pel Dr. Jaume Tió. Els tipus de consulta van des de mots i locucions fins a paradigmes de flexió, anàlisis sintàctiques i fragments finals i inicials de locucions o entrades canòniques.

 

Diccionari de Marcadors del discurs prototípics >

Aquest és un lèxic de marcadors del discurs utilitzat en la tesi de Laura Alonso: Representing discourse for automatic text summarization via shallow NLP techniques. Els marcadors discursius inclosos aquí són la font principal per a dibuixar mapes semàntics amb la finalitat d´obtenir un inventari de significats discursius bàsics. Aquest lèxic és també la base per a la implementació d´un segmantardor discursiu i per a l´anàlisi del discurs explotats pel resumidor d´e-mails Carpanta. El lèxic és paral·lel en tres idiomes: català, espanyol i Anglès. Per tant, en aquesta versió només hem inclòs els marcadors discursius que tenen un quasisinònim en una de les altres llengües. Els marcadors que no tenen un sinònim s´han inclòs en la versió ampliada del lèxic creat per tècniques de bootstrapping aplicades a partir d´aquest lèxic. El lèxic està format per 84 marcadors discursius, en representació dels diferents significats discursius. Alguns marcadors discursius s´han assignat a més d´un significat per dimensió, perquè són ambigus o no especificats.

 

Diccionari trilingüe de perífrasis verbals: espanyol–>romanès/català >

Aquesta eina s´ha creat a partir dels resultats de la tesi realitzada per Mihaela Topor. Es tracta de la descripció de 44 complexos verbals de l´espanyol que han estat considerats perífrasis verbals incloent-hi la traducció al romanès i al català. Entre les 44 perífrasis s´han establert diferents graus de gramaticalització. Cada complex verbal està descrit semànticament amb una definició i amb l´adscripció a un dels dos grups possibles (aspectual o modal). A més, també s´especifiquen la subclasse semàntica i, si és possible, altres perífrasis equivalents (sinònimes o quasi-sinònimes). La descripció conté també restriccions d´ús de diferents tipus: accional, temporal, recursivitat i tipus semàntic del subjecte. L´usuari pot consultar un conjunt d´exemples d´ús extrets de corpus i referències bibliogràfiques específiques per a cada perífrasi.

+ informació

 

Terminology Extraction Suite >

El programa Terminology Extraction Suite és una aplicació d´extracció automàtica de terminologia. L´objectiu d´aquesta eina és proporcionar una utilitat d´extracció de terminologia eficaç i fàcil de fer servir. El programa està escrit en Perl. Amb el codi Perl es pot executar l´aplicació sota Linux, Windows i Mac. El programa fa servir una metodologia estadística d´extracció automàtica de terminologia i permet tant extreure candidats a terme en una llengua com cercar automàticament els seus equivalents de traducció en un corpus paral·lel.