Recursos

Recursos léxicos y semánticos

Bases de datos verbales con información sintáctico-semántica
En estas bases de datos se describen las diversas construcciones en las que puede aparecer un mismo verbo.

 

SenSem Español >

En esta base de datos léxica se describen los 250 verbos más frecuentes del español desde el punto de vista sintáctico y semántico a partir de la información extraída del análisis de un corpus perioístico de más de 700.000 palabras y uno literario de menores dimensiones complementario. Cada lema verbal está organizado en sentidos y se indica la representación de cada uno de ellos en el corpus.  Para cada sentido se indica el Aktionsart, los roles semánticos, el synset correspondiente de EuroWordNet y las frases del corpus asociadas. Las frases se presentan organizadas según los diferentes patrones sintácticos que representan y de cada patrón se indica la frecuencia.

+ información

 

Volem Español >

Para la construcción de este recurso se ha partido del diccionario español incluido en el diccionario multilingüe VOLEM. Este nuevo léxico incluye más entradas, así como un mayor número de construcciones.

 

Volem Multilingüe >

Este diccionario es un recurso verbal multilingüe (español-catalán- francés- vasco). Para cada verbo se especifican los esquemas de subcategorización y la semántica asociada a estos esquemas, además de los roles semánticos y ejemplos de uso.

 

SenSem Catalán >

En esta base de datos léxica se describen unos aproximadamente 250 verbos del catalan desde el punto de vista sintáctico y semántico a partir de la información extraída del análisis de un corpus perioístico de más de 700.000 palabras. Cada lema verbal está organizado en sentidos y se indica la representación de cada uno de ellos en el corpus.  Para cada sentido se indica el Aktionsart, los roles semánticos, el synset correspondiente de EuroWordNet y las frases del corpus asociadas. Las frases se presentan organizadas según los diferentes patrones sintácticos que representan y de cada patrón se indica la frecuencia.

+ información

Redes semánticas
Se ha trabajado en las actualizaciones del WordNet del español y el catalán. Las actuaciones sobre estas redes semánticas han sido diversas y están integradas en el Multilingual Central Repository (MCR). El MCR incluye, además, las versiones del inglés, el euskera y el gallego y ha sido construido conjuntamente con los grupos TALP, IXA, IULA y U.de Vigo.

 

Anotació interlingüística d´EuroWordNet amb la Top Concept Ontology >

Anotación ontológica completa de la parte nominal de WordNet 1.6 con los rasgos semánticos definidos en la EuroWordNet Top Concept Ontology. WordNet 1.6 está alineado al índice interlingüístico de EuroWordNet (ILI), por lo tanto esta anotación es aplicable a cualquier WordNet de cualquier lengua conectado al ILI. Este WordNet anotado con rasgos semánticos puede ser útil para un gran número de tareas de procesamiento semántico.

Referencia:
Álvez J., J. Atserias, J. Carrera, S. Climent, A. Oliver and G. Rigau (2008) Consistent annotation of EuroWordNet with the Top Concept Ontology. In Proceedings of The 4th Global Wordnet Association Conference. Szeged. Hungary. http://cv.uoc.es/~grc0_001091_web/files/Alvez-et-al-GWA2008.pdf
Aquest recurs s`ha desenvolupat en el marc dels següents projectes:
MEANING: Developing Multilingual Web-Scale Language Technologies. UE. IST Programme. FP5. IST-2001-34460 (2002-2005)
KNOW. Desarrollo de tecnologias multilingues a gran escala para la comprension del lenguaje. Ministerio de Educación y Ciencia. TIN2006-15049-C03-02. (2006-2009)

 

Construcción automática de WordNet 3.0 pera al español y el catalán 

A través de métodos automáticos se ha construido el WordNet 3.0 del catalán y hemos completado el WordNet 3.0 del español. Los métodos aplicados son diversos y se basan en la traducción automática de corpus anotados, glosas de WordNet y uso de diccionarios bilingües y recursos enciclopédicos.

 

Construcción manual del WordNet 3.0 del español

Constituye la primera versión disponible del WordNet 3.0. Se creó a partir de la adaptación del recurso ya existente para la lengua inglesa. Se ha llevado a cabo la traducción de aproximadamente unas 10.000 glosas, lo cual quiere decir que están disponibles unas 30.000 entradas léxicas para el español. La novedad que presenta esta versión es que el corpus de las definiciones y las palabras de los ejemplos están etiquetados a nivel morfosintáctico y semántico.

+ información

 

WN-Toolkit >

WN-Toolkit es un paquete de herramientas para la construcción semiautomática de wordnets de cualquier lengua. Se basa en diccionarios o en corpus paralelos. Se ha desarrollado en el marco del proyecto SKR (Representación del conocimiento semántico). Ministerio de Ciencia e Innovación. TIN2009-14715-C04.
Referencia:
Oliver A. (2014) WN-Toolkit: Automatic Generation of WordNets following the expand model. In Proceedings of the 7th International Global WordNet Conference. Tartu, Estonia.

Otros

Diccionario Catalán-Alemán >

Este diccionario es un recurso creado por el Dr. Jaume Tió. Los tipos de consulta van desde palabras y locuciones hasta paradigmas de flexión, análisis sintácticos y fragmentos finales e iniciales de locuciones o entradas canónicas.

 

Diccionario de Marcadores del discurso prototípicos  

Este es un léxico de marcadores del discurso utilizado en la tesis de Laura Alonso: Representing discourse for automatic text summarization via shallow NLP techniques. Los marcadores discursivos incluidos aquí son la fuente principal para dibujar mapas semánticos con el fin de obtener un inventario de significados discursivos básicos. Este léxico es también la base para la implementación de un segmantardor discursivo y para el análisis del discurso explotados por el resumidor de e-mails Carpanta.
El léxico es paralelo en tres idiomas: catalán, español e Inglés. Por lo tanto, en esta versión sólo hemos incluido los marcadores discursivos que tienen un casi sinónimo en una de las demás lenguas. Los que no tienen un sinónimo casi se han incluido en la versión ampliada del léxico creado por técnicas bootstrapping aplicadas a partir de este léxico. Los marcadores discursivos que constituyen este léxico se obtuvieron a partir de trabajos anteriores, en su mayoría Knott (1996) y Marcu (1997), con la restricción de que estén muy gramaticalizados También hemos incluido en el léxico algunos obtenidos a partir del diccionario del analizador morfosintáctico FreeLing .  El léxico está formado por 84 marcadores discursivos, en representación de los diferentes significados discursivos. Algunos marcadores discursivos se han asignado a más de un significado por dimensión, porque son ambiguos o no especificados.

 

Diccionario trilingüe de perífrasis verbales: español–>rumano/catalán

Esta herramienta se ha creado a partir de los resultados de la tesis realizada por Mihaela Topor. Se trata de la descripción de 44 complejos verbales del español que han sido considerados perífrasis verbales incluyendo la traducción al rumano y al catalán. Entre las 44 perífrasis se han establecido diferentes grados de gramaticalización. Cada complejo verbal está descrito semánticamente con una definición y con la adscripción a uno de los dos grupos posibles (aspectual o modal). Además, también se especifican la subclase semántica y, si es posible, otras perífrasis equivalentes (sinónimas o casi-sinónimas). La descripción contiene restricciones de uso de diferentes tipos: accional, temporal, recursividad y tipo semántico del sujeto. El usuario puede consultar un conjunto de ejemplos de uso extraídos de corpus y referencias bibliográficas específicas para cada perífrasis..

+ información

 

Terminology Extraction Suite >

El programa Terminology Extraction Suite es una aplicación de extracción automática de terminología. El objetivo de esta herramienta es proporcionar una utilidad de extracción de terminología eficaz y fácil de usar. El programa está escrito en Perl. Con el código Perl se puede ejectuar la aplicación bajo Linux, Windows i Mac. El programa usa una metodología estadística de extracción automática de terminología y permite tanto extraer candidatos a término en una lengua como buscar automáticamente sus equivalentes de traducción en un corpus paralelo.