La nueva versión del Corpus de Referencia del Gallego Actual permitirá realizar estudios con perspectiva de género

Se trata de un recurso informático que nace con el objetivo de suministrar datos para el estudio de la lengua gallega actual desde múltiples perspectivas

La versión 4.0, que consta de 43.162.364 palabras ortográficas, permite tener en cuenta grafías innovadoras para el lenguaje inclusivo o discriminar resultados en función del sexo del autor o autora, entre otras novedades

El secretario general de Política Lingüística participa en la presentación que acogió el Pazo de San Roque
 

Santiago de Compostela, 10 de febrero de 2022

El secretario general de Política Lingüística, Valentín García, participó este mediodía en la presentación de la versión 4.0 del Corpus de Referencia del Gallego Actual (CORGA) en el marco del convenio entre el Centro Ramón Piñeiro para la Investigación en Humanidades, dependiente de la Xunta, y la Universidad de Santiago de Compostela (USC).

Se trata de un corpus documental abierto a través de internet que abarca cronológicamente desde 1975 hasta la actualidad con el objetivo de suministrar datos para el estudio de la lengua gallega actual desde múltiples perspectivas: léxica, morfológica, sintáctica, fraseológica, terminológica, comunicativa etc.

El secretario general saludó “esta nueva versión del Corpus, un proyecto que continúa avanzando para poner a disposición de los lingüistas que se ocupan del gallego nuevas funcionalidades que permitan hacer estudios cada vez más amplios y variados”.

Junto al representante de la Consellería de Cultura, Educación y Universidad, también participaron en este acto, que acogió el Pazo de San Roque, los directores del proyecto, María Sol López Martínez y Guillermo Rojo; la coordinadora lingüística del proyecto, Eva María Domínguez; Ernesto González, vicerrector de la USC, y Francisco Mario Barcala, doctor en computación y coordinador de NLPgo Tecnologies.


Este recurso, uno de los más destacados del Centro Ramón Piñeiro, es una herramienta en línea potente, flexible, amistosa y también innovadora, de suma utilidad para extraer datos de la lengua gallega actual de tipo léxico, gramatical, terminológico, fraseológico, discursivo, etc.

Enriquecido automáticamente con el etiquetado morfosintáctico de sus textos, el Corpus contiene 43.162.364 palabras ortográficas (51.451.088 elementos gramaticales) pertenecientes mayoritariamente a distintos tipos de textos escritos representativos del gallego actual, y también incluye cerca de 45 horas de transcripciones, sobre todo de programas de radio, en las que se alinea el texto con la voz.

Esta nueva versión 4.0 presenta utilidades tan innovadoras como son la recuperación de información por la modalidad inventario, el reconocimiento automático mediante reglas lingüísticas de los apreciativos en -iño, los relativos en -ísimo y una buena parte de las formas con gheada, así como la posibilidad de realizar estudios desde la perspectiva de género, bien teniendo en cuenta las formas con grafías innovadoras para lenguaje inclusivo, bien atendiendo a la discriminación de los resultados en función del sexo del autor.

El recurso, así como los demás del Centro Ramón Piñeiro, están disponibles a través de su web.

 

Imágenes relacionadas