A nova versión do Corpus de Referencia do Galego Actual permitirá realizar estudos con perspectiva de xénero

Trátase dun recurso informático nado co obxectivo de fornecer datos para o estudo da lingua galega actual desde múltiples perspectivas

A versión 4.0, que consta de 43.162.364 palabras ortográficas, permite ter en conta grafías innovadoras para a linguaxe inclusiva ou discriminar resultados en función do sexo do autor ou autora, entre outras novidades

O secretario xeral de Política Lingüística participa na presentación que acolleu o Pazo de San Roque
 

Santiago de Compostela, 10 de febreiro de 2022

O secretario xeral de Política Lingüística, Valentín García, participou este mediodía na presentación da versión 4.0 do Corpus de Referencia do Galego Actual (CORGA) no marco do convenio entre o Centro Ramón Piñeiro para a Investigación en Humanidades, dependente da Xunta, e a Universidade de Santiago de Compostela (USC).

Trátase dun corpus documental aberto a través de internet que abrangue cronoloxicamente desde 1975 ata a actualidade co obxectivo de fornecer datos para o estudo da lingua galega actual desde múltiples perspectivas: léxica, morfolóxica, sintáctica, fraseolóxica, terminolóxica, comunicativa etc.

O secretario xeral saudou “esta nova versión do Corpus, un proxecto que continúa avanzando para poñer a disposición dos lingüistas que se ocupan do galego novas funcionalidades que permitan facer estudos cada vez máis amplos e variados”.

Canda o representante da Consellería de Cultura, Educación e Universidade, tamén participaron neste acto, que acolleu o Pazo de San Roque, os directores do proxecto, María Sol López Martínez e Guillermo Rojo; a coordinadora lingüística do proxecto, Eva María Domínguez; Ernesto González, vicerreitor da USC, e Francisco Mario Barcala, doutor en computación e coordinador de NLPgo Tecnologies.


Este recurso, un dos máis destacados do Centro Ramón Piñeiro, é unha ferramenta en liña potente, flexible, amigable e tamén innovadora, de suma utilidade para extraer datos da lingua galega actual de tipo léxico, gramatical, terminolóxico, fraseolóxico, discursivo etc.

Enriquecido automaticamente coa etiquetaxe morfosintáctica dos seus textos, o Corpus contén 43.162.364 palabras ortográficas (51.451.088 elementos gramaticais) pertencentes maioritariamente a distintos tipos de textos escritos representativos do galego actual, mais tamén inclúe preto de 45 horas de transcricións, sobre todo de programas de radio, nas que se aliña o texto coa voz.

Esta nova versión 4.0 presenta utilidades tan innovadoras como son a recuperación de información pola modalidade inventario, o recoñecemento automático mediante regras lingüísticas dos apreciativos en -iño, os relativos en -ísimo e unha boa parte das formas con gheada, así como a posibilidade de realizar estudos desde a perspectiva de xénero, ben tendo en conta as formas con grafías innovadoras para linguaxe inclusiva, ben atendendo á discriminación dos resultados en función do sexo do autor.

O recurso, así como os demais do Centro Ramón Piñeiro, están dispoñibles a través do seu web.

 

Imaxes relacionadas