sábado 15/8/20
EL CORPUS DEL ESPAÑOL DEL SIGLO XXI

La Universidad selecciona para la RAE más de diez millones de palabras

Forma parte de un pequeño grupo de instituciones que elaboran el Corpus del español.
La Universidad selecciona para la RAE más de diez millones de palabras

La Universidad de León forma parte de un pequeño grupo de instituciones que colabora con la Real Academia de la Lengua Española en la elaboración del Corpus del español del siglo XXI. Desde León se encargan de suministrar los datos con los que la academia elabora obras relacionadas con la gramática, la ortografía para los lingüistas o la selección de palabras para incluirlas en las actualizaciones del diccionario.

La coordinadora de este convenio con la RAE es la profesora Milka Villayandre, con la que la institución se puso en contacto al conocer que trabajaba en la elaboración de corpus, «conjuntos de datos, en este caso textos y palabras», explica ella, para añadir que en este campo es en el que trabajan con la academia. La colaboración se inició en el 2008 y desde entonces, la media docena de investigadores y profesores de la Universidad de León que anualmente están vinculados al proyecto ya han seleccionado más de diez millones de palabras que han sido incluidas en el banco de datos de la RAE.

«Recogemos los datos que nos demandan de todo tipo de novelas, prensa, de Internet, de todo tipo de textos que nos indican, les aplicamos unos procedimientos informáticos para que se puedan detectar las referencias», explica Villayandre, para añadir que estos datos forman parte de las referencias que después toma la academia para elaborar sus textos, en función de la forma de hablar de cada, las palabras empleadas o los nuevos términos que surgen. Por este motivo, cada centro recibe un encargo para que analice textos de cualquiera de los países en los que se habla el español, desde Estados Unidos a Argentina o Guinea Ecuatorial.

Villayandre destaca que este proyecto «es muy interesante para los jóvenes investigadores», que se inician de este modo en la iniciativa, aunque no es a tiempo completo. El proyecto está financiado por el Banco Santander y cada universidad o institución implicada recibe una cuantía en función del número de palabras que envían a la Real Academia para que pase a formar parte de sus bases de datos.

La Universidad de León se sumó al proyecto para elaborar el Corpus del Español del Siglo XXI en el 2008 y actualmente también colaboran con la RAE son la Academia Argentina de Letras, la Academia Puertorriqueña de la Lengua Española, la Fundación Comillas y las universidades españolas de Alcalá de Henares, la Autónoma de Barcelona, la de Salamanca, la de Santiago de Compostela y la de Valencia, además de la Universidad de León. El proyecto para la elaboración del corpus arrancó en el 2007 y el objetivo es, como indican en la RAE «reunir, en 2018, un conjunto textual constituido por 400 millones de formas y palabras de la lengua común de casi 500 millones de hispanohablantes».

La Universidad selecciona para la RAE más de diez millones de palabras