Corpus

  Corpus Ancora

 AnCora es un corpus del catalán (AnCora-CA) y del español (AnCora-ES) constituido fundamentalmente por textos periodísticos. El corpus de cada lengua contiene 500.000 palabras. Como resultado del proceso de anotación se dispone también de dos léxicos verbales, AnCora-Verb, de 2.647 entradas para el español y 2.143 entradas para el catalán, y de un léxico de nominalizaciones deverbales, AnCora-Nom, de 1.600 entradas para el español.

 

 Corpus COLA

El Corpus COLA recoge el habla de adolescentes entre los 13 y los 19 años procedentes tanto de Madrid como de Buenos Aires, Santiago de Chile y Guatemala. Su principal objetivo es investigar el estilo comunicativo propio de los jóvenes, así como la influencia de otros idiomas en el lenguaje juvenil y realizar comparaciones con el material adquirido en las capitales de habla hispana, y también con el ya existente en los corpus UNO (Oslo) y COLT (Londres).gatwin104

 

Corpus de Conversación Coloquial

Se trata de un proyecto del Grupo Val.Es.Co. (Universidad de Valencia, España). Se trata de la trascripción de 341 horas de grabación de conversaciones informales. Pueden descargarse muestras en un archivo PDF dgatwin102e transcripciones decorpus o muestras en un archivo de audio (25,5 megas).

 

 

 

 Corpus de Referencia de la Lengua Española Contemporánea

Esta base de datos textuales comenzó a elaborarse en enero de 1991, finalizando su realización en febrero de 1992. Ha sido realizada en la cátedra de Lingüística General de la Universidad Autónoma de Madrid bajo la dirección de Francisco Marcos Marín. Consiste en la transliteración de textos grabados en cintas de audio del registro oral. En total consta de 1.100.000 de palabras transliteradas en soporte informático.

 

 

 

Corpus de Referencia del Español Actual (CREA)

 «El Corpus de referencia del español actual (CREA) es un conjunto de textos de diversa procedencia, almacenados en soporte informático, del que es posible extraer información para estudiar las palabras, sgatwin101us significados y sus contextos. […] El CREA cuenta hasta ahora (mayo de 2008) con algo más de 160 millones de formas. Se compone de una amplia variedad de textos escritos y orales, producidos en todos los países de habla hispana desde 1975 hasta 2004. Los textos escritos, procedentes tanto de libros como de periódicos y revistas, abarcan más de cien materias distintas. La lengua hablada está representada por transcripciones de documentos sonoros, procedentes, en su mayor parte, de la radio y la televisión» (Real Academia Española).

Corpus del Español


gatwin100
Este corpus ha sido desarrollado por Mark Davies, profesor de la Brigham Young University (Utah, Estados Unidos). Permite hacer búsquedas entre más de 100.000 palabras procedentes de más de 20.000 textos del español de los siglos XIII al XX.

 

 

 Corpus del Habla en Almería

Este corpus ha sido desarrollado por el Grupo Ilse de la Univgatwin103ersidad de Almería, dirigido por Luis Cortés Rodríguez. Se basa en 108 entrevistas semidirigidas realizadas a informantes almerienses pertenecientes a distintos niveles socioculturales y de tres tramos de edad distintos.

Corpus Diacrónico del Español (CORDE)

gatwin101«El Corpus diacrónico del español (CORDE) es un corpus textual de todas las épocas y lugares en que se habló español, desde los inicios del idioma hasta el año 1975, en que limita con el Corpus de referencia del español actual (CREA). El CORDE está diseñado para extraer información con la que estudiar las palabras y sus significados, así como la gramática y su uso a través del tiempo» (Real Academia Española).

 

 

 

 

 

 

Comments are closed.