Corpus lingüístico

Na Galipedia, a Wikipedia en galego.

Un corpus lingüístico é un conxunto, normalmente moi amplo, de exemplos reais de uso dunha lingua. Estes exemplos poden ser textos (tipicamente), ou mostras orais (normalmente transcritas).

Chámaselle lingüística de corpus á subdisciplina da lingüística que estuda a lingua a través destas mostras. Este tipo de aproximación choca co enfoque chomskiano que tende a estudar a lingua a través da intuición lingüística do falante.

Esta subdisciplina, dado o volume de datos que se manexa, normalmente asóciase coa lingüística computacional, segundo esta última achégase ás aplicacións do procesamento da linguaxe natural.

Esta disciplina iniciouse en 1967 cando Henry Kucera e Nelson Francis publicaron o clásico Computational Analysis of Present-Day American English, baseándose no corpus Brown, unha compilación de inglés americano de aproximadamente un millón de palabras seleccionadas dunha ampla variedade de fontes.

Véxase tamén[editar | editar a fonte]

Outros artigos[editar | editar a fonte]

Ligazóns externas[editar | editar a fonte]