O que é corpus?
Faz mó tempão que não atualizo este blog, mas hoje resolvi virar o jogo! Talvez ele ainda não seja atualizado freqüentemente, mas será atualizado sempre que possível!Bom, lá no meu outro blog - Inglês na Ponta da Língua - mencionei um negócio chamado corpus. Decidi, então, postar aqui uma explicação rápida! Caso surja alguma dúvida é só perguntar!
De modo bem simples e geral, corpus é um banco de dados no qual ficam armazenados tudo o que é escrito e falado em uma língua. Pode ser em uma determinada região, país, cidade, etc. Os critério podem ser bem mais definidos (escolaridade, classe sócio-econômica, determinada profissão...)
Por exemplo, digamos que nós estamos interessados em saber como é usado o português falado na cidade de Belo Horizonte. Temos então a árdua tarefa de juntar jornais, revistas, textos e livros publicados pelas pessoas que moram em Belo Horizonte. Temos também de gravar programas de TV e rádio produzidos pelos moradores da cidade; podemos, ainda, pedir autorização de algumas pessoas para gravarmos suas conversas em supermercados, shopping centers, escolas, universidades, bares, etc. Imagine o trabalho! Depois de muito material coletado, passamos tudo para o computador e então temos um corpus do português falado e escrito em Belo Horizonte!
Diante deste banco de dados, teremos uma idéia da gramática da língua portuguesa falada em Belo Horizonte: Quais as palavras mais usadas? Que construções gramaticais são mais comuns? Que gírias, expressões, provérbios, etc são mais usados pelos mineiros de Belzonte!
Agora imagine fazer isto no Brasil todo! Muito trabalho né? A vantagem é que através de um projeto como este podemos ter um retrato verdadeiro da nossa língua portuguesa! Podemos entender os fenômenos lingüísticos que ocorrem e não ocorrem no nosso país.
Atualmente, muitos dicionários e livros de inglês são baseados em corpus. A vantagem é que os exemplos e textos usados nos livros são autênticos e mostram com fidelidade como certas palavras e construções gramaticais são usadas na língua inglesa.
Por exemplo, a voz passiva na língua inglesa é usada com muito mais freqüência em textos jornalísticos e literários. Ou seja, ela não é tão comum no inglês falado. Outro exemplo, a palavra "right" é mais usada no inglês falado do que no inglês escrito. E por último, "the" é a palavra mais usada na língua inglesa. Estas informações somente um corpus poderá me dar!
Continue aparecendo por aqui para entender melhor o que é um corpus! Por hora, isto é o suficiente.
===============
Leitura Recomendada:
Lingüistica de Corpus de Tony Berber Sardinha (Editora Manole)



