A limpeza de dados é uma parte crucial da análise de dados, principalmente quando você coleta seus próprios dados quantitativos. Depois de coletar os dados, você deve inseri-los em um programa de computador como SAS, SPSS ou Excel. Durante esse processo, seja feito manualmente ou por um scanner de computador, haverá erros. Não importa o quão cuidadosamente os dados foram inseridos, os erros são inevitáveis. Isso pode significar codificação incorreta, leitura incorreta de códigos escritos, detecção incorreta de marcas escurecidas, falta de dados e assim por diante. A limpeza de dados é o processo de detecção e correção desses erros de codificação.
Existem dois tipos de limpeza de dados que precisam ser executados nos conjuntos de dados. Eles são possíveis limpeza de código e limpeza de contingência. Ambos são cruciais para o processo de análise de dados porque, se ignorados, você quase sempre produzirá resultados de pesquisas enganosas.
Limpeza de código possível
Qualquer variável terá um conjunto especificado de opções de resposta e códigos para corresponder a cada opção de resposta. Por exemplo, a variável
gênero terá três opções e códigos de resposta para cada um: 1 para homem, 2 para mulher e 0 para nenhuma resposta. Se você tiver um respondente codificado como 6 para essa variável, é claro que ocorreu um erro, pois esse não é um código de resposta possível. A limpeza de código possível é o processo de verificação para verificar se apenas os códigos atribuídos às opções de resposta para cada pergunta (códigos possíveis) aparecem no arquivo de dados.Alguns programas de computador e pacotes de software estatístico disponíveis para entrada de dados verificam esses tipos de erros conforme os dados estão sendo inseridos. Aqui, o usuário define os códigos possíveis para cada pergunta antes que os dados sejam inseridos. Então, se um número fora das possibilidades predefinidas for inserido, uma mensagem de erro será exibida. Por exemplo, se o usuário tentar inserir um 6 por sexo, o computador poderá emitir um bipe e recusar o código. Outros programas de computador são projetados para testar códigos ilegítimos em arquivos de dados concluídos. Ou seja, se eles não foram verificados durante o processo de entrada de dados, conforme descrito acima, há maneiras de verificar os arquivos quanto a erros de codificação após a conclusão da entrada de dados.
Se você não estiver usando um programa de computador que verifique erros de codificação durante o processo de entrada de dados, você pode localizar alguns erros simplesmente examinando a distribuição de respostas para cada item nos dados conjunto. Por exemplo, você pode gerar uma tabela de frequência para a variável gênero e aqui você veria o número 6 que foi digitado incorretamente. Você pode procurar essa entrada no arquivo de dados e corrigi-la.
Limpeza de Contingência
O segundo tipo de dados limpeza é chamada limpeza de contingência e é um pouco mais complicada do que a limpeza de código possível. A estrutura lógica dos dados pode colocar certos limites nas respostas de certos respondentes ou em determinadas variáveis. A limpeza de contingência é o processo de verificar se apenas os casos que deveriam ter dados sobre uma variável específica os possuem. Por exemplo, digamos que você tenha um questionário no qual pergunta aos entrevistados quantas vezes eles estiveram grávidas. Todas as entrevistadas devem ter uma resposta codificada nos dados. Os machos, no entanto, devem ser deixados em branco ou devem ter um código especial para não responder. Se algum homem nos dados estiver codificado como tendo três gestações, por exemplo, você sabe que há um erro e ele precisa ser corrigido.
Referências
Babbie, E. (2001). A Prática da Pesquisa Social: 9ª Edição. Belmont, CA: Wadsworth Thomson.