Como usar a análise de cluster na pesquisa em ciências sociais

A análise de cluster é uma técnica estatística usada para identificar como várias unidades - como pessoas, grupos ou sociedades - podem ser agrupadas devido às características que têm em comum. Também conhecido como clustering, é uma ferramenta de análise de dados exploratória que visa classificar objetos diferentes em grupos de maneira que, quando eles pertencem ao mesmo grupo, têm um grau máximo de associação e, quando não pertencem ao mesmo grupo, seu grau de associação é mínimo. Ao contrário de outras técnicas estatísticas, as estruturas descobertas por meio da análise de cluster não precisam de explicação ou interpretação - elas descobrem a estrutura nos dados sem explicar por que elas existem.

O que é clustering?

O agrupamento existe em quase todos os aspectos de nossas vidas diárias. Pegue, por exemplo, itens em uma mercearia. Diferentes tipos de itens são sempre exibidos no mesmo local ou nas proximidades - carne, legumes, refrigerantes, cereais, produtos de papel, etc. Os pesquisadores geralmente querem fazer o mesmo com dados e agrupar objetos ou assuntos em grupos que façam sentido.

instagram viewer

Para dar um exemplo da ciência social, digamos que estamos analisando países e queremos agrupá-los em grupos com base em características como divisão de trabalho, forças armadas, tecnologia ou população instruída. Descobriríamos que Grã-Bretanha, Japão, França, Alemanha e Estados Unidos têm características semelhantes e estariam agrupados. Uganda, Nicarágua e Paquistão também seriam agrupados em um cluster diferente porque compartilham um conjunto diferente de características, incluindo baixos níveis de riqueza, divisões mais simples do trabalho, instituições políticas relativamente instáveis ​​e antidemocráticas e baixo nível tecnológico desenvolvimento.

A análise de agrupamento é normalmente usada na fase exploratória da pesquisa quando o pesquisador não possui nenhuma hipóteses pré-concebidas. Geralmente não é o único método estatístico usado, mas é feito nos estágios iniciais de um projeto para ajudar a orientar o restante da análise. Por esse motivo, o teste de significância geralmente não é relevante nem apropriado.

Existem vários tipos diferentes de análise de cluster. Os dois mais usados ​​são clustering K-means e clustering hierárquico.

Clustering K-significa

O agrupamento K-significa trata as observações nos dados como objetos com localizações e distâncias um do outro (observe que as distâncias usadas no agrupamento geralmente não representam distâncias espaciais). Ele divide os objetos em K clusters mutuamente exclusivos, para que os objetos em cada cluster sejam tão tão perto quanto possível e ao mesmo tempo, o mais longe possível dos objetos em outros clusters. Cada cluster é então caracterizado por sua ponto médio ou central.

Agrupamento hierárquico

O cluster hierárquico é uma maneira de investigar agrupamentos nos dados simultaneamente em várias escalas e distâncias. Isso é feito criando uma árvore de cluster com vários níveis. Ao contrário do cluster K-means, a árvore não é um único conjunto de clusters. Em vez disso, a árvore é uma hierarquia de vários níveis, na qual clusters em um nível são unidos como clusters no próximo nível superior. O algoritmo usado começa com cada caso ou variável em um cluster separado e combina os clusters até que apenas um seja deixado. Isso permite que o pesquisador decida qual nível de agrupamento é mais apropriado para sua pesquisa.

Executando uma análise de cluster

A maioria programas de software estatístico pode executar análise de cluster. No SPSS, selecione analisar no menu, então classificar e análise de cluster. No SAS, o cluster proc função pode ser usada.

atualizado por Nicki Lisa Cole, Ph. D.