Teste Chi Quadrado de Pearson e tabelas de contingência

Gabriel Franco Analisando Testes de hipótese setembro 19, 2016 | 1

Juntamente com o teste t, este é um dos testes de hipótese mais famosos e também um dos mais utilizados por pesquisadores da área de saúde, marketing, engenharia, esportes e etc. O teste Chi Quadrado de Pearson (ou Qui Quadrado) para tabelas de contingência é usado para verificar se há independência ou alguma relação entre as variáveis que compõem a tabela.

Neste post vamos passar pelas suposições do teste e verificar o que você precisa para usar o teste. Depois vamos ver como interpretá-lo com um exemplo e por fim como implementar no software R. Não daremos detalhes técnicos e matemáticos, mas deixamos um link para complementar (em inglês).

O que é uma tabela de contingência?

Se você está perdido e não sabe o que é tabela de contingência, não se preocupe, explicamos para você. Uma tabela de contingência nada mais é do que uma tabela de frequências de determinadas variáveis categóricas. No nosso caso, vamos trabalhar com tabelas de contingência de duas variáveis.

Por exemplo,

Exemplo de uma tabela de contingência
	Destro(a)	Canhoto(a)
Homem	43	9
Mulher	44	4

Acima estamos comparando duas variáveis: Sexo (homens e mulheres) e com qual mão escrevem (canhotos(as) ou destros(as)). Foram observados 43 homens destros e 4 mulheres canhotas, por exemplo.

Quando usar o teste Chi Quadrado de Pearson?

Quando temos duas variáveis categóricas e queremos verificar se as duas estão relacionadas ou não. Reforço o termo relacionadas para dizer que esse teste não tem nada a ver com causa e consequência! Ele apenas verifica a independência entre as duas variáveis.

No exemplo mostrado acima, podemos estar interessados em saber se há relação entre qual mão uma pessoa usa para escrever e seu sexo (minha tia, por exemplo, acha que existem mais mulheres canhotas do que homens canhotos). Então, coletamos dados de 100 pessoas e dispomos o resultado da pesquisa na tabela de contingência mostrada acima. Com esse dados, então, queremos verificar se existe ou não relação entre a mão que uma pessoa usa para escrever e seu sexo. Porém, antes de executar o teste é preciso verificar alguma suposições básicas.

Suposições do teste Chi Quadrado de Pearson

Como mencionamos anteriormente, antes de aplicar qualquer teste estatístico é preciso saber quais as hipóteses e seu problema é adequado para tal. Se isso não for verificado você pode estar tirando conclusões erradas e imprecisas. Então, cuidado!

Verifique se

Suas variáveis são categóricas: caso contrário, nem dá para fazer uma tabela de contingência.
Sua amostra é aleatória: é importante que haja aleatoriedade ao selecionar os dados da sua amostra. Exemplos de coisas que NÃO PODEM ser feitas: escolher o ratinho mais bonito para coletar amostras, entrevistar alguém com uma cara mais simpática ou qualquer outra forma de não aleatoriedade. A ideia da aleatoriedade é que todos tenham a mesma probabilidade (oportunidade) de serem entrevistados/amostrados.
Você tem uma quantidade considerável de dados: quanto mais observações, melhor para você e mais preciso será seu estudo. Porém, alguns números são tido como referência, mas não uma regra ao usar o teste Chi Quadrado de Pearson. Por exemplo, um mínimo de 30 observações ou pelo menos 5 observações para cada casela da tabela.
As observações são independentes: usando o exemplo anterior fica mais fácil. Obviamente todas as observações são independentes, dado que estou coletando informações de pessoas diferentes. Exemplo em que as observações não são independentes é quando eu coleto informação da mesma pessoa/animal/instituição mais de uma vez.

Se todas essas suposições são satisfeitas, então podemos partir para a prática e utilizar o teste Chi Quadrado de Pearson.

Utilizando o teste Chi Quadrado de Pearson

É preciso saber com qual hipótese o teste trabalho para no caso de rejeição sabermos do que está sendo falado. Neste caso, o teste Chi Quadrado de Pearson trabalha com a hipótese nula de que as variáveis são estatisticamente independentes. Portanto, considerando um nível de 5%, se encontrarmos um p-valor menor que 0,05 temos que as variáveis possuem alguma relação e não são independentes!

Vamos pegar novamente o exemplo citado anteriormente de pessoas que escrevem com a mão esquerda ou direita. Primeiramente, vamos inserir os dados no R e em seguida executar o teste.

## Primeiramente, inserir os dados no R
freq <- c(43,9,4,44)                                   # Frequências
tab  <- as.table(matrix(freq, ncol = 2, byrow = T))    # Transformar em tabela

## Teste Chi Quadrado de Pearson
chisq.test(tab)


	Pearson's Chi-squared test with Yates' continuity correction

data:  tab
X-squared = 1.0725, df = 1, p-value = 0.3004

Note que o p-valor do teste encontra-se em p-value acima, resultando em um p-valor acima de 0,05. Ou seja, a hipótese de que as variáveis são independentes não pode ser rejeitada e há evidências de que não existe uma relação entre o sexo e a mão com a qual a pessoa escreve.

Se o p-valor não te convence (sempre desconfie de resultados obtidos apenas com p-valor), podemos observar as frequências relativas. Para isso, vejamos o código abaixo.

## Frequência relativa
prop.table(tab, 1)

>            A          B
> A 0.82692308 0.17307692
> B 0.91666667 0.08333333

Como simplificamos o código para facilitar a fluidez e o entendimento, considere que as caselas da tabela correspondem exatamente às apresentadas anteriormente. Por exemplo, a primeira linha e a primeira coluna correspondem a homens destros, ou seja, 82,69% dos homens são destros enquanto os demais (17,31%) são canhotos. Por outro lado, 91,67% das mulheres são destras contra 8,33% de canhotas. Assim, temos que a maioria das pessoas são destras independentemente do sexo.

Relação com o teste exato de Fisher

Há uma crença errada que diz que se você tem poucas observações, utilize o teste exato de Fisher. Isso está ERRADO!

Não basta simplesmente utilizar o teste exato de Fisher pois, assim como o teste Chi Quadrado de Pearson, ele possui suas suposições. Uma delas é que o número de observações para cada grupo seja pré determinado. Por exemplo, na tabela que utilizamos acima, só seria possível usar o teste exato de Fisher se antes de entrevistarmos as pessoas tivéssemos determinado um número fixo de homens e um número fixo de mulheres para serem perguntados com qual mão escrevem.

Portanto, existe sim uma relação entre ambos os testes no sentido de que testam as mesmas hipóteses, mas sob suposições diferentes. O uso errado do teste exato de Fisher leva a uma abordagem conservadora no sentido de que pequenas diferenças podem ser ignoradas.

Chi Quadrado estatítica R tabela teste de hipótese

Um comentário

Lucas Picoloto disse:

junho 3, 2017 às 23:18

Muito bom os artigo! De verdade estou surpresa! Bastante sucinto e simples a forma de transmitir o conhecimento! Com certeza estarei por aqui mais vezes.
A única coisa que faltou e mostrar esses testes em Python hahahah, mas de resto esta 10.

Responder

Teste Chi Quadrado de Pearson e tabelas de contingência