Aprenda de uma vez por todas a realizar e interpretar o teste Qui-Quadrado de Independência

Neste artigo, aplicaremos o teste Qui-Quadrado de Independência a duas variáveis da base de dados Titanic: ‘Classe do Passageiro’ e ‘Sobrevivência’. A base de dados “Titanic” é uma das bases mais conhecidas e amplamente utilizadas na comunidade de ciência de dados e aprendizado de máquina. Ela contém informações sobre os passageiros do RMS Titanic, o famoso navio que naufragou em 1912. Aqui estão alguns pontos-chave sobre esta base de dados:
  1. Origem: A base de dados foi compilada a partir de várias fontes públicas e contém uma fração dos dados reais dos passageiros e tripulação a bordo do Titanic.
  2. Variáveis: Inclui informações como:
    • Classe do passageiro (1ª, 2ª ou 3ª classe).
    • Nome, sexo e idade.
    • Número de parentes a bordo.
    • Valor da tarifa paga.
    • Cabine.
    • Porto de embarque.
    • E, o mais importante, se o passageiro sobreviveu ou não ao desastre.
  3. Utilidade: É comumente usado em análises exploratórias e como um conjunto de dados introdutório para técnicas de modelagem preditiva, como classificação, para prever se um passageiro sobreviveria com base em suas características.
Após a aplicação do Teste Qui-Quadrado de Independência, seremos capazes de responder à seguinte pergunta:

“Será que o Jack caberia na porta que a Rose se salvou?”

Brincadeiras à parte, o verdadeiro objetivo é verificar se existe associação entre a ‘Classe do Passageiro’ e ‘Sobrevivência’.

Deixaremos disponível o arquivo contendo a tabela de contingência utilizada para esta análise: Titanic_Classe_Mortes.csv

Resolução utilizando o software estatístico R

				
					#####################
#Carregando os dados#
#####################

dados_titanic <- read.csv("Titanic_Classe_Mortes.csv", sep=",", header=T)
head(dados_titanic) #visualizando o arquivo


				
			
				
					# Transformando as colunas 'Não' e 'Sim' em uma matriz de contingência para serem usadas no teste qui-quadrado

matriz_contingencia <- as.matrix(dados_titanic[,-1])
rownames(matriz_contingencia) <- dados_titanic$Classe #dando os nomes às linhas

head(matriz_contingencia) #visualizando a matriz
				
			
				
					#################################
#Realizando o teste Qui-quadrado#
#################################

resultado_teste_qui <- chisq.test(matriz_contingencia)
resultado_teste_qui


				
			

Agora, vamos interpretar a saída do teste qui-quadrado:

  1. X-squared = 190.4:

    • Isso é o valor do estatístico qui-quadrado obtido com base nos dados fornecidos. É uma medida que expressa o quanto as frequências observadas se desviam das frequências esperadas (assumindo que as variáveis são independentes). Um valor maior indica um desvio maior.
  2. df = 3:

    • “df” se refere aos graus de liberdade, que é uma função das dimensões da tabela. No caso de uma tabela de contingência r×c, os graus de liberdade são calculados como (r−1)×(c−1). No seu caso, parece que você tem uma tabela 4×2, o que daria 3 graus de liberdade.
  3. p-value < 2.2e-16:

    • O valor-p é uma métrica que nos diz a probabilidade de observarmos uma estatística tão extrema quanto (ou mais extrema que) o que foi calculado, assumindo que a hipótese nula é verdadeira. A hipótese nula, neste caso, é de que as duas variáveis são independentes (não estão associadas).
    • Quando o valor-p é muito pequeno (como é o caso aqui, onde é menor que 2.2e-16), geralmente rejeitamos a hipótese nula. O limiar padrão para rejeitar a hipótese nula é geralmente 0,05, mas isso pode variar dependendo do contexto.

Interpretação:

Dada a saída do teste qui-quadrado, podemos concluir que há evidências muito fortes (p-value < 2.2e-16) para rejeitar a hipótese nula de que as duas variáveis (neste caso, “Classe” e “Sobreviveu”) são independentes. Em outras palavras, a classe de um passageiro parece ter uma associação significativa com a probabilidade de sobrevivência no Titanic.

Observe que, enquanto o teste qui-quadrado pode nos dizer que há uma associação entre as variáveis, ele não fornece informações sobre a natureza dessa associação.

Resolução utilizando o software Python

				
					#bibliotecas e funções a serem utilizadas

import pandas as pd #utilizada na leitura do arquivo
from scipy.stats import chi2_contingency

# Lendo a tabela de contingência no Python
tabela_contingencia_python = pd.read_csv("Titanic_Classe_Mortes.csv", index_col=0)

print(tabela_contingencia_python) #visualizando a tabela de contingência
				
			
				
					chi2, p, _, _ = chi2_contingency(tabela_contingencia_python) # Aplicando o teste qui-quadrado
print(f"\nValor de chi-quadrado: {chi2}") #visualizando o valor da estatística 
print(f"Valor-p: {p}") #visualizando o Valor-p
				
			

Vamos analisar os resultados:

  1. Valor de chi-quadrado (X-squared): É uma medida do desvio entre as frequências observadas e as esperadas. Um valor grande sugere que há um desvio significativo entre as frequências observadas e as esperadas.

  2. Valor-p (p-value): Indica a probabilidade de observar os dados (ou algo mais extremo) quando a hipótese nula é verdadeira. Um valor-p muito pequeno (tipicamente menor que 0,05) sugere que podemos rejeitar a hipótese nula. Neste caso, o valor-p é extremamente pequeno (4,999927529868003e-41), o que sugere que as variáveis são dependentes.

A diferença no valor-p entre o R e o Python pode ser devido a vários fatores:

  1. Métodos numéricos diferentes: Diferentes softwares ou pacotes podem usar algoritmos ou aproximações diferentes para calcular o teste qui-quadrado e o valor-p associado.

  2. Versões de pacotes: As bibliotecas ou pacotes usados em cada linguagem de programação podem ser atualizadas ao longo do tempo e podem ter implementações ligeiramente diferentes.

Em qualquer caso, a principal conclusão é a mesma: com um valor-p tão pequeno, você rejeitaria a hipótese nula e concluiria que há uma associação significativa entre as variáveis. Mesmo que os valores-p exatos sejam ligeiramente diferentes, ambos são muito menores do que qualquer nível de significância padrão (como 0,05), levando à mesma decisão estatística.

Esperamos que este artigo tenha lhe oferecido insights valiosos sobre como utilizar o teste Qui-Quadrado de Independência em suas análises.

Se desejar contar com a expertise de nossa Consultoria Estatística, basta clicar no botão do WhatsApp e conversar diretamente com um de nossos consultores especializados.

© Copyright 2023 Keinny Stalschus – Consultoria Estatística. Todos os direitos reservados.