📖 Glossário - Estatística Aplicada
A
Alfa (α): Nível de significância, probabilidade de rejeitar H₀ quando é verdadeira (geralmente 0.05).
ANOVA (Analysis of Variance): Teste para comparar médias de três ou mais grupos.
Assimetria (Skewness): Medida de assimetria da distribuição.
Amostra: Subconjunto de população usado para inferência.
B
Beta (β): Probabilidade de não rejeitar H₀ quando é falsa (erro tipo II).
Boxplot: Gráfico que mostra quartis, mediana e outliers.
C
Causalidade: Relação onde uma variável causa mudança em outra.
Chi-quadrado (χ²): Teste para verificar independência entre variáveis categóricas.
Coeficiente de Correlação (r): Medida de força e direção da relação linear (-1 a +1).
Coeficiente de Determinação (R²): Proporção da variância explicada pelo modelo (0 a 1).
Correlação: Medida de associação entre duas variáveis.
Covariância: Medida de variação conjunta de duas variáveis.
Curtose: Medida de achatamento da distribuição.
D
Dados Categóricos: Dados em categorias (nominal/ordinal).
Dados Quantitativos: Dados numéricos (discretos/contínuos).
Desvio Padrão (σ ou s): Medida de dispersão dos dados em torno da média.
Distribuição: Padrão de como valores de variável são espalhados.
Distribuição Normal: Distribuição simétrica em forma de sino.
E
Erro Padrão: Desvio padrão da distribuição amostral.
Erro Tipo I: Rejeitar H₀ quando é verdadeira (falso positivo).
Erro Tipo II: Não rejeitar H₀ quando é falsa (falso negativo).
Estatística Descritiva: Resumo e descrição de dados.
Estatística Inferencial: Conclusões sobre população a partir de amostra.
Estimador: Fórmula usada para estimar parâmetro populacional.
F
F de Fisher: Estatística usada em ANOVA para comparar variâncias.
G
Graus de Liberdade: Número de valores livres para variar em cálculo estatístico.
H
Histograma: Gráfico de frequência de dados contínuos.
Hipótese Alternativa (H₁): Afirmação que queremos provar.
Hipótese Nula (H₀): Afirmação de que não há efeito/diferença.
I
IC (Intervalo de Confiança): Faixa de valores prováveis para parâmetro populacional.
IQR (Interquartile Range): Diferença entre Q3 e Q1, medida de dispersão.
K
Kolmogorov-Smirnov: Teste de normalidade de distribuição.
Kurtosis: Ver Curtose.
L
Linearidade: Relação proporcional entre variáveis.
M
Mann-Whitney: Teste não-paramétrico para comparar dois grupos independentes.
Máximo: Maior valor em conjunto de dados.
Média (x̄ ou μ): Soma dos valores dividida pelo número de observações.
Mediana: Valor central quando dados estão ordenados.
Mínimo: Menor valor em conjunto de dados.
Moda: Valor mais frequente em conjunto de dados.
N
Normalidade: Propriedade de dados seguirem distribuição normal.
Nível de Confiança: Probabilidade de IC conter parâmetro verdadeiro (ex: 95%).
O
Outlier: Valor extremo que destoa do padrão.
P
p-valor: Probabilidade de obter resultado observado se H₀ for verdadeira.
Parâmetro: Característica numérica de população (μ, σ).
Percentil: Valor abaixo do qual certa porcentagem de dados cai.
Poder do Teste (1-β): Probabilidade de rejeitar H₀ quando é falsa.
População: Conjunto completo de elementos de interesse.
Q
Q1 (Primeiro Quartil): Valor que deixa 25% dos dados abaixo.
Q2 (Segundo Quartil): Mediana (50%).
Q3 (Terceiro Quartil): Valor que deixa 75% dos dados abaixo.
R
Regressão: Técnica para modelar relação entre variáveis.
Regressão Linear: Modelo de relação linear entre variáveis.
Regressão Múltipla: Regressão com múltiplas variáveis explicativas.
Resíduo: Diferença entre valor observado e previsto.
R de Pearson: Coeficiente de correlação linear.
S
Shapiro-Wilk: Teste de normalidade sensível.
Significância Estatística: Resultado improvável de ocorrer por acaso (p < α).
Spearman (ρ): Coeficiente de correlação de postos (não-paramétrico).
T
Teste Bicaudal: Teste que considera desvios em ambas direções.
Teste de Hipótese: Procedimento para decidir entre H₀ e H₁.
Teste Paramétrico: Teste que assume distribuição específica dos dados.
Teste t de Student: Teste para comparar médias.
Teste Unicaudal: Teste que considera desvio em uma direção.
V
Valor-p: Ver p-valor.
Variância (σ² ou s²): Média dos desvios quadráticos em relação à média.
Variável Dependente (Y): Variável que queremos explicar/prever.
Variável Independente (X): Variável explicativa/preditora.
W
Wilcoxon: Teste não-paramétrico para dados pareados.
Z
z-score: Número de desvios padrão que valor está da média.
Fórmulas Essenciais
Estatística Descritiva
Média: x̄ = Σx / n
Variância: s² = Σ(x - x̄)² / (n-1)
Desvio Padrão: s = √s²
Coeficiente de Variação: CV = (s / x̄) × 100%
Correlação e Regressão
Correlação de Pearson: r = Σ[(x - x̄)(y - ȳ)] / √[Σ(x - x̄)²Σ(y - ȳ)²]
Regressão Linear: y = a + bx
b = Σ[(x - x̄)(y - ȳ)] / Σ(x - x̄)²
a = ȳ - bx̄
R²: R² = 1 - (SSres / SStot)
Testes de Hipótese
Teste t: t = (x̄ - μ₀) / (s / √n)
Intervalo de Confiança (95%): x̄ ± t₀.₀₂₅ × (s / √n)
Tamanho de Efeito (Cohen's d): d = (x̄₁ - x̄₂) / s_pooled
Exemplos Práticos
Estatística Descritiva Completa
import pandas as pd
import numpy as np
from scipy import stats
# Dados de temperatura
temperaturas = [22.5, 23.1, 21.8, 24.2, 22.9, 23.5, 22.1, 23.8, 22.6, 23.3]
# Estatísticas básicas
print("Média:", np.mean(temperaturas))
print("Mediana:", np.median(temperaturas))
print("Moda:", stats.mode(temperaturas))
print("Desvio Padrão:", np.std(temperaturas, ddof=1))
print("Variância:", np.var(temperaturas, ddof=1))
print("Mínimo:", np.min(temperaturas))
print("Máximo:", np.max(temperaturas))
print("Amplitude:", np.max(temperaturas) - np.min(temperaturas))
# Quartis
q1 = np.percentile(temperaturas, 25)
q2 = np.percentile(temperaturas, 50) # Mediana
q3 = np.percentile(temperaturas, 75)
iqr = q3 - q1
print(f"Q1: {q1}, Q2: {q2}, Q3: {q3}, IQR: {iqr}")
# Teste de normalidade
estatistica, p_valor = stats.shapiro(temperaturas)
print(f"Shapiro-Wilk: p-valor = {p_valor:.4f}")
if p_valor > 0.05:
print("Dados são normalmente distribuídos")
Teste de Hipótese (Teste t)
import scipy.stats as stats
# Dados: temperatura antes e depois de intervenção
antes = [22.5, 23.1, 21.8, 24.2, 22.9]
depois = [20.1, 19.8, 21.2, 20.5, 19.9]
# Teste t pareado
t_stat, p_valor = stats.ttest_rel(antes, depois)
print(f"Estatística t: {t_stat:.3f}")
print(f"p-valor: {p_valor:.4f}")
alpha = 0.05
if p_valor < alpha:
print("Há diferença significativa (rejeitar H₀)")
else:
print("Não há diferença significativa (não rejeitar H₀)")
# Tamanho de efeito
d = np.mean(np.array(antes) - np.array(depois)) / np.std(np.array(antes) - np.array(depois), ddof=1)
print(f"Cohen's d: {d:.3f}")
Correlação e Regressão
import matplotlib.pyplot as plt
from scipy.stats import pearsonr, spearmanr
# Dados
temperatura = [20, 22, 24, 26, 28, 30, 32]
abundancia = [45, 52, 58, 62, 55, 48, 42]
# Correlação de Pearson
r_pearson, p_pearson = pearsonr(temperatura, abundancia)
print(f"Correlação de Pearson: r = {r_pearson:.3f}, p = {p_pearson:.4f}")
# Correlação de Spearman
r_spearman, p_spearman = spearmanr(temperatura, abundancia)
print(f"Correlação de Spearman: ρ = {r_spearman:.3f}, p = {p_spearman:.4f}")
# Regressão linear
from scipy.stats import linregress
slope, intercept, r_value, p_value, std_err = linregress(temperatura, abundancia)
print(f"Equação: y = {intercept:.2f} + {slope:.2f}x")
print(f"R² = {r_value**2:.3f}")
# Plotar
plt.figure(figsize=(10, 6))
plt.scatter(temperatura, abundancia, s=100, alpha=0.6, label='Dados')
plt.plot(temperatura, intercept + slope*np.array(temperatura), 'r-', label='Regressão')
plt.xlabel('Temperatura (°C)')
plt.ylabel('Abundância')
plt.title(f'Correlação: r = {r_pearson:.3f}')
plt.legend()
plt.grid(True, alpha=0.3)
plt.savefig('regressao.png', dpi=300, bbox_inches='tight')
ANOVA (Comparação de 3+ grupos)
from scipy.stats import f_oneway
# Dados de 3 praias
praia1 = [22.5, 23.1, 22.8, 23.2]
praia2 = [25.1, 24.8, 25.3, 25.0]
praia3 = [21.2, 20.9, 21.5, 21.1]
# ANOVA
F_stat, p_valor = f_oneway(praia1, praia2, praia3)
print(f"Estatística F: {F_stat:.3f}")
print(f"p-valor: {p_valor:.4f}")
if p_valor < 0.05:
print("Há diferença significativa entre as praias")
else:
print("Não há diferença significativa entre as praias")
Guia de Escolha de Teste
| Situação | Teste Recomendado |
|---|---|
| Comparar 2 grupos independentes (dados normais) | Teste t independente |
| Comparar 2 grupos pareados (dados normais) | Teste t pareado |
| Comparar 2 grupos (dados não-normais) | Mann-Whitney |
| Comparar 3+ grupos (dados normais) | ANOVA |
| Comparar 3+ grupos (dados não-normais) | Kruskal-Wallis |
| Correlação linear | Pearson |
| Correlação não-linear | Spearman |
| Testar normalidade | Shapiro-Wilk |
| Variáveis categóricas | Chi-quadrado |
💡 Dica: Sempre verifique as premissas do teste antes de aplicá-lo!