📖 Glossário - Estatística Aplicada

A

Alfa (α): Nível de significância, probabilidade de rejeitar H₀ quando é verdadeira (geralmente 0.05).

ANOVA (Analysis of Variance): Teste para comparar médias de três ou mais grupos.

Assimetria (Skewness): Medida de assimetria da distribuição.

Amostra: Subconjunto de população usado para inferência.

B

Beta (β): Probabilidade de não rejeitar H₀ quando é falsa (erro tipo II).

Boxplot: Gráfico que mostra quartis, mediana e outliers.

C

Causalidade: Relação onde uma variável causa mudança em outra.

Chi-quadrado (χ²): Teste para verificar independência entre variáveis categóricas.

Coeficiente de Correlação (r): Medida de força e direção da relação linear (-1 a +1).

Coeficiente de Determinação (R²): Proporção da variância explicada pelo modelo (0 a 1).

Correlação: Medida de associação entre duas variáveis.

Covariância: Medida de variação conjunta de duas variáveis.

Curtose: Medida de achatamento da distribuição.

D

Dados Categóricos: Dados em categorias (nominal/ordinal).

Dados Quantitativos: Dados numéricos (discretos/contínuos).

Desvio Padrão (σ ou s): Medida de dispersão dos dados em torno da média.

Distribuição: Padrão de como valores de variável são espalhados.

Distribuição Normal: Distribuição simétrica em forma de sino.

E

Erro Padrão: Desvio padrão da distribuição amostral.

Erro Tipo I: Rejeitar H₀ quando é verdadeira (falso positivo).

Erro Tipo II: Não rejeitar H₀ quando é falsa (falso negativo).

Estatística Descritiva: Resumo e descrição de dados.

Estatística Inferencial: Conclusões sobre população a partir de amostra.

Estimador: Fórmula usada para estimar parâmetro populacional.

F

F de Fisher: Estatística usada em ANOVA para comparar variâncias.

G

Graus de Liberdade: Número de valores livres para variar em cálculo estatístico.

H

Histograma: Gráfico de frequência de dados contínuos.

Hipótese Alternativa (H₁): Afirmação que queremos provar.

Hipótese Nula (H₀): Afirmação de que não há efeito/diferença.

I

IC (Intervalo de Confiança): Faixa de valores prováveis para parâmetro populacional.

IQR (Interquartile Range): Diferença entre Q3 e Q1, medida de dispersão.

K

Kolmogorov-Smirnov: Teste de normalidade de distribuição.

Kurtosis: Ver Curtose.

L

Linearidade: Relação proporcional entre variáveis.

M

Mann-Whitney: Teste não-paramétrico para comparar dois grupos independentes.

Máximo: Maior valor em conjunto de dados.

Média (x̄ ou μ): Soma dos valores dividida pelo número de observações.

Mediana: Valor central quando dados estão ordenados.

Mínimo: Menor valor em conjunto de dados.

Moda: Valor mais frequente em conjunto de dados.

N

Normalidade: Propriedade de dados seguirem distribuição normal.

Nível de Confiança: Probabilidade de IC conter parâmetro verdadeiro (ex: 95%).

O

Outlier: Valor extremo que destoa do padrão.

P

p-valor: Probabilidade de obter resultado observado se H₀ for verdadeira.

Parâmetro: Característica numérica de população (μ, σ).

Percentil: Valor abaixo do qual certa porcentagem de dados cai.

Poder do Teste (1-β): Probabilidade de rejeitar H₀ quando é falsa.

População: Conjunto completo de elementos de interesse.

Q

Q1 (Primeiro Quartil): Valor que deixa 25% dos dados abaixo.

Q2 (Segundo Quartil): Mediana (50%).

Q3 (Terceiro Quartil): Valor que deixa 75% dos dados abaixo.

R

Regressão: Técnica para modelar relação entre variáveis.

Regressão Linear: Modelo de relação linear entre variáveis.

Regressão Múltipla: Regressão com múltiplas variáveis explicativas.

Resíduo: Diferença entre valor observado e previsto.

R de Pearson: Coeficiente de correlação linear.

S

Shapiro-Wilk: Teste de normalidade sensível.

Significância Estatística: Resultado improvável de ocorrer por acaso (p < α).

Spearman (ρ): Coeficiente de correlação de postos (não-paramétrico).

T

Teste Bicaudal: Teste que considera desvios em ambas direções.

Teste de Hipótese: Procedimento para decidir entre H₀ e H₁.

Teste Paramétrico: Teste que assume distribuição específica dos dados.

Teste t de Student: Teste para comparar médias.

Teste Unicaudal: Teste que considera desvio em uma direção.

V

Valor-p: Ver p-valor.

Variância (σ² ou s²): Média dos desvios quadráticos em relação à média.

Variável Dependente (Y): Variável que queremos explicar/prever.

Variável Independente (X): Variável explicativa/preditora.

W

Wilcoxon: Teste não-paramétrico para dados pareados.

Z

z-score: Número de desvios padrão que valor está da média.

Fórmulas Essenciais

Estatística Descritiva

Média: x̄ = Σx / n

Variância:  = Σ(x - x̄)² / (n-1)

Desvio Padrão: s = 

Coeficiente de Variação: CV = (s / x̄) × 100%

Correlação e Regressão

Correlação de Pearson: r = Σ[(x - x̄)(y - ȳ)] / √[Σ(x - x̄)²Σ(y - ȳ)²]

Regressão Linear: y = a + bx
    b = Σ[(x - x̄)(y - ȳ)] / Σ(x - x̄)²
    a = ȳ - bx̄

R²: R² = 1 - (SSres / SStot)

Testes de Hipótese

Teste t: t = (x̄ - μ₀) / (s / √n)

Intervalo de Confiança (95%): x̄ ± t₀.₀₂₅ × (s / √n)

Tamanho de Efeito (Cohen's d): d = (x̄₁ - x̄₂) / s_pooled

Exemplos Práticos

Estatística Descritiva Completa

import pandas as pd
import numpy as np
from scipy import stats

# Dados de temperatura
temperaturas = [22.5, 23.1, 21.8, 24.2, 22.9, 23.5, 22.1, 23.8, 22.6, 23.3]

# Estatísticas básicas
print("Média:", np.mean(temperaturas))
print("Mediana:", np.median(temperaturas))
print("Moda:", stats.mode(temperaturas))
print("Desvio Padrão:", np.std(temperaturas, ddof=1))
print("Variância:", np.var(temperaturas, ddof=1))
print("Mínimo:", np.min(temperaturas))
print("Máximo:", np.max(temperaturas))
print("Amplitude:", np.max(temperaturas) - np.min(temperaturas))

# Quartis
q1 = np.percentile(temperaturas, 25)
q2 = np.percentile(temperaturas, 50)  # Mediana
q3 = np.percentile(temperaturas, 75)
iqr = q3 - q1

print(f"Q1: {q1}, Q2: {q2}, Q3: {q3}, IQR: {iqr}")

# Teste de normalidade
estatistica, p_valor = stats.shapiro(temperaturas)
print(f"Shapiro-Wilk: p-valor = {p_valor:.4f}")
if p_valor > 0.05:
    print("Dados são normalmente distribuídos")

Teste de Hipótese (Teste t)

import scipy.stats as stats

# Dados: temperatura antes e depois de intervenção
antes = [22.5, 23.1, 21.8, 24.2, 22.9]
depois = [20.1, 19.8, 21.2, 20.5, 19.9]

# Teste t pareado
t_stat, p_valor = stats.ttest_rel(antes, depois)

print(f"Estatística t: {t_stat:.3f}")
print(f"p-valor: {p_valor:.4f}")

alpha = 0.05
if p_valor < alpha:
    print("Há diferença significativa (rejeitar H₀)")
else:
    print("Não há diferença significativa (não rejeitar H₀)")

# Tamanho de efeito
d = np.mean(np.array(antes) - np.array(depois)) / np.std(np.array(antes) - np.array(depois), ddof=1)
print(f"Cohen's d: {d:.3f}")

Correlação e Regressão

import matplotlib.pyplot as plt
from scipy.stats import pearsonr, spearmanr

# Dados
temperatura = [20, 22, 24, 26, 28, 30, 32]
abundancia = [45, 52, 58, 62, 55, 48, 42]

# Correlação de Pearson
r_pearson, p_pearson = pearsonr(temperatura, abundancia)
print(f"Correlação de Pearson: r = {r_pearson:.3f}, p = {p_pearson:.4f}")

# Correlação de Spearman
r_spearman, p_spearman = spearmanr(temperatura, abundancia)
print(f"Correlação de Spearman: ρ = {r_spearman:.3f}, p = {p_spearman:.4f}")

# Regressão linear
from scipy.stats import linregress
slope, intercept, r_value, p_value, std_err = linregress(temperatura, abundancia)

print(f"Equação: y = {intercept:.2f} + {slope:.2f}x")
print(f"R² = {r_value**2:.3f}")

# Plotar
plt.figure(figsize=(10, 6))
plt.scatter(temperatura, abundancia, s=100, alpha=0.6, label='Dados')
plt.plot(temperatura, intercept + slope*np.array(temperatura), 'r-', label='Regressão')
plt.xlabel('Temperatura (°C)')
plt.ylabel('Abundância')
plt.title(f'Correlação: r = {r_pearson:.3f}')
plt.legend()
plt.grid(True, alpha=0.3)
plt.savefig('regressao.png', dpi=300, bbox_inches='tight')

ANOVA (Comparação de 3+ grupos)

from scipy.stats import f_oneway

# Dados de 3 praias
praia1 = [22.5, 23.1, 22.8, 23.2]
praia2 = [25.1, 24.8, 25.3, 25.0]
praia3 = [21.2, 20.9, 21.5, 21.1]

# ANOVA
F_stat, p_valor = f_oneway(praia1, praia2, praia3)

print(f"Estatística F: {F_stat:.3f}")
print(f"p-valor: {p_valor:.4f}")

if p_valor < 0.05:
    print("Há diferença significativa entre as praias")
else:
    print("Não há diferença significativa entre as praias")

Guia de Escolha de Teste

Situação Teste Recomendado
Comparar 2 grupos independentes (dados normais) Teste t independente
Comparar 2 grupos pareados (dados normais) Teste t pareado
Comparar 2 grupos (dados não-normais) Mann-Whitney
Comparar 3+ grupos (dados normais) ANOVA
Comparar 3+ grupos (dados não-normais) Kruskal-Wallis
Correlação linear Pearson
Correlação não-linear Spearman
Testar normalidade Shapiro-Wilk
Variáveis categóricas Chi-quadrado

💡 Dica: Sempre verifique as premissas do teste antes de aplicá-lo!