La estadística inferencial fue mi primer "muro" real en data science. Descriptiva la entendía bien: medias, medianas, desviaciones. Pero cuando empezaron los p-valores, los intervalos de confianza y los tests de hipótesis... me perdí.
Aquí va lo que he aprendido después de semanas de estudiar esto (y lo que creo que realmente importa).
Lo imprescindible
1. Distribuciones de probabilidad
Entender la distribución normal es básico. Casi todo en estadística inferencial asume normalidad o se aproxima a ella. También la binomial para datos categóricos.
No hace falta memorizar fórmulas. Hace falta entender la forma de la campana y qué significa que algo esté a 2 desviaciones estándar de la media.
2. Intervalos de confianza
Un intervalo de confianza del 95% NO significa qué hay un 95% de probabilidad de que el valor real esté ahi. Significa que si repitieras el experimento 100 veces, en 95 de ellas el intervalo contendria el valor real.
Es sutil pero importa. Y me costó entenderlo.
3. Tests de hipótesis
El framework básico:
- Hipótesis nula (H0): no hay efecto / no hay diferencia
- Hipótesis alternativa (H1): si hay efecto
- Calculas un estadístico de prueba
- Si el p-valor es menor que tu umbral (normalmente 0.05), rechazas H0
4. El p-valor
El p-valor es la probabilidad de obtener un resultado tan extremo como el observado, asumiendo que H0 es verdadera. No es la probabilidad de que H0 sea falsa.
Este concepto me costó más que cualquier librería de Python.
Lo qué puedes dejar para después
- ANOVA avanzado y MANOVA: importante, pero no lo necesitas al principio
- Estadística bayesiana: fascinante pero un mundo aparte. Llegaras ahi.
- Tests no paramétricos en profundidad: saber que existen es suficiente por ahora
Cómo lo estoy estudiando
- Khan Academy para la teoría. Explica conceptos con ejemplos claros.
- StatQuest (YouTube) de Josh Starmer. El mejor canal para entender estadística visualmente.
- Practicar con Python: scipy.stats tiene todos los tests. Aplicarlos a datasets reales es lo que fija los conceptos.
# Ejemplo: t-test en Python
from scipy import stats
grupo_a = [23, 25, 28, 22, 27]
grupo_b = [30, 32, 29, 35, 31]
t_stat, p_value = stats.ttest_ind(grupo_a, grupo_b)
print(f"t = {t_stat:.3f}, p = {p_value:.4f}")
Mi consejo
No intentes entenderlo todo de golpe. La estadística inferencial es de esos temas que necesitan tiempo para asentarse. Estudia un poco, aplica, vuelve a la teoría. Repite.
Y si te sientes perdida: es normal. Todos nos hemos perdido aquí.