Estadística inferencial para Data Science

La estadística inferencial fue mi primer "muro" real en data science. Descriptiva la entendía bien: medias, medianas, desviaciones. Pero cuando empezaron los p-valores, los intervalos de confianza y los tests de hipótesis... me perdí.

Aquí va lo que he aprendido después de semanas de estudiar esto (y lo que creo que realmente importa).

Lo imprescindible

1. Distribuciones de probabilidad

Entender la distribución normal es básico. Casi todo en estadística inferencial asume normalidad o se aproxima a ella. También la binomial para datos categóricos.

No hace falta memorizar fórmulas. Hace falta entender la forma de la campana y qué significa que algo esté a 2 desviaciones estándar de la media.

Distribución normal con regla 68-95-99.7 — La distribución normal — el 68% de los datos está a ±1 desviación estándar

2. Intervalos de confianza

Un intervalo de confianza del 95% NO significa qué hay un 95% de probabilidad de que el valor real esté ahi. Significa que si repitieras el experimento 100 veces, en 95 de ellas el intervalo contendria el valor real.

Es sutil pero importa. Y me costó entenderlo.

3. Tests de hipótesis

El framework básico:

Hipótesis nula (H0): no hay efecto / no hay diferencia
Hipótesis alternativa (H1): si hay efecto
Calculas un estadístico de prueba
Si el p-valor es menor que tu umbral (normalmente 0.05), rechazas H0

Proceso de test de hipótesis en 4 pasos — Los 4 pasos de un test de hipótesis — de la pregunta a la decisión

4. El p-valor

El p-valor es la probabilidad de obtener un resultado tan extremo como el observado, asumiendo que H0 es verdadera. No es la probabilidad de que H0 sea falsa.

Este concepto me costó más que cualquier librería de Python.

Visualización del p-valor en una distribución — El p-valor es el área sombreada: la probabilidad de observar este resultado si H₀ fuera cierta

Lo qué puedes dejar para después

ANOVA avanzado y MANOVA: importante, pero no lo necesitas al principio
Estadística bayesiana: fascinante pero un mundo aparte. Llegaras ahi.
Tests no paramétricos en profundidad: saber que existen es suficiente por ahora

Cómo lo estoy estudiando

Khan Academy para la teoría. Explica conceptos con ejemplos claros.
StatQuest (YouTube) de Josh Starmer. El mejor canal para entender estadística visualmente.
Practicar con Python: scipy.stats tiene todos los tests. Aplicarlos a datasets reales es lo que fija los conceptos.

# Ejemplo: t-test en Python
from scipy import stats

grupo_a = [23, 25, 28, 22, 27]
grupo_b = [30, 32, 29, 35, 31]

t_stat, p_value = stats.ttest_ind(grupo_a, grupo_b)
print(f"t = {t_stat:.3f}, p = {p_value:.4f}")

Mi consejo

No intentes entenderlo todo de golpe. La estadística inferencial es de esos temas que necesitan tiempo para asentarse. Estudia un poco, aplica, vuelve a la teoría. Repite.

Y si te sientes perdida: es normal. Todos nos hemos perdido aquí.

Sigue aprendiendo

← volver al blog

Estadística inferencial: lo que de verdad necesitas para Data Science