hipótesis nula archivos - El blog de Víctor Yepes

¿Es real o es solo azar? 5 revelaciones del ANOVA para dominar tus datos

Introducción: El dilema de las medias engañosas.

Imagine que supervisa a tres profesores con métodos pedagógicos diferentes o que analiza la viscosidad de cinco lotes de producción. Al revisar los resultados, observa que las medias no son iguales. Entonces surge la pregunta crítica que separa a un gestor de un estratega: ¿esta diferencia indica una verdadera oportunidad operativa o es simplemente ruido estadístico?

Actuar basándose en el «ruido» genera una ineficiencia operativa masiva: se podría detener una línea de producción sin necesidad o ignorar un fallo sistémico costoso simplemente por falta de rigor. Para resolver este dilema, la estadística nos ofrece la herramienta «detective» definitiva: el ANOVA (Análisis de Varianza), diseñado para determinar si las diferencias entre tres o más grupos son lo suficientemente significativas como para justificar una decisión empresarial.

¿Por qué la prueba t no es suficiente?

Para comparar dos niveles (por ejemplo, hombres frente a mujeres), la prueba t de Student es adecuada. Sin embargo, cuando enfrentamos tres o más grupos, el ANOVA es obligatorio por una razón técnica crucial: la inflación del error alfa.

Si intentáramos comparar múltiples pares usando pruebas t individuales (lote 1 frente a lote 2, lote 2 frente a lote 3 y lote 1 frente a lote 3), el riesgo de error se acumularía. Cada prueba individual tiene una probabilidad del 5 % de detectar una «falsa diferencia» (falso positivo). Al encadenar pruebas, ese riesgo del 5 % crece exponencialmente, lo que nos lleva a conclusiones erróneas. El ANOVA neutraliza este riesgo al analizar todos los grupos simultáneamente bajo una premisa fundamental:

Hipótesis nula (H₀): todas las medias poblacionales son iguales (H₀: μ₁ = μ₂ = ⋯ = μ_k). El punto de partida estratégico consiste en asumir que el factor estudiado no tiene influencia real hasta que la varianza demuestre lo contrario.

La paradoja central: comparar medias al analizar la variabilidad.

El concepto más contraintuitivo del ANOVA es que, para saber si las medias son distintas, no estudiamos las medias, sino la varianza. El análisis descompone la variabilidad total en dos fuentes:

Variación entre grupos (factor): el efecto real del tratamiento o de la variable (por ejemplo, el impacto de un nuevo fertilizante).
Variación dentro de los grupos (error): el ruido aleatorio o las diferencias que no pueden explicarse por el azar.

Un estratega sénior no solo busca diferencias, sino que también cuantifica la variabilidad explicada. Usando la relación (SCE/SCT) × 100, podemos determinar qué porcentaje del «caos» de los datos corresponde a la responsabilidad directa del factor analizado. Si el lote explica, por ejemplo, el 44,95 % de la variación de la viscosidad, se trata de un hallazgo de alto impacto administrativo.

El valor p y la razón F: tu seguro contra la casualidad.

Si el ANOVA es un detective, la razón F es su lupa. Matemáticamente, es la relación entre la media de los cuadrados del factor y la media de los cuadrados del error (MC_Factor/MC_Error). Si la razón F es significativamente mayor que 1, la «señal» del factor es más fuerte que el «ruido» del azar.

Esta potencia se traduce en el valor p, que es nuestra medida de riesgo. Consideremos el caso del gel adhesivo: tras las quejas de los clientes, se analizaron cinco lotes. El lote 3 mostró una media de 26,77, notablemente inferior al estándar de 30. El ANOVA arrojó un valor p de 0,0012, lo que constituye una prueba contundente para que la gerencia intervenga específicamente en ese lote.

Definición del valor p: probabilidad de observar una varianza en las medias muestrales por mero azar. Un valor p inferior a 0,05 indica que el riesgo de que se trate de un espejismo es lo suficientemente bajo como para actuar.

El ANOVA no es una brújula, sino una alarma.

Es un error común creer que el ANOVA señala al «culpable». En realidad, el ANOVA funciona como una alarma: confirma que «no todas las medias son iguales», pero no especifica cuál es la diferente.

Una vez que suena la alarma (p < 0,05), el estratega debe utilizar una «brújula»: las pruebas de comparación múltiple. Herramientas como la prueba de Tukey-Kramer o la HSD de Tukey permiten comparar pares de grupos para identificar exactamente dónde se encuentra la anomalía y realizar una inversión de recursos quirúrgicos de manera eficiente.

Resiliencia estadística: qué hacer cuando las reglas se rompen.

Para que un ANOVA tradicional sea fiable, los datos deben ser normales y presentar homocedasticidad, es decir, igualdad de varianzas. La prueba de Levene es el filtro crítico aquí.

Si el valor p de Levene es mayor que 0,05, las varianzas son iguales y el ANOVA es el camino seguro.
Si Levene es significativo (p < 0,05), las reglas se han roto y el ANOVA estándar pierde validez.

En este escenario de crisis de datos, el investigador recurre a la prueba de Welch. Se trata de una alternativa robusta que permite comparar medias con precisión, incluso cuando las varianzas son desiguales, y que preserva la investigación sin sacrificar el rigor científico.

Conclusión: del dato a la decisión inteligente.

El ANOVA transforma los datos brutos en pruebas de la influencia. Ya sea para validar si un medicamento reduce el tiempo de curación o si un cambio en la composición del hormigón aumenta su resistencia, esta técnica nos permite distinguir entre casualidad y causalidad.

En última instancia, la excelencia en la gestión no consiste en promedios simples, sino en comprender qué parte de los resultados se debe a la variabilidad explicada por las decisiones adoptadas y qué parte es ruido.

Reflexione sobre su operación de hoy: ¿qué variaciones observa en sus procesos que podrían validarse —o descartarse— mediante el rigor del ANOVA?

En esta conversación puedes escuchar algunas de las ideas más importantes sobre ANOVA.

Este vídeo resume bien el tema.

One_Way_ANOVA_Mastery

Esta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.

El arte de predecir lo invisible: claves para entender la inferencia estadística

¿Cómo podemos determinar la intención de voto de toda una nación o evaluar la eficacia de un nuevo fármaco sin entrevistar a todos los ciudadanos ni tratar a todos los pacientes del planeta? En nuestra vida cotidiana, nos enfrentamos constantemente al reto de tomar decisiones globales basadas en información limitada. Medir el total de elementos suele ser física o económicamente inviable.

Como expertos en comunicación de datos, consideramos la inferencia estadística como el puente intelectual definitivo. Es la disciplina que nos permite pasar de lo que vemos —una pequeña muestra— a la realidad oculta de la población total. En esencia, es la herramienta científica que transforma la observación de unos pocos en el conocimiento preciso de la mayoría.

Población frente a muestra: la ventana hacia la verdad

Para descifrar la realidad, primero debemos distinguir entre los dos protagonistas del análisis: la población y la muestra. La población es el conjunto total que deseamos estudiar y la muestra es un subconjunto extraído de forma aleatoria que nos sirve de ventana para observar la población.

En este proceso, manejamos conceptos que debemos diferenciar con rigor:

Parámetro: Es el número «secreto» que describe la población. En la práctica, su valor es desconocido porque no podemos examinar a cada individuo. Usamos símbolos como la media poblacional (μ), la desviación típica (σ), la varianza (σ²) o el porcentaje o la proporción poblacional (p).
Estadístico: Es el número que calculamos directamente a partir de los datos muestrales. En este ámbito operamos con la media muestral, la desviación típica muestral, la varianza o la proporción muestral.

Dado que no podemos conocer el parámetro real, nos vemos obligados a operar en el mundo de los estadísticos para realizar estimaciones. El objetivo es claro:

«Extraer conclusiones sobre una población a partir de los datos de una muestra».

El intervalo de confianza: ¿qué tan cerca estamos de la realidad?

Dado que trabajar con muestras implica un error aleatorio inevitable, la estadística no ofrece un único número como verdad absoluta. En su lugar, construimos un intervalo de confianza de nivel C.

Conceptualmente, este rango se define mediante una estructura lógica: estimación ± error de la estimación.

No proporcionamos un único valor porque, en la práctica, el parámetro no se conoce. Por ello, el nivel de confianza C no es solo un porcentaje, sino la respuesta a una pregunta vital sobre la fiabilidad de nuestro trabajo: «¿Con qué frecuencia daría una respuesta correcta este método si lo utilizara muchas veces?». Si afirmamos que tenemos un 95 % de confianza, estamos diciendo que, si repitiéramos el muestreo el 95 % de las veces, nuestro intervalo contendría el verdadero valor del parámetro.

Inocente hasta que se demuestre lo contrario: la hipótesis nula (H0)

Como expertos, empleamos el contraste de hipótesis para evaluar si la evidencia de la muestra es suficiente para inferir una condición en toda la población. Este mecanismo examina dos afirmaciones opuestas:

La hipótesis nula (H0) representa el estado «habitual» o lo que cabría esperar si no hubiera cambios. Es una afirmación de «ausencia de efecto» o de «no diferencia». Algunos ejemplos críticos de H₀ son:

El acusado no es culpable (es inocente).
No hay embarazo.
No hay presencia de cáncer.

Para decidir si rechazamos la hipótesis nula, calculamos el p-valor (o significación muestral). A diferencia de lo que se cree popularmente, el p-valor no es un corte arbitrario, sino la probabilidad de obtener nuestros resultados si la hipótesis nula fuera cierta. Comparamos este p-valor con el nivel de significación (α), que es el límite preestablecido. Si p ≤ α, la evidencia es tan fuerte que rechazamos la situación «habitual» en favor de la hipótesis alternativa.

El dilema del error: falsos positivos y falsos negativos

En cualquier prueba estadística, asumimos el riesgo de tomar una decisión equivocada. Estos errores se dividen en dos categorías fundamentales:

Error tipo I (α): el «falso positivo» o riesgo del fabricante. Ocurre cuando rechazamos la hipótesis nula cuando esta es verdadera (por ejemplo, operar a una persona sana o condenar a un inocente).
Error tipo II (β): el «falso negativo». Sucede cuando aceptamos la hipótesis nula cuando es falsa (por ejemplo, declarar inocente a un asesino o no detectar una enfermedad).

Para minimizar estos riesgos, no solo tenemos en cuenta el nivel de significación (típicamente fijado en el 5 %), sino que también buscamos maximizar la potencia de la prueba (1 – β). Esta potencia representa nuestra capacidad para detectar un efecto cuando realmente existe y depende directamente del tamaño de la muestra y del nivel de significación. Decimos que un resultado tiene significación estadística cuando es tan improbable que no puede atribuirse razonablemente al azar (p ≤ α).

Propiedades del buen estimador

Para que nuestras conclusiones sean robustas, los métodos que utilizamos deben poseer cuatro pilares técnicos extraídos de la teoría de la probabilidad:

Sesgo: el estimador debe carecer de desviaciones sistemáticas; su media debe coincidir con el parámetro real.
Eficiencia: buscamos la menor variabilidad posible en los resultados.
Convergencia y consistencia: estas propiedades garantizan la fiabilidad del método a largo plazo.

La lógica matemática que hay detrás de la eficiencia es poderosa: si aumenta el tamaño de la muestra, disminuye la varianza del estimador. Esta es la razón técnica por la que una encuesta con miles de personas es más «eficiente» y nos acerca más a la verdad que una consulta informal: al reducir la varianza, estrechamos el margen de error y ganamos precisión.

Conclusión: una mirada al futuro de las decisiones

La inferencia estadística es la ciencia que se ocupa de gestionar la incertidumbre para alcanzar la precisión. Nos enseña que, si bien es imposible tener certeza absoluta sobre una población masiva, el rigor matemático nos permite actuar con una seguridad asombrosa.

Aceptar que nuestras conclusiones conviven con un nivel de confianza y un riesgo de error no debilita el conocimiento, sino que lo fortalece al hacerlo verificable y científico. La próxima vez que lea el titular de una encuesta electoral o el estudio de un nuevo tratamiento, no se quede en la superficie. Pregúntese: ¿cuál es el margen de error?, ¿es el p-valor realmente significativo? Si posee estas cinco claves, pasará de ser un consumidor pasivo de datos a ser un pensador crítico capaz de ver lo invisible.

En esta conversación puedes escuchar las ideas más interesantes sobre inferencia estadística.

El vídeo resume bien los conceptos más importantes de este tema.

Esta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.

Potencia de un test estadístico: Cómo evitar que nos la cuelen

https://neuromarketing.la/2018/12/riesgo-percibido-en-las-compras-online/

En un artículo anterior, «Jerga, falacias y encuestas electorales: Las hipótesis en la investigación científica«, expliqué lo que es una hipótesis de investigación y los errores estadísticos asociados. En aquel artículo se habló del nivel de significación α como la probabilidad de rechazar una hipótesis nula cuando es cierta. Por cierto, como curiosidad hay que decir que se llama «hipótesis nula» porque es la afirmación de una «ausencia de efecto» o de «no diferencia».

Para simplificar, supongamos un test de embarazo. En este caso, la hipótesis nula es no estar embarazada. Si el test da positivo, no estando embarazada, a este error se le denomina Tipo I o falso positivo. Este error también ocurriría cuando se realiza una operación quirúrgica a un individuo sano, se condena a un inocente o se suspende a un alumno que ha estudiado mucho. También se suele llamar a esta error el RIESGO DEL FABRICANTE, pues es la probabilidad de que el comprador le rechace un lote de producto correcto.

Normalmente se acepta un umbral de α=0,05 , por debajo del cual se puede decir que existe una diferencia entre los resultados del estudio y la hipótesis nula, cuando realmente no hay ninguna diferencia. No obstante, dependiendo del tipo de test y su finalidad, los umbrales pueden ser diferentes a 0,05. Para simplificar la decisión, se utiliza el concepto de significación muestra de la hipótesis nula o «p-valor«, que es la probabilidad de que un resultado sea correcto bajo una hipótesis nula. Así, si el p-valor obtenido es inferior al nivel de significación exigido, se rechazará la hipótesis nula.

Sin embargo, en este artículo me interesa centrarme en un aspecto a veces olvidado, o al menos al que se le da menor importancia que al nivel de significación. Este aspecto es la potencia de un test estadístico, muy relacionado con los falsos negativos. Supongamos, por ejemplo, que a una mujer embarazada el test le dice que no lo está, que se declara inocente a un asesino, que no se opera a un enfermo con metástasis o que se aprueba a alumnos que no han estudiado. Está claro que aquí el test no ha tenido la potencia suficiente como para detectar que ha habido un efecto. Dicho de otra forma, la potencia estadística de un test debe distinguir la señal del ruido. El gran problema que planteamos es que deberíamos distinguir si realmente ha habido un efecto determinado o bien el test no ha sido capaz de detectarlo.

Para ello debemos definir el error Tipo II, β o falso negativo. Se trata del error cometido al aceptar la hipótesis nula cuando ésta no es cierta. Pues bien, la potencia de la prueba se define como 1-β. También se le llama RIESGO DEL COMPRADOR, pues indica la probabilidad de aceptar un lote defectuoso de un fabricante. ¿Qué porcentaje delincuentes voy a declarar culpables en un juicio? ¿Qué probabilidad es aceptable para decir que un fármaco realmente es útil para una enfermedad? Vemos que esos porcentajes, es decir, la potencia del test, puede ser variable. Aunque es habitual exigir entre un 80 y 90%.

El error Tipo I y Tipo II se encuentran relacionados. Si hay diferencias significativas, estos errores son bajos. https://es.wikipedia.org/wiki/Errores_de_tipo_I_y_de_tipo_II

Como podemos ver, no tiene la misma importancia un falso positivo que un falso negativo. Imaginemos una prueba que detecta contaminación letal en un alimento. No es lo mismo decir que el alimento está contaminado, cuando no lo está, que afirmar que no hay contaminación, cuando sí que la hay. El resultado final es que el falso negativo puede provocar muertes, mientra que el falso positivo no.

Pues bien, en una prueba estadística, el nivel de significación, la potencia y el tamaño muestral, se encuentran relacionados. La única forma de bajar los falsos positivos y falsos negativos es aumentar el tamaño muestral. No obstante, como la potencia de la prueba trata de distinguir el efecto del ruido, también se podría incrementar dicha potencia utilizando muestras lo más homogéneas posibles (disminuyendo su variabilidad), utilizando instrumentos de medida muy fiables o utilizando contrastes concretos, entre otros.

Eso explica que, en el caso de los exámenes a nuestros estudiantes, una forma de reducir los suspensos a los alumnos que han estudiado y de suspender al máximo de número de estudiantes que no han estudiado, consiste en aumentar el número de preguntas. Además, deberíamos diseñar el examen de forma que las preguntas permitan distinguir claramente si se conoce o no un concepto.

Os paso algunos vídeos que explican estos conceptos de potencia de una prueba. Espero que os sean útiles.

A continuación os resuelvo un pequeño problema con MINITAB al respecto. Se quiere saber qué tamaño de muestra deberemos elegir para detectar diferencias respecto a la media mayor de 2 MPa un 80% de las veces, suponiendo un nivel de confianza del 95%. Suponemos conocida la desviación típica, que es de 3 MPa.

Pincha aquí para descargar

Esta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.

L	M	X	J	V	S	D
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31