¿Es real o es solo azar? 5 revelaciones del ANOVA para dominar tus datos

Introducción: El dilema de las medias engañosas.

Imagine que supervisa a tres profesores con métodos pedagógicos diferentes o que analiza la viscosidad de cinco lotes de producción. Al revisar los resultados, observa que las medias no son iguales. Entonces surge la pregunta crítica que separa a un gestor de un estratega: ¿esta diferencia indica una verdadera oportunidad operativa o es simplemente ruido estadístico?

Actuar basándose en el «ruido» genera una ineficiencia operativa masiva: se podría detener una línea de producción sin necesidad o ignorar un fallo sistémico costoso simplemente por falta de rigor. Para resolver este dilema, la estadística nos ofrece la herramienta «detective» definitiva: el ANOVA (Análisis de Varianza), diseñado para determinar si las diferencias entre tres o más grupos son lo suficientemente significativas como para justificar una decisión empresarial.

¿Por qué la prueba t no es suficiente?

Para comparar dos niveles (por ejemplo, hombres frente a mujeres), la prueba t de Student es adecuada. Sin embargo, cuando enfrentamos tres o más grupos, el ANOVA es obligatorio por una razón técnica crucial: la inflación del error alfa.

Si intentáramos comparar múltiples pares usando pruebas t individuales (lote 1 frente a lote 2, lote 2 frente a lote 3 y lote 1 frente a lote 3), el riesgo de error se acumularía. Cada prueba individual tiene una probabilidad del 5 % de detectar una «falsa diferencia» (falso positivo). Al encadenar pruebas, ese riesgo del 5 % crece exponencialmente, lo que nos lleva a conclusiones erróneas. El ANOVA neutraliza este riesgo al analizar todos los grupos simultáneamente bajo una premisa fundamental:

Hipótesis nula (H₀): todas las medias poblacionales son iguales (H₀: μ₁ = μ₂ = ⋯ = μk). El punto de partida estratégico consiste en asumir que el factor estudiado no tiene influencia real hasta que la varianza demuestre lo contrario.

La paradoja central: comparar medias al analizar la variabilidad.

El concepto más contraintuitivo del ANOVA es que, para saber si las medias son distintas, no estudiamos las medias, sino la varianza. El análisis descompone la variabilidad total en dos fuentes:

  • Variación entre grupos (factor): el efecto real del tratamiento o de la variable (por ejemplo, el impacto de un nuevo fertilizante).
  • Variación dentro de los grupos (error): el ruido aleatorio o las diferencias que no pueden explicarse por el azar.

Un estratega sénior no solo busca diferencias, sino que también cuantifica la variabilidad explicada. Usando la relación (SCE/SCT) × 100, podemos determinar qué porcentaje del «caos» de los datos corresponde a la responsabilidad directa del factor analizado. Si el lote explica, por ejemplo, el 44,95 % de la variación de la viscosidad, se trata de un hallazgo de alto impacto administrativo.

El valor p y la razón F: tu seguro contra la casualidad.

Si el ANOVA es un detective, la razón F es su lupa. Matemáticamente, es la relación entre la media de los cuadrados del factor y la media de los cuadrados del error (MCFactor/MCError). Si la razón F es significativamente mayor que 1, la «señal» del factor es más fuerte que el «ruido» del azar.

Esta potencia se traduce en el valor p, que es nuestra medida de riesgo. Consideremos el caso del gel adhesivo: tras las quejas de los clientes, se analizaron cinco lotes. El lote 3 mostró una media de 26,77, notablemente inferior al estándar de 30. El ANOVA arrojó un valor p de 0,0012, lo que constituye una prueba contundente para que la gerencia intervenga específicamente en ese lote.

Definición del valor p: probabilidad de observar una varianza en las medias muestrales por mero azar. Un valor p inferior a 0,05 indica que el riesgo de que se trate de un espejismo es lo suficientemente bajo como para actuar.

El ANOVA no es una brújula, sino una alarma.

Es un error común creer que el ANOVA señala al «culpable». En realidad, el ANOVA funciona como una alarma: confirma que «no todas las medias son iguales», pero no especifica cuál es la diferente.

Una vez que suena la alarma (p < 0,05), el estratega debe utilizar una «brújula»: las pruebas de comparación múltiple. Herramientas como la prueba de Tukey-Kramer o la HSD de Tukey permiten comparar pares de grupos para identificar exactamente dónde se encuentra la anomalía y realizar una inversión de recursos quirúrgicos de manera eficiente.

Resiliencia estadística: qué hacer cuando las reglas se rompen.

Para que un ANOVA tradicional sea fiable, los datos deben ser normales y presentar homocedasticidad, es decir, igualdad de varianzas. La prueba de Levene es el filtro crítico aquí.

  • Si el valor p de Levene es mayor que 0,05, las varianzas son iguales y el ANOVA es el camino seguro.
  • Si Levene es significativo (p < 0,05), las reglas se han roto y el ANOVA estándar pierde validez.

En este escenario de crisis de datos, el investigador recurre a la prueba de Welch. Se trata de una alternativa robusta que permite comparar medias con precisión, incluso cuando las varianzas son desiguales, y que preserva la investigación sin sacrificar el rigor científico.

Conclusión: del dato a la decisión inteligente.

El ANOVA transforma los datos brutos en pruebas de la influencia. Ya sea para validar si un medicamento reduce el tiempo de curación o si un cambio en la composición del hormigón aumenta su resistencia, esta técnica nos permite distinguir entre casualidad y causalidad.

En última instancia, la excelencia en la gestión no consiste en promedios simples, sino en comprender qué parte de los resultados se debe a la variabilidad explicada por las decisiones adoptadas y qué parte es ruido.

Reflexione sobre su operación de hoy: ¿qué variaciones observa en sus procesos que podrían validarse —o descartarse— mediante el rigor del ANOVA?

En esta conversación puedes escuchar algunas de las ideas más importantes sobre ANOVA.

Este vídeo resume bien el tema.

One_Way_ANOVA_Mastery

Licencia de Creative Commons
Esta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.

Mejora de la gestión del paisaje en un puerto deportivo mediante la participación pública

Acaban de publicarnos un artículo en la revista Land, indexada en el JCR. En este caso, se ha analizado la mejora de la gestión del paisaje en un puerto deportivo de Granada mediante la participación pública en la identificación y evaluación de los valores paisajísticos. El trabajo se enmarca en el proyecto de investigación HYDELIFE, que dirijo como investigador principal en la Universitat Politècnica de València.

Los valores paisajísticos se refieren a los atributos percibidos en un paisaje y son importantes para los usuarios de los puertos deportivos, pues reflejan sus percepciones y pueden ayudar a los gestores a medir su grado de satisfacción. Este estudio se centró en identificar y evaluar los valores paisajísticos de Marina del Este (Granada, España), utilizando entrevistas y un cuestionario para aumentar la participación de las partes interesadas y los usuarios.

Primero, se realizó un análisis DAFO a partir de las entrevistas con la dirección para recopilar sus percepciones. Luego, se aplicó una encuesta que recibió 104 respuestas de visitantes y usuarios para recoger los valores paisajísticos del puerto deportivo. Se emplearon los métodos ANOVA y PCA para comprobar su adecuación.

Los resultados indicaron que el puerto deportivo debe transmitir una atmósfera de tranquilidad y bienestar, pero también se debe mejorar la hospitalidad y el mantenimiento relacionados con el turismo náutico. Se identificaron problemas relacionados con la falta de espacio y con el exceso de urbanización del entorno. Los gestores deben analizar estos resultados para identificar las causas de las discrepancias y proponer soluciones al modelo de gestión establecido. La percepción de las partes interesadas y de los usuarios puede ayudar a implementar políticas más consensuadas, con mayor aceptación e implicación.

Vista general de Marina del Este con el Peñón de las Caballas como elemento estructurante

Abstract:

Landscape values are related to people’s attributes of a perceived landscape. They reflect marina user perceptions, thus serving as a feedback tool for marina managers to assess user satisfaction. This study focused on identifying and assessing a marina’s landscape values. We took Marina del Este (Granada, Spain) as a case study. We considered interviews and a questionnaire to devise methods to enhance stakeholder and user participation. First, the SWOT analysis from stakeholder interviews enabled us to collect management’s perceptions. Second, the survey collected the marina’s landscape values from 104 respondents, including visitors and users. ANOVA and PCA methods were applied to check the suitability of the values. The results showed that the marina should be in keeping with an atmosphere of tranquility and well-being. Nevertheless, there was a need to improve values related to nautical tourism, such as hospitality and maintenance, dealing with the lack of space and an excess of urbanization in the surroundings. Marina managers should consider these outcomes and analyze the points of improvement to establish the causes of these disagreements and propose solutions for the established management model. The perception of stakeholders and users can enable more consensual policies with greater acceptance and involvement.

Keywords:

Landscape value; marina; management; SWOT; ANOVA; PCA.

Reference:

MARÍN, R.; YEPES, V. (2023). Landscape values in a marina in Granada (Spain): Enhancing landscape management through public participation. Land, 12(2):492. DOI:10.3390/land12020492

Pincha aquí para descargar

Diseño de experimentos por bloques completos al azar

El diseño en bloques completos al azar trata de comparar tres fuentes de variabilidad: el factor de tratamientos, el factor de bloques y el error aleatorio. El adjetivo completo se refiere a que en cada bloque se prueban todos los tratamientos. La aleatorización se hace dentro de cada bloque.

Para ilustrar el diseño, supongamos que queremos determinar si cuatro laboratorios miden la misma resistencia característica del hormigón a compresión. Para ello se han considerado 5 amasadas diferentes que han sido analizadas por cada uno de los laboratorios. A los 28 días, se han roto las probetas a compresión simple y los resultados son los que hemos recogido en la tabla que sigue.

 

AMASADA
1 2 3 4 5
Laboratorio 1 63,5 63,2 62,3 65,6 65,0
Laboratorio 2 64,1 64,2 63,0 64,2 64,9
Laboratorio 3 65,9 65,0 63,9 66,0 65,8
Laboratorio 4 64,9 65,2 64,1 65,9 67,9

 

En este caso, la variable de respuesta es la resistencia característica del hormigón a compresión (MPa), el factor es el laboratorio (4 niveles), el bloque es la amasada (no son objeto directo de motivo del estudio). Por otra parte, se considera que no existe interacción entre el laboratorio y la amasada (factor y bloque).

En este tipo de experimento, la medición será el resultado del efecto del tratamiento (laboratorio) donde se encuentre, del efecto del bloque al que pertenece (amasada) y de cierto error que se espera que sea aleatorio. La hipótesis de que las medias son iguales se va a analizar con el análisis de la varianza (ANOVA), con dos criterios de clasificación.

A parte de los supuesto de normalidad, igualdad de varianzas y de independencia, aquí se añade otro que es que no existe interacción entre el factor y el bloque.

Para los curiosos, después de haber analizado los datos, diremos que en este caso, con una seguridad del 95%, se aprecian diferencias significativas entre las resistencias medidas por los laboratorios 1 y 3, entre los laboratorios 1 y 4,  y entre los laboratorios 2 y 4.

A continuación os dejo un vídeo donde os enseño cómo podemos analizar este problema con el programa estadístico SPSS. Espero que os sea útil.

Licencia de Creative Commons
Esta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.

 

Diseño completamente al azar y ANOVA

https://cientecinstrumentos.cl/

El diseño completamente al azar es el más sencillo de los diseños de experimentos que comparan dos o más tratamientos, puesto que solo considera dos fuentes de variabilidad: los tratamientos y el error aleatorio.

Para ilustrar el diseño, supongamos que queremos determinar si cuatro dosificaciones de hormigón A, B, C y D presentan la misma resistencia característica a la compresión. Para ello, se han elaborado 5 probetas para cada tipo de dosificación y, a los 28 días, se han roto las probetas mediante compresión simple; los resultados los hemos recogido en la tabla que sigue.

DOSIFICACIONES DE HORMIGÓN
A B C D
Resistencia característica a compresión fck (Mpa) 42 45 64 56
39 46 61 55
48 45 50 62
43 39 55 59
44 43 58 60

En este caso, la variable de respuesta es la resistencia característica del hormigón a la compresión (MPa), la unidad experimental es la probeta de hormigón y el factor es la dosificación de hormigón. En este caso se trata de un diseño balanceado porque hemos realizado el mismo número de repeticiones (5) para cada uno de los tratamientos (dosificaciones).

Este tipo de diseño se llama completamente al azar porque todas las repeticiones experimentales se realizan en un orden aleatorio completo, pues no se han tenido en cuenta otros factores de interés. Si durante el estudio se realizan N pruebas, estas deben realizarse al azar, de modo que los posibles efectos ambientales y temporales se repartan equitativamente entre los tratamientos.

El número de repeticiones a realizar en cada tratamiento depende de la variabilidad que se espera observar en los datos, de la diferencia mínima que el experimentador considera que es importante detectar y al nivel de confianza que se desea tener en las conclusiones. Normalmente, se recomiendan entre 10 y 30 mediciones por tratamiento. Con 10 mediciones se podrían detectar diferencias de medias mayores o iguales a  1,5 sigmas con una probabilidad alta, y con 30 mediciones se podrían detectar diferencias mayores o iguales a 0,7 sigmas.

Se utiliza el análisis de la varianza (ANOVA) para comprobar si existen diferencias entre las medias. Fundamentalmente, este análisis consiste en separar la contribución de cada fuente de la variación total observada. Sin embargo, este ANOVA está supeditado a los siguientes supuestos que deben verificarse:

  • Normalidad
  • Varianza constante (igual varianza en los tratamientos)
  • Independencia

Para los que queráis saber qué ha pasado con nuestro experimento de amasado, os diré que el ANOVA rechazó la igualdad de medias, es decir, que la resistencia media se ve afectada por la dosificación. Sin embargo, las cuatro dosificaciones no son igual de efectivas, pues existen diferencias significativas entre las resistencias medias de cada una de ellas. De hecho, las dosificaciones A y B no presentan diferencias significativas entre sí, ni entre la C y la D. Sin embargo, entre ambos grupos sí hay diferencias significativas. Asimismo, se ha comprobado que se cumplieron los supuestos de normalidad, varianza constante e independencia.

Os dejo en el siguiente vídeo cómo utilizar el software SPSS para realizar un diseño de experimentos completamente al azar.

Referencias:

  • Box, G.E.; Hunter, J.S.; Hunter, W.G. (2008). Estadística para investigadores. Diseño, innovación y descubrimiento. Segunda Edición, Ed. Reverté, Barcelona.
  • Gutiérrez, H.; de la Vara, R. (2003). Análisis y diseño de experimentos. McGraw-Hill, México.
  • Vicente, M.L.; Girón, P.; Nieto, C.; Pérez, T. (2005). Diseño de experimentos. Soluciones con SAS y SPSS. Pearson Educación, Madrid.

Licencia de Creative Commons
Esta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.