Potencia de un test estadístico: Cómo evitar que nos la cuelen

https://neuromarketing.la/2018/12/riesgo-percibido-en-las-compras-online/

En un artículo anterior, “Jerga, falacias y encuestas electorales: Las hipótesis en la investigación científica“, expliqué lo que es una hipótesis de investigación y los errores estadísticos asociados. En aquel artículo se habló del nivel de significación α como la probabilidad de rechazar una hipótesis nula cuando es cierta. Por cierto, como curiosidad hay que decir que se llama “hipótesis nula” porque es la afirmación de una “ausencia de efecto” o de “no diferencia”.

Para simplificar, supongamos un test de embarazo. En este caso, la hipótesis nula es no estar embarazada. Si el test da positivo, no estando embarazada, a este error se le denomina Tipo I o falso positivo. Este error también ocurriría cuando se realiza una operación quirúrgica a un individuo sano, se condena a un inocente o se suspende a un alumno que ha estudiado mucho. También se suele llamar a esta error el RIESGO DEL FABRICANTE, pues es la probabilidad de que el comprador le rechace un lote de producto correcto.

Normalmente se acepta un umbral de α=0,05 , por debajo del cual se puede decir que existe una diferencia entre los resultados del estudio y la hipótesis nula, cuando realmente no hay ninguna diferencia. No obstante, dependiendo del tipo de test y su finalidad, los umbrales pueden ser diferentes a 0,05. Para simplificar la decisión, se utiliza el concepto de significación muestra de la hipótesis nula o “p-valor“, que es la probabilidad de que un resultado sea correcto bajo una hipótesis nula. Así, si el p-valor obtenido es inferior al nivel de significación exigido, se rechazará la hipótesis nula.

Sin embargo, en este artículo me interesa centrarme en un aspecto a veces olvidado, o al menos al que se le da menor importancia que al nivel de significación. Este aspecto es la potencia de un test estadístico, muy relacionado con los falsos negativos. Supongamos, por ejemplo, que a una mujer embarazada el test le dice que no lo está, que se declara inocente a un asesino, que no se opera a un enfermo con metástasis o que se aprueba a alumnos que no han estudiado. Está claro que aquí el test no ha tenido la potencia suficiente como para detectar que ha habido un efecto. Dicho de otra forma, la potencia estadística de un test debe distinguir la señal del ruido. El gran problema que planteamos es que deberíamos distinguir si realmente ha habido un efecto determinado o bien el test no ha sido capaz de detectarlo.

Para ello debemos definir el error Tipo II, β o falso negativo. Se trata del error cometido al aceptar la hipótesis nula cuando ésta no es cierta. Pues bien, la potencia de la prueba se define como 1-β. También se le llama RIESGO DEL COMPRADOR, pues indica la probabilidad de aceptar un lote defectuoso de un fabricante. ¿Qué porcentaje delincuentes voy a declarar culpables en un juicio? ¿Qué probabilidad es aceptable para decir que un fármaco realmente es útil para una enfermedad? Vemos que esos porcentajes, es decir, la potencia del test, puede ser variable. Aunque es habitual exigir entre un 80 y 90%.

El error Tipo I y Tipo II se encuentran relacionados. Si hay diferencias significativas, estos errores son bajos. https://es.wikipedia.org/wiki/Errores_de_tipo_I_y_de_tipo_II

Como podemos ver, no tiene la misma importancia un falso positivo que un falso negativo. Imaginemos una prueba que detecta contaminación letal en un alimento. No es lo mismo decir que el alimento está contaminado, cuando no lo está, que afirmar que no hay contaminación, cuando sí que la hay. El resultado final es que el falso negativo puede provocar muertes, mientra que el falso positivo no.

Pues bien, en una prueba estadística, el nivel de significación, la potencia y el tamaño muestral, se encuentran relacionados. La única forma de bajar los falsos positivos y falsos negativos es aumentar el tamaño muestral. No obstante, como la potencia de la prueba trata de distinguir el efecto del ruido, también se podría incrementar dicha potencia utilizando muestras lo más homogéneas posibles (disminuyendo su variabilidad), utilizando instrumentos de medida muy fiables o utilizando contrastes concretos, entre otros.

Eso explica que, en el caso de los exámenes a nuestros estudiantes, una forma de reducir los suspensos a los alumnos que han estudiado y de suspender al máximo de número de estudiantes que no han estudiado, consiste en aumentar el número de preguntas. Además, deberíamos diseñar el examen de forma que las preguntas permitan distinguir claramente si se conoce o no un concepto.

Os paso algunos vídeos que explican estos conceptos de potencia de una prueba. Espero que os sean útiles.

A continuación os resuelvo un pequeño problema con MINITAB al respecto. Se quiere saber qué tamaño de muestra deberemos elegir para detectar diferencias respecto a la media mayor de 2 MPa un 80% de las veces, suponiendo un nivel de confianza del 95%. Suponemos conocida la desviación típica, que es de 3 MPa.

Descargar (PDF, 139KB)

Licencia de Creative Commons
Esta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.

Diseño de experimentos por bloques aleatorizados. Aplicación al control de calidad del hormigón

Laboratorio de materiales de ICITECH. https://icitech.webs.upv.es/index.php/home/laboratorio-de-materiales/

En la asignatura de “Modelos predictivos y de optimización de estructuras de hormigón”, del Máster en Ingeniería del Hormigón, se desarrollan laboratorios informáticos. En este caso, os traigo un ejemplo de aplicación de un diseño de experimentos. En este caso, un diseño de experimentos por bloques aleatorizados resuelto con SPSS y MINITAB.

Se pretende comparar la resistencia a compresión simple a 28 días obtenidos por cuatro laboratorios diferentes. Para ello se realizan cinco amasadas diferentes y se obtienen las resistencias medias para cada amasada por cada uno de los laboratorios. Los resultados se encuentran en la tabla que sigue.

Os paso la resolución de este laboratorio informático. Espero que os sea de interés.

Descargar (PDF, 410KB)

Licencia de Creative Commons
Esta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.

Hormigón compactado con una pavimentadora. Ejemplo de un diseño factorial fraccionado resuelto con MINITAB

https://www.360enconcreto.com/blog/detalle/innovacion-y-tendencias/pavimentos-de-concreto-compactados-con-rodillo

En la asignatura de “Modelos predictivos y de optimización de estructuras de hormigón”, del Máster en Ingeniería del Hormigón, se desarrollan laboratorios informáticos. En este caso, os traigo un ejemplo de aplicación de un diseño de experimentos. En este caso, un diseño factorial fraccionado resuelto con MINITAB.

Se quiere determinar la mejor forma de elaborar hormigón compactado con una pavimentadora. La variable de respuesta es el porcentaje de compactación, medido con un densímetro nuclear. Tras una tormenta de ideas con expertos, se ha realizado un diseño de experimentos con 5 factores: el porcentaje de aditivo, la pavimentadora (A antigua, B moderna), el operador de la pavimentadora (A con poca experiencia, y B con mucha), el tipo de mezcla de hormigón y la temperatura del hormigón. Se ha tenido que realizar un diseño fraccionado puesto que el presupuesto limita el número de experimentos a un máximo de 12. Se pide que se analicen los resultados, que fueron los de la tabla siguiente:

Los datos de este caso provienen de la siguiente publicación: Arias, C.; Adanaqué, I.; Buestán, M. Optimización del proceso de elaboración de hormigón compactado con pavimentadora. Escuela Superior Politécnica del Litoral, Ecuador. http://www.dspace.espol.edu.ec/handle/123456789/4754

Os paso la resolución de este laboratorio informático. Espero que os sea de interés.

Descargar (PDF, 1.14MB)

Licencia de Creative Commons
Esta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.

Tipos de ensayos de fiabilidad para la distribución exponencial

Figura 1. Los ensayos de fiabilidad permiten estimar el tiempo medio entre fallos de la maquinaria en una obra

En obra pueden estimarse el tiempo medio entre fallos de una máquina mediante los denominados como ensayos de fiabilidad, basándose para ello en la distribución exponencial. Los tipos de ensayos posibles son los siguientes:

  • Ensayos completos: Se realizan hasta el fallo de todas las unidades. 
  • Ensayos censurados: Un ensayo de fiabilidad se llama censurado de orden k si la experiencia se detiene al producirse el fallo k-ésimo. También se llama test limitado por fallos. Puede ser con o sin reemplazamiento de las unidades averiadas. 
  • Ensayos truncados: Un ensayo de fiabilidad se llama truncado cuando la experiencia se detiene al cabo de una cierta duración. También se llama test limitado por tiempo. También pueden ser con o sin reemplazamiento.

La estimación del tiempo medio entre fallos (MTBF) se obtiene repartiendo la duración del ensayo por en número de fallos:

donde

T = tiempo total acumulado del test

r = número de fallos

En los ensayos censurados, si se conoce el valor de q se puede obtener la duración esperada para el ensayo.

  • En ensayo sin reemplazamiento:

  • En ensayo con reemplazamiento:

siendo r el número de fallos y n el de unidades

Asimismo, si se conoce el valor de q se puede obtener el número esperado de fallos en un ensayo trucado de duración T:

  • En ensayo sin reemplazamiento:

  • En ensayo con reemplazamiento:

donde n es el número de unidades ensayadas y T la duración prefijada del ensayo.

Referencias:

YEPES, V. (1997). Equipos de movimiento de tierras y compactación. Problemas resueltos. Colección Libro Docente nº 97.439. Ed. Universitat Politècnica de València. 256 pág. Depósito Legal: V-4598-1997. ISBN: 84-7721-551-0.

YEPES, V. (2015). Coste, producción y mantenimiento de maquinaria para construcción. Editorial Universitat Politècnica de València, 155 pp. ISBN: 978-84-9048-301-5.

Licencia de Creative Commons
Esta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.

Correlación y modelo de regresión lineal. Problema resuelto en puentes losa

Figura 1. Modelo lineal simple de un tablero de puente losa postesado macizo (Yepes et al., 2009)

Uno de los temas básicos que se estudia en la asignatura de estadística de cualquier grado de ingeniería es la inferencia y los modelos de regresión lineal (Figura 1). A pesar de su sencillez, muchos estudiantes y profesionales aplican, sin más, este tipo de regresiones para interpolar valores en múltiples campos de la ingeniería, la economía, la salud, etc. El conocimiento de algunas nociones básicas nos permitiría evitar errores de bulto. Uno de ellos es intentar forzar las predicciones más allá de las observaciones realizadas. Otro error es confundir la correlación con la regresión. Buscar relaciones donde no las hay (relación espuria, Figura 2). Y por último, uno de los aspectos más descuidados es la no comprobación de las hipótesis básicas que se deben cumplir para que un modelo de regresión lineal sea válido.

Figura 2. Relaciones espuria entre el consumo de chocolate y el número de premios Nobel

Dicho de otra forma, valorar la calidad del ajuste mediante el coeficiente de determinación no equivale a valorar el cumplimiento de las hipótesis básicas del modelo. Si las hipótesis del modelo no se cumplen, se pueden estar cometiendo graves errores en las conclusiones de las inferencias. Así, las hipótesis básicas del modelo de regresión son las siguientes:

  • Linealidad: los parámetros y su interpretación no tienen sentido si los datos no proceden de un modelo lineal
  • Normalidad de los errores: se asume que la distribución de los errores es normal
  • Homocedasticidad: la varianza del error es constante
  • Independencia de los errores: las variables aleatorias que representan los errores son mutuamente independientes
  • Las variables explicativas son linealmente independientes

Para aclarar las ideas, he analizado un caso de regresión lineal simple con datos reales procedentes de 26 puentes losa postesados macizos (Yepes et al., 2009). Se trata de conocer la relación que existe entre la luz principal de este tipo de puentes y el canto del tablero. Utilizaremos los programas siguientes: MINITAB, SPSS, EXCEL y MATLAB. También os dejo un vídeo explicativo, muy básico, pero que espero sea de interés. Dejo los detalles matemáticos aparte. Los interesados pueden consultar cualquier manual básico de estadística al respecto.

Descargar (PDF, 817KB)

Referencias:

YEPES, V.; DÍAZ, J.; GONZÁLEZ-VIDOSA, F.; ALCALÁ, J. (2009). Statistical Characterization of Prestressed Concrete Road Bridge Decks. Revista de la Construcción, 8(2):95-109.

 

Licencia de Creative Commons
Esta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.

Tablas de contingencia aplicadas al hormigón

Figura 1. ¿Depende la calidad del hormigón de un proveedor determinado?

En ocasiones nos encontramos con un par de variables cualitativas que, a priori, no sabemos si se encuentran relacionadas entre sí, o si pertenecen a una misma población estadística. Recordemos que las variables cualitativas son aquellas cuyo resultado es un valor o categoría de entre un conjunto finito de respuestas (tipo de defecto, nombre del proveedor, color, etc.).

En el ámbito del hormigón, por ejemplo, podríamos tener varios proveedores de hormigón preparado en central y un control del número de cubas-hormigonera aceptadas, aceptadas con defectos menores o rechazadas. Otro ejemplo sería contabilizar el tipo de incumplimiento de una tolerancia por parte de un equipo que está encofrando un muro de contención. En estos casos, se trata de saber si existe dependencia entre los proveedores o los equipos de encofradores respecto a los defectos detectados. Esto sería interesante en el ámbito del control de la calidad para tomar medidas, como pudiese ser descartar a determinados proveedores o mejorar la formación de un equipo de encofradores.

Así, podríamos tener un problema como el siguiente: Teniendo en cuenta el punto 5.6 del Anejo 11 de la EHE, donde se definen las tolerancias de muros de contención y muros de sótano, se quiere comprobar si tres equipos de encofradores producen de forma homogénea en la ejecución de muros vistos, o por el contrario, unos equipos producen más defectos de un tipo que otro. Todos los equipos emplean el mismo tipo de encofrado. Las tolerancias que deben cumplirse son:

1. Desviación respecto a la vertical
2. Espesor del alzado
3. Desviación relativa de las superficies planas de intradós o de trasdós
4. Desviación de nivel de la arista superior del intradós, en muros vistos
5. Tolerancia de acabado de la cara superior del alzado, en muros vistos

Los equipos han estado trabajando durante año ejecutando este tipo de unidad de obra. Durante este tiempo el número de defectos en relación con la tolerancia dimensional ha sido pequeño, pero se han contabilizado 375 defectos. El control de calidad ha dado como resultado el conteo de la tabla de la Figura 2.

Figura 2. Conteo de incumplimientos según el equipo de encofradores. En paréntesis figura el valor esperado.

En la Figura 2 se ha representado también la frecuencia esperada para cada uno de los casos. Por ejemplo, la fracción esperada del incumplimiento “1” es de 89/375, mientras que la fracción esperada de defectos del equipo A es de 150/375. Ello implica que el valor esperado de incumplimientos del tipo “1” para el equipo de encofradores “A” sería: (89/375)·(150/375)·375=89·150/375=35,60.

La pregunta que nos podríamos hacer es la siguiente: ¿Influye el tipo de proveedor en la calidad de la recepción del hormigón? Para ello plantearíamos la hipótesis nula: El tipo de proveedor no influye en la calidad de la recepción del hormigón. La hipótesis alternativa sería que sí que existe dicha influencia o dependencia entre las variables cualitativas.

Para ello necesitamos una prueba estadística, en este caso es la prueba χ². El fundamento de la prueba χ² es comparar la tabla de las frecuencias observadas respecto a la de las frecuencias esperadas (que sería la que esperaríamos encontrar si las variables fueran estadísticamente independientes o no estuvieran relacionadas). Esta prueba permite obtener un p-valor (probabilidad de equivocarnos si rechazamos la hipótesis nula) que podremos contrastar con el nivel de confianza que determinemos. Normalmente el umbral utilizado es de 0,05. De esta forma, si p<0,05 se rechaza la hipótesis nula y, por tanto, diremos que las variables son dependientes. Dicho de forma más precisa, en este caso no existe un nivel de significación suficiente que soporte la independencia de las variables.

Las conclusiones que se obtienen de la prueba son sencillas de interpretar. Si no existe mucha diferencia entre los valores observados y los esperados, no hay razones para dudar de que las variables sean independientes.

No obstante, hay algunos problemas con la prueba χ², uno de ellos relacionado con el tamaño muestral. A mayor número de casos analizados, el valor de la χ² tiende a aumentar. Es decir, si la muestra es excesivamente grande, será más fácil que rechacemos la hipótesis nula de independencia, cuando a lo mejor podrían ser las variables independientes.

Por otra parte, cada una de las celdas de la tabla de contingencia debería tener un mínimo de 5 observaciones esperadas. Si no fuera así, podríamos agrupar filas o columnas (excepto en tablas 2×2). También se podría eliminar la fila que da una frecuencia esperada menor de 5.

Por último, no hay que abusar de la prueba χ². Por ejemplo, podríamos tener una variable numérica, como la resistencia característica del hormigón, y agruparla en una variable categórica en grupos tales como 25, 30, 35, 40, 45 y 50 MPa. Lo correcto cuando tenemos una escala numérica sería aplicar la prueba t-Student, siendo incorrecto convertir la escala numérica en una ordinal o incluso binaria.

A continuación os dejo el problema anterior resuelto, tanto con el programa SPSS como con MINITAB.

Descargar (PDF, 326KB)

Os dejo un par de vídeos explicativos, que espero os sean de interés.

Licencia de Creative Commons
Esta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.