¿Qué hacemos con los valores atípicos (outliers)?

Figura 1. Valor atípico en el diagrama de caja y bigotes

Un valor atípico (outlier, en inglés) es una observación que numéricamente es muy distinta al resto de elementos de una muestra. Estos datos nos pueden causar problemas en la interpretación de lo que ocurre en un proceso o en una población. Por ejemplo, en el cálculo de la resistencia media a compresión simple de unas probetas de hormigón, la mayoría se encuentran entre 25 y 30 MPa. ¿Qué ocurriría si, de repente, medimos una probeta con una resistencia de 60 MPa? La mediana de los datos puede ser 27 MPa, pero la resistencia media podría llegar a 45 MPa. En este caso, la mediana refleja mejor el valor central de la muestra que la media.

La pregunta que nos podemos plantear es inmediata. ¿Qué hacemos con esos valores atípicos? La opción de ignorarlos a veces no es la mejor de las soluciones posibles si pretendemos conocer qué ha pasado con estos valores. Lo bien cierto es que distorsionan los resultados del análisis, por lo que hay que identificarlos y tratarlos de forma adecuada. A veces se excluyen si son resultado de un error, pero otras veces son datos potencialmente interesantes en la detección de anomalías.

Los valores atípicos pueden deberse a errores en la recolección de datos válidos que muestran un comportamiento diferente, pero reflejan la aleatoriedad de la variable en estudio. Es decir, valores que pueden haber aparecido como parte del proceso, aunque parezcan extraños. Si los valores atípicos son parte del proceso, deben conservarse. En cambio, si ocurren por algún tipo de error (medida, codificación…), lo adecuado es su eliminación. En la Tabla 1 se recogen algunas de las causas comunes de los valores atípicos y sus acciones posibles.

Tabla 1. Causas comunes de los valores atípicos. Fuente: Soporte de Minitab(R) 18.

Causa Acciones posibles
Error de entrada de datos Corregir el error y volver a analizar los datos.
Problema del proceso Investigar el proceso para determinar la causa del valor atípico.
Factor faltante Determinar si no se consideró un factor que afecta el proceso.
Probabilidad aleatoria Investigar el proceso y el valor atípico para determinar si este se produjo en virtud de las probabilidades; realice el análisis con y sin el valor atípico para ver su impacto en los resultados.

Los valores atípicos a veces son subjetivos y existen numerosos métodos para clasificarlos. La detección de valores atípicos se puede realizar a nivel univariante usando gráficos sencillos como histogramas o diagramas de caja y bigotes. A nivel bivariante se pueden localizar mediante análisis de diagrama de dispersión o análisis de los residuos. En el ámbito multivariante se pueden descubrir los valores atípicos mediante un análisis de la matriz de residuos.

El método más habitual por su sencillez y resultados es el test de Tukey, que toma como referencia la diferencia entre el primer cuartil (Q1) y el tercer cuartil (Q3), o rango intercuartílico. En un diagrama de caja se considera un valor atípico el que se encuentra 1,5 veces esa distancia de uno de esos cuartiles (atípico leve) o a 3 veces esa distancia (atípico extremo). Se trata de un método paramétrico que supone que la población es normal (Figura 2). No obstante, también existen métodos no paramétricos cuando la muestra no supere la prueba de normalidad correspondiente.

Figura 2. Detección paramétrica de valores atípicos, basado en la curva de distribución normal. Wikipedia

Os dejo algún vídeo donde se explica cómo detectar los valores atípicos.

Licencia de Creative Commons
Esta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.

Método de entropía para la toma de decisión multicriterio

Figura 1. Entropía. https://concepto.de/leyes-de-la-termodinamica/

Un procedimiento algo similar al método CRITIC que vimos en un artículo anterior, es el método de la entropía. Es un procedimiento propuesto por Zeleny en 1982 para calcular de forma objetiva el peso de cada uno de los criterios empleados en la toma de decisiones.

En este caso, la importancia de un criterio se supone que es proporcional a la cantidad de información intrísecamente aportada por el conjunto de alternativas respecto a dicho criterio. Se trata de dar mayor peso a aquel criterio que es capaz de discriminar mejor a las alternativas, es decir, aquel criterio que presente mayor diversidad en las valoraciones de las alternativas. La diversidad es menor cuanto mayor es la entropía, y por tanto, esta es la base del método.

El método de entropía se puede resumir en los siguientes pasos:

  1. Crear la matriz de decisión
  2. Normalizar por la suma los valores de cada uno de los criterios
  3. Calcular la entropía de cada criterio (se usan logaritmos en base 10)
  4. Calcular la diversidad de cada criterio
  5. Calcular el peso de cada criterio

En la Figura 2 se puede ver un esquema de cálculo con este método (Bernal y Niño, 2018).

Figura 2. Método de entropía (Bernal y Niño, 2018)

Para normalizar la valoración de cada alternativa respecto a cada criterio respecto a la suma, hay que distinguir si se trata de un valor que quiere interesa ser incrementado (por ejemplo, un beneficio), o bien se trata de un valor que se desea que sea el más bajo posible (por ejemplo, un coste). En la Figura 3 se puede ver cómo se podría realizar dicha normalización para el caso de valores que se incrementan. En caso de que disminuyan, se utiliza la inversa de dicho valor. Si hubieran valores negativos en los valores de las alternativas, antes de normalizar por suma, se añade una constante a cada una de las evaluaciones, de forma que sean mayores o iguales que cero.

Figura 3. Normalización por la suma (Bernal y Niño, 2018)

Supongamos que tenemos 5 alternativas para una estructura de hormigón que se va a evaluar respecto a 4 criterios: coste, beneficio, emisiones de CO2 y durabilidad. Si la matriz de decisión es la siguiente, invito al lector a calcular la mejor alternativa:

Coste Beneficio Emisiones Durabilidad
Alternativa 1 346 623 67 32
Alternativa 2 623 665 44 44
Alternativa 3 823 1000 98 26
Alternativa 4 556 344 33 33
Alternativa 5 234 666 23 53

Los pesos calculados con la metodología anterior serían los siguientes: Coste: 0,342; Beneficio: 0,168; Emisiones: 0,384 y Durabilidad: 0,106.

La valoración normalizada de cada alternativa sería la siguiente: Alternativa 1: 0,181; Alternativa 2: 0,177; Alternativa 3: 0,133; Alternativa 4: 0,184 y Alternativa 5: 0,325.

Por tanto, la Alternativa 5 sería la primera en ser seleccionada, mientras que la Alternativa 3 sería la última. Se invita al lector a comprobar los resultados respecto al método CRITIC, visto en un artículo anterior. La mejor alternativa se mantiene, pero la peor cambia.

A continuación os dejo un vídeo explicativo del método realizado por el profesor Jerónimo Aznar Bellver, que espero que os sea de interés.

https://media.upv.es/player/?id=a55342df-a14d-e547-875d-29329de4ba8d

En este otro vídeo, se da un ejemplo de valoración de una finca urbana.

https://media.upv.es/player/?id=83770294-668d-3b42-96f5-7438116b0faa

Referencias:

AZNAR, J.; GUIJARRO, F. (2012). Nuevos métodos de valoración: modelos multicriterio. Editorial Universitat Politècnica de València.

BERNAL, S.; NIÑO, D.A. (2018). Modelo multicriterio aplicado a la toma de decisiones representables en diagramas de Ishikawa. Universidad Distrital Francisco José de Caldas, Bogotá D.C., 137 pp.

ZELENY, M. (1982). Multiple Criteria Decision Making. Mc Graw Hill, New York, NY.

 

Método CRITIC de toma de decisión multicriterio

Figura 1. Indecisión en la toma de decisiones

Dentro de los procedimientos de toma de decisiones multicriterio encontramos el método CRITIC (CRiteria Importance Through Intercriteria Correlation) propuesto por Diakoulaki, Mavrotas y Papayannakis en 1995. Se puede clasificar CRITIC dentro de los métodos comparativos. Con este método se obtienen pesos para cada uno de los criterios de forma que el peso es tanto mayor cuanta mayor sea su varianza (mayor desviación típica), y cuanta mayor información diferente a la de los otros criterios aporte (menor coeficiente de correlación entre criterios). Este método de ponderación de criterios se ha utilizado en diversos ámbitos como la valoración de empresas, inmuebles o jugadores de fútbol.

La metodología de CRITIC se puede resumir en los siguientes pasos:

  1. Crear la matriz de decisión
  2. Normalizar por el rango los valores de cada uno de los criterios
  3. Calcular la desviación típica de cada criterio
  4. Calcular la correlación entre cada par de criterios
  5. Calcular el peso de cada criterio

En la Figura 2 se puede ver un esquema de cálculo con este método (Bernal y Niño, 2018).

Figura 2. Método CRITIC (Bernal y Niño, 2018)

Para normalizar la valoración de cada alternativa respecto a cada criterio respecto al rango, hay que distinguir si se trata de un valor que quiere interesa ser incrementado (por ejemplo, un beneficio), o bien se trata de un valor que se desea que sea el más bajo posible (por ejemplo, un coste). En la Figura 3 se puede ver cómo se podría realizar dicha normalización.

Figura 3. Normalización por el rango (Bernal y Niño, 2018)

Supongamos que tenemos 5 alternativas para una estructura de hormigón que se va a evaluar respecto a 4 criterios: coste, beneficio, emisiones de CO2 y durabilidad. Si la matriz de decisión es la siguiente, invito al lector a calcular la mejor alternativa:

Coste Beneficio Emisiones Durabilidad
Alternativa 1 346 623 67 32
Alternativa 2 623 665 44 44
Alternativa 3 823 1000 98 26
Alternativa 4 556 344 33 33
Alternativa 5 234 666 23 53

Los pesos calculados con la metodología anterior serían los siguientes: Coste: 0,849; Beneficio: 1,565; Emisiones: 0,921 y Durabilidad: 0,710.

La valoración normalizada de cada alternativa sería la siguiente: Alternativa 1: 0,184; Alternativa 2: 0,213; Alternativa 3: 0,153; Alternativa 4: 0,133 y Alternativa 5: 0,316.

Por tanto, la Alternativa 5 sería la primera en ser seleccionada, mientras que la Alternativa 4 sería la última.

A continuación os dejo un vídeo explicativo del método realizado por el profesor Jerónimo Aznar Bellver, que espero que os sea de interés.

En este otro video se da un ejemplo de aplicación para valorar, en este caso, un apartamento.

Referencias:

AZNAR, J. (2020). Curso de valoración de activos por métodos multicriterio AHP, ANP y CRITIC. Editorial Universitat Politècnica de València. Ref. 264.

BERNAL, S.; NIÑO, D.A. (2018). Modelo multicriterio aplicado a la toma de decisiones representables en diagramas de Ishikawa. Universidad Distrital Francisco José de Caldas, Bogotá D.C., 137 pp.

DIAKOULAKI, D.; MAVROTAS, G.; PAPAYANNAKIS, L. (1995). Determining objective weights in multiple criteria problems – The CRITIC method. Computers & Operations Research, 22(7):763-770.

 

¿Cuántas respuestas son necesarias en una encuesta? Pues depende.

A veces me toca dirigir algún trabajo de investigación de mis estudiantes que trata de conocer la opinión sobre algún aspecto concreto. Normalmente se trata de temas relacionados con el sector de la construcción, aunque también suelo investigar si ha tenido éxito algún tipo de innovación educativa en mis clases. Para ello suelo aconsejar el uso de cuestionarios basados en escalas Likert, pues de esta forma facilito el análisis estadístico multivariante de los resultados.

El problema siempre es el mismo: ¿Profesor, tengo suficientes encuestas o tengo que enviar más encuestas? Y la respuesta siempre es la misma: depende del objeto de la encuesta. Vamos a analizar esto por partes.

Si se trata de describir los resultados obtenidos de un grupo de estudio, la muestra representa a la totalidad de la población, y por tanto no es necesario alcanzar un número de respuestas mínimo. Por ejemplo, si en una asociación de empresarios de la construcción el número de socios es de 30 y todos responden el cuestionario, es evidente que los resultados del estudio representan de forma exacta lo que opinan los 30 socios.

Sin embargo, lo habitual es encontrarse con un número de respuestas que forman una muestra de una población. Aquí se trata de saber si podemos extrapolar los resultados a la población que representa la muestra. Para ello nos debemos hacer dos preguntas: ¿Es la muestra representativa? ¿Cuál es el margen de error que cometemos?

Las técnicas de muestreo permiten extraer muestras representativas. Estos muestreos pueden ser probabilísticos o no probabilísticos. Entre los primeros podemos resaltar el muestreo aleatorio sistemático, el estratificado o el muestreo por conglomerados.  Entre los no probabilísticos, el muestreo por cuotas, por bola de nieve o el muestreo subjetivo por decisión razonada. Remito a los interesados a bibliografía específica, pues se escapa al objetivo de este artículo.

Aquí vamos a comentar brevemente lo relativo al error muestral. El error muestral se corresponde con el margen de error que estamos dispuestos a aceptar. Por ejemplo, si decimos que el 15% de la población está de acuerdo con algo y el error muestral es del 4%, realmente dicha opinión se encuentra entre el 11% y el 19% para un nivel de confianza determinado. Por eso, lo primero, será definir el nivel de confianza o riesgo de primera especie “z”, que sería el riesgo que aceptamos de equivocarnos al presentar nuestros resultados. El nivel de confianza habitual es 1 – α = 95% o α = 5%. Se utiliza como “z”, que es un valor de la distribución normal asociado a una determinada probabilidad de ocurrencia. Así, z=1,96 si 1 – α = 95%, z=2,00 si 1 – α = 95,5% y z=2,57 si 1 – α = 99%.

Otro factor a tener en cuenta es la variabilidad de las respuestas estimada en la población. Si sabemos que todos los sujetos piensan lo mismo, nos bastará preguntar a uno solo o a muy pocos. Pero si sabemos que habrá una gran diversidad de respuestas, hará falta una mayor número de sujetos en la muestra. Como lo normal es desconocer la variabilidad de las respuestas en la población, elegimos la mayor varianza posible p=q=50% (sería que el 50% respondiera que “sí” y el otro 50% lo contrario).

Las fórmulas que nos dan el error muestral, por tanto, dependen de los factores anteriores y también de conocer si la población es finita o infinita (más de 30.000 individuos ya se considera como infinita). En la figura se indican ambas fórmulas.

Fórmulas del error muestral, en función de si la población es finita o infinita

Si jugamos un poco con estas fórmulas, veremos que para un nivel de confianza del 95%, serían necesarias 96 respuestas en una población infinita y 95 respuestas en una población de un tamaño de 10.000 (casi coinciden) para un error muestral del 10%. Pero si queremos bajar el error al 5%, se eleva el número de respuestas a 384 en el caso de la población infinita y a 370 en el caso de una población finita de 10.000. Como vemos, se dispara el número de respuestas necesarias para reducir el error.

Por tanto, mi respuesta a mis estudiantes suele ser siempre la misma: vamos a intentar llegar a 100 respuestas para empezar a tener un error razonable.

En apretada síntesis, os quiero dar las siguientes consideraciones sobre el muestreo:

  • No solo es necesario que el tamaño de la muestra sea suficiente, sino también que la muestra sea representativa de la población que tratamos de describir
  • Una muestra de gran tamaño no garantiza que el margen de error sea pequeño, pues puede estar sesgada hacia segmentos de la población representados en exceso o poco representados
  • Si la población a estudiar es demasiado grande es recomendable segmentarla en estratos y valorar en cuáles de ellos pueden obtenerse muestras representativas, facilitando así una interpretación de los resultados más precisa
  • En general, el margen de error en cada estrato suele ser superior al margen de error de toda la muestra en conjunto. Es recomendable ser consciente de esta diferencia de precisión en la interpretación de resultados

Pues ahora una reflexión final: ¿Qué error tienen las encuestas que contestan los alumnos en relación con la calidad del profesor? ¿Es razonable tomar decisiones respecto a la continuidad o no de un profesor teniendo en cuenta estas encuestas? Tenéis las claves releyendo el artículo.

Aquí tenéis un vídeo sobre las técnicas de muestreo.

Os dejo a continuación un pequeño vídeo sobre el error de muestreo.

 

Licencia de Creative Commons
Esta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.

Cuando una “campaña experimental” se convierte en un desperdicio de tiempo y dinero

https://www.laensa.com/probetas-hormigon/

Reconozco abiertamente que me recorre cierto escalofrío cuando escucho por algún sitio que se está desarrollando una “campaña experimental“, a menudo en laboratorios donde, por desgracia, cada ensayo cuesta muchísimo tiempo y dinero. Me viene a la mente una campaña militar a gran escala donde, para conseguir un objetivo, se sacrifica lo que sea necesario. Cuando igual una pequeña fuerza de operaciones especiales sería suficiente.

Lo digo porque no es la primera vez que me encuentro con algún estudiante de máster o doctorado que quiere iniciar ensayos para cubrir, literalmente, las variaciones posibles en ciertos rangos, de un número de factores que influyen en un problema determinado. Y tampoco me es ajeno el típico estudiante que acude a mi despacho a pedirme consejo porque no sabe qué hacer con las montañas de datos generados, no siendo capaz de interpretar con herramientas estadísticas rigurosas.

Pero este problema no solo ocurre en determinados ámbitos científicos, sino que es habitual en empresas, procesos industriales y laboratorios de todo tipo. Cuento esto porque encuentro de vez en cuando a un doctorando que ha dedicado, por ejemplo, más de cinco años en recoger datos que luego, a la postre, se acumulan en hojas de cálculo y son difíciles de interpretar porque no se sabía exactamente cuál era la pregunta de investigación que se quería resolver.

También es muy típico encontrar en las empresas a técnicos expertos en un proceso determinado “con mucha experiencia”, que realmente lo que ha hecho es aprender con los años, y sobre todo, de sufrir en sus carnes muchos errores. Este tipo de experiencia, basada en el error, no es la más barata, ni mucho menos.

Afortunadamente, cada vez son menos los que se enfrascan directamente a ensayar todas las combinaciones posibles en los valores de ciertas variables. Para eso disponemos de una rama del conocimiento denominada diseño de experimentos que permite no solo ahorrar recursos (tiempo, espacio de laboratorio, dinero, etc.), sino también es capaz de sacar muchísima más información de los datos cuando se dedica algo de tiempo a hacer un buen diseño experimental. No digo con esto que existan campañas experimentales bien diseñadas, sino que aún perviven prácticas que, por puro desconocimiento, son utilizadas aún en demasiadas ocasiones.

Veamos un ejemplo sencillo que nos permite aclarar las ideas. Imaginemos un proceso que solo depende de 4 factores. Si de cada factor queremos analizar 5 niveles, una “campaña experimental” exhaustiva nos obligaría a tomar 5^4 = 625 observaciones. Este número tan elevado puede ser inviable. ¿Cómo podemos reducir el número de observaciones? Se podría reducir el número de factores o el número de niveles a estudiar .

Un buen diseño de experimentos puede reducir muchísimo el número de observaciones necesarias ofreciendo, a su vez, información muy valiosa. Por ejemplo, un diseño factorial a dos niveles, ya sea completo o fraccionado, sería suficiente en la mayoría de los casos para estudiar los efectos, las interacciones entre los factores, etc. Invito al lector a revisar en este mismo blog algunos artículos que he escrito al respecto:

¿Qué es el diseño de experimentos?

Definiciones básicas del diseño de experimentos

Incluso, en el caso de que no exista una interacción entre los factores, por ejemplo un diseño en cuadrado grecolatino, para cuatro factores y cuatro niveles, podríamos obtener información valiosa con 16 observaciones en vez de las 256 que serían las necesarias para cubrir todas las combinaciones posibles. En este blog podéis encontrar muchos ejemplos resueltos buscando “diseño de experimentos” en la columna de la izquierda, donde aparece el buscador.

Resumiendo, estoy a favor de las “campañas experimentales”, pero siempre que se basen en un diseño de experimentos previo. Pero mi consejo es que antes de hacer nada, tengamos muy clara la pregunta de investigación que queremos resolver. De hecho, la ciencia experimental trata de llegar a conclusiones generales con datos procedentes de casos particulares, y para eso necesitamos la estadística.

Parafraseando la frase que, según la tradición, estaba grabada a la entrada de la Academia de Platón, yo pondría el siguiente letrero a la puerta de cualquier laboratorio: “NO ENTRE NADIE QUE NO SEPA ESTADÍSTICA”.

Os dejo una conferencia del profesor Xabier Barber de la Universidad Miguel Hernández que os aclarará muchas cosas. Espero que os guste.

Referencias:

  • Box, G.E.; Hunter, J.S.; Hunter, W.G. (2008). Estadística para investigadores. Diseño, innovación y descubrimiento. Segunda Edición, Ed. Reverté, Barcelona.
  • Gutiérrez, H.; de la Vara, R. (2003). Análisis y diseño de experimentos. McGraw-Hill, México.
  • Vicente, M.L.; Girón, P.; Nieto, C.; Pérez, T. (2005). Diseño de experimentos. Soluciones con SAS y SPSS. Pearson Educación, Madrid.

Licencia de Creative Commons
Esta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.

¿Hay diferencias entre Twitter y LinkedIn en cuanto al nivel cultural de sus usuarios? El ejemplo de Antoni Gaudi

Estatua de Gaudí, en El Capricho, Comillas (Cantabria). https://es.wikipedia.org/wiki/Antoni_Gaud%C3%AD

El otro día se me ocurrió una idea. Se trataba de aplicar una Tabla de Contingencia y la Prueba χ² de Pearson a las redes sociales. Se me ocurrió hacer una pregunta de cultura general relacionada con un aspecto de la vida del famoso arquitecto Antoni Gaudí. Podemos leer, por ejemplo en Wikipedia, su trágica muerte: “El 7 de junio de 1926 Gaudí se dirigía a la iglesia de San Felipe Neri, que visitaba a diario para rezar y entrevistarse con su confesor, mosén Agustí Mas i Folch; pero al pasar por la Gran Vía de las Cortes Catalanas, entre las calles Gerona y Bailén, fue atropellado por un tranvía,​ que lo dejó sin sentido.​ Siendo tomado por un mendigo, al ir indocumentado y a causa de su aspecto descuidado, con ropas gastadas y viejas, no fue socorrido de inmediato, hasta que un guardia civil paró un taxi que lo condujo al Hospital de la Santa Cruz. Al día siguiente lo reconoció el capellán de la Sagrada Familia, mosén Gil Parés, pero ya era tarde para hacer nada por él. Murió el día 10 de junio de 1926,​ a los 73 años de edad, en la plenitud de su carrera“.

Todo el que está interesado en la arquitectura normalmente ha conocido parte de la obra de este genial arquitecto, incluso ha visto documentales, leído libros o artículos que hablan de él. Su trágica muerte puede considerarse como un hecho que llama la atención, por tanto, puede ser una buena pregunta de cultura general.

El caso es que hice una pequeña encuesta en redes sociales, tanto en Twitter como en LinkedIn. Con los datos que he obtenido se pueden hacer varias reflexiones e, incluso, un análisis estadístico. Los resultados os los pongo en las figuras siguientes:

Como podéis observar, en ambas redes sociales la mayoría abrumadora ha respondido la opción correcta, que es Antoni Gaudí. Sin embargo, es curioso observar algunas cosas:

a) Para el mismo periodo de respuesta, en LinkedIn ha conseguido casi seis veces más de respuestas que en Twitter. Eso a pesar de que en Twitter tengo unos 21500 seguidores y en LinkedIn poco más de 11000. Se podría interpretar como que la red LinkedIn es más profesional y especializada que Twitter, lo cual era algo que ya sabíamos de antemano.

b) Lo curioso es que en Twitter este tuit tuvo 968 impresiones y solo 112 contestaron la encuesta (11,6%), pero en LinkedIn hubo 14482 visualizaciones y solo votaron 664 (4,6%). El resto, o no estaba interesado, o no sabía la respuesta. Por tanto, en LinkedIn hubo más impacto, pero un porcentaje menor de respuestas.

c) En LinkedIn ha sido el porcentaje de aciertos (86%) superior al de Twitter (72,4%), lo cual puede reforzar la conclusión anterior sobre la profesionalidad y especialización de estas dos redes sociales.

d) Con los datos anteriores se puede construir una Tabla de Contingencia (ver tabla siguiente). En esta tabla se puede ver que la respuesta esperada de la solución correcta en Twitter es de 106,45 aciertos, frente a los 92. En cambio, en LinkedIn la respuesta correcta esperada (556,55) es inferior a la realmente obtenida (571).

e) Por último, haciendo la Prueba χ² de Pearson, el p-valor obtenido con MINITAB es de 0,000. Como p-valor > 0,05, existen evidencias sólidas para rechazar la hipótesis nula de que las proporciones entre las poblaciones son las mismas. Es decir, diremos que las redes sociales analizadas no son homogéneas.

Es evidente que esta pequeña prueba no sirve para nada más que para lo que he comentado. Para una sola pregunta y para un solo caso, sí que se han visto diferencias significativas entre Twitter y LinkedIn. Pero no se puede generalizar. Para ello se podría proponer otro tipo de cuestionarios, con una mejor estratificación muestral y con mayor amplitud de miras. Pero eso es otra historia. Igual hasta hay posibilidad de hacer un trabajo de investigación sobre este tema.

 

Licencia de Creative Commons
Esta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.

Potencia de un test estadístico: Cómo evitar que nos la cuelen

https://neuromarketing.la/2018/12/riesgo-percibido-en-las-compras-online/

En un artículo anterior, “Jerga, falacias y encuestas electorales: Las hipótesis en la investigación científica“, expliqué lo que es una hipótesis de investigación y los errores estadísticos asociados. En aquel artículo se habló del nivel de significación α como la probabilidad de rechazar una hipótesis nula cuando es cierta. Por cierto, como curiosidad hay que decir que se llama “hipótesis nula” porque es la afirmación de una “ausencia de efecto” o de “no diferencia”.

Para simplificar, supongamos un test de embarazo. En este caso, la hipótesis nula es no estar embarazada. Si el test da positivo, no estando embarazada, a este error se le denomina Tipo I o falso positivo. Este error también ocurriría cuando se realiza una operación quirúrgica a un individuo sano, se condena a un inocente o se suspende a un alumno que ha estudiado mucho. También se suele llamar a esta error el RIESGO DEL FABRICANTE, pues es la probabilidad de que el comprador le rechace un lote de producto correcto.

Normalmente se acepta un umbral de α=0,05 , por debajo del cual se puede decir que existe una diferencia entre los resultados del estudio y la hipótesis nula, cuando realmente no hay ninguna diferencia. No obstante, dependiendo del tipo de test y su finalidad, los umbrales pueden ser diferentes a 0,05. Para simplificar la decisión, se utiliza el concepto de significación muestra de la hipótesis nula o “p-valor“, que es la probabilidad de que un resultado sea correcto bajo una hipótesis nula. Así, si el p-valor obtenido es inferior al nivel de significación exigido, se rechazará la hipótesis nula.

Sin embargo, en este artículo me interesa centrarme en un aspecto a veces olvidado, o al menos al que se le da menor importancia que al nivel de significación. Este aspecto es la potencia de un test estadístico, muy relacionado con los falsos negativos. Supongamos, por ejemplo, que a una mujer embarazada el test le dice que no lo está, que se declara inocente a un asesino, que no se opera a un enfermo con metástasis o que se aprueba a alumnos que no han estudiado. Está claro que aquí el test no ha tenido la potencia suficiente como para detectar que ha habido un efecto. Dicho de otra forma, la potencia estadística de un test debe distinguir la señal del ruido. El gran problema que planteamos es que deberíamos distinguir si realmente ha habido un efecto determinado o bien el test no ha sido capaz de detectarlo.

Para ello debemos definir el error Tipo II, β o falso negativo. Se trata del error cometido al aceptar la hipótesis nula cuando ésta no es cierta. Pues bien, la potencia de la prueba se define como 1-β. También se le llama RIESGO DEL COMPRADOR, pues indica la probabilidad de aceptar un lote defectuoso de un fabricante. ¿Qué porcentaje delincuentes voy a declarar culpables en un juicio? ¿Qué probabilidad es aceptable para decir que un fármaco realmente es útil para una enfermedad? Vemos que esos porcentajes, es decir, la potencia del test, puede ser variable. Aunque es habitual exigir entre un 80 y 90%.

El error Tipo I y Tipo II se encuentran relacionados. Si hay diferencias significativas, estos errores son bajos. https://es.wikipedia.org/wiki/Errores_de_tipo_I_y_de_tipo_II

Como podemos ver, no tiene la misma importancia un falso positivo que un falso negativo. Imaginemos una prueba que detecta contaminación letal en un alimento. No es lo mismo decir que el alimento está contaminado, cuando no lo está, que afirmar que no hay contaminación, cuando sí que la hay. El resultado final es que el falso negativo puede provocar muertes, mientra que el falso positivo no.

Pues bien, en una prueba estadística, el nivel de significación, la potencia y el tamaño muestral, se encuentran relacionados. La única forma de bajar los falsos positivos y falsos negativos es aumentar el tamaño muestral. No obstante, como la potencia de la prueba trata de distinguir el efecto del ruido, también se podría incrementar dicha potencia utilizando muestras lo más homogéneas posibles (disminuyendo su variabilidad), utilizando instrumentos de medida muy fiables o utilizando contrastes concretos, entre otros.

Eso explica que, en el caso de los exámenes a nuestros estudiantes, una forma de reducir los suspensos a los alumnos que han estudiado y de suspender al máximo de número de estudiantes que no han estudiado, consiste en aumentar el número de preguntas. Además, deberíamos diseñar el examen de forma que las preguntas permitan distinguir claramente si se conoce o no un concepto.

Os paso algunos vídeos que explican estos conceptos de potencia de una prueba. Espero que os sean útiles.

A continuación os resuelvo un pequeño problema con MINITAB al respecto. Se quiere saber qué tamaño de muestra deberemos elegir para detectar diferencias respecto a la media mayor de 2 MPa un 80% de las veces, suponiendo un nivel de confianza del 95%. Suponemos conocida la desviación típica, que es de 3 MPa.

Descargar (PDF, 139KB)

Licencia de Creative Commons
Esta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.

Diseño de experimentos por bloques aleatorizados. Aplicación al control de calidad del hormigón

Laboratorio de materiales de ICITECH. https://icitech.webs.upv.es/index.php/home/laboratorio-de-materiales/

En la asignatura de “Modelos predictivos y de optimización de estructuras de hormigón”, del Máster en Ingeniería del Hormigón, se desarrollan laboratorios informáticos. En este caso, os traigo un ejemplo de aplicación de un diseño de experimentos. En este caso, un diseño de experimentos por bloques aleatorizados resuelto con SPSS y MINITAB.

Se pretende comparar la resistencia a compresión simple a 28 días obtenidos por cuatro laboratorios diferentes. Para ello se realizan cinco amasadas diferentes y se obtienen las resistencias medias para cada amasada por cada uno de los laboratorios. Los resultados se encuentran en la tabla que sigue.

Os paso la resolución de este laboratorio informático. Espero que os sea de interés.

Descargar (PDF, 410KB)

Licencia de Creative Commons
Esta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.

Hormigón compactado con una pavimentadora. Ejemplo de un diseño factorial fraccionado resuelto con MINITAB

https://www.360enconcreto.com/blog/detalle/innovacion-y-tendencias/pavimentos-de-concreto-compactados-con-rodillo

En la asignatura de “Modelos predictivos y de optimización de estructuras de hormigón”, del Máster en Ingeniería del Hormigón, se desarrollan laboratorios informáticos. En este caso, os traigo un ejemplo de aplicación de un diseño de experimentos. En este caso, un diseño factorial fraccionado resuelto con MINITAB.

Se quiere determinar la mejor forma de elaborar hormigón compactado con una pavimentadora. La variable de respuesta es el porcentaje de compactación, medido con un densímetro nuclear. Tras una tormenta de ideas con expertos, se ha realizado un diseño de experimentos con 5 factores: el porcentaje de aditivo, la pavimentadora (A antigua, B moderna), el operador de la pavimentadora (A con poca experiencia, y B con mucha), el tipo de mezcla de hormigón y la temperatura del hormigón. Se ha tenido que realizar un diseño fraccionado puesto que el presupuesto limita el número de experimentos a un máximo de 12. Se pide que se analicen los resultados, que fueron los de la tabla siguiente:

Los datos de este caso provienen de la siguiente publicación: Arias, C.; Adanaqué, I.; Buestán, M. Optimización del proceso de elaboración de hormigón compactado con pavimentadora. Escuela Superior Politécnica del Litoral, Ecuador. http://www.dspace.espol.edu.ec/handle/123456789/4754

Os paso la resolución de este laboratorio informático. Espero que os sea de interés.

Descargar (PDF, 1.14MB)

Licencia de Creative Commons
Esta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.

Tipos de ensayos de fiabilidad para la distribución exponencial

Figura 1. Los ensayos de fiabilidad permiten estimar el tiempo medio entre fallos de la maquinaria en una obra

En obra pueden estimarse el tiempo medio entre fallos de una máquina mediante los denominados como ensayos de fiabilidad, basándose para ello en la distribución exponencial. Los tipos de ensayos posibles son los siguientes:

  • Ensayos completos: Se realizan hasta el fallo de todas las unidades. 
  • Ensayos censurados: Un ensayo de fiabilidad se llama censurado de orden k si la experiencia se detiene al producirse el fallo k-ésimo. También se llama test limitado por fallos. Puede ser con o sin reemplazamiento de las unidades averiadas. 
  • Ensayos truncados: Un ensayo de fiabilidad se llama truncado cuando la experiencia se detiene al cabo de una cierta duración. También se llama test limitado por tiempo. También pueden ser con o sin reemplazamiento.

La estimación del tiempo medio entre fallos (MTBF) se obtiene repartiendo la duración del ensayo por en número de fallos:

donde

T = tiempo total acumulado del test

r = número de fallos

En los ensayos censurados, si se conoce el valor de q se puede obtener la duración esperada para el ensayo.

  • En ensayo sin reemplazamiento:

  • En ensayo con reemplazamiento:

siendo r el número de fallos y n el de unidades

Asimismo, si se conoce el valor de q se puede obtener el número esperado de fallos en un ensayo trucado de duración T:

  • En ensayo sin reemplazamiento:

  • En ensayo con reemplazamiento:

donde n es el número de unidades ensayadas y T la duración prefijada del ensayo.

Referencias:

YEPES, V. (1997). Equipos de movimiento de tierras y compactación. Problemas resueltos. Colección Libro Docente nº 97.439. Ed. Universitat Politècnica de València. 256 pág. Depósito Legal: V-4598-1997. ISBN: 84-7721-551-0.

YEPES, V. (2015). Coste, producción y mantenimiento de maquinaria para construcción. Editorial Universitat Politècnica de València, 155 pp. ISBN: 978-84-9048-301-5.

Licencia de Creative Commons
Esta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.