Escalas Likert: una herramienta fundamental en la ingeniería de encuestas

https://delighted.com/es/blog/likert-scale

Las escalas Likert son un estándar en la investigación social, educativa y empresarial gracias a su simplicidad y eficacia a la hora de medir percepciones y actitudes. En ingeniería, son fundamentales para recopilar datos en estudios de usabilidad, gestión de proyectos y análisis de riesgos, entre otros.

Este artículo amplía el debate sobre las escalas Likert, abordando su diseño, implementación, análisis y aplicaciones prácticas en diversos campos de la ingeniería.

¿Qué son las escalas Likert?

De University of Michigan. News and Information Services. Photographs – Bentley Historical Library, CC BY 4.0, https://commons.wikimedia.org/w/index.php?curid=76306573

Desarrolladas por Rensis Likert en 1932, estas escalas son un método para medir actitudes a través de una serie de afirmaciones ante las que el encuestado expresa su nivel de acuerdo o desacuerdo. Generalmente, tienen entre 5 y 7 puntos, aunque en ciertas situaciones se utilizan versiones más específicas. Su unidimensionalidad y simplicidad las hacen ideales para capturar datos subjetivos de forma sistemática.

Las principales características son la unidimensionalidad, ya que los ítems deben medir un único constructo (satisfacción, percepción o actitud), la versatilidad, que permite evaluar dimensiones como la frecuencia, la importancia y la probabilidad en diversos contextos, y la comparabilidad, por el hecho de que la estandarización de respuestas facilita la comparación entre grupos y estudios a lo largo del tiempo.

Los componentes de una escala Likert incluyen afirmaciones o ítems, que son declaraciones sobre las que el encuestado expresa su nivel de acuerdo o desacuerdo; opciones de respuesta, que representan un rango de valores como «Totalmente en desacuerdo», «Neutral» y «Totalmente de acuerdo», y puntuación, donde las respuestas se codifican numéricamente para facilitar el análisis estadístico.

El diseño de un cuestionario con escala Likert

El diseño de un cuestionario bien estructurado es fundamental para garantizar la calidad de los datos recopilados. Esto incluye desde la redacción de las preguntas hasta la elección del tipo de respuesta.

  • Redacción de ítems: La calidad de un cuestionario depende de la claridad y precisión de sus elementos, por lo que se recomienda evitar ambigüedades, expresar una sola idea con cada elemento, utilizar afirmaciones neutrales para minimizar sesgos emocionales y adaptar el lenguaje al contexto, teniendo en cuenta el nivel de comprensión del grupo objetivo. Por ejemplo, la pregunta «Estoy satisfecho con la calidad y el precio del servicio» debería descomponerse en dos preguntas distintas. Formulaciones como «¿Está de acuerdo con que los políticos son corruptos?», introducen sesgos emocionales.
  • Opciones de respuesta: Para diseñar opciones de respuesta efectivas, es relevante que sean claras, equidistantes y exhaustivas. El número de categorías debe tenerse en cuenta; cinco es el estándar, mientras que escalas de siete puntos ofrecen mayor precisión y escalas con menos de tres puntos limitan la variabilidad. Además, elegir entre escalas pares o impares influye en los resultados: las pares eliminan el punto medio neutral, por lo que obligan a los encuestados a posicionarse en uno de los dos extremos.
  • Organización y estructura: La organización y estructura de un cuestionario debe seguir un flujo lógico, aplicando la técnica del embudo, que consiste en comenzar con preguntas generales y poco sensibles, avanzar hacia ítems más específicos y personales y agrupar por temas para mantener la coherencia y reducir la fatiga cognitiva.
  • Realización de pretests: La realización de pretests es esencial para evaluar la comprensión, fluidez y relevancia del cuestionario, lo que permite identificar y corregir errores antes de su implementación final.
De Nicholas Smithvectorization: Trabajo propio – Trabajo propio, based on File:Example Likert Scale.jpg, CC BY-SA 3.0, https://commons.wikimedia.org/w/index.php?curid=18615046

Análisis de datos obtenidos con escalas Likert

La fortaleza de las escalas Likert radica en su capacidad para adaptarse a diversos métodos analíticos. Los datos obtenidos pueden proporcionar información valiosa, ya sea en análisis descriptivos o en modelos avanzados.

1. Análisis descriptivo

  • Tendencia central: La media y la mediana resumen la tendencia general de las respuestas.
  • Dispersión: Indicadores como el rango o la desviación estándar ayudan a entender la variabilidad en las respuestas.
  • Visualización: Gráficos de barras, histogramas y diagramas de cajas facilitan la interpretación rápida.

2. Relación entre variables

El análisis bivariado permite explorar cómo se relacionan diferentes variables dentro de la escala Likert:

  • Correlación de Pearson: Evalúa la relación lineal entre dos variables continuas.
  • Tablas de contingencia: Adecuadas para analizar categorías derivadas de respuestas Likert.

3. Análisis factorial exploratorio (AFE)

Este enfoque permite identificar dimensiones latentes que subyacen en los ítems:

  • Validación estructural: Determina si los ítems agrupan un único constructo o múltiples dimensiones.
  • Técnicas de reducción: PCA (Análisis de Componentes Principales) y AFE ayudan a simplificar la interpretación.

4. Evaluación de la fiabilidad

La consistencia interna de una escala se mide comúnmente mediante el alfa de Cronbach. Valores superiores a 0,7 suelen considerarse aceptables.

Ventajas y limitaciones

Entre sus ventajas destacan su accesibilidad, ya que son fáciles de implementar y entender, su flexibilidad, al adaptarse a diversas áreas de investigación, y su simplicidad analítica, que permite análisis básicos y avanzados. Sin embargo, presentan limitaciones: la deseabilidad social, donde las respuestas pueden estar influenciadas por lo que es socialmente aceptable; la ambigüedad en las opciones medias, ya que categorías como «Neutral» pueden interpretarse de manera diferente; y la unidimensionalidad no garantizada, por lo que es necesario validar su estructura interna mediante análisis factorial.

Aplicaciones en ingeniería

Las escalas Likert tienen amplias aplicaciones en ingeniería, por ejemplo, en estudios de satisfacción para evaluar la percepción de los usuarios sobre productos o servicios, en gestión de riesgos para analizar actitudes hacia posibles escenarios de riesgo en proyectos y en usabilidad de software para medir la experiencia del usuario en diseño y funcionalidad de interfaces. En la evaluación de proyectos, sirven para recopilar información sobre aspectos como el cumplimiento de plazos, la calidad del producto y la eficiencia del equipo.

Conclusión

Las escalas Likert son una herramienta esencial para medir percepciones, actitudes y comportamientos. Su versatilidad y facilidad de implementación las convierten en una opción popular en investigaciones de ingeniería y ciencias sociales. El diseño riguroso del cuestionario y el análisis adecuado de los datos garantizan resultados fiables que pueden orientar la toma de decisiones, mejorando procesos y productos en diversos ámbitos de la ingeniería.

Os dejo a continuación una presentación que hice en Santiago de Chile, sobre el análisis de cuestionarios basados en escalas Likert. Espero que sea de vuestro interés.

Descargar (PDF, 1.78MB)

Licencia de Creative Commons
Esta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.

Población y muestra, parámetros y estadísticos

Figura 1. Población y muestra. https://proyectodescartes.org/iCartesiLibri/

En cualquier investigación estadística, se recopila información de un conjunto de elementos específicos. Una población se define como un conjunto completo de posibles individuos, especímenes, objetos o medidas de interés que se someten a un estudio para ampliar nuestro conocimiento sobre ellos. En el caso de poblaciones finitas y de tamaño reducido, es factible medir a todos los individuos para obtener un conocimiento preciso de sus características, también conocidas como parámetros. Por ejemplo, se podría analizar la proporción de productos defectuosos o calcular la media de alguna variable relacionada con los productos.

Por otro lado, cuando la población es infinita o muy numerosa, resulta impracticable o costoso medir a todos los individuos. En tales circunstancias, es necesario extraer una muestra representativa de la población y, basándonos en las características observadas en dicha muestra (conocidas como estadísticos), podemos realizar inferencias sobre los parámetros que describen a la población en su totalidad. De manera figurativa, podríamos comparar una muestra, que se supone representativa de una población, con lo que una maqueta representa respecto al edificio que retrata. La calidad de la muestra, al igual que la de la maqueta, dependerá del grado de representatividad que pueda ofrecer.

Figura 2. Parámetros y estadísticos.

En términos generales, la inferencia estadística es el proceso de utilizar estadísticos de una muestra para hacer deducciones acerca de la distribución de probabilidad de una población. Si estas deducciones se efectúan sobre parámetros poblacionales, este proceso se denomina inferencia estadística paramétrica. Si las deducciones se hacen sobre la distribución de probabilidad completa, sin hacer referencia a parámetros específicos, se le llama inferencia estadística no paramétrica.

Dentro del ámbito industrial, las poblaciones de interés abarcan una amplia gama de elementos, que incluyen materiales, productos terminados, partes o componentes, así como procesos, entre otros. En muchas ocasiones, estas poblaciones se caracterizan por ser infinitas o de gran magnitud. Por ejemplo, en la elaboración del hormigón en una planta, resulta inviable, o al menos poco práctico, medir la resistencia a la compresión simple de cada una de las muestras que podrían obtenerse en una amasada. Incluso en situaciones donde la producción no sea masiva, es recomendable pensar en el proceso como si fuera una población infinita o de gran escala, dado que la producción puede continuar sin interrupciones, es decir, no existe un último artículo mientras la empresa siga en funcionamiento. Un ejemplo sería la fabricación de bloques de hormigón en una empresa de prefabricados. En tales circunstancias, los procesos se evalúan mediante muestras de productos extraídas en algún punto específico del proceso.

Un punto crucial a considerar es la obtención de muestras que sean verdaderamente representativas, es decir, que capturen de manera adecuada los aspectos clave que se desean analizar en la población. Para lograr esta representatividad, resulta esencial diseñar un proceso de muestreo aleatorio de manera apropiada. En este tipo de muestreo, se evita cualquier tipo de sesgo que pudiera favorecer la inclusión de elementos particulares, asegurando que todos los elementos de la población tengan las mismas oportunidades de formar parte de la muestra.

Existen varias técnicas de muestreo aleatorio, como el muestreo simple, el muestreo estratificado, el muestreo sistemático y el muestreo por conglomerados. Cada una de estas metodologías se adapta a los objetivos específicos del estudio, así como a las circunstancias y características particulares de la población, garantizando de esta manera que las muestras obtenidas sean verdaderamente representativas.

No obstante, en la práctica, la hipótesis de un muestreo aleatorio suele quedar lejos de cumplirse al lidiar con datos del mundo real. Un ejemplo ilustrativo son los registros de la temperatura diaria. En estos registros, los días calurosos tienden a agruparse, lo que significa que los valores elevados tienden a seguir a otros valores elevados. A este fenómeno se le denomina autocorrelación, y por ende, estos datos no pueden considerarse como el resultado de extracciones aleatorias. La validez de la hipótesis de muestreo aleatorio desempeña un papel fundamental tanto en el análisis como en el diseño de experimentos científicos o en el ámbito del control de la calidad.

La importancia de la aleatoriedad se destaca de manera clara en situaciones cotidianas. Por ejemplo, al seleccionar una muestra de ladrillos de un palet, si optamos por los que se encuentran en la parte superior, podríamos introducir un sesgo en nuestros resultados. Es lamentable que en muchos trabajos estadísticos, la hipótesis de muestreo aleatorio se trate como si fuera una característica inherente de los datos naturales. En realidad, cuando trabajamos con datos reales, la aleatoriedad no es una propiedad en la que podamos confiar de manera absoluta. Sin embargo, con las precauciones adecuadas en el diseño experimental o en la toma de muestras de un control estadístico de la calidad, esta suposición puede seguir siendo relevante y útil.

Os dejo a continuación un vídeo explicativo, que espero os sea de interés.

Licencia de Creative Commons
Esta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.

¿Qué hacemos con los valores atípicos (outliers)?

Figura 1. Valor atípico en el diagrama de caja y bigotes

Un valor atípico (outlier, en inglés) es una observación que numéricamente es muy distinta al resto de elementos de una muestra. Estos datos nos pueden causar problemas en la interpretación de lo que ocurre en un proceso o en una población. Por ejemplo, en el cálculo de la resistencia media a compresión simple de unas probetas de hormigón, la mayoría se encuentran entre 25 y 30 MPa. ¿Qué ocurriría si, de repente, medimos una probeta con una resistencia de 60 MPa? La mediana de los datos puede ser 27 MPa, pero la resistencia media podría llegar a 45 MPa. En este caso, la mediana refleja mejor el valor central de la muestra que la media.

La pregunta que nos podemos plantear es inmediata. ¿Qué hacemos con esos valores atípicos? La opción de ignorarlos a veces no es la mejor de las soluciones posibles si pretendemos conocer qué ha pasado con estos valores. Lo bien cierto es que distorsionan los resultados del análisis, por lo que hay que identificarlos y tratarlos de forma adecuada. A veces se excluyen si son resultado de un error, pero otras veces son datos potencialmente interesantes en la detección de anomalías.

Los valores atípicos pueden deberse a errores en la recolección de datos válidos que muestran un comportamiento diferente, pero reflejan la aleatoriedad de la variable en estudio. Es decir, valores que pueden haber aparecido como parte del proceso, aunque parezcan extraños. Si los valores atípicos son parte del proceso, deben conservarse. En cambio, si ocurren por algún tipo de error (medida, codificación…), lo adecuado es su eliminación. En la Tabla 1 se recogen algunas de las causas comunes de los valores atípicos y sus acciones posibles.

Tabla 1. Causas comunes de los valores atípicos. Fuente: Soporte de Minitab(R) 18.

Causa Acciones posibles
Error de entrada de datos Corregir el error y volver a analizar los datos.
Problema del proceso Investigar el proceso para determinar la causa del valor atípico.
Factor faltante Determinar si no se consideró un factor que afecta el proceso.
Probabilidad aleatoria Investigar el proceso y el valor atípico para determinar si este se produjo en virtud de las probabilidades; realice el análisis con y sin el valor atípico para ver su impacto en los resultados.

Los valores atípicos a veces son subjetivos y existen numerosos métodos para clasificarlos. La detección de valores atípicos se puede realizar a nivel univariante usando gráficos sencillos como histogramas o diagramas de caja y bigotes. A nivel bivariante se pueden localizar mediante análisis de diagrama de dispersión o análisis de los residuos. En el ámbito multivariante se pueden descubrir los valores atípicos mediante un análisis de la matriz de residuos.

El método más habitual por su sencillez y resultados es el test de Tukey, que toma como referencia la diferencia entre el primer cuartil (Q1) y el tercer cuartil (Q3), o rango intercuartílico. En un diagrama de caja se considera un valor atípico el que se encuentra 1,5 veces esa distancia de uno de esos cuartiles (atípico leve) o a 3 veces esa distancia (atípico extremo). Se trata de un método paramétrico que supone que la población es normal (Figura 2). No obstante, también existen métodos no paramétricos cuando la muestra no supere la prueba de normalidad correspondiente.

Figura 2. Detección paramétrica de valores atípicos, basado en la curva de distribución normal. Wikipedia

Os dejo algún vídeo donde se explica cómo detectar los valores atípicos.

Licencia de Creative Commons
Esta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.

¿Cuántas respuestas son necesarias en una encuesta? Pues depende.

A veces me toca dirigir algún trabajo de investigación de mis estudiantes que trata de conocer la opinión sobre algún aspecto concreto. Normalmente se trata de temas relacionados con el sector de la construcción, aunque también suelo investigar si ha tenido éxito algún tipo de innovación educativa en mis clases. Para ello suelo aconsejar el uso de cuestionarios basados en escalas Likert, pues de esta forma facilito el análisis estadístico multivariante de los resultados.

El problema siempre es el mismo: ¿Profesor, tengo suficientes encuestas o tengo que enviar más encuestas? Y la respuesta siempre es la misma: depende del objeto de la encuesta. Vamos a analizar esto por partes.

Si se trata de describir los resultados obtenidos de un grupo de estudio, la muestra representa a la totalidad de la población, y por tanto no es necesario alcanzar un número de respuestas mínimo. Por ejemplo, si en una asociación de empresarios de la construcción el número de socios es de 30 y todos responden el cuestionario, es evidente que los resultados del estudio representan de forma exacta lo que opinan los 30 socios.

Sin embargo, lo habitual es encontrarse con un número de respuestas que forman una muestra de una población. Aquí se trata de saber si podemos extrapolar los resultados a la población que representa la muestra. Para ello nos debemos hacer dos preguntas: ¿Es la muestra representativa? ¿Cuál es el margen de error que cometemos?

Las técnicas de muestreo permiten extraer muestras representativas. Estos muestreos pueden ser probabilísticos o no probabilísticos. Entre los primeros podemos resaltar el muestreo aleatorio sistemático, el estratificado o el muestreo por conglomerados.  Entre los no probabilísticos, el muestreo por cuotas, por bola de nieve o el muestreo subjetivo por decisión razonada. Remito a los interesados a bibliografía específica, pues se escapa al objetivo de este artículo.

Aquí vamos a comentar brevemente lo relativo al error muestral. El error muestral se corresponde con el margen de error que estamos dispuestos a aceptar. Por ejemplo, si decimos que el 15% de la población está de acuerdo con algo y el error muestral es del 4%, realmente dicha opinión se encuentra entre el 11% y el 19% para un nivel de confianza determinado. Por eso, lo primero, será definir el nivel de confianza o riesgo de primera especie “z”, que sería el riesgo que aceptamos de equivocarnos al presentar nuestros resultados. El nivel de confianza habitual es 1 – α = 95% o α = 5%. Se utiliza como “z”, que es un valor de la distribución normal asociado a una determinada probabilidad de ocurrencia. Así, z=1,96 si 1 – α = 95%, z=2,00 si 1 – α = 95,5% y z=2,57 si 1 – α = 99%.

Otro factor a tener en cuenta es la variabilidad de las respuestas estimada en la población. Si sabemos que todos los sujetos piensan lo mismo, nos bastará preguntar a uno solo o a muy pocos. Pero si sabemos que habrá una gran diversidad de respuestas, hará falta una mayor número de sujetos en la muestra. Como lo normal es desconocer la variabilidad de las respuestas en la población, elegimos la mayor varianza posible p=q=50% (sería que el 50% respondiera que “sí” y el otro 50% lo contrario).

Las fórmulas que nos dan el error muestral, por tanto, dependen de los factores anteriores y también de conocer si la población es finita o infinita (más de 30.000 individuos ya se considera como infinita). En la figura se indican ambas fórmulas.

Fórmulas del error muestral, en función de si la población es finita o infinita

Si jugamos un poco con estas fórmulas, veremos que para un nivel de confianza del 95%, serían necesarias 96 respuestas en una población infinita y 95 respuestas en una población de un tamaño de 10.000 (casi coinciden) para un error muestral del 10%. Pero si queremos bajar el error al 5%, se eleva el número de respuestas a 384 en el caso de la población infinita y a 370 en el caso de una población finita de 10.000. Como vemos, se dispara el número de respuestas necesarias para reducir el error.

Por tanto, mi respuesta a mis estudiantes suele ser siempre la misma: vamos a intentar llegar a 100 respuestas para empezar a tener un error razonable.

En apretada síntesis, os quiero dar las siguientes consideraciones sobre el muestreo:

  • No solo es necesario que el tamaño de la muestra sea suficiente, sino también que la muestra sea representativa de la población que tratamos de describir
  • Una muestra de gran tamaño no garantiza que el margen de error sea pequeño, pues puede estar sesgada hacia segmentos de la población representados en exceso o poco representados
  • Si la población a estudiar es demasiado grande es recomendable segmentarla en estratos y valorar en cuáles de ellos pueden obtenerse muestras representativas, facilitando así una interpretación de los resultados más precisa
  • En general, el margen de error en cada estrato suele ser superior al margen de error de toda la muestra en conjunto. Es recomendable ser consciente de esta diferencia de precisión en la interpretación de resultados

Pues ahora una reflexión final: ¿Qué error tienen las encuestas que contestan los alumnos en relación con la calidad del profesor? ¿Es razonable tomar decisiones respecto a la continuidad o no de un profesor teniendo en cuenta estas encuestas? Tenéis las claves releyendo el artículo.

Aquí tenéis un vídeo sobre las técnicas de muestreo.

Os dejo a continuación un pequeño vídeo sobre el error de muestreo.

 

Licencia de Creative Commons
Esta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.

Cuando una “campaña experimental” se convierte en un desperdicio de tiempo y dinero

https://www.laensa.com/probetas-hormigon/

Reconozco abiertamente que me recorre cierto escalofrío cuando escucho por algún sitio que se está desarrollando una “campaña experimental“, a menudo en laboratorios donde, por desgracia, cada ensayo cuesta muchísimo tiempo y dinero. Me viene a la mente una campaña militar a gran escala donde, para conseguir un objetivo, se sacrifica lo que sea necesario. Cuando igual una pequeña fuerza de operaciones especiales sería suficiente.

Lo digo porque no es la primera vez que me encuentro con algún estudiante de máster o doctorado que quiere iniciar ensayos para cubrir, literalmente, las variaciones posibles en ciertos rangos, de un número de factores que influyen en un problema determinado. Y tampoco me es ajeno el típico estudiante que acude a mi despacho a pedirme consejo porque no sabe qué hacer con las montañas de datos generados, no siendo capaz de interpretar con herramientas estadísticas rigurosas.

Pero este problema no solo ocurre en determinados ámbitos científicos, sino que es habitual en empresas, procesos industriales y laboratorios de todo tipo. Cuento esto porque encuentro de vez en cuando a un doctorando que ha dedicado, por ejemplo, más de cinco años en recoger datos que luego, a la postre, se acumulan en hojas de cálculo y son difíciles de interpretar porque no se sabía exactamente cuál era la pregunta de investigación que se quería resolver.

También es muy típico encontrar en las empresas a técnicos expertos en un proceso determinado “con mucha experiencia”, que realmente lo que ha hecho es aprender con los años, y sobre todo, de sufrir en sus carnes muchos errores. Este tipo de experiencia, basada en el error, no es la más barata, ni mucho menos.

Afortunadamente, cada vez son menos los que se enfrascan directamente a ensayar todas las combinaciones posibles en los valores de ciertas variables. Para eso disponemos de una rama del conocimiento denominada diseño de experimentos que permite no solo ahorrar recursos (tiempo, espacio de laboratorio, dinero, etc.), sino también es capaz de sacar muchísima más información de los datos cuando se dedica algo de tiempo a hacer un buen diseño experimental. No digo con esto que existan campañas experimentales bien diseñadas, sino que aún perviven prácticas que, por puro desconocimiento, son utilizadas aún en demasiadas ocasiones.

Veamos un ejemplo sencillo que nos permite aclarar las ideas. Imaginemos un proceso que solo depende de 4 factores. Si de cada factor queremos analizar 5 niveles, una “campaña experimental” exhaustiva nos obligaría a tomar 5^4 = 625 observaciones. Este número tan elevado puede ser inviable. ¿Cómo podemos reducir el número de observaciones? Se podría reducir el número de factores o el número de niveles a estudiar .

Un buen diseño de experimentos puede reducir muchísimo el número de observaciones necesarias ofreciendo, a su vez, información muy valiosa. Por ejemplo, un diseño factorial a dos niveles, ya sea completo o fraccionado, sería suficiente en la mayoría de los casos para estudiar los efectos, las interacciones entre los factores, etc. Invito al lector a revisar en este mismo blog algunos artículos que he escrito al respecto:

¿Qué es el diseño de experimentos?

Definiciones básicas del diseño de experimentos

Incluso, en el caso de que no exista una interacción entre los factores, por ejemplo un diseño en cuadrado grecolatino, para cuatro factores y cuatro niveles, podríamos obtener información valiosa con 16 observaciones en vez de las 256 que serían las necesarias para cubrir todas las combinaciones posibles. En este blog podéis encontrar muchos ejemplos resueltos buscando “diseño de experimentos” en la columna de la izquierda, donde aparece el buscador.

Resumiendo, estoy a favor de las “campañas experimentales”, pero siempre que se basen en un diseño de experimentos previo. Pero mi consejo es que antes de hacer nada, tengamos muy clara la pregunta de investigación que queremos resolver. De hecho, la ciencia experimental trata de llegar a conclusiones generales con datos procedentes de casos particulares, y para eso necesitamos la estadística.

Parafraseando la frase que, según la tradición, estaba grabada a la entrada de la Academia de Platón, yo pondría el siguiente letrero a la puerta de cualquier laboratorio: “NO ENTRE NADIE QUE NO SEPA ESTADÍSTICA”.

Os dejo una conferencia del profesor Xabier Barber de la Universidad Miguel Hernández que os aclarará muchas cosas. Espero que os guste.

Referencias:

  • Box, G.E.; Hunter, J.S.; Hunter, W.G. (2008). Estadística para investigadores. Diseño, innovación y descubrimiento. Segunda Edición, Ed. Reverté, Barcelona.
  • Gutiérrez, H.; de la Vara, R. (2003). Análisis y diseño de experimentos. McGraw-Hill, México.
  • Vicente, M.L.; Girón, P.; Nieto, C.; Pérez, T. (2005). Diseño de experimentos. Soluciones con SAS y SPSS. Pearson Educación, Madrid.

Licencia de Creative Commons
Esta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.

Potencia de un test estadístico: Cómo evitar que nos la cuelen

https://neuromarketing.la/2018/12/riesgo-percibido-en-las-compras-online/

En un artículo anterior, “Jerga, falacias y encuestas electorales: Las hipótesis en la investigación científica“, expliqué lo que es una hipótesis de investigación y los errores estadísticos asociados. En aquel artículo se habló del nivel de significación α como la probabilidad de rechazar una hipótesis nula cuando es cierta. Por cierto, como curiosidad hay que decir que se llama “hipótesis nula” porque es la afirmación de una “ausencia de efecto” o de “no diferencia”.

Para simplificar, supongamos un test de embarazo. En este caso, la hipótesis nula es no estar embarazada. Si el test da positivo, no estando embarazada, a este error se le denomina Tipo I o falso positivo. Este error también ocurriría cuando se realiza una operación quirúrgica a un individuo sano, se condena a un inocente o se suspende a un alumno que ha estudiado mucho. También se suele llamar a esta error el RIESGO DEL FABRICANTE, pues es la probabilidad de que el comprador le rechace un lote de producto correcto.

Normalmente se acepta un umbral de α=0,05 , por debajo del cual se puede decir que existe una diferencia entre los resultados del estudio y la hipótesis nula, cuando realmente no hay ninguna diferencia. No obstante, dependiendo del tipo de test y su finalidad, los umbrales pueden ser diferentes a 0,05. Para simplificar la decisión, se utiliza el concepto de significación muestra de la hipótesis nula o “p-valor“, que es la probabilidad de que un resultado sea correcto bajo una hipótesis nula. Así, si el p-valor obtenido es inferior al nivel de significación exigido, se rechazará la hipótesis nula.

Sin embargo, en este artículo me interesa centrarme en un aspecto a veces olvidado, o al menos al que se le da menor importancia que al nivel de significación. Este aspecto es la potencia de un test estadístico, muy relacionado con los falsos negativos. Supongamos, por ejemplo, que a una mujer embarazada el test le dice que no lo está, que se declara inocente a un asesino, que no se opera a un enfermo con metástasis o que se aprueba a alumnos que no han estudiado. Está claro que aquí el test no ha tenido la potencia suficiente como para detectar que ha habido un efecto. Dicho de otra forma, la potencia estadística de un test debe distinguir la señal del ruido. El gran problema que planteamos es que deberíamos distinguir si realmente ha habido un efecto determinado o bien el test no ha sido capaz de detectarlo.

Para ello debemos definir el error Tipo II, β o falso negativo. Se trata del error cometido al aceptar la hipótesis nula cuando ésta no es cierta. Pues bien, la potencia de la prueba se define como 1-β. También se le llama RIESGO DEL COMPRADOR, pues indica la probabilidad de aceptar un lote defectuoso de un fabricante. ¿Qué porcentaje delincuentes voy a declarar culpables en un juicio? ¿Qué probabilidad es aceptable para decir que un fármaco realmente es útil para una enfermedad? Vemos que esos porcentajes, es decir, la potencia del test, puede ser variable. Aunque es habitual exigir entre un 80 y 90%.

El error Tipo I y Tipo II se encuentran relacionados. Si hay diferencias significativas, estos errores son bajos. https://es.wikipedia.org/wiki/Errores_de_tipo_I_y_de_tipo_II

Como podemos ver, no tiene la misma importancia un falso positivo que un falso negativo. Imaginemos una prueba que detecta contaminación letal en un alimento. No es lo mismo decir que el alimento está contaminado, cuando no lo está, que afirmar que no hay contaminación, cuando sí que la hay. El resultado final es que el falso negativo puede provocar muertes, mientra que el falso positivo no.

Pues bien, en una prueba estadística, el nivel de significación, la potencia y el tamaño muestral, se encuentran relacionados. La única forma de bajar los falsos positivos y falsos negativos es aumentar el tamaño muestral. No obstante, como la potencia de la prueba trata de distinguir el efecto del ruido, también se podría incrementar dicha potencia utilizando muestras lo más homogéneas posibles (disminuyendo su variabilidad), utilizando instrumentos de medida muy fiables o utilizando contrastes concretos, entre otros.

Eso explica que, en el caso de los exámenes a nuestros estudiantes, una forma de reducir los suspensos a los alumnos que han estudiado y de suspender al máximo de número de estudiantes que no han estudiado, consiste en aumentar el número de preguntas. Además, deberíamos diseñar el examen de forma que las preguntas permitan distinguir claramente si se conoce o no un concepto.

Os paso algunos vídeos que explican estos conceptos de potencia de una prueba. Espero que os sean útiles.

A continuación os resuelvo un pequeño problema con MINITAB al respecto. Se quiere saber qué tamaño de muestra deberemos elegir para detectar diferencias respecto a la media mayor de 2 MPa un 80% de las veces, suponiendo un nivel de confianza del 95%. Suponemos conocida la desviación típica, que es de 3 MPa.

Descargar (PDF, 139KB)

Licencia de Creative Commons
Esta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.

Diseño de experimentos en cuadrado grecolatino. Ejemplo aplicado al hormigón

Figura 1. Cuadrado grecolatino de orden cuatro. Wikipedia

Un cuadrado greco-latinocuadrado de Euler o cuadrados latinos ortogonales de orden n se denomina, en matemáticas, a la disposición en una cuadrícula cuadrada n×n de los elementos de dos conjuntos S y T, ambos con n elementos, cada celda conteniendo un par ordenado (st), siendo s elemento de S y t de T, de forma que cada elemento de S y cada elemento de T aparezca exactamente una vez en cada fila y en cada columna y que no haya dos celdas conteniendo el mismo par ordenado. Si bien los cuadrados grecolatinos eran una curiosidad matemática, a mediados del siglo XX Fisher demostró su utilidad para el control de experimentos estadísticos.

El diseño de experimentos en cuadrado grecolatino constituye una extensión del cuadrado latino. En este caso se eliminan tres fuentes extrañas de variabilidad, es decir, se controlan tres factores de bloques y un factor de tratamiento. Se trata de un diseño basado en una matriz de “n” letras latinas y “n” letras griegas, de forma que cada letra latina aparece solo una vez al lado de cada letra griega. Lo interesante de este diseño es que se permite la investigación de cuatro factores (filas, columnas, letras latinas y letras griegas), cada una con “n” niveles en solo “n2” corridas. Se llama cuadrado grecolatino porque los cuatro factores involucrados se prueban en la misma cantidad de niveles, de aquí que se pueda escribir como un cuadro. En la Figura 1 se presenta el aspecto de los datos del diseño de orden cuatro. El inconveniente de este modelo es que su utilización es muy restrictiva. El análisis de la varianza permite comprobar las hipótesis de igualdad de letras latinas (tratamientos), de las filas, de las columnas y de las letras griegas.

Si a un cuadrado latino p x p se le superpone un segundo cuadrado latino n x n en el que los tratamientos se denotan con letras griegas, entonces los dos cuadrados tienen la propiedad de que cada letra griega aparece una y sólo una vez con cada letra latina. Este diseño permite controlar sistemáticamente tres fuentes de variabilidad extraña. Ello permite la investigación de cuatro factores (filas, columnas, letras latinas y letras griegas), cada una con p niveles en sólo n2 ensayos.

Por tanto, el diseño de experimentos en cuadrado grecolatino se caracteriza por lo siguiente:

  • Es un diseño con cuatro factores a n niveles
  • Se asume que no hay interacciones entre los factores
  • Requiere de n2 observaciones
  • Cada nivel de un factor aparece una vez con cada nivel de los otros factores
  • Se trata de la superposición de dos cuadrados latinos (ver Figura 2)
Figura 2. Superposición de dos cuadrados latinos

En un diseño en cuadrado greco-latino la variable respuesta yij(hp) viene descrita por la siguiente ecuación:

A continuación os presento un caso para aclarar la aplicabilidad de este diseño de experimentos. Se trata de averiguar si la resistencia característica del hormigón a flexocompresión (MPa) varía con cuatro dosificaciones diferentes. Para ello se han preparado amasadas en cuatro amasadoras diferentes, se han utilizado cuatro operarios de amasadora y los ensayos se han realizado en cuatro laboratorios diferentes. Los resultados se encuentran en la tabla que sigue. Se quiere analizar el diseño de experimentos en cuadrado grecolatino realizado.

En el caso que nos ocupa, la variable de respuesta de la resistencia característica del hormigón a flexocompresión (MPa). El factor que se quiere estudiar es la dosificación a cuatro niveles (A, B, C y D). El bloque I es el tipo de amasadora, con cuatro niveles (α, β, γ y δ). El bloque II es el operario de la amasadora, con cuatro niveles (1, 2, 3 y 4). El bloque III es el laboratorio, con cuatro niveles (las filas). Se supone que no hay interacción entre el factor y los bloques entre sí.

Lo que se quiere averiguar es si hay diferencias significativas entre las dosificaciones (el factor a estudiar). De paso, se desea saber si hay diferencias entre los laboratorios, los operarios y las amasadoras (los bloques).

Os paso un pequeño vídeo donde se explica, de forma muy resumida, este caso, tanto para SPSS como para MINITAB.

Os dejo otro vídeo donde también se explica este tipo de diseño de experimentos.

Referencias:

  • Gutiérrez, H.; de la Vara, R. (2004). Análisis y Diseño de Experimentos. McGraw Hill, México.
  • Vicente, MªL.; Girón, P.; Nieto, C.; Pérez, T. (2005). Diseño de Experimentos. Soluciones con SAS y SPSS. Pearson, Prentice Hall, Madrid.
  • Pérez, C. (2013). Diseño de Experimentos. Técnicas y Herramientas. Garceta Grupo Editorial, Madrid.

 

Correlación y modelo de regresión lineal. Problema resuelto en puentes losa

Figura 1. Modelo lineal simple de un tablero de puente losa postesado macizo (Yepes et al., 2009)

Uno de los temas básicos que se estudia en la asignatura de estadística de cualquier grado de ingeniería es la inferencia y los modelos de regresión lineal (Figura 1). A pesar de su sencillez, muchos estudiantes y profesionales aplican, sin más, este tipo de regresiones para interpolar valores en múltiples campos de la ingeniería, la economía, la salud, etc. El conocimiento de algunas nociones básicas nos permitiría evitar errores de bulto. Uno de ellos es intentar forzar las predicciones más allá de las observaciones realizadas. Otro error es confundir la correlación con la regresión. Buscar relaciones donde no las hay (relación espuria, Figura 2). Y por último, uno de los aspectos más descuidados es la no comprobación de las hipótesis básicas que se deben cumplir para que un modelo de regresión lineal sea válido.

Figura 2. Relaciones espuria entre el consumo de chocolate y el número de premios Nobel

Dicho de otra forma, valorar la calidad del ajuste mediante el coeficiente de determinación no equivale a valorar el cumplimiento de las hipótesis básicas del modelo. Si las hipótesis del modelo no se cumplen, se pueden estar cometiendo graves errores en las conclusiones de las inferencias. Así, las hipótesis básicas del modelo de regresión son las siguientes:

  • Linealidad: los parámetros y su interpretación no tienen sentido si los datos no proceden de un modelo lineal
  • Normalidad de los errores: se asume que la distribución de los errores es normal
  • Homocedasticidad: la varianza del error es constante
  • Independencia de los errores: las variables aleatorias que representan los errores son mutuamente independientes
  • Las variables explicativas son linealmente independientes

Para aclarar las ideas, he analizado un caso de regresión lineal simple con datos reales procedentes de 26 puentes losa postesados macizos (Yepes et al., 2009). Se trata de conocer la relación que existe entre la luz principal de este tipo de puentes y el canto del tablero. Utilizaremos los programas siguientes: MINITAB, SPSS, EXCEL y MATLAB. También os dejo un vídeo explicativo, muy básico, pero que espero sea de interés. Dejo los detalles matemáticos aparte. Los interesados pueden consultar cualquier manual básico de estadística al respecto.

Descargar (PDF, 817KB)

Referencias:

YEPES, V.; DÍAZ, J.; GONZÁLEZ-VIDOSA, F.; ALCALÁ, J. (2009). Statistical Characterization of Prestressed Concrete Road Bridge Decks. Revista de la Construcción, 8(2):95-109.

 

Licencia de Creative Commons
Esta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.

Instrucciones básicas de Matlab para tratamiento estadístico de datos

Dejo a continuación una serie de instrucciones básicas que podéis utilizar en Matlab para realizar cálculos estadísticos básicos. Este post está dedicado a mis estudiantes de Modelos Predictivos y de Optimización de Estructuras de Hormigón, pero puede ser de interés, por lo que lo dejo en abierto.

Importar datos de un fichero Excel

>> datos=xlsread(‘Ejercicio 4’)

Número de filas y columnas

>> size(datos)

Dimensión más grande de una matriz

>> length(datos)

Ordena los elementos de forma ascendente

>> sort(datos)

Ordena los elementos de forma descendente

>> sort(datos,’descend’)

Suma de los datos

>> sum(datos)

Producto de los datos

>> prod(datos)

Vector de sumas acumuladas

>> cumsum(datos)

Vector de productos acumulados

>> cumprod(datos)

Calcular la media aritmética

>> mean(datos)

Calcular la mediana

>> median(datos)

Calcular la moda de la muestra

>> mode(datos)

Calcular la media aritmética omitiendo el 5% de datos de cada lado

>> trimmean(datos,10)

Calcular la media geométrica de una muestra

>> geomean(datos)

Calcular la media armónica de una muestra

>> harmmean(datos)

Calcular el sesgo de la muestra

>> skewness(datos)

Calcular la curtosis de los datos

>> kurtosis(datos)

Varianza muestral

>> var(datos)

Desviación estándar muestral

>> std(datos)

 

Rango de los datos

>> range(datos)

El menor valor

>> min(datos)

El mayor valor

>> max(datos)

Desviación absoluta respecto a la media

>> mad(datos)

Momento central de orden 3 respecto a la media

>> moment(datos,3)

Rango intercuartílico

>> iqr(datos)

Primer cuartil (percentil 25)

>> prctile(datos, 25)

Percentil del 5%

>> prctile(datos,5)

Dibujar un diagrama de caja

>> boxplot(datos)

Dibujar el histograma de datos

>> hist(datos)

Dibujar la distribución de frecuencia acumulada

>> cdfplot(datos)

Visualización de funciones de probabilidad

>> disttool

Ajuste de modelos de distribución a conjunto de datos

>> dfittool

Matriz 3×3 de números aleatorios entre 0 y 1

>> rand(3)

Matriz 3×2 de números aleatorios entre 0 y 1

>> rand(3,2)

Matriz 3×3 de números aleatorios normales de media 0 y varianza 1

>> randn(3)

Matriz 3×2 de números aleatorios normales de media 0 y varianza 1

>> randn(3,2)

Secuencia de 5 valores aleatorios normales de desviación estándar de 2,5 y media 3

>> rand(1,5)*2.5+3

 

Estimación puntual y por intervalos para una muestra de una población normal

El problema de la  estimación puntual y por intervalos para una muestra de una población normal es una actividad muy frecuente en el ámbito de la ingeniería y de la investigación. Supongamos que tenéis una muestra de 5 elementos extraída de una población normal (por ejemplo, de la resistencia a compresión simple de una probeta de hormigón a 28 días procedente de una misma amasada). El objetivo es establecer inferencias estadísticas usando un nivel de significación α=0.05. Deberíais ser capaces de realizar las siguientes actividades:

  1. Calcular el intervalo de confianza para la media, suponiendo que la desviación típica de la población es conocida y vale lo mismo que la desviación típica de la muestra. (Se empleará la distribución normal).
  2. Calcular el intervalo de confianza para la media, suponiendo que la desviación típica de la población es desconocida. (Se empleará la distribución t de Student).
  3. Calcular el intervalo de confianza para la desviación típica de la muestra. (Se empleará la distribución chi-cuadrado).

A continuación os dejo un pequeño tutorial para proceder al cálculo de dichos intervalos utilizando el paquete estadístico Minitab.

Os paso unos vídeos explicativos para que entendáis los conceptos. Espero que os gusten: