3 secretos sorprendentes detrás de las encuestas que rellenas cada día.

Introducción: La ciencia oculta de las encuestas.

Todos hemos pasado por ello: cuestionarios interminables, preguntas que parecen sacadas de un manual de psicología y, sobre todo, esa sensación de estar respondiendo a la misma pregunta una y otra vez. Es una experiencia tan común como, a menudo, frustrante. ¿Por qué algunas preguntas parecen extrañas o repetitivas? ¿Realmente merece la pena todo este esfuerzo?

La respuesta es un rotundo sí. Detrás de cada cuestionario bien diseñado se esconde la rigurosa ciencia de la psicometría, el campo dedicado al arte de la medición precisa. Conceptos como la fiabilidad y la validez son los pilares de cualquier instrumento de medición serio, ya sea una encuesta de satisfacción del cliente o un test de personalidad.

Este artículo desvela algunos de los secretos más sorprendentes y fascinantes sobre cómo se construyen estas escalas de medida. Descubrirás por qué la repetición puede ser una virtud, por qué la perfección a veces es sospechosa y por qué es posible estar equivocado de manera confiable.

Primer secreto: fiabilidad no es validez (y se puede estar fiablemente equivocado).

En el mundo de la medición, la fiabilidad y la validez son dos conceptos cruciales que a menudo se confunden. Sin embargo, comprender su diferencia es fundamental para entender por qué algunas encuestas funcionan y otras no.

  • La fiabilidad se refiere a la precisión o consistencia de una medida. Un instrumento fiable produce resultados muy similares cada vez que se utiliza en las mismas condiciones.
  • La validez es la exactitud de la medida. Un instrumento válido mide exactamente lo que se pretende medir. La validez va más allá de la simple exactitud, ya que se asegura de que las conclusiones que extraemos de los resultados de la encuesta estén justificadas y sean significativas.

La mejor manera de entenderlo es mediante la analogía de un tirador que apunta a una diana.

  • Fiabilidad sin validez: imagina a un tirador. Escuchas el sonido seco y repetitivo de los disparos impactando en la madera, agrupados en un área no mayor que una moneda, pero peligrosamente cerca del borde de la diana. El patrón es muy consistente (alta fiabilidad), pero erróneo sistemáticamente, ya que no da en el blanco (baja validez). Esto representa un error sistemático que nace de un defecto fundamental en el diseño del cuestionario, por ejemplo, preguntas mal redactadas o una escala de respuesta poco clara.
  • Validez con baja fiabilidad: ahora imagina a un tirador cuyos disparos están dispersos por toda la diana, pero cuya media se sitúa justo en el centro. No hay precisión en cada tiro (baja fiabilidad), pero, en conjunto, apuntan en la dirección correcta (alta validez). Esto representa errores aleatorios que pueden surgir de factores incontrolables, como distracciones, ruido ambiental o incluso el estado de ánimo temporal del encuestado.
Validez y fiabilidad (Morales, 2008)

La conclusión clave es que la validez es más importante que la fiabilidad. Como subrayan los expertos en la materia: «Un instrumento puede ser muy fiable (medir muy bien), pero no medir bien lo que se quería medir». De nada sirve medir algo con una precisión milimétrica si no es lo que realmente nos interesa.

Segundo secreto: ¿por qué las encuestas a veces parecen repetitivas?

Una de las quejas más comunes sobre los cuestionarios es que incluyen preguntas que parecen decir lo mismo de diferentes maneras. Lejos de ser un descuido, el uso de lo que los expertos denominan «ítems repetitivos» —expresar la misma idea de diversas formas— es una técnica deliberada y muy útil para garantizar la calidad de los datos. Esta «forma bidireccional de redactar los ítems» tiene dos ventajas principales:

  • Requiere mayor atención del sujeto: al presentar la misma idea con formulaciones distintas (a veces en positivo y otras en negativo), se evita que la persona responda de forma automática o sin pensar y se le obliga a procesar el significado de cada pregunta.
  • Permite comprobar la coherencia de las respuestas: sirve como control de calidad para detectar y mitigar dos de los sesgos más frecuentes al responder encuestas: la aquiescencia y el sesgo de confirmación.
    • Aquiescencia: tendencia a estar de acuerdo con todas las afirmaciones. Imagina a alguien que responde con prisas, marcando «Totalmente de acuerdo» a todo («Sí, el servicio fue excelente», «Sí, el producto es terrible»), con el único fin de terminar cuanto antes.
    • Deseabilidad social: tendencia a responder para proyectar una buena imagen. Este sesgo lo muestra la persona que, al ser preguntada por sus hábitos de reciclaje, se presenta como un ecologista modelo, aunque el contenido de su cubo de basura cuente una historia muy diferente.

Por lo tanto, la próxima vez que te encuentres con preguntas que te resulten familiares dentro de un mismo cuestionario, recuerda que no se trata de un error. Se trata de una herramienta diseñada para garantizar que tus respuestas sean más atentas, coherentes y, en última instancia, sinceras.

Tercer secreto: una fiabilidad «perfecta» puede ser una señal de alarma.

Intuitivamente, podríamos pensar que el objetivo de cualquier escala de medida es alcanzar la mayor fiabilidad posible. Sin embargo, en psicometría, una fiabilidad extremadamente alta puede ser una señal de alarma que indica un problema subyacente.

El coeficiente de fiabilidad más utilizado, el alfa de Cronbach, tiene una particularidad: su valor tiende a aumentar cuando se añaden más ítems a la escala. Esto crea la tentación de inflar artificialmente la fiabilidad simplemente alargando el cuestionario. Como advierte la literatura especializada: «No se debe buscar una fiabilidad alta aumentando sin más el número de ítems, sin pensar si realmente son válidos».

Un ejemplo hipotético ilustra perfectamente este peligro. Imaginemos que aplicamos un test a un grupo mixto compuesto por niñas de 10 años que hacen ballet y niños de 14 años que juegan al fútbol. Les preguntamos por su edad, su sexo y el deporte que practican. La fiabilidad estadística se dispara porque las preguntas son perfectamente consistentes a la hora de separar a los dos grupos. Si se pregunta sobre ballet, todas las niñas responden de una manera y todos los niños de otra. Si se pregunta sobre el fútbol, ocurre lo mismo. El algoritmo estadístico detecta esta consistencia impecable y reporta una fiabilidad altísima, sin comprender que el «rasgo» subyacente que se está midiendo es simplemente una mezcla de datos demográficos, no una característica psicológica coherente. A pesar de esa elevada fiabilidad, en realidad no estaríamos midiendo «nada interpretable».

Este ejemplo nos deja una lección fundamental que el texto fuente resume de manera brillante:

“En ningún caso la estadística sustituye al sentido común y al análisis lógico de nuestras acciones”.

Conclusión: la próxima vez que rellenes una encuesta…

Desde el dilema fundamental entre mediciones consistentes, pero erróneas (fiabilidad frente a validez), pasando por el uso deliberado de la repetición para burlar nuestros propios sesgos, hasta la idea contraintuitiva de que una puntuación «perfecta» puede indicar un resultado sin sentido, queda claro que elaborar una buena encuesta es un trabajo científico.

La próxima vez que te enfrentes a un cuestionario, en lugar de frustrarte por sus preguntas, ¿te detendrás a pensar qué rasgo están intentando medir y si realmente lo están logrando?

En este audio os dejo una conversación en torno a estas ideas.

Os dejo un vídeo que resume el contenido de este artículo.

Referencias:

Campbell, D. T., & Fiske, D. W. (1959). Convergent and discriminant validation by the multitrait–multimethod matrix. Psychological Bulletin, 56(2), 81–105. https://doi.org/10.1037/h0046016

Dunn, T. J., Baguley, T., & Brunsden, V. (2014). From alpha to omega: A practical solution to the pervasive problem of internal consistency estimation. British Journal of Psychology, 105, 399–412. https://doi.org/10.1111/bjop.12046

Farrell, A. M. (2010). Insufficient discriminant validity: A comment on Bove, Pervan, Beatty and Shiu (2009). Journal of Business Research, 63, 324–327. https://ssrn.com/abstract=3466257

Fornell, C., & Larcker, D. F. (1981). Evaluating structural equation models with unobservable variables and measurement error. Journal of Marketing Research, 18(1), 39–50. https://doi.org/10.1177/002224378101800104

Frías-Navarro, D. (2019). Apuntes de consistencia interna de las puntuaciones de un instrumento de medida. Universidad de Valencia. https://www.uv.es/friasnav/AlfaCronbach.pdf

Grande, I., & Abascal, E. (2009). Fundamentos y técnicas de investigación comercial. Madrid: ESIC.

Hernández, B. (2001). Técnicas estadísticas de investigación social. Madrid: Díaz de Santos.

Hair, J. F., Anderson, R. E., Tatham, R. L., & Black, W. C. (1995). Multivariate data analysis (Eds.). New York: Prentice Hall International, Inc.

Kotler, P., & Armstrong, G. (2001). Marketing. México: Pearson Prentice Hall.

Matas, A. (2018). Diseño del formato de escalas tipo Likert: un estado de la cuestión. Revista Electrónica de Investigación Educativa, 20(1), 38–47. http://www.scielo.org.mx/scielo.php?script=sci_arttext&pid=S1607-40412018000100038

Morales, P. (2006). Medición de actitudes en psicología y educación. Madrid: Universidad Pontificia de Comillas.

Morales, P. (2008). Estadística aplicada a las ciencias sociales. Madrid: Universidad Pontificia Comillas.

Nadler, J., Weston, R., & Voyles, E. (2015). Stuck in the middle: The use and interpretation of mid-points in items on questionnaires. The Journal of General Psychology, 142(2), 71–89. https://doi.org/10.1080/00221309.2014.994590

Nunnally, J. C. (1978). Psychometric theory. New York: McGraw-Hill.

Schmitt, N. (1996). Uses and abuses of coefficient alpha. Psychological Assessment, 8(4), 350–353. http://ist-socrates.berkeley.edu/~maccoun/PP279_Schmitt.pdf

Prats, P. (2005). Métodos para medir la satisfacción del cliente. Madrid: AENOR Ediciones.

Licencia de Creative Commons
Esta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.

Escalas Likert: una herramienta fundamental en la ingeniería de encuestas

https://delighted.com/es/blog/likert-scale

Las escalas Likert son un estándar en la investigación social, educativa y empresarial gracias a su simplicidad y eficacia a la hora de medir percepciones y actitudes. En ingeniería, son fundamentales para recopilar datos en estudios de usabilidad, gestión de proyectos y análisis de riesgos, entre otros.

Este artículo amplía el debate sobre las escalas Likert, abordando su diseño, implementación, análisis y aplicaciones prácticas en diversos campos de la ingeniería.

¿Qué son las escalas Likert?

De University of Michigan. News and Information Services. Photographs – Bentley Historical Library, CC BY 4.0, https://commons.wikimedia.org/w/index.php?curid=76306573

Desarrolladas por Rensis Likert en 1932, estas escalas son un método para medir actitudes a través de una serie de afirmaciones ante las que el encuestado expresa su nivel de acuerdo o desacuerdo. Generalmente, tienen entre 5 y 7 puntos, aunque en ciertas situaciones se utilizan versiones más específicas. Su unidimensionalidad y simplicidad las hacen ideales para capturar datos subjetivos de forma sistemática.

Las principales características son la unidimensionalidad, ya que los ítems deben medir un único constructo (satisfacción, percepción o actitud), la versatilidad, que permite evaluar dimensiones como la frecuencia, la importancia y la probabilidad en diversos contextos, y la comparabilidad, por el hecho de que la estandarización de respuestas facilita la comparación entre grupos y estudios a lo largo del tiempo.

Los componentes de una escala Likert incluyen afirmaciones o ítems, que son declaraciones sobre las que el encuestado expresa su nivel de acuerdo o desacuerdo; opciones de respuesta, que representan un rango de valores como «Totalmente en desacuerdo», «Neutral» y «Totalmente de acuerdo», y puntuación, donde las respuestas se codifican numéricamente para facilitar el análisis estadístico.

El diseño de un cuestionario con escala Likert

El diseño de un cuestionario bien estructurado es fundamental para garantizar la calidad de los datos recopilados. Esto incluye desde la redacción de las preguntas hasta la elección del tipo de respuesta.

  • Redacción de ítems: La calidad de un cuestionario depende de la claridad y precisión de sus elementos, por lo que se recomienda evitar ambigüedades, expresar una sola idea con cada elemento, utilizar afirmaciones neutrales para minimizar sesgos emocionales y adaptar el lenguaje al contexto, teniendo en cuenta el nivel de comprensión del grupo objetivo. Por ejemplo, la pregunta «Estoy satisfecho con la calidad y el precio del servicio» debería descomponerse en dos preguntas distintas. Formulaciones como «¿Está de acuerdo con que los políticos son corruptos?», introducen sesgos emocionales.
  • Opciones de respuesta: Para diseñar opciones de respuesta efectivas, es relevante que sean claras, equidistantes y exhaustivas. El número de categorías debe tenerse en cuenta; cinco es el estándar, mientras que escalas de siete puntos ofrecen mayor precisión y escalas con menos de tres puntos limitan la variabilidad. Además, elegir entre escalas pares o impares influye en los resultados: las pares eliminan el punto medio neutral, por lo que obligan a los encuestados a posicionarse en uno de los dos extremos.
  • Organización y estructura: La organización y estructura de un cuestionario debe seguir un flujo lógico, aplicando la técnica del embudo, que consiste en comenzar con preguntas generales y poco sensibles, avanzar hacia ítems más específicos y personales y agrupar por temas para mantener la coherencia y reducir la fatiga cognitiva.
  • Realización de pretests: La realización de pretests es esencial para evaluar la comprensión, fluidez y relevancia del cuestionario, lo que permite identificar y corregir errores antes de su implementación final.
De Nicholas Smithvectorization: Trabajo propio – Trabajo propio, based on File:Example Likert Scale.jpg, CC BY-SA 3.0, https://commons.wikimedia.org/w/index.php?curid=18615046

Análisis de datos obtenidos con escalas Likert

La fortaleza de las escalas Likert radica en su capacidad para adaptarse a diversos métodos analíticos. Los datos obtenidos pueden proporcionar información valiosa, ya sea en análisis descriptivos o en modelos avanzados.

1. Análisis descriptivo

  • Tendencia central: La media y la mediana resumen la tendencia general de las respuestas.
  • Dispersión: Indicadores como el rango o la desviación estándar ayudan a entender la variabilidad en las respuestas.
  • Visualización: Gráficos de barras, histogramas y diagramas de cajas facilitan la interpretación rápida.

2. Relación entre variables

El análisis bivariado permite explorar cómo se relacionan diferentes variables dentro de la escala Likert:

  • Correlación de Pearson: Evalúa la relación lineal entre dos variables continuas.
  • Tablas de contingencia: Adecuadas para analizar categorías derivadas de respuestas Likert.

3. Análisis factorial exploratorio (AFE)

Este enfoque permite identificar dimensiones latentes que subyacen en los ítems:

  • Validación estructural: Determina si los ítems agrupan un único constructo o múltiples dimensiones.
  • Técnicas de reducción: PCA (Análisis de Componentes Principales) y AFE ayudan a simplificar la interpretación.

4. Evaluación de la fiabilidad

La consistencia interna de una escala se mide comúnmente mediante el alfa de Cronbach. Valores superiores a 0,7 suelen considerarse aceptables.

Ventajas y limitaciones

Entre sus ventajas destacan su accesibilidad, ya que son fáciles de implementar y entender, su flexibilidad, al adaptarse a diversas áreas de investigación, y su simplicidad analítica, que permite análisis básicos y avanzados. Sin embargo, presentan limitaciones: la deseabilidad social, donde las respuestas pueden estar influenciadas por lo que es socialmente aceptable; la ambigüedad en las opciones medias, ya que categorías como «Neutral» pueden interpretarse de manera diferente; y la unidimensionalidad no garantizada, por lo que es necesario validar su estructura interna mediante análisis factorial.

Aplicaciones en ingeniería

Las escalas Likert tienen amplias aplicaciones en ingeniería, por ejemplo, en estudios de satisfacción para evaluar la percepción de los usuarios sobre productos o servicios, en gestión de riesgos para analizar actitudes hacia posibles escenarios de riesgo en proyectos y en usabilidad de software para medir la experiencia del usuario en diseño y funcionalidad de interfaces. En la evaluación de proyectos, sirven para recopilar información sobre aspectos como el cumplimiento de plazos, la calidad del producto y la eficiencia del equipo.

Conclusión

Las escalas Likert son una herramienta esencial para medir percepciones, actitudes y comportamientos. Su versatilidad y facilidad de implementación las convierten en una opción popular en investigaciones de ingeniería y ciencias sociales. El diseño riguroso del cuestionario y el análisis adecuado de los datos garantizan resultados fiables que pueden orientar la toma de decisiones, mejorando procesos y productos en diversos ámbitos de la ingeniería.

Os dejo a continuación una presentación que hice en Santiago de Chile, sobre el análisis de cuestionarios basados en escalas Likert. Espero que sea de vuestro interés.

Descargar (PDF, 1.78MB)

Licencia de Creative Commons
Esta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.

¿Cuántas respuestas son necesarias en una encuesta? Pues depende.

A veces me toca dirigir algún trabajo de investigación de mis estudiantes que trata de conocer la opinión sobre algún aspecto concreto. Normalmente se trata de temas relacionados con el sector de la construcción, aunque también suelo investigar si ha tenido éxito algún tipo de innovación educativa en mis clases. Para ello suelo aconsejar el uso de cuestionarios basados en escalas Likert, pues de esta forma facilito el análisis estadístico multivariante de los resultados.

El problema siempre es el mismo: ¿Profesor, tengo suficientes encuestas o tengo que enviar más encuestas? Y la respuesta siempre es la misma: depende del objeto de la encuesta. Vamos a analizar esto por partes.

Si se trata de describir los resultados obtenidos de un grupo de estudio, la muestra representa a la totalidad de la población, y por tanto no es necesario alcanzar un número de respuestas mínimo. Por ejemplo, si en una asociación de empresarios de la construcción el número de socios es de 30 y todos responden el cuestionario, es evidente que los resultados del estudio representan de forma exacta lo que opinan los 30 socios.

Sin embargo, lo habitual es encontrarse con un número de respuestas que forman una muestra de una población. Aquí se trata de saber si podemos extrapolar los resultados a la población que representa la muestra. Para ello nos debemos hacer dos preguntas: ¿Es la muestra representativa? ¿Cuál es el margen de error que cometemos?

Las técnicas de muestreo permiten extraer muestras representativas. Estos muestreos pueden ser probabilísticos o no probabilísticos. Entre los primeros podemos resaltar el muestreo aleatorio sistemático, el estratificado o el muestreo por conglomerados.  Entre los no probabilísticos, el muestreo por cuotas, por bola de nieve o el muestreo subjetivo por decisión razonada. Remito a los interesados a bibliografía específica, pues se escapa al objetivo de este artículo.

Aquí vamos a comentar brevemente lo relativo al error muestral. El error muestral se corresponde con el margen de error que estamos dispuestos a aceptar. Por ejemplo, si decimos que el 15% de la población está de acuerdo con algo y el error muestral es del 4%, realmente dicha opinión se encuentra entre el 11% y el 19% para un nivel de confianza determinado. Por eso, lo primero, será definir el nivel de confianza o riesgo de primera especie “z”, que sería el riesgo que aceptamos de equivocarnos al presentar nuestros resultados. El nivel de confianza habitual es 1 – α = 95% o α = 5%. Se utiliza como “z”, que es un valor de la distribución normal asociado a una determinada probabilidad de ocurrencia. Así, z=1,96 si 1 – α = 95%, z=2,00 si 1 – α = 95,5% y z=2,57 si 1 – α = 99%.

Otro factor a tener en cuenta es la variabilidad de las respuestas estimada en la población. Si sabemos que todos los sujetos piensan lo mismo, nos bastará preguntar a uno solo o a muy pocos. Pero si sabemos que habrá una gran diversidad de respuestas, hará falta una mayor número de sujetos en la muestra. Como lo normal es desconocer la variabilidad de las respuestas en la población, elegimos la mayor varianza posible p=q=50% (sería que el 50% respondiera que “sí” y el otro 50% lo contrario).

Las fórmulas que nos dan el error muestral, por tanto, dependen de los factores anteriores y también de conocer si la población es finita o infinita (más de 30.000 individuos ya se considera como infinita). En la figura se indican ambas fórmulas.

Fórmulas del error muestral, en función de si la población es finita o infinita

Si jugamos un poco con estas fórmulas, veremos que para un nivel de confianza del 95%, serían necesarias 96 respuestas en una población infinita y 95 respuestas en una población de un tamaño de 10.000 (casi coinciden) para un error muestral del 10%. Pero si queremos bajar el error al 5%, se eleva el número de respuestas a 384 en el caso de la población infinita y a 370 en el caso de una población finita de 10.000. Como vemos, se dispara el número de respuestas necesarias para reducir el error.

Por tanto, mi respuesta a mis estudiantes suele ser siempre la misma: vamos a intentar llegar a 100 respuestas para empezar a tener un error razonable.

En apretada síntesis, os quiero dar las siguientes consideraciones sobre el muestreo:

  • No solo es necesario que el tamaño de la muestra sea suficiente, sino también que la muestra sea representativa de la población que tratamos de describir
  • Una muestra de gran tamaño no garantiza que el margen de error sea pequeño, pues puede estar sesgada hacia segmentos de la población representados en exceso o poco representados
  • Si la población a estudiar es demasiado grande es recomendable segmentarla en estratos y valorar en cuáles de ellos pueden obtenerse muestras representativas, facilitando así una interpretación de los resultados más precisa
  • En general, el margen de error en cada estrato suele ser superior al margen de error de toda la muestra en conjunto. Es recomendable ser consciente de esta diferencia de precisión en la interpretación de resultados

Pues ahora una reflexión final: ¿Qué error tienen las encuestas que contestan los alumnos en relación con la calidad del profesor? ¿Es razonable tomar decisiones respecto a la continuidad o no de un profesor teniendo en cuenta estas encuestas? Tenéis las claves releyendo el artículo.

Aquí tenéis un vídeo sobre las técnicas de muestreo.

Os dejo a continuación un pequeño vídeo sobre el error de muestreo.

 

Licencia de Creative Commons
Esta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.