Diseño de experimentos: La brújula que guía el método científico

¿Te has detenido alguna vez a considerar por qué dos estudios sobre el mismo fenómeno pueden llegar a conclusiones diametralmente opuestas?

A menudo, la respuesta no se encuentra en un error de cálculo ni en la mala fe del investigador, sino en la estructura invisible que sustenta los datos. La estadística, lejos de ser un frío ejercicio de «contar» o promediar, es en realidad la aplicación de una lógica rigurosa y elegante conocida como diseño de experimentos.

Como guía, mi objetivo es mostrarte que un experimento no es solo una observación, sino una prueba controlada en la que introducimos cambios deliberados para revelar verdades ocultas. Sin un diseño robusto, los números son solo ruido; con uno, se convierten en una herramienta de predicción capaz de silenciar la incertidumbre. Permíteme compartir contigo cinco pilares fundamentales que transformarán tu manera de interpretar la ciencia.

El conocimiento no es una línea recta, sino un círculo.

Tanto en la academia como en la industria, tendemos a ver el conocimiento como un monolito estático. Sin embargo, el método científico es circular e iterativo. Según Kempthorne (1952), la investigación es un ciclo perpetuo que se retroalimenta para aumentar la precisión.

Este proceso consta de cuatro etapas: la observación del fenómeno, la formulación de una teoría lógica, la predicción de eventos futuros y, por último, la toma de decisiones basada en pruebas. Pero aquí reside el secreto: el ciclo no termina ahí. Los resultados de la decisión modifican nuestras conjeturas originales y nos obligan a reiniciar el proceso. El objetivo no es solo repetir el experimento, sino aumentar nuestra capacidad de discriminación para distinguir con mayor claridad qué teorías son válidas y cuáles deben ser desechadas.

«El método científico no es estático; es de naturaleza circulante».

¿Por qué tu género no es un «tratamiento» (y por qué importa)?

Uno de los conceptos más sutiles y cruciales que enseño a mis estudiantes es la distinción entre factores de tratamiento y de clasificación. Para que algo sea un «tratamiento», el investigador debe tener soberanía absoluta para asignar aleatoriamente dicho factor a las unidades de estudio.

Por ejemplo, un fármaco es un tratamiento porque el investigador decide quién lo recibe. En cambio, el género, el tipo de suelo o la especie de una madera son propiedades intrínsecas, denominadas factores de clasificación. No se puede «asignar» el género a un sujeto. Esta distinción es vital, ya que los factores de clasificación suelen actuar como fuentes extrañas de variación que, si no se identifican, pueden sesgar los resultados. Comprender que el género no es algo que «probamos», sino el contexto en el que lo probamos, es el primer paso hacia una inferencia honesta.

 

La unidad experimental: el arte de no medir lo que no debes.

Existe un «espejismo estadístico» muy común: creer que medir muchas veces lo mismo aumenta la validez de un experimento. Para evitar este error, debemos distinguir entre la unidad experimental (UE) y la unidad muestral (UO).

  • En el ámbito clínico, el paciente es la unidad experimental a la que se le asigna el tratamiento de forma independiente.
  • En agricultura, una parcela completa es la UE, mientras que las plantas individuales dentro de ella son simples UO.
  • En entomología, la UE puede referirse a un insecto, pero a menudo se refiere a la colonia entera como objeto de estudio.
  • En estructuras, una viga de hormigón es la UE a la que se le aplica un método de curado específico, mientras que los diferentes sensores de deformación colocados en distintos puntos de esa misma viga actúan como unidades observacionales

El riesgo técnico consiste en confundir el error experimental (la variación entre distintas unidades experimentales) con el error de muestreo (la variación dentro de una misma unidad experimental). Si mide 50 plantas en una sola parcela, solo está reduciendo el error de muestreo. Para validar realmente un tratamiento y reducir el error experimental, se necesitan más parcelas independientes, no más plantas en la misma parcela. Medir lo que no debe solo aumenta artificialmente su confianza en un resultado que podría ser puramente aleatorio.

¿Busca conocimiento absoluto o quiere tomar una decisión?

No toda la ciencia busca lo mismo, por lo que saber qué tipo de experimento tiene delante cambiará su criterio. Anscombe (1947) nos legó una distinción fundamental:

  • Experimentos absolutos: buscan determinar propiedades físicas constantes, como la velocidad de la luz. Se asocian a la ciencia pura y se rigen por el modelo II (efectos aleatorios), en el que los tratamientos se consideran una muestra de un universo infinito.
  • Experimentos comparativos: son el corazón de las ciencias aplicadas y de la ingeniería. En estos casos, los valores absolutos pueden variar según el entorno, pero la relación entre los tratamientos permanece estable. Se rigen por el modelo I (efectos fijos), ya que el interés radica en determinar cuál de los tratamientos específicos es «mejor».

En el mundo de la gestión, casi siempre estamos ante experimentos comparativos. No buscamos una verdad universal e inmutable, sino la información necesaria para tomar una decisión administrativa acertada.

El «testigo»: el héroe invisible del control de variación.

A menudo se piensa que el tratamiento de control o de testigo es solo un requisito burocrático. Sin embargo, su función es lógica y profunda: es la única herramienta capaz de revelar si el entorno está «enmascarando» la realidad.

Imagine que intenta escuchar un susurro (el efecto de un nuevo fertilizante) en una habitación donde alguien está gritando (la alta fertilidad natural del suelo). Sin un testigo —una zona sin fertilizante—, se atribuiría el crecimiento de las plantas al producto, cuando en realidad sería el suelo quien haría todo el trabajo. El testigo es esencial cuando se desconoce la eficacia de lo que se prueba; es el punto de referencia que permite eliminar las interferencias del entorno y detectar la señal del tratamiento.

Conclusión: el diseño antes que el dato.

El diseño experimental es, en última instancia, el cálculo del grado de incertidumbre. Esto permite que la estadística trascienda la mera descripción de lo ocurrido y se convierta en una brújula predictiva. Un diseño robusto garantiza que las conclusiones tengan un rango de validez real y que los recursos, siempre limitados, no se malgasten en espejismos.

La próxima vez que te encuentres ante un informe con gráficos deslumbrantes, detente y reflexiona: ¿estos datos provienen de un diseño válido que controla la incertidumbre o son solo una colección de números que intentan ocultar la ausencia de una estructura lógica? Recuerda que, en ciencia, la calidad de tu respuesta nunca superará la del diseño de tu pregunta.

En esta conversación puedes escuchar una buena explicación sobre este tema.

El vídeo resume bien las ideas más importantes sobre el diseño de experimentos.

Experimental_Design_Foundations

Referencias:

Anscombe, F. J. (1947). The validity of comparative experiments. Journal of the Royal Statistical Society, 61, 181–211.

Box, G. E. P. (1952). Multi-factor designs of first order. Biometrika, 39(1), 49–57.

Fisher, R. A. (1935). The design of experiments. Oliver & Boyd.

Kempthorne, O. (1952). The design and analysis of experiments. John Wiley & Sons.

Melo, O. O., López, L. A., & Melo, S. E. (2007). Diseño de experimentos: métodos y aplicaciones. Universidad Nacional de Colombia, Facultad de Ciencias.

Licencia de Creative Commons
Esta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.

El valor del error: Por qué analizar las causas de la no conformidad es la clave de la mejora

El dilema de lo imperfecto.

En la alta dirección y en la gestión de operaciones, es un error común considerar la aparición de un producto o de una materia prima no conforme como un simple desperdicio o un fallo administrativo.

La realidad es mucho más estratégica: la detección de una «no conformidad» no supone el fin del camino, sino el punto de partida de un protocolo crítico de toma de decisiones.

Lo que define a una organización de clase mundial no es la ausencia total de errores, sino su capacidad para ejecutar una «disposición» inteligente que proteja la rentabilidad, garantice la seguridad del cliente y transforme un incidente aislado en un activo de aprendizaje operativo.

La responsabilidad varía según el origen (no todo es culpa del departamento de calidad).

Para mantener la agilidad operativa, la autoridad de decisión no debe estar centralizada en un único departamento. Un error estratégico frecuente es crear un «cuello de botella» en el departamento de calidad, que detiene toda la cadena de suministro. La gestión moderna delega la responsabilidad según la etapa del ciclo de vida:

  • Materias primas: la decisión primaria recae en compras, a menudo en colaboración con la junta de revisión de materiales (MRB), que evalúa el impacto del proveedor en la cadena de suministro.
  • Productos en proceso: la validación del flujo entre las líneas de fabricación es responsabilidad del departamento de Producción, a fin de asegurar que el ritmo de la planta no se vea comprometido innecesariamente.
  • Productos acabados: aquí, el departamento de calidad ejerce la autoridad final para garantizar que el estándar prometido llegue al mercado.

Esta delegación es vital para la agilidad, ya que permite que quienes poseen el contexto técnico y económico de cada fase tomen decisiones rápidas sin paralizar el sistema. Además, el paradigma actual se desplaza hacia la prevención compartida.

«Existe una tendencia creciente a utilizar productos certificados o a acordar la calidad con el proveedor».

El rechazo total es solo la punta del iceberg.

Es un mito industrial que todo lo que no se ajuste a los requisitos termine siempre en el vertedero o sea devuelto en su totalidad. La disposición es un ejercicio de pragmatismo económico y contractual que ofrece un abanico de opciones:

  • Muestreo rectificante: inspección del 100 % para separar las unidades aptas de las defectuosas.
  • Reparación o reproceso: el proveedor asume la responsabilidad técnica y el coste de la corrección de las unidades.
  • Aceptación con concesión: reducción del precio o aceptación del lote si la desviación no afecta a la función crítica.
  • Ampliación temporal de tolerancias: anulación de requisitos específicos durante un periodo limitado para salvaguardar la continuidad de la producción.

Estas vías de resolución no son arbitrarias. Se rigen por un análisis riguroso que incluye el coste para ambas partes, la urgencia de la producción, los antecedentes del proveedor y, fundamentalmente, lo estipulado en el contrato y en los convenios previos.

La «cuarentena» no es un concepto opcional.

La gestión de productos no conformes exige una disciplina férrea en la disposición física. No basta con una anotación en un sistema ERP; es necesaria una barrera física que impida su uso accidental en las líneas de montaje.

El protocolo establece el uso obligatorio de impresos de retención y de una identificación inequívoca. El material dudoso debe trasladarse a lugares habilitados específicamente para este fin. El riesgo de una señalización deficiente es un escenario de pesadilla: que un componente crítico defectuoso sea integrado por error humano en el producto final. Esto no solo genera costes de garantía, sino también riesgos legales y un daño reputacional que puede ser irreversible. El aislamiento físico es la última línea de defensa de la marca para garantizar la integridad.

El error como síntoma: ¿fallo esporádico o crisis de diseño?

Desde una perspectiva de estrategia de calidad, debemos categorizar el error para aplicar la solución adecuada. No todas las averías requieren el mismo nivel de intervención:

  • Fallos aislados: son variaciones esporádicas en procesos que, en condiciones normales, son estables. Requieren acciones correctivas puntuales y rápidas.
  • Fallos repetitivos o masivos: son indicadores de un problema sistémico. Suele deberse a procesos ineficaces, diseños poco realistas o una alarmante falta de motivación del personal.

Cuando nos enfrentamos a fallos masivos, la mera disposición del material es insuficiente. En estos casos, la dirección debe exigir un proyecto de mejora integral que rediseñe el proceso raíz para evitar que el sistema siga produciendo pérdidas de forma sistemática.

Conclusión: hacia una cultura de la mejora continua.

Una operación eficiente se mide por la rapidez con la que se disipa la incertidumbre. La excelencia en la gestión no solo consiste en identificar el error, sino también en eliminar rápidamente el material no conforme y trasladarlo a su destino final (ya sea desecho, devolución o reparación), con el fin de mantener la planta limpia y el inventario ágil.

Finalmente, la organización debe capitalizar estos incidentes mediante el análisis de los informes de retención. Solo así la gestión de la no conformidad deja de ser una labor reactiva para convertirse en un motor de optimización. ¿Considera su organización los errores como un gasto inevitable que debe ocultarse o como una fuente de datos estratégica para diseñar el futuro de su rentabilidad?

En esta conversación puedes escuchar las ideas más interesantes sobre el tema.

Este vídeo resume los conceptos más importantes sobre la disposición de los productos no conformes.

Gestión_de_Productos_No_Conformes

Licencia de Creative Commons
Esta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.

El arte de predecir lo invisible: claves para entender la inferencia estadística

¿Cómo podemos determinar la intención de voto de toda una nación o evaluar la eficacia de un nuevo fármaco sin entrevistar a todos los ciudadanos ni tratar a todos los pacientes del planeta? En nuestra vida cotidiana, nos enfrentamos constantemente al reto de tomar decisiones globales basadas en información limitada. Medir el total de elementos suele ser física o económicamente inviable.

Como expertos en comunicación de datos, consideramos la inferencia estadística como el puente intelectual definitivo. Es la disciplina que nos permite pasar de lo que vemos —una pequeña muestra— a la realidad oculta de la población total. En esencia, es la herramienta científica que transforma la observación de unos pocos en el conocimiento preciso de la mayoría.

Población frente a muestra: la ventana hacia la verdad

Para descifrar la realidad, primero debemos distinguir entre los dos protagonistas del análisis: la población y la muestra. La población es el conjunto total que deseamos estudiar y la muestra es un subconjunto extraído de forma aleatoria que nos sirve de ventana para observar la población.

En este proceso, manejamos conceptos que debemos diferenciar con rigor:

  • Parámetro: Es el número «secreto» que describe la población. En la práctica, su valor es desconocido porque no podemos examinar a cada individuo. Usamos símbolos como la media poblacional (μ), la desviación típica (σ), la varianza (σ²) o el porcentaje o la proporción poblacional (p).
  • Estadístico: Es el número que calculamos directamente a partir de los datos muestrales. En este ámbito operamos con la media muestral, la desviación típica muestral, la varianza o la proporción muestral.

Dado que no podemos conocer el parámetro real, nos vemos obligados a operar en el mundo de los estadísticos para realizar estimaciones. El objetivo es claro:

«Extraer conclusiones sobre una población a partir de los datos de una muestra».

El intervalo de confianza: ¿qué tan cerca estamos de la realidad?

Dado que trabajar con muestras implica un error aleatorio inevitable, la estadística no ofrece un único número como verdad absoluta. En su lugar, construimos un intervalo de confianza de nivel C.

Conceptualmente, este rango se define mediante una estructura lógica: estimación ± error de la estimación.

No proporcionamos un único valor porque, en la práctica, el parámetro no se conoce. Por ello, el nivel de confianza C no es solo un porcentaje, sino la respuesta a una pregunta vital sobre la fiabilidad de nuestro trabajo: «¿Con qué frecuencia daría una respuesta correcta este método si lo utilizara muchas veces?». Si afirmamos que tenemos un 95 % de confianza, estamos diciendo que, si repitiéramos el muestreo el 95 % de las veces, nuestro intervalo contendría el verdadero valor del parámetro.

Inocente hasta que se demuestre lo contrario: la hipótesis nula (H0)

Como expertos, empleamos el contraste de hipótesis para evaluar si la evidencia de la muestra es suficiente para inferir una condición en toda la población. Este mecanismo examina dos afirmaciones opuestas:

La hipótesis nula (H0) representa el estado «habitual» o lo que cabría esperar si no hubiera cambios. Es una afirmación de «ausencia de efecto» o de «no diferencia». Algunos ejemplos críticos de H₀ son:

  • El acusado no es culpable (es inocente).
  • No hay embarazo.
  • No hay presencia de cáncer.

Para decidir si rechazamos la hipótesis nula, calculamos el p-valor (o significación muestral). A diferencia de lo que se cree popularmente, el p-valor no es un corte arbitrario, sino la probabilidad de obtener nuestros resultados si la hipótesis nula fuera cierta. Comparamos este p-valor con el nivel de significación (α), que es el límite preestablecido. Si p ≤ α, la evidencia es tan fuerte que rechazamos la situación «habitual» en favor de la hipótesis alternativa.

El dilema del error: falsos positivos y falsos negativos

En cualquier prueba estadística, asumimos el riesgo de tomar una decisión equivocada. Estos errores se dividen en dos categorías fundamentales:

  • Error tipo I (α): el «falso positivo» o riesgo del fabricante. Ocurre cuando rechazamos la hipótesis nula cuando esta es verdadera (por ejemplo, operar a una persona sana o condenar a un inocente).
  • Error tipo II (β): el «falso negativo». Sucede cuando aceptamos la hipótesis nula cuando es falsa (por ejemplo, declarar inocente a un asesino o no detectar una enfermedad).

Para minimizar estos riesgos, no solo tenemos en cuenta el nivel de significación (típicamente fijado en el 5 %), sino que también buscamos maximizar la potencia de la prueba (1 – β). Esta potencia representa nuestra capacidad para detectar un efecto cuando realmente existe y depende directamente del tamaño de la muestra y del nivel de significación. Decimos que un resultado tiene significación estadística cuando es tan improbable que no puede atribuirse razonablemente al azar (p ≤ α).

Propiedades del buen estimador

Para que nuestras conclusiones sean robustas, los métodos que utilizamos deben poseer cuatro pilares técnicos extraídos de la teoría de la probabilidad:

  • Sesgo: el estimador debe carecer de desviaciones sistemáticas; su media debe coincidir con el parámetro real.
  • Eficiencia: buscamos la menor variabilidad posible en los resultados.
  • Convergencia y consistencia: estas propiedades garantizan la fiabilidad del método a largo plazo.

La lógica matemática que hay detrás de la eficiencia es poderosa: si aumenta el tamaño de la muestra, disminuye la varianza del estimador. Esta es la razón técnica por la que una encuesta con miles de personas es más «eficiente» y nos acerca más a la verdad que una consulta informal: al reducir la varianza, estrechamos el margen de error y ganamos precisión.

Conclusión: una mirada al futuro de las decisiones

La inferencia estadística es la ciencia que se ocupa de gestionar la incertidumbre para alcanzar la precisión. Nos enseña que, si bien es imposible tener certeza absoluta sobre una población masiva, el rigor matemático nos permite actuar con una seguridad asombrosa.

Aceptar que nuestras conclusiones conviven con un nivel de confianza y un riesgo de error no debilita el conocimiento, sino que lo fortalece al hacerlo verificable y científico. La próxima vez que lea el titular de una encuesta electoral o el estudio de un nuevo tratamiento, no se quede en la superficie. Pregúntese: ¿cuál es el margen de error?, ¿es el p-valor realmente significativo? Si posee estas cinco claves, pasará de ser un consumidor pasivo de datos a ser un pensador crítico capaz de ver lo invisible.

En esta conversación puedes escuchar las ideas más interesantes sobre inferencia estadística.

El vídeo resume bien los conceptos más importantes de este tema.

Licencia de Creative Commons
Esta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.

¿Por qué nada en la ciencia es exacto? Cómo entender y calcular el error experimental

Jorge Luis Borges imaginó una vez un imperio en el que el arte de la cartografía alcanzó tal perfección que el mapa de una sola provincia ocupaba toda una ciudad. Finalmente, los cartógrafos trazaron un mapa del imperio que tenía el mismo tamaño que este y coincidía punto por punto con él. Por supuesto, aquel mapa era inútil.

En ciencia sucede algo similar: medir no es replicar la realidad, sino crear un mapa de ella. Estamos obsesionados con la exactitud, pero en el laboratorio pronto aprendemos que la «medida exacta» es una quimera. Medir no consiste en capturar una verdad absoluta, sino en gestionar con elegancia la incertidumbre. Un dato sin su margen de error no es una medida, sino una simple expresión de deseos.

1. La ilusión de la exactitud: el error es inevitable.

En metrología, la humildad es una competencia técnica. Debemos aceptar que nuestros sentidos y nuestros instrumentos están limitados por definición. La teoría de los errores nos enseña que el «valor verdadero» es un ideal matemático al que solo podemos aproximarnos. El error no es una equivocación del científico, sino una propiedad inherente al acto de medir.

Existen dos fuerzas que distorsionan nuestro «mapa» de la realidad:

  • El error sistemático es un sesgo constante. Aparece cuando la metodología es inadecuada, los instrumentos están mal calibrados o los patrones de medición son dudosos. Se trata de un error predecible que desplaza todas nuestras mediciones en la misma dirección, alejándolas de la realidad.
  • El error accidental o aleatorio es el «ruido» del universo. Se debe al azar, a variaciones microscópicas y a factores incontrolables. Se manifiestan como pequeñas fluctuaciones al repetir una medición y, aunque no pueden eliminarse, la estadística es nuestra herramienta para controlarlas.

Para navegar por esta complejidad, distinguimos entre exactitud (cuán cerca está nuestra flecha del centro de la diana) y precisión (cuán cerca están las flechas entre sí, independientemente de dónde hayan caído).

«El error se define como la diferencia entre el valor verdadero y el obtenido experimentalmente».

2. El drama de los ceros: el límite de nuestro conocimiento.

En el lenguaje técnico, los números no solo indican cantidades, sino que también expresan confianza. No es lo mismo informar de un peso de «1,5 g» que de uno de «1,500 g». Las cifras significativas son los dígitos que realmente aportan información sobre la precisión de nuestra medición.

Para entenderlas, seguimos unas reglas claras:

  • Cualquier dígito distinto de cero es significativo.
  • Los ceros situados entre dígitos significativos (por ejemplo, 2,054) siempre cuentan.
  • Los ceros a la izquierda (por ejemplo, 0,076) son solo marcadores de posición decimal.
  • Los ceros situados a la derecha del punto decimal (por ejemplo, 0,0540) son fundamentales, ya que indican que el instrumento fue capaz de medir esa posición.

El número «1500» es el ejemplo clásico de ambigüedad: ¿es una aproximación a la centena o una medida exacta en gramos? La notación científica resuelve el misterio: 1,5 × 10^(3) indica dos cifras significativas, mientras que 1,500 × 10^(3) indica cuatro. Aquí reside una reflexión profunda: la última cifra significativa siempre es incierta. Es el límite de nuestra visión, el punto en el que nuestra capacidad de observación se desvanece en la duda.

3. La paradoja de la resta: el «caso más desfavorable».

Uno de los conceptos más fascinantes y contraintuitivos es la propagación de errores. Imaginemos que pesamos una tetera colocando pesas en un platillo. Si la masa de la tetera se obtiene restando la masa del plato de la masa total, podrías pensar que los errores también se restan. Sin embargo, la ciencia es conservadora por necesidad.

En metrología, trabajamos bajo la filosofía del caso más desfavorable. Si la medida A presenta un error por exceso y la medida B, por defecto, al restarlas (A – B) el error total resultante no disminuye, sino que aumenta. Las incertidumbres nunca se anulan; siempre se acumulan.

  • En sumas y restas, las cotas de error absoluto se suman.
  • En multiplicaciones y divisiones, lo que sumamos son los errores relativos.

Cuando multiplicamos, no solo añadimos «milímetros» de duda, sino que también multiplicamos la incertidumbre de la proporción misma, lo que amplía el margen de error de nuestro mapa original.

4. La regla de oro: la estética del rigor.

La honestidad metrológica tiene una regla estética: el error absoluto generalmente se expresa con una sola cifra significativa. No tiene sentido decir que una montaña mide 2000,432 metros, con un error de 12,45 metros. La duda en las decenas anula cualquier certeza en los milímetros.

Sin embargo, existen dos excepciones en las que se permiten dos cifras significativas en el error:

  • Si la primera cifra es un 1.
  • Si la primera cifra es un 2 seguido de una cifra menor que 5 (es decir, hasta 24).

La regla del redondeo es estricta: se redondea por exceso en una unidad si la segunda cifra es 5 o superior. Finalmente, el valor y su error deben tener el mismo número de decimales.

Corrección de estilo metrológico

5. El criterio de dispersión: ¿cuándo es suficiente?

¿Cuántas mediciones necesitamos para que nuestra media sea fiable? Si solo realizamos una medición, el error dependerá directamente del instrumento.

  • En los instrumentos digitales, el error se expresa como la sensibilidad (S).
  • En los instrumentos analógicos, el error es la mitad de la sensibilidad (S/2).

Pero cuando la precisión es crítica, recurrimos a la estadística. A continuación, comento un criterio usado en algunas publicaciones, como la de Fernando Senent, aunque también se pueden consultar otros criterios en este otro documento. En cualquier caso, el proceso siempre comienza con 3 medidas iniciales para calcular el criterio de dispersión (T):

Para series largas (N ≥ 15), utilizamos el error cuadrático medio (ECM). Este cálculo parte de la suposición de que nuestros datos siguen una distribución gaussiana (la famosa campana de Gauss), según la cual el 68,3 % de las medidas se encontrarán dentro de un margen de error cuadrático medio respecto a la media. Es el reconocimiento matemático de que el azar tiene una estructura.

Conclusión: la honestidad de la incertidumbre.

La ciencia no es el dominio de las verdades absolutas, sino el territorio de la incertidumbre controlada. Aceptar el error, nombrarlo y calcularlo no es una debilidad, sino la máxima expresión de la integridad técnica. Al acotar lo que no sabemos, protegemos la validez de lo que sí sabemos.

¿Cómo cambiaría nuestra percepción del mundo si aceptáramos que cada «dato real» que consumimos, desde las estadísticas económicas hasta los resultados de un análisis clínico, viene acompañado de un margen de error invisible? Quizás dejaríamos de buscar certezas absolutas y empezaríamos a valorar la honestidad de la duda bien calculada.

En esta conversación puedes escuchar las ideas más interesantes de este artículo.

Aquí tienes un resumen en formato de vídeo sobre los aspectos clave de la medición.

Por último, creo que este resumen puede resultar de interés.

Medición_y_error_La_guía_maestra

Licencia de Creative Commons
Esta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.

¿Quieres más datos? No siempre es mejor: la lección que cambiará tu forma de ver la ciencia.

En la era del Big Data, tenemos, casi instintivamente, la idea de que más información siempre es mejor. Acumular más datos parece el camino directo hacia decisiones más inteligentes, resultados más fiables y una certeza casi absoluta. Creemos que si medimos algo diez, cien o mil veces, nuestra comprensión del fenómeno será inevitablemente más profunda y precisa.

Sin embargo, en el ámbito de la experimentación científica rigurosa, esta intuición puede resultar peligrosamente engañosa. Existe un concepto fundamental que a menudo se pasa por alto y que es mucho más importante que la mera cantidad de mediciones. No se trata de cuántos datos se recogen, sino de cómo se recogen. La estructura de un experimento es clave para su eficacia.

En este artículo se desglosan tres ideas clave del diseño experimental que revelan por qué la arquitectura de un estudio es más relevante que la cantidad de datos brutos. Prepárate para descubrir el secreto del éxito en los experimentos.

1. ¿Quién es nuestro protagonista? La unidad experimental.

Todo experimento comparativo tiene una estrella principal, un elemento central en torno al cual gira toda la acción. No se trata del tratamiento aplicado ni de la variable medida, sino de la unidad experimental (UE). Pero, ¿qué es exactamente?

Una unidad experimental es el elemento más pequeño al que se puede asignar un tratamiento de forma completamente independiente. Es la pieza fundamental sobre la que se realizan las mediciones para determinar qué ocurre. Piensa en ella como el «sujeto» de tu experimento.

Los ejemplos concretos ayudan a entenderlo mejor:

  • En la agricultura, si quieres comparar dos tipos de fertilizantes, la unidad experimental podría ser una parcela de terreno de un tamaño determinado.
  • En un estudio médico, la unidad experimental suele ser un paciente.
  • En entomología, podría tratarse de un insecto concreto o incluso de una colonia entera.

La clave está en que la definición de la unidad experimental depende de los objetivos de la investigación. Se trata de la pieza fundamental sobre la que se construye toda la comparación. Definir esta unidad es el primer paso, pero el verdadero desafío surge cuando empezamos a tomar mediciones en ella, lo que nos lleva a una de las trampas más comunes de la ciencia.

2. El espejismo de los «diez datos»: por qué medir más no siempre es medir mejor.

Esta es una de las confusiones más frecuentes. A menudo, en una unidad experimental podemos tomar varias mediciones. A estos subelementos los llamamos «unidades muestrales». Por ejemplo, en una parcela de terreno (la UE) podríamos analizar diez plantas distintas (las unidades muestrales).

Parecería que tenemos diez datos, ¿verdad? Técnicamente, sí, pero no son lo que parecen. Hay una regla de oro en el diseño experimental que lo cambia todo:

Las unidades muestrales dentro de una misma unidad experimental deben recibir el mismo tratamiento. Por ello, la asignación del tratamiento a estas unidades muestrales no es independiente entre sí.

Esto tiene unas implicaciones enormes. Las diez plantas de la misma parcela son como hermanos que crecieron en la misma casa. Comparten el mismo terreno, la misma cantidad de luz solar y la misma cantidad de agua. Medirlas por separado no es lo mismo que entrevistar a diez personas de distintas partes de la ciudad. Su similitud y su falta de independencia significan que no se obtienen diez puntos de vista únicos, sino diez variaciones sobre el mismo punto de vista. Confundir estas muestras con diez unidades experimentales independientes es uno de los errores más frecuentes al interpretar resultados.

Entonces, si multiplicar las muestras en una misma parcela no aumenta la fiabilidad, ¿cómo podemos estar seguros de que nuestro tratamiento funciona? La respuesta no consiste en acumular más mediciones, sino en comprender y medir correctamente el «ruido» del sistema.

3. Abraza el ruido: por qué el «error experimental» es tu mejor aliado.

La palabra «error» tiene una connotación negativa, pero en la ciencia el error experimental es tu mejor aliado. No se refiere a una equivocación ni a un fallo de medición. Se trata simplemente de la variabilidad natural entre las unidades experimentales. Es el «ruido» de fondo inevitable del sistema que estás estudiando. Dos pacientes nunca son idénticos ni dos parcelas de terreno son clones perfectos.

Para medir este «ruido» natural, necesitamos comparar manzanas con manzanas. Por eso la unidad experimental (Idea 1) es tan importante. La pequeña variación entre diez plantas de la misma parcela (las unidades muestrales de la idea 2) no nos dice nada sobre la variabilidad natural entre parcelas. El verdadero error experimental solo puede medirse comparando las diferencias entre múltiples parcelas completas que recibieron el mismo tratamiento.

La diferencia de altura entre dos plantas situadas a pocos centímetros entre sí en la misma parcela bien fertilizada será mínima. Esta pequeña variación no nos dice nada sobre la eficacia del fertilizante en general, especialmente si lo comparamos con otra parcela que, por su composición natural, presenta un suelo completamente diferente. La variación entre las parcelas es lo que constituye el verdadero desafío. La esencia de un buen experimento consiste en determinar si el efecto del tratamiento es mayor que la variabilidad natural. Sin una medición honesta de este error, es imposible sacar conclusiones válidas.

Conclusión: mirar más allá de los números.

La validez de un experimento no depende de la cantidad de mediciones, sino de la correcta definición, asignación y comparación de sus unidades experimentales. Es la estructura, no el volumen, lo que permite separar la señal del ruido.

La próxima vez que leas sobre un nuevo estudio, ignora por un momento el deslumbrante número de mediciones. En su lugar, busca a la verdadera protagonista: la unidad experimental. Pregúntate cómo la definieron los investigadores y cómo la utilizaron para medir el ruido de fondo. Esa es la diferencia entre una montaña de datos y un verdadero descubrimiento.

En esta conversación puedes descubrir alguna de las ideas de este artículo.

También puedes ver este vídeo, donde se recogen los conceptos más interesantes del tema.

Licencia de Creative Commons
Esta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.

Unidades experimentales y muestrales en el diseño de experimentos

La unidad experimental (UE) es el elemento central en el diseño y el análisis de experimentos comparativos. Se define como la entidad a la que se le puede asignar un tratamiento de forma independiente y sobre la cual se realizan las mediciones. La identificación correcta de la UE es fundamental, ya que la estimación de la variabilidad natural, conocida como error experimental, depende exclusivamente de la comparación entre unidades experimentales idénticas que reciben el mismo tratamiento.

Una unidad experimental puede contener múltiples unidades muestrales, subelementos que reciben obligatoriamente el mismo tratamiento que la UE a la que pertenecen. Por esta razón, la variabilidad entre estas unidades muestrales internas no resulta útil para estimar el efecto del tratamiento. Un diseño experimental sólido se basa en la capacidad de distinguir los efectos reales de los tratamientos del «ruido» natural del sistema, una distinción que solo es posible mediante la correcta cuantificación de la variabilidad entre las unidades experimentales completas.

Definiciones fundamentales

El marco de un experimento se define a través de sus componentes básicos, en los que la unidad experimental y la unidad muestral desempeñan funciones distintas, aunque interconectadas.

1. La unidad experimental (UE)

La unidad experimental es el pilar de cualquier ensayo comparativo. Su definición formal es la siguiente:

«El elemento sobre el que se realizan las mediciones y al que se puede asignar un tratamiento de forma independiente».

El conjunto de todas las unidades experimentales disponibles para un estudio se denomina material experimental. La definición de una UE es flexible y se adapta a los objetivos de la investigación.

Ejemplos prácticos:

  • Ensayo de resistencia del hormigón: la unidad experimental puede ser un bloque o un cilindro de hormigón elaborado con una mezcla específica. Las unidades muestrales serían las probetas o las muestras extraídas del mismo bloque para realizar ensayos de compresión o de flexión.
  • Prueba de rendimiento de pavimentos: la unidad experimental puede ser un tramo de vía construido con un diseño o material específico (por ejemplo, un segmento de 50 metros). Las unidades muestrales serían los puntos de medición dentro del tramo, por ejemplo, las deflexiones o la rugosidad.
  • Ensayo de estructuras a escala en laboratorio: la unidad experimental puede ser una viga o una columna, construida según un diseño específico. Las unidades muestrales serían los puntos de medición (deformaciones, desplazamientos o tensiones) registrados por sensores a lo largo de la estructura.

El criterio esencial para definir una UE es que sea capaz de recibir diferentes tratamientos de manera independiente de las demás unidades.

2. La unidad muestral.

Dentro de una unidad experimental pueden existir subelementos en los que se aplican las condiciones experimentales. A estos se les conoce como unidades muestrales.

La regla fundamental que las rige es que todas las unidades muestrales de una misma unidad experimental deben recibir el mismo tratamiento. Como consecuencia directa, la asignación del tratamiento a estas subunidades no es independiente entre sí, lo que tiene implicaciones críticas para el análisis estadístico.

El papel de la estimación en la variabilidad.

La distinción entre unidades experimentales y muestrales es crucial para inferir correctamente los efectos de un tratamiento, ya que incide directamente en la medición de la variabilidad del sistema.

a. El error experimental

Para evaluar si un tratamiento tiene un efecto real, es necesario conocer la variabilidad natural del material experimental. Esta variabilidad inherente se conoce como error experimental. Es la base contra la que se comparan las diferencias observadas entre los tratamientos.

b. Metodología de estimación

La estimación correcta del error experimental solo se logra a partir de las diferencias observadas entre unidades experimentales que, en principio, son idénticas y han recibido el mismo tratamiento.

  • Fuente de estimación válida: la variación entre unidades experimentales es la única que permite estimar correctamente el error experimental.
  • Fuente de estimación no válida: la variación entre las unidades muestrales dentro de una misma unidad experimental es, por lo general, muy pequeña y no proporciona información útil para estimar el efecto del tratamiento ni el error experimental.

La observación clave es que «solo la unidad experimental completa permite estimar correctamente el error experimental».

Tipología de variables en un experimento.

Los datos recopilados en un experimento se organizan en dos categorías principales de variables:

Tipo de variable Descripción
Variables de respuesta Son las mediciones obtenidas de las unidades experimentales. Sus valores reflejan tanto los efectos de los tratamientos como la variabilidad natural del sistema.
Variables explicativas (factores) Son las variables que se manipulan o controlan porque se cree que influyen en las variables de respuesta. Incluyen los factores de clasificación, que definen los niveles o categorías sobre los cuales se realizan las inferencias estadísticas.

Conclusión: el fundamento de un diseño sólido.

La estructura de un diseño experimental robusto se basa en comparar unidades experimentales similares. Este enfoque permite a los investigadores distinguir de manera fiable el efecto real de los tratamientos aplicados del «ruido» o de la variabilidad natural inherente al sistema experimental. Por tanto, la identificación precisa y la gestión adecuada de la unidad experimental no son meros detalles técnicos, sino requisitos indispensables para que las conclusiones científicas derivadas del experimento sean válidas y fiables.

En este documento tenéis un resumen de las ideas más importantes.

Pincha aquí para descargar

Licencia de Creative Commons
Esta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.

Pánico, secreto y vientos diagonales: La crisis de 59 pisos que casi colapsa el Citigroup Center

Base del Citigroup Center junto a la Iglesia de San Pedro, lo que obligó a una disposición inusual de las columnas. https://es.wikipedia.org/wiki/Citigroup_Center

Introducción: El gigante con pies de barro.

Los rascacielos son monumentos a la permanencia. Se elevan sobre nuestras ciudades como símbolos de ingenio, poder y estabilidad estructural. Sin embargo, en 1978, el Citigroup Center, uno de los edificios más innovadores y reconocibles de Nueva York, ocultaba un secreto aterrador. Inaugurado con gran fanfarria en 1977, este hito de la ingeniería estaba, de hecho, peligrosamente cerca del colapso.

La ironía central de esta historia es casi cinematográfica: el fallo catastrófico se descubrió gracias a la pregunta de una estudiante universitaria, y la persona que cometió el error de cálculo que puso en peligro a miles de personas fue la misma que se convirtió en el héroe que los salvó. Esta es la historia de cómo una combinación de error humano, ética profesional y una suerte increíble evitó uno de los mayores desastres arquitectónicos de la historia moderna.

1. No bastó con un solo error; se necesitaron dos para poner en jaque al gigante.

El fallo que puso en jaque al Citigroup Center no fue un simple descuido, sino la combinación de dos errores críticos que se multiplicaron entre sí.

El primero fue un error de cálculo cometido por William LeMessurier, el ingeniero jefe. Siguiendo el código de construcción de la época, calculó las cargas de viento que incidían perpendicularmente en las caras del edificio. Sin embargo, debido al diseño único de la torre, que estaba apoyada sobre cuatro enormes pilares situados en el centro de cada lado en lugar de en las esquinas, pasó por alto que los vientos diagonales (conocidos como quartering winds) ejercían una tensión mucho mayor. Este descuido incrementó la carga en las uniones estructurales clave en un 40 %.

El segundo error agravó fatalmente el primero. Durante la construcción, la empresa constructora Bethlehem Steel propuso sustituir las uniones soldadas, que eran más resistentes pero también más costosas, por uniones atornilladas, más económicas. Basándose en los cálculos originales de vientos perpendiculares, este cambio parecía una modificación rutinaria y segura, por lo que la oficina de LeMessurier lo aprobó sin que él revisara personalmente las implicaciones. En aquel momento, fue una decisión técnicamente sólida, pero con el paso del tiempo se consideró fatal.

La combinación de un error oculto y una decisión que parecía segura resultó devastadora. La carga adicional del 40 % de los vientos diagonales aplicada a las uniones atornilladas más débiles provocó un aumento catastrófico del 160 % en la tensión de las conexiones. Esto significaba que una tormenta que ocurre cada 55 años podría ser desastrosa. Sin embargo, el peligro real era aún mayor: si el amortiguador de masa sintonizado del edificio, que dependía de la electricidad, fallaba durante un apagón —algo muy probable durante un huracán—, una tormenta mucho más común, de las que golpean Nueva York cada dieciséis años, podría derribarlo.

2. El «héroe» de la historia fue el ingeniero que cometió el error.

Tras descubrir el fallo, William LeMessurier se enfrentó a un dilema ético devastador. Años después, relataría que consideró todas las opciones, desde guardar silencio y arriesgar miles de vidas hasta el suicidio para escapar de la desgracia profesional.

Sin embargo, LeMessurier tomó la decisión más honorable: asumir toda la responsabilidad. Consciente de que esto podría significar el fin de su carrera, la bancarrota y la humillación pública, se puso en contacto con los directivos de Citicorp para informarles de que su flamante rascacielos de 175 millones de dólares era fundamentalmente inseguro. En ese momento, su mentalidad no se limitaba al deber, sino que también reflejaba un profundo sentido de su posición única, como él mismo describió:

«Tenía información que nadie más en el mundo poseía. Tenía en mis manos el poder de influir en eventos extraordinarios que solo yo podía iniciar».

Para su sorpresa, la reacción de los ejecutivos de Citicorp, liderados por el presidente Walter Wriston, no fue de ira, sino de una calma pragmática. En lugar de buscar culpables, Wriston se centró de inmediato en la solución. Pidió un bloc de notas amarillo, empezó a redactar un comunicado de prensa y bromeó: «Todas las guerras se ganan con generales que escriben en blocs amarillos». Este gesto de liderazgo, enfocado y sereno, sentó las bases para la increíble operación de rescate que estaba a punto de comenzar.

El Citigoup Center. https://es.wikipedia.org/wiki/Citigroup_Center

3. Una llamada casual de una estudiante lo desencadenó todo.

Toda esta crisis existencial y de ingeniería se desencadenó en junio de 1978 por un hecho tan improbable como una simple llamada telefónica. Al otro lado de la línea estaba Diane Hartley, una estudiante de ingeniería de la Universidad de Princeton que analizaba la estructura del Citigroup Center para su tesis.

Hartley llamó a LeMessurier con preguntas sobre la estabilidad del edificio frente a vientos diagonales. Confiado en su diseño, LeMessurier le explicó pacientemente por qué la estructura era sólida. Sin embargo, la llamada de Hartley sembró una semilla. No porque tuviera una preocupación inmediata, sino porque la conversación lo inspiró, LeMessurier decidió que el tema sería un excelente ejercicio académico para la conferencia que preparaba para sus propios estudiantes de Harvard.

Fue durante este recálculo, realizado por pura curiosidad intelectual, cuando descubrió con horror su error original. La llamada casual de Hartley no le dio la respuesta, pero le hizo la pregunta correcta en el momento adecuado, lo que supuso el golpe de suerte que reveló una vulnerabilidad mortal y activó la carrera contrarreloj para evitar una catástrofe inimaginable.

4. Una operación secreta, un huracán y una huelga de prensa lo mantuvieron en secreto.

La reparación del Citigroup Center fue una operación clandestina de alta tensión. Bajo el nombre en clave «Proyecto SERENE», los equipos trabajaban con una precisión coreografiada. Cada noche, los carpinteros llegaban a las 17:00 h para construir recintos de madera contrachapada alrededor de las juntas que había que reparar. Entre las 20:00 y las 04:00, con el sistema de alarma contra incendios desactivado, los soldadores trabajaban para reforzar más de doscientas uniones atornilladas con placas de acero de dos pulgadas de espesor. Finalmente, un equipo de limpieza eliminaba todo rastro del trabajo antes de la llegada de los primeros empleados a las 8 a. m., ajenos al peligro que se cernía sobre ellos.

El drama alcanzó su punto álgido a principios de septiembre de 1978, cuando el huracán Ella, una tormenta muy intensa, se dirigía directamente hacia la ciudad de Nueva York. Con las reparaciones a medio terminar, el edificio seguía siendo vulnerable. En secreto, las autoridades elaboraron planes para evacuar la torre y una zona de diez manzanas a su alrededor.

Entonces, la suerte intervino de nuevo. A pocas horas de la posible catástrofe, el huracán Ella viró inesperadamente hacia el Atlántico, salvando a la ciudad. El suspiro de alivio fue inmenso. Y, como si esto no fuera suficiente, un último golpe de fortuna mantuvo todo en secreto: justo cuando la historia estaba a punto de filtrarse, comenzó una huelga de periódicos en toda la ciudad que duró varios meses. La huelga enterró la noticia por completo y el casi desastre permaneció oculto al público durante casi veinte años, hasta que fue revelado en un artículo de The New Yorker en 1995.

Conclusión: la delgada línea entre el desastre y la ética.

La historia del Citigroup Center es un poderoso recordatorio de la fragilidad que puede esconderse tras una apariencia de fortaleza. Una combinación de error humano, profunda ética profesional, liderazgo decisivo y una buena dosis de suerte evitó lo que podría haber sido uno de los peores desastres arquitectónicos de la historia. El ingeniero que cometió el error lo afrontó con una valentía que salvó incontables vidas y, paradójicamente, reforzó su reputación.

La historia del Citigroup Center nos recuerda que incluso los símbolos de la permanencia pueden ser frágiles. Nos deja con una pregunta: ¿cuántos otros secretos se esconden en las estructuras que nos rodean, esperando a que una simple pregunta los saque a la luz?

En esta conversación puedes escuchar las ideas más interesantes sobre este asunto.

Aquí puedes ver un vídeo que resume bien el contenido del artículo.

 

Licencia de Creative Commons
Esta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.

3 secretos sorprendentes detrás de las encuestas que rellenas cada día.

Introducción: La ciencia oculta de las encuestas.

Todos hemos pasado por ello: cuestionarios interminables, preguntas que parecen sacadas de un manual de psicología y, sobre todo, esa sensación de responder a la misma pregunta una y otra vez. Es una experiencia tan común como, a menudo, frustrante. ¿Por qué algunas preguntas parecen extrañas o repetitivas? ¿Realmente merece la pena todo este esfuerzo?

La respuesta es un rotundo sí. Detrás de cada cuestionario bien diseñado se esconde la rigurosa ciencia de la psicometría, el campo dedicado al arte de la medición precisa. Conceptos como la fiabilidad y la validez son los pilares de cualquier instrumento de medición serio, ya sea una encuesta de satisfacción del cliente o un test de personalidad.

Este artículo desvela algunos de los secretos más sorprendentes y fascinantes sobre cómo se construyen estas escalas de medida. Descubrirás por qué la repetición puede ser una virtud, por qué la perfección a veces es sospechosa y por qué es posible equivocarse de manera confiable.

Primer secreto: la fiabilidad no es la validez (y se puede estar fiablemente equivocado).

En el mundo de la medición, la fiabilidad y la validez son dos conceptos cruciales que a menudo se confunden. Sin embargo, comprender su diferencia es fundamental para entender por qué algunas encuestas funcionan y otras no.

  • La fiabilidad se refiere a la precisión o consistencia de una medida. Un instrumento fiable produce resultados muy similares cada vez que se utiliza en las mismas condiciones.
  • La validez es la exactitud de la medida. Un instrumento válido mide exactamente lo que se pretende medir. La validez va más allá de la simple exactitud, ya que se asegura de que las conclusiones que extraemos de los resultados de la encuesta estén justificadas y sean significativas.

La mejor manera de entenderlo es mediante la analogía de un tirador que apunta a una diana.

  • Fiabilidad sin validez: imagina a un tirador. Escuchas el sonido seco y repetitivo de los disparos impactando en la madera, agrupados en un área no mayor que una moneda, pero peligrosamente cerca del borde de la diana. El patrón es muy consistente (alta fiabilidad), pero erróneo de forma sistemática, ya que no alcanza el blanco (baja validez). Esto representa un error sistemático que se debe a un defecto fundamental en el diseño del cuestionario, como preguntas mal redactadas o una escala de respuesta poco clara.
  • Validez con baja fiabilidad: ahora imagina a un tirador cuyos disparos están dispersos por toda la diana, pero cuya media se sitúa justo en el centro. No hay precisión en cada tiro (baja fiabilidad), pero, en conjunto, apuntan en la dirección correcta (alta validez). Esto representa errores aleatorios que pueden deberse a factores incontrolables, como distracciones, ruido ambiental o incluso al estado de ánimo temporal del encuestado.
Validez y fiabilidad (Morales, 2008)

La conclusión clave es que la validez es más importante que la fiabilidad. Como subrayan los expertos en la materia: «Un instrumento puede ser muy fiable (medir muy bien), pero no medir bien lo que se quería medir». De nada sirve medir algo con una precisión milimétrica si no es lo que realmente nos interesa.

Segundo secreto: ¿por qué las encuestas a veces parecen repetitivas?

Una de las quejas más comunes sobre los cuestionarios es que incluyen preguntas que parecen decir lo mismo de distintas maneras. Lejos de ser un descuido, el uso de lo que los expertos denominan «ítems repetitivos» —expresar la misma idea de diversas formas— es una técnica deliberada y muy útil para garantizar la calidad de los datos. Esta «forma bidireccional de redactar los ítems» tiene dos ventajas principales:

  • Requiere mayor atención del sujeto: al presentar la misma idea con formulaciones distintas (a veces en positivo y otras en negativo), se evita que la persona responda de forma automática o sin pensar y se le obliga a procesar el significado de cada pregunta.
  • Permite comprobar la coherencia de las respuestas: sirve como control de calidad para detectar y mitigar dos de los sesgos más frecuentes al responder encuestas: la aquiescencia y el sesgo de confirmación.
    • Aquiescencia: tendencia a estar de acuerdo con todas las afirmaciones. Imagina a alguien que responde con prisas, marcando «Totalmente de acuerdo» a todo («Sí, el servicio fue excelente», «Sí, el producto es terrible»), con el único fin de terminar cuanto antes.
    • Deseabilidad social: tendencia a responder para proyectar una buena imagen. Este sesgo lo muestra la persona que, al ser preguntada por sus hábitos de reciclaje, se presenta como un ecologista modelo, aunque el contenido de su cubo de basura cuente una historia muy diferente.

Por lo tanto, la próxima vez que te encuentres con preguntas que te resulten familiares en un mismo cuestionario, recuerda que no se trata de un error. Se trata de una herramienta diseñada para garantizar que tus respuestas sean más atentas, coherentes y, en última instancia, sinceras.

Tercer secreto: una fiabilidad «perfecta» puede ser una señal de alarma.

Intuitivamente, podríamos pensar que el objetivo de cualquier escala de medida es lograr la mayor fiabilidad posible. Sin embargo, en psicometría, una fiabilidad extremadamente alta puede ser una señal de alarma que indica un problema subyacente.

El coeficiente de fiabilidad más utilizado, el alfa de Cronbach, presenta una particularidad: su valor tiende a aumentar al añadir más ítems a la escala. Esto crea la tentación de inflar artificialmente la fiabilidad simplemente alargando el cuestionario. Como advierte la literatura especializada: «No se debe buscar una alta fiabilidad aumentando sin más el número de ítems, sin pensar si realmente son válidos».

Un ejemplo hipotético ilustra perfectamente este peligro. Imaginemos que aplicamos un test a un grupo mixto compuesto por niñas de 10 años que hacen ballet y niños de 14 años que juegan al fútbol. Les preguntamos por su edad, su sexo y el deporte que practican. La fiabilidad estadística se dispara porque las preguntas son perfectamente consistentes al separar a los dos grupos. Si se pregunta sobre ballet, todas las niñas responden de una manera y todos los niños de otra. Si se pregunta por el fútbol, ocurre lo mismo. El algoritmo estadístico detecta esta consistencia impecable y reporta una fiabilidad altísima, sin comprender que el «rasgo» subyacente que se está midiendo es simplemente una mezcla de datos demográficos, no una característica psicológica coherente. A pesar de esa elevada fiabilidad, en realidad no estaríamos midiendo «nada interpretable».

Este ejemplo nos deja una lección fundamental que el texto fuente resume de manera brillante:

«En ningún caso la estadística sustituye al sentido común y al análisis lógico de nuestras acciones».

Conclusión: la próxima vez que rellenes una encuesta…

Desde el dilema fundamental entre mediciones consistentes, pero erróneas (fiabilidad frente a validez), pasando por el uso deliberado de la repetición para burlar nuestros propios sesgos, hasta la idea contraintuitiva de que una puntuación «perfecta» puede indicar un resultado sin sentido, queda claro que elaborar una buena encuesta es un trabajo científico.

La próxima vez que te enfrentes a un cuestionario, en lugar de frustrarte por sus preguntas, ¿te detendrás a pensar qué rasgo intentan medir y si realmente lo están logrando?

En este audio os dejo una conversación sobre estas ideas.

Os dejo un vídeo que resume el contenido de este artículo.

Referencias:

Campbell, D. T., & Fiske, D. W. (1959). Convergent and discriminant validation by the multitrait–multimethod matrix. Psychological Bulletin, 56(2), 81–105. https://doi.org/10.1037/h0046016

Dunn, T. J., Baguley, T., & Brunsden, V. (2014). From alpha to omega: A practical solution to the pervasive problem of internal consistency estimation. British Journal of Psychology, 105, 399–412. https://doi.org/10.1111/bjop.12046

Farrell, A. M. (2010). Insufficient discriminant validity: A comment on Bove, Pervan, Beatty and Shiu (2009). Journal of Business Research, 63, 324–327. https://ssrn.com/abstract=3466257

Fornell, C., & Larcker, D. F. (1981). Evaluating structural equation models with unobservable variables and measurement error. Journal of Marketing Research, 18(1), 39–50. https://doi.org/10.1177/002224378101800104

Frías-Navarro, D. (2019). Apuntes de consistencia interna de las puntuaciones de un instrumento de medida. Universidad de Valencia. https://www.uv.es/friasnav/AlfaCronbach.pdf

Grande, I., & Abascal, E. (2009). Fundamentos y técnicas de investigación comercial. Madrid: ESIC.

Hernández, B. (2001). Técnicas estadísticas de investigación social. Madrid: Díaz de Santos.

Hair, J. F., Anderson, R. E., Tatham, R. L., & Black, W. C. (1995). Multivariate data analysis (Eds.). New York: Prentice Hall International, Inc.

Kotler, P., & Armstrong, G. (2001). Marketing. México: Pearson Prentice Hall.

Matas, A. (2018). Diseño del formato de escalas tipo Likert: un estado de la cuestión. Revista Electrónica de Investigación Educativa, 20(1), 38–47. http://www.scielo.org.mx/scielo.php?script=sci_arttext&pid=S1607-40412018000100038

Morales, P. (2006). Medición de actitudes en psicología y educación. Madrid: Universidad Pontificia de Comillas.

Morales, P. (2008). Estadística aplicada a las ciencias sociales. Madrid: Universidad Pontificia Comillas.

Nadler, J., Weston, R., & Voyles, E. (2015). Stuck in the middle: The use and interpretation of mid-points in items on questionnaires. The Journal of General Psychology, 142(2), 71–89. https://doi.org/10.1080/00221309.2014.994590

Nunnally, J. C. (1978). Psychometric theory. New York: McGraw-Hill.

Schmitt, N. (1996). Uses and abuses of coefficient alpha. Psychological Assessment, 8(4), 350–353. http://ist-socrates.berkeley.edu/~maccoun/PP279_Schmitt.pdf

Prats, P. (2005). Métodos para medir la satisfacción del cliente. Madrid: AENOR Ediciones.

Licencia de Creative Commons
Esta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.

Los motivos por los que se equivocan estudiantes y profesionales de ingeniería al abordar la resolución de problemas

Resolver problemas en el ámbito universitario o profesional, en áreas tecnológicas, de ingeniería y ciencias, puede plantear una serie de desafíos que pueden conducir a errores. Estos fallos pueden surgir por diversas razones que van desde no comprender el concepto subyacente hasta confiar demasiado en la tecnología.

En un artículo anterior mencioné algunos ejemplos de problemas teóricamente sencillos, pero que marean a nuestros estudiantes. Ahora vamos a analizar detalladamente algunas de estas razones y cómo se relacionan entre sí. También he incluido enlaces a otros artículos del blog donde reflexiono sobre este tipo de cuestiones.

La falta de comprensión del concepto subyacente a un problema es una preocupación fundamental. Esto puede manifestarse de diversas formas, ya sea a través de errores conceptuales, una aplicación incorrecta del concepto o una interpretación errónea del mismo. Esta falta de entendimiento puede empeorar si se carece de experiencia o conocimientos específicos en el campo correspondiente. Cuando un estudiante o profesional se enfrenta a un problema para el que no tiene experiencia previa, puede tener dificultades para aplicar correctamente los principios necesarios para resolverlo.

Los datos son fundamentales para encontrar soluciones, sin embargo, su calidad y disponibilidad pueden ser problemáticos. La falta de datos adecuados, la presencia de información contradictoria o sesgada pueden conducir a conclusiones incorrectas. Asimismo, centrarse excesivamente en utilizar todos los datos disponibles puede distraer de la información realmente importante, al tiempo que validar datos sesgados o inventados puede conducir a conclusiones incorrectas.

El manejo inadecuado de las bases matemáticas también puede ser una fuente de errores (geometría, trigonometría, cálculo o álgebra). Esto puede incluir errores en el cálculo, así como el uso inapropiado de fórmulas o modelos matemáticos. Los problemas reales rara vez tienen una sola solución, lo que requiere habilidades para evaluar y decidir entre múltiples enfoques posibles. Además, el uso excesivo de la memoria en lugar de la comprensión de los principios subyacentes puede conducir a errores conceptuales y de selección de modelos de cálculo.

Los aspectos psicológicos también son importantes. El estrés, la falta de confianza en uno mismo, la presión por terminar a tiempo y la falta de concentración pueden afectar a la capacidad de resolver problemas de manera efectiva. La falta de atención a los detalles, la fatiga y el agotamiento también pueden provocar errores en la resolución de problemas.

Es crucial comprender que los problemas reales pueden ser complejos y no tener necesariamente una solución única. Esto implica la necesidad de tomar decisiones informadas y comprender las limitaciones de los modelos o fórmulas utilizados. Además, la propagación de errores en las operaciones y el uso incorrecto de datos, fórmulas o software pueden dar lugar a resultados erróneos.

La falta de retroalimentación o revisión de los errores cometidos puede perpetuar la repetición de los mismos una y otra vez. La falta de comunicación o colaboración entre profesionales en entornos de trabajo también puede provocar errores en la resolución de problemas. Confiar ciegamente en la tecnología o en herramientas automatizadas sin comprender en profundidad los principios subyacentes puede ser un problema.

En resumen, resolver problemas en el ámbito universitario o profesional de la ingeniería y las ciencias puede ser un proceso complejo y propenso a errores debido a una variedad de factores interrelacionados. Desde la comprensión del concepto hasta la calidad y disponibilidad de los datos, así como los aspectos psicológicos y técnicos relacionados con la resolución de problemas, es crucial abordar estos desafíos con atención y comprensión para lograr soluciones precisas y efectivas. Desde las universidades debe hacerse todo lo posible para superar este tipo de dificultades y conseguir que nuestros estudiantes adquieran las competencias necesarias para su posterior desarrollo profesional.

Sin querer ser exhaustivo, y sin que estén ordenadas por importancia, aquí os dejo una lista de 30 posibles causas por las cuales nuestros estudiantes en los exámenes o los técnicos en su ámbito profesional, suelen cometer errores al resolver los problemas. Estoy convencido de que hay más causas, pero esto puede ser un buen punto de partida para el debate y la reflexión. En el vídeo que he grabado, me extiendo y explico algo más lo que aquí recojo como una simple lista.

  1. La falta de comprensión del concepto subyacente en un problema puede conducir a errores conceptuales al aplicarlo incorrectamente o interpretarlo de manera errónea.
  2. La inexperiencia o la falta de conocimientos específicos pueden surgir cuando una persona afronta por primera vez un tipo de problema, ya sea durante un examen o en la práctica profesional.
  3. Los problemas relacionados con la disponibilidad de datos pueden presentarse de varias formas, como datos insuficientes, necesarios, innecesarios o contradictorios. A menudo, existe una obsesión por utilizar todos los datos disponibles en el enunciado del problema.
  4. La calidad de los datos también es un factor importante, con la posibilidad de incertidumbre o error en los datos disponibles. Además, dar por válidos datos sesgados, interesados o inventados puede llevar a conclusiones incorrectas. Es necesario un control de calidad de los datos.
  5. Intentar resolver un problema utilizando el enfoque típico visto en clase puede marear a nuestros estudiantes. Los alumnos prefieren resolver un problema típico explicado en clase, a ser posible, con datos parecidos.
  6. El manejo inadecuado de las bases matemáticas, que incluye errores en el cálculo, el uso incorrecto de fórmulas o modelos matemáticos, y la falta de comprensión de los principios subyacentes, puede ser una fuente común de errores. La falta de conocimientos básicos de geometría, trigonometría, álgebra o cálculo básicos son, en ocasiones, escollos. A veces hay dificultades en saber dibujar un esquema para resolver el problema.
  7. Los problemas reales generalmente no tienen una sola solución, lo que requiere habilidades para evaluar y decidir entre múltiples enfoques posibles. Esta distinción, que se da claramente entre los estudios de grado y los de máster, es importante tenerla en cuenta.
  8. Los aspectos psicológicos, como el estrés, la falta de confianza en uno mismo, la presión por terminar a tiempo y la falta de concentración, pueden afectar negativamente la capacidad para resolver problemas de manera efectiva.
  9. La falta de atención o interés, así como la fatiga o el agotamiento, pueden contribuir a errores en la resolución de problemas, al igual que la prisa por resolver el problema.
  10. La complejidad de los problemas puede aumentar cuando se trata de situaciones poco comunes o rebuscadas, lo que requiere un enfoque cuidadoso y creativo para su resolución.
  11. Es crucial comprender la diferencia entre una ley general y una fórmula particular al aplicar normas técnicas que pueden estar basadas en hipótesis o casos específicos.
  12. Utilizar modelos de cálculo inadecuados, ya sean demasiado refinados o demasiado simples para los datos disponibles, puede conducir a soluciones incorrectas.
  13. Carecer de números estimativos para prever el resultado final puede resultar en una falta de comprensión del orden de magnitud del resultado. En este sentido, el uso de nomogramas en la docencia facilita la adquisición de este tipo de habilidad en los estudiantes. Los estudiantes y los profesionales deberían tener un conocimiento del «número gordo» y saber predimensionar.
  14. Es importante ser consciente de la propagación de errores en las operaciones, ya que incluso pequeños errores pueden magnificarse y llevar a resultados incorrectos.
  15. Utilizar fórmulas, datos o tablas en un contexto diferente al que dieron origen puede llevar a interpretaciones incorrectas o a soluciones erróneas.
  16. La extrapolación de resultados a límites no contemplados puede conducir a conclusiones incorrectas o poco realistas.
  17. Utilizar fórmulas empíricas con datos expresados en unidades diferentes a las que funcionan puede generar resultados inconsistentes o incorrectos.
  18. La dependencia excesiva de la memoria en lugar de comprender los principios subyacentes puede conducir a errores en la selección de modelos o fórmulas de cálculo.
  19. Errores conceptuales pueden llevar a la selección incorrecta de modelos o fórmulas de cálculo, lo que resulta en soluciones erróneas.
  20. El uso de software defectuoso o poco contrastado, así como la falta de habilidades para calcular manualmente un problema, pueden resultar en resultados incorrectos. A esto se une un uso inapropiado de la inteligencia artificial.
  21. El mal uso de ecuaciones o fórmulas, como cambiar el nombre de una variable sin entender el concepto subyacente, puede conducir a errores en la resolución de problemas.
  22. La falta de competencia o experiencia en una materia determinada puede resultar en una resolución incorrecta del problema.
  23. Repetir la resolución de problemas de un contexto a otro sin pensar en su validez puede conducir a soluciones inapropiadas.
  24. La falta de comprensión del problema, la pregunta o el tipo de resultado esperado puede resultar en soluciones incorrectas debido a la falta de comprensión lectora, capacidad analítica o de síntesis.
  25. La utilización de unidades defectuosas, notaciones o convenciones específicas puede llevar a interpretaciones erróneas o a soluciones incorrectas.
  26. La falta de retroalimentación o revisión de los errores cometidos puede perpetuar la repetición de los mismos errores una y otra vez.
  27. La falta de comunicación o colaboración en entornos de trabajo entre profesionales puede contribuir a errores en la resolución de problemas.
  28. La confianza excesiva en la tecnología o herramientas automatizadas puede llevar a la falta de comprensión de los principios subyacentes y a la comisión de errores.
  29. La falta de revisión o verificación de los cálculos realizados por parte de un tercero independiente puede resultar en soluciones incorrectas.
  30. La falta de conocimiento del contexto del problema, incluyendo las restricciones, puede conducir a soluciones subóptimas o incorrectas.

Os paso un vídeo donde he desarrollado las ideas anteriores, con ejemplos, y he dejado algunas de mis reflexiones al respecto. Espero que os guste.

Os dejo un podcast sobre este tema (en inglés), generado por una IA sobre el vídeo.

Aquí tenéis un mapa conceptual que también os puede ayudar.

Artículos relacionados en el blog:

Los ingenieros, los ordenadores y mil un indios

De la regla de cálculo al ordenador: olvidarse de cómo se calculaba antes

Cifras significativas y errores de medición

¿Cómo predimensionar un muro sin calculadora?

La inteligencia artificial en la ingeniería civil

Introducción a la toma de decisiones

Problemas teóricamente sencillos pero que marean a nuestros estudiantes

Referencias de libros de problemas:

MARTÍNEZ-PAGÁN, P.; YEPES, V.; MARTÍNEZ-SEGURA, M.A. (2023). Ejercicios resueltos de sistemas de transporte continuo: bombas y cintas transportadoras. Ediciones UPCT. Universidad Politécnica de Cartagena, 284 pp. ISBN: 978-84-17853-62-4

YEPES, V. (1997). Equipos de movimiento de tierras y compactación. Problemas resueltos. Colección Libro Docente nº 97.439. Ed. Universitat Politècnica de València. 253 pág. Depósito Legal: V-4598-1997. ISBN: 84-7721-551-0.

YEPES, V. (2023). Maquinaria y procedimientos de construcción. Problemas resueltos. Colección Académica. Editorial Universitat Politècnica de València, 562 pp. Ref. 376. ISBN 978-84-1396-174-3

Licencia de Creative Commons
Esta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.

¿Qué hacemos con los valores atípicos (outliers)?

Figura 1. Valor atípico en el diagrama de caja y bigotes

Un valor atípico (outlier, en inglés) es una observación que numéricamente es muy distinta al resto de elementos de una muestra. Estos datos nos pueden causar problemas en la interpretación de lo que ocurre en un proceso o en una población. Por ejemplo, en el cálculo de la resistencia media a compresión simple de unas probetas de hormigón, la mayoría se encuentran entre 25 y 30 MPa. ¿Qué ocurriría si, de repente, medimos una probeta con una resistencia de 60 MPa? La mediana de los datos puede ser 27 MPa, pero la resistencia media podría llegar a 45 MPa. En este caso, la mediana refleja mejor el valor central de la muestra que la media.

La pregunta que nos podemos plantear es inmediata. ¿Qué hacemos con esos valores atípicos? La opción de ignorarlos a veces no es la mejor de las soluciones posibles si pretendemos conocer qué ha pasado con estos valores. Lo bien cierto es que distorsionan los resultados del análisis, por lo que hay que identificarlos y tratarlos de forma adecuada. A veces se excluyen si son resultado de un error, pero otras veces son datos potencialmente interesantes en la detección de anomalías.

Los valores atípicos pueden deberse a errores en la recolección de datos válidos que muestran un comportamiento diferente, pero reflejan la aleatoriedad de la variable en estudio. Es decir, valores que pueden haber aparecido como parte del proceso, aunque parezcan extraños. Si los valores atípicos son parte del proceso, deben conservarse. En cambio, si ocurren por algún tipo de error (medida, codificación…), lo adecuado es su eliminación. En la Tabla 1 se recogen algunas de las causas comunes de los valores atípicos y sus acciones posibles.

Tabla 1. Causas comunes de los valores atípicos. Fuente: Soporte de Minitab(R) 18.

Causa Acciones posibles
Error de entrada de datos Corregir el error y volver a analizar los datos.
Problema del proceso Investigar el proceso para determinar la causa del valor atípico.
Factor faltante Determinar si no se consideró un factor que afecta el proceso.
Probabilidad aleatoria Investigar el proceso y el valor atípico para determinar si este se produjo en virtud de las probabilidades; realice el análisis con y sin el valor atípico para ver su impacto en los resultados.

Los valores atípicos a veces son subjetivos y existen numerosos métodos para clasificarlos. La detección de valores atípicos se puede realizar a nivel univariante usando gráficos sencillos como histogramas o diagramas de caja y bigotes. A nivel bivariante se pueden localizar mediante análisis de diagrama de dispersión o análisis de los residuos. En el ámbito multivariante se pueden descubrir los valores atípicos mediante un análisis de la matriz de residuos.

El método más habitual por su sencillez y resultados es el test de Tukey, que toma como referencia la diferencia entre el primer cuartil (Q1) y el tercer cuartil (Q3), o rango intercuartílico. En un diagrama de caja se considera un valor atípico el que se encuentra 1,5 veces esa distancia de uno de esos cuartiles (atípico leve) o a 3 veces esa distancia (atípico extremo). Se trata de un método paramétrico que supone que la población es normal (Figura 2). No obstante, también existen métodos no paramétricos cuando la muestra no supere la prueba de normalidad correspondiente.

Figura 2. Detección paramétrica de valores atípicos, basado en la curva de distribución normal. Wikipedia

Os dejo algún vídeo donde se explica cómo detectar los valores atípicos.

Licencia de Creative Commons
Esta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.