Diseño de experimentos: La brújula que guía el método científico

¿Te has detenido alguna vez a considerar por qué dos estudios sobre el mismo fenómeno pueden llegar a conclusiones diametralmente opuestas?

A menudo, la respuesta no se encuentra en un error de cálculo ni en la mala fe del investigador, sino en la estructura invisible que sustenta los datos. La estadística, lejos de ser un frío ejercicio de «contar» o promediar, es en realidad la aplicación de una lógica rigurosa y elegante conocida como diseño de experimentos.

Como guía, mi objetivo es mostrarte que un experimento no es solo una observación, sino una prueba controlada en la que introducimos cambios deliberados para revelar verdades ocultas. Sin un diseño robusto, los números son solo ruido; con uno, se convierten en una herramienta de predicción capaz de silenciar la incertidumbre. Permíteme compartir contigo cinco pilares fundamentales que transformarán tu manera de interpretar la ciencia.

El conocimiento no es una línea recta, sino un círculo.

Tanto en la academia como en la industria, tendemos a ver el conocimiento como un monolito estático. Sin embargo, el método científico es circular e iterativo. Según Kempthorne (1952), la investigación es un ciclo perpetuo que se retroalimenta para aumentar la precisión.

Este proceso consta de cuatro etapas: la observación del fenómeno, la formulación de una teoría lógica, la predicción de eventos futuros y, por último, la toma de decisiones basada en pruebas. Pero aquí reside el secreto: el ciclo no termina ahí. Los resultados de la decisión modifican nuestras conjeturas originales y nos obligan a reiniciar el proceso. El objetivo no es solo repetir el experimento, sino aumentar nuestra capacidad de discriminación para distinguir con mayor claridad qué teorías son válidas y cuáles deben ser desechadas.

«El método científico no es estático; es de naturaleza circulante».

¿Por qué tu género no es un «tratamiento» (y por qué importa)?

Uno de los conceptos más sutiles y cruciales que enseño a mis estudiantes es la distinción entre factores de tratamiento y de clasificación. Para que algo sea un «tratamiento», el investigador debe tener soberanía absoluta para asignar aleatoriamente dicho factor a las unidades de estudio.

Por ejemplo, un fármaco es un tratamiento porque el investigador decide quién lo recibe. En cambio, el género, el tipo de suelo o la especie de una madera son propiedades intrínsecas, denominadas factores de clasificación. No se puede «asignar» el género a un sujeto. Esta distinción es vital, ya que los factores de clasificación suelen actuar como fuentes extrañas de variación que, si no se identifican, pueden sesgar los resultados. Comprender que el género no es algo que «probamos», sino el contexto en el que lo probamos, es el primer paso hacia una inferencia honesta.

 

La unidad experimental: el arte de no medir lo que no debes.

Existe un «espejismo estadístico» muy común: creer que medir muchas veces lo mismo aumenta la validez de un experimento. Para evitar este error, debemos distinguir entre la unidad experimental (UE) y la unidad muestral (UO).

  • En el ámbito clínico, el paciente es la unidad experimental a la que se le asigna el tratamiento de forma independiente.
  • En agricultura, una parcela completa es la UE, mientras que las plantas individuales dentro de ella son simples UO.
  • En entomología, la UE puede referirse a un insecto, pero a menudo se refiere a la colonia entera como objeto de estudio.
  • En estructuras, una viga de hormigón es la UE a la que se le aplica un método de curado específico, mientras que los diferentes sensores de deformación colocados en distintos puntos de esa misma viga actúan como unidades observacionales

El riesgo técnico consiste en confundir el error experimental (la variación entre distintas unidades experimentales) con el error de muestreo (la variación dentro de una misma unidad experimental). Si mide 50 plantas en una sola parcela, solo está reduciendo el error de muestreo. Para validar realmente un tratamiento y reducir el error experimental, se necesitan más parcelas independientes, no más plantas en la misma parcela. Medir lo que no debe solo aumenta artificialmente su confianza en un resultado que podría ser puramente aleatorio.

¿Busca conocimiento absoluto o quiere tomar una decisión?

No toda la ciencia busca lo mismo, por lo que saber qué tipo de experimento tiene delante cambiará su criterio. Anscombe (1947) nos legó una distinción fundamental:

  • Experimentos absolutos: buscan determinar propiedades físicas constantes, como la velocidad de la luz. Se asocian a la ciencia pura y se rigen por el modelo II (efectos aleatorios), en el que los tratamientos se consideran una muestra de un universo infinito.
  • Experimentos comparativos: son el corazón de las ciencias aplicadas y de la ingeniería. En estos casos, los valores absolutos pueden variar según el entorno, pero la relación entre los tratamientos permanece estable. Se rigen por el modelo I (efectos fijos), ya que el interés radica en determinar cuál de los tratamientos específicos es «mejor».

En el mundo de la gestión, casi siempre estamos ante experimentos comparativos. No buscamos una verdad universal e inmutable, sino la información necesaria para tomar una decisión administrativa acertada.

El «testigo»: el héroe invisible del control de variación.

A menudo se piensa que el tratamiento de control o de testigo es solo un requisito burocrático. Sin embargo, su función es lógica y profunda: es la única herramienta capaz de revelar si el entorno está «enmascarando» la realidad.

Imagine que intenta escuchar un susurro (el efecto de un nuevo fertilizante) en una habitación donde alguien está gritando (la alta fertilidad natural del suelo). Sin un testigo —una zona sin fertilizante—, se atribuiría el crecimiento de las plantas al producto, cuando en realidad sería el suelo quien haría todo el trabajo. El testigo es esencial cuando se desconoce la eficacia de lo que se prueba; es el punto de referencia que permite eliminar las interferencias del entorno y detectar la señal del tratamiento.

Conclusión: el diseño antes que el dato.

El diseño experimental es, en última instancia, el cálculo del grado de incertidumbre. Esto permite que la estadística trascienda la mera descripción de lo ocurrido y se convierta en una brújula predictiva. Un diseño robusto garantiza que las conclusiones tengan un rango de validez real y que los recursos, siempre limitados, no se malgasten en espejismos.

La próxima vez que te encuentres ante un informe con gráficos deslumbrantes, detente y reflexiona: ¿estos datos provienen de un diseño válido que controla la incertidumbre o son solo una colección de números que intentan ocultar la ausencia de una estructura lógica? Recuerda que, en ciencia, la calidad de tu respuesta nunca superará la del diseño de tu pregunta.

En esta conversación puedes escuchar una buena explicación sobre este tema.

El vídeo resume bien las ideas más importantes sobre el diseño de experimentos.

Experimental_Design_Foundations

Referencias:

Anscombe, F. J. (1947). The validity of comparative experiments. Journal of the Royal Statistical Society, 61, 181–211.

Box, G. E. P. (1952). Multi-factor designs of first order. Biometrika, 39(1), 49–57.

Fisher, R. A. (1935). The design of experiments. Oliver & Boyd.

Kempthorne, O. (1952). The design and analysis of experiments. John Wiley & Sons.

Melo, O. O., López, L. A., & Melo, S. E. (2007). Diseño de experimentos: métodos y aplicaciones. Universidad Nacional de Colombia, Facultad de Ciencias.

Licencia de Creative Commons
Esta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.

¿Por qué nada en la ciencia es exacto? Cómo entender y calcular el error experimental

Jorge Luis Borges imaginó una vez un imperio en el que el arte de la cartografía alcanzó tal perfección que el mapa de una sola provincia ocupaba toda una ciudad. Finalmente, los cartógrafos trazaron un mapa del imperio que tenía el mismo tamaño que este y coincidía punto por punto con él. Por supuesto, aquel mapa era inútil.

En ciencia sucede algo similar: medir no es replicar la realidad, sino crear un mapa de ella. Estamos obsesionados con la exactitud, pero en el laboratorio pronto aprendemos que la «medida exacta» es una quimera. Medir no consiste en capturar una verdad absoluta, sino en gestionar con elegancia la incertidumbre. Un dato sin su margen de error no es una medida, sino una simple expresión de deseos.

1. La ilusión de la exactitud: el error es inevitable.

En metrología, la humildad es una competencia técnica. Debemos aceptar que nuestros sentidos y nuestros instrumentos están limitados por definición. La teoría de los errores nos enseña que el «valor verdadero» es un ideal matemático al que solo podemos aproximarnos. El error no es una equivocación del científico, sino una propiedad inherente al acto de medir.

Existen dos fuerzas que distorsionan nuestro «mapa» de la realidad:

  • El error sistemático es un sesgo constante. Aparece cuando la metodología es inadecuada, los instrumentos están mal calibrados o los patrones de medición son dudosos. Se trata de un error predecible que desplaza todas nuestras mediciones en la misma dirección, alejándolas de la realidad.
  • El error accidental o aleatorio es el «ruido» del universo. Se debe al azar, a variaciones microscópicas y a factores incontrolables. Se manifiestan como pequeñas fluctuaciones al repetir una medición y, aunque no pueden eliminarse, la estadística es nuestra herramienta para controlarlas.

Para navegar por esta complejidad, distinguimos entre exactitud (cuán cerca está nuestra flecha del centro de la diana) y precisión (cuán cerca están las flechas entre sí, independientemente de dónde hayan caído).

«El error se define como la diferencia entre el valor verdadero y el obtenido experimentalmente».

2. El drama de los ceros: el límite de nuestro conocimiento.

En el lenguaje técnico, los números no solo indican cantidades, sino que también expresan confianza. No es lo mismo informar de un peso de «1,5 g» que de uno de «1,500 g». Las cifras significativas son los dígitos que realmente aportan información sobre la precisión de nuestra medición.

Para entenderlas, seguimos unas reglas claras:

  • Cualquier dígito distinto de cero es significativo.
  • Los ceros situados entre dígitos significativos (por ejemplo, 2,054) siempre cuentan.
  • Los ceros a la izquierda (por ejemplo, 0,076) son solo marcadores de posición decimal.
  • Los ceros situados a la derecha del punto decimal (por ejemplo, 0,0540) son fundamentales, ya que indican que el instrumento fue capaz de medir esa posición.

El número «1500» es el ejemplo clásico de ambigüedad: ¿es una aproximación a la centena o una medida exacta en gramos? La notación científica resuelve el misterio: 1,5 × 10^(3) indica dos cifras significativas, mientras que 1,500 × 10^(3) indica cuatro. Aquí reside una reflexión profunda: la última cifra significativa siempre es incierta. Es el límite de nuestra visión, el punto en el que nuestra capacidad de observación se desvanece en la duda.

3. La paradoja de la resta: el «caso más desfavorable».

Uno de los conceptos más fascinantes y contraintuitivos es la propagación de errores. Imaginemos que pesamos una tetera colocando pesas en un platillo. Si la masa de la tetera se obtiene restando la masa del plato de la masa total, podrías pensar que los errores también se restan. Sin embargo, la ciencia es conservadora por necesidad.

En metrología, trabajamos bajo la filosofía del caso más desfavorable. Si la medida A presenta un error por exceso y la medida B, por defecto, al restarlas (A – B) el error total resultante no disminuye, sino que aumenta. Las incertidumbres nunca se anulan; siempre se acumulan.

  • En sumas y restas, las cotas de error absoluto se suman.
  • En multiplicaciones y divisiones, lo que sumamos son los errores relativos.

Cuando multiplicamos, no solo añadimos «milímetros» de duda, sino que también multiplicamos la incertidumbre de la proporción misma, lo que amplía el margen de error de nuestro mapa original.

4. La regla de oro: la estética del rigor.

La honestidad metrológica tiene una regla estética: el error absoluto generalmente se expresa con una sola cifra significativa. No tiene sentido decir que una montaña mide 2000,432 metros, con un error de 12,45 metros. La duda en las decenas anula cualquier certeza en los milímetros.

Sin embargo, existen dos excepciones en las que se permiten dos cifras significativas en el error:

  • Si la primera cifra es un 1.
  • Si la primera cifra es un 2 seguido de una cifra menor que 5 (es decir, hasta 24).

La regla del redondeo es estricta: se redondea por exceso en una unidad si la segunda cifra es 5 o superior. Finalmente, el valor y su error deben tener el mismo número de decimales.

Corrección de estilo metrológico

5. El criterio de dispersión: ¿cuándo es suficiente?

¿Cuántas mediciones necesitamos para que nuestra media sea fiable? Si solo realizamos una medición, el error dependerá directamente del instrumento.

  • En los instrumentos digitales, el error se expresa como la sensibilidad (S).
  • En los instrumentos analógicos, el error es la mitad de la sensibilidad (S/2).

Pero cuando la precisión es crítica, recurrimos a la estadística. A continuación, comento un criterio usado en algunas publicaciones, como la de Fernando Senent, aunque también se pueden consultar otros criterios en este otro documento. En cualquier caso, el proceso siempre comienza con 3 medidas iniciales para calcular el criterio de dispersión (T):

Para series largas (N ≥ 15), utilizamos el error cuadrático medio (ECM). Este cálculo parte de la suposición de que nuestros datos siguen una distribución gaussiana (la famosa campana de Gauss), según la cual el 68,3 % de las medidas se encontrarán dentro de un margen de error cuadrático medio respecto a la media. Es el reconocimiento matemático de que el azar tiene una estructura.

Conclusión: la honestidad de la incertidumbre.

La ciencia no es el dominio de las verdades absolutas, sino el territorio de la incertidumbre controlada. Aceptar el error, nombrarlo y calcularlo no es una debilidad, sino la máxima expresión de la integridad técnica. Al acotar lo que no sabemos, protegemos la validez de lo que sí sabemos.

¿Cómo cambiaría nuestra percepción del mundo si aceptáramos que cada «dato real» que consumimos, desde las estadísticas económicas hasta los resultados de un análisis clínico, viene acompañado de un margen de error invisible? Quizás dejaríamos de buscar certezas absolutas y empezaríamos a valorar la honestidad de la duda bien calculada.

En esta conversación puedes escuchar las ideas más interesantes de este artículo.

Aquí tienes un resumen en formato de vídeo sobre los aspectos clave de la medición.

Por último, creo que este resumen puede resultar de interés.

Medición_y_error_La_guía_maestra

Licencia de Creative Commons
Esta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.