¿Por qué nada en la ciencia es exacto? Cómo entender y calcular el error experimental

Jorge Luis Borges imaginó una vez un imperio en el que el arte de la cartografía alcanzó tal perfección que el mapa de una sola provincia ocupaba toda una ciudad. Finalmente, los cartógrafos trazaron un mapa del imperio que tenía el mismo tamaño que este y coincidía punto por punto con él. Por supuesto, aquel mapa era inútil.

En ciencia sucede algo similar: medir no es replicar la realidad, sino crear un mapa de ella. Estamos obsesionados con la exactitud, pero en el laboratorio pronto aprendemos que la «medida exacta» es una quimera. Medir no consiste en capturar una verdad absoluta, sino en gestionar con elegancia la incertidumbre. Un dato sin su margen de error no es una medida, sino una simple expresión de deseos.

1. La ilusión de la exactitud: el error es inevitable.

En metrología, la humildad es una competencia técnica. Debemos aceptar que nuestros sentidos y nuestros instrumentos están limitados por definición. La teoría de los errores nos enseña que el «valor verdadero» es un ideal matemático al que solo podemos aproximarnos. El error no es una equivocación del científico, sino una propiedad inherente al acto de medir.

Existen dos fuerzas que distorsionan nuestro «mapa» de la realidad:

  • El error sistemático es un sesgo constante. Aparece cuando la metodología es inadecuada, los instrumentos están mal calibrados o los patrones de medición son dudosos. Se trata de un error predecible que desplaza todas nuestras mediciones en la misma dirección, alejándolas de la realidad.
  • El error accidental o aleatorio es el «ruido» del universo. Se debe al azar, a variaciones microscópicas y a factores incontrolables. Se manifiestan como pequeñas fluctuaciones al repetir una medición y, aunque no pueden eliminarse, la estadística es nuestra herramienta para controlarlas.

Para navegar por esta complejidad, distinguimos entre exactitud (cuán cerca está nuestra flecha del centro de la diana) y precisión (cuán cerca están las flechas entre sí, independientemente de dónde hayan caído).

«El error se define como la diferencia entre el valor verdadero y el obtenido experimentalmente».

2. El drama de los ceros: el límite de nuestro conocimiento.

En el lenguaje técnico, los números no solo indican cantidades, sino que también expresan confianza. No es lo mismo informar de un peso de «1,5 g» que de uno de «1,500 g». Las cifras significativas son los dígitos que realmente aportan información sobre la precisión de nuestra medición.

Para entenderlas, seguimos unas reglas claras:

  • Cualquier dígito distinto de cero es significativo.
  • Los ceros situados entre dígitos significativos (por ejemplo, 2,054) siempre cuentan.
  • Los ceros a la izquierda (por ejemplo, 0,076) son solo marcadores de posición decimal.
  • Los ceros situados a la derecha del punto decimal (por ejemplo, 0,0540) son fundamentales, ya que indican que el instrumento fue capaz de medir esa posición.

El número «1500» es el ejemplo clásico de ambigüedad: ¿es una aproximación a la centena o una medida exacta en gramos? La notación científica resuelve el misterio: 1,5 × 10^(3) indica dos cifras significativas, mientras que 1,500 × 10^(3) indica cuatro. Aquí reside una reflexión profunda: la última cifra significativa siempre es incierta. Es el límite de nuestra visión, el punto en el que nuestra capacidad de observación se desvanece en la duda.

3. La paradoja de la resta: el «caso más desfavorable».

Uno de los conceptos más fascinantes y contraintuitivos es la propagación de errores. Imaginemos que pesamos una tetera colocando pesas en un platillo. Si la masa de la tetera se obtiene restando la masa del plato de la masa total, podrías pensar que los errores también se restan. Sin embargo, la ciencia es conservadora por necesidad.

En metrología, trabajamos bajo la filosofía del caso más desfavorable. Si la medida A presenta un error por exceso y la medida B, por defecto, al restarlas (A – B) el error total resultante no disminuye, sino que aumenta. Las incertidumbres nunca se anulan; siempre se acumulan.

  • En sumas y restas, las cotas de error absoluto se suman.
  • En multiplicaciones y divisiones, lo que sumamos son los errores relativos.

Cuando multiplicamos, no solo añadimos «milímetros» de duda, sino que también multiplicamos la incertidumbre de la proporción misma, lo que amplía el margen de error de nuestro mapa original.

4. La regla de oro: la estética del rigor.

La honestidad metrológica tiene una regla estética: el error absoluto generalmente se expresa con una sola cifra significativa. No tiene sentido decir que una montaña mide 2000,432 metros, con un error de 12,45 metros. La duda en las decenas anula cualquier certeza en los milímetros.

Sin embargo, existen dos excepciones en las que se permiten dos cifras significativas en el error:

  • Si la primera cifra es un 1.
  • Si la primera cifra es un 2 seguido de una cifra menor que 5 (es decir, hasta 24).

La regla del redondeo es estricta: se redondea por exceso en una unidad si la segunda cifra es 5 o superior. Finalmente, el valor y su error deben tener el mismo número de decimales.

Corrección de estilo metrológico

5. El criterio de dispersión: ¿cuándo es suficiente?

¿Cuántas mediciones necesitamos para que nuestra media sea fiable? Si solo realizamos una medición, el error dependerá directamente del instrumento.

  • En los instrumentos digitales, el error se expresa como la sensibilidad (S).
  • En los instrumentos analógicos, el error es la mitad de la sensibilidad (S/2).

Pero cuando la precisión es crítica, recurrimos a la estadística. A continuación, comento un criterio usado en algunas publicaciones, como la de Fernando Senent, aunque también se pueden consultar otros criterios en este otro documento. En cualquier caso, el proceso siempre comienza con 3 medidas iniciales para calcular el criterio de dispersión (T):

Para series largas (N ≥ 15), utilizamos el error cuadrático medio (ECM). Este cálculo parte de la suposición de que nuestros datos siguen una distribución gaussiana (la famosa campana de Gauss), según la cual el 68,3 % de las medidas se encontrarán dentro de un margen de error cuadrático medio respecto a la media. Es el reconocimiento matemático de que el azar tiene una estructura.

Conclusión: la honestidad de la incertidumbre.

La ciencia no es el dominio de las verdades absolutas, sino el territorio de la incertidumbre controlada. Aceptar el error, nombrarlo y calcularlo no es una debilidad, sino la máxima expresión de la integridad técnica. Al acotar lo que no sabemos, protegemos la validez de lo que sí sabemos.

¿Cómo cambiaría nuestra percepción del mundo si aceptáramos que cada «dato real» que consumimos, desde las estadísticas económicas hasta los resultados de un análisis clínico, viene acompañado de un margen de error invisible? Quizás dejaríamos de buscar certezas absolutas y empezaríamos a valorar la honestidad de la duda bien calculada.

En esta conversación puedes escuchar las ideas más interesantes de este artículo.

Aquí tienes un resumen en formato de vídeo sobre los aspectos clave de la medición.

Por último, creo que este resumen puede resultar de interés.

Medición_y_error_La_guía_maestra

Licencia de Creative Commons
Esta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.

Análisis exploratorio de datos: El arte de descubrir regularidades y patrones ocultos

1. Introducción: ¿estás escuchando lo que tus datos te dicen?

Vivimos en un mundo saturado de información. Gráficos, porcentajes y hojas de cálculo nos rodean prometiendo respuestas. Sin embargo, a menudo nos quedamos en la superficie, sin saber cómo interpretar el verdadero mensaje que se esconde tras los números. ¿Qué pasaría si pudieras «escuchar» las historias que tus datos ansían contar?

Aquí es donde entra en juego el análisis exploratorio de datos (AED). Más que una ciencia rígida, es el arte de la investigación, un trabajo de detective que nos permite dialogar con la información. Se trata de buscar patrones, descubrir anomalías y formular preguntas sin la presión de obtener una respuesta definitiva.

En este artículo, descubriremos cuatro de las ideas más impactantes y, en ocasiones, contraintuitivas que revela este enfoque. Para ello, seguiremos un proceso de cuatro pasos para pensar como un detective de datos: primero, adoptaremos la mentalidad adecuada; segundo, conoceremos la «personalidad» de nuestros datos; tercero, aprenderemos a distinguir lo normal de lo anómalo, y, por último, descubriremos una ley casi mágica que hace posibles las predicciones.

2. El análisis es un diálogo informal, no un veredicto final.

A diferencia de la percepción popular de la estadística como un campo de verdades absolutas y reglas inflexibles, el análisis exploratorio de datos se basa en la exploración sin restricciones. Su objetivo principal no es emitir un juicio final e irrefutable, sino buscar regularidades interesantes y pistas que requieran una investigación más profunda.

Es crucial entender que las conclusiones extraídas en esta fase son informales y se aplican de manera muy específica. Como señala uno de sus principios fundamentales: «Las conclusiones solo se aplican a los individuos y a las circunstancias para las que se obtuvieron los datos». No se trata de generalizar a toda una población, sino de comprender en profundidad la muestra que tenemos delante.

Las conclusiones son informales y se basan en lo que vemos en los datos.

Esta idea resulta increíblemente liberadora. Nos permite ser curiosos, seguir nuestra intuición y buscar patrones sin la presión de «demostrar» formalmente una hipótesis desde el primer momento. Es el primer paso para alcanzar una comprensión genuina, un diálogo abierto con la información antes de emitir un veredicto. Con esta mentalidad, ya estamos listos para conocer a nuestro «sospechoso»: el conjunto de datos.

3. La «forma» de tus datos tiene personalidad propia.

Un conjunto de datos no es solo una lista de números, sino que tiene una forma visual que revela su carácter. Entender esta forma es uno de los primeros y más importantes pasos, ya que nos indica cómo se agrupan los valores y dónde se concentran. Los dos rasgos principales de esta personalidad son la asimetría y la curtosis.

La asimetría nos indica si los datos están sesgados y la relación entre la media, la mediana y la moda lo revela todo. En una distribución simétrica, los tres valores coinciden. Sin embargo, cuando hay asimetría, se separan. Imagina los salarios en una empresa: la mayoría de los empleados cobra un sueldo similar (la moda), pero el altísimo salario del director ejecutivo (un valor atípico) hace que la media se desplace hacia la derecha. La mediana, que es el valor central, se ve menos afectada. Por eso, en una distribución asimétrica a la derecha (positiva), la media es mayor que la mediana. Este sesgo indica la presencia de valores extremos.

Por otro lado, la curtosis describe hasta qué punto la distribución es «puntiaguda» o «plana». Una distribución leptocúrtica (muy puntiaguda) indica que hay muy poca variación y que la mayoría de los valores se asemejan mucho a la media. Esto puede ser bueno si fabricas tornillos y buscas consistencia, pero malo si analizas los retornos de una inversión, ya que podría indicar un riesgo oculto de un evento extremo. Una distribución platicúrtica (aplanada) indica una gran dispersión de los datos.

Ahora que conocemos la «personalidad» de nuestros datos, podemos utilizar una de las herramientas más comunes para entender su comportamiento: la distribución normal.

4. La regla 68-95-99,7: un atajo mental para entender la normalidad.

La distribución normal, también conocida como «curva de campana», es uno de los patrones más frecuentes en la naturaleza y en el análisis de datos. Desde la altura de las personas hasta los errores de medición, este patrón se repite una y otra vez. Para comprenderla rápidamente, existe una herramienta sumamente útil: la regla empírica 68-95-99,7.

Esta regla nos ofrece un atajo mental para saber cómo se distribuyen los datos alrededor de la media en una distribución normal (las cifras exactas son 68,3 %, 95,4 % y 99,7 %):

  • Aproximadamente el 68 % de los datos se encuentran a 1 desviación estándar de la media.
  • Aproximadamente el 95 % de los datos se encuentran a 2 desviaciones estándar de la media.
  • Aproximadamente el 99,7 % de los datos se encuentran a 3 desviaciones estándar de la media.
https://www.victormat.es/mcs1/Tema10-DistribucionBinomialYNormal/distribucin_normal_o_de_gauss.html
https://www.victormat.es/mcs1/Tema10-DistribucionBinomialYNormal/distribucin_normal_o_de_gauss.html

Esta regla es poderosa por su simplicidad. Sin necesidad de realizar cálculos complejos, nos permite estimar con rapidez dónde se encuentran la mayoría de los valores de nuestro conjunto de datos e identificar fácilmente aquellas observaciones que se alejan mucho de la media y, por tanto, podrían ser atípicas.

5. El teorema del límite central: el «milagro» estadístico que lo ordena todo.

Si hay una idea en estadística que parece casi mágica, esa es el teorema del límite central (TLC). Es uno de los conceptos más fundamentales y sorprendentes y la razón por la que podemos hacer inferencias fiables sobre una población entera a partir de una muestra.

La idea sorprendente es la siguiente: da igual lo extraña, sesgada o anormal que sea la distribución de una población original. Si se toman muestras suficientemente grandes de esa población y se calcula la media de cada una, la distribución de esas medias muestrales tiende a ser normal perfecta. Observe la imagen del Teorema del Límite Central en el documento de referencia. Da igual el punto de partida: una distribución uniforme y plana, como en la Población I; una distribución en forma de V, como en la Población II; o una distribución con un gran sesgo, como en la Población III. El resultado es el mismo. Al tomar muestras pequeñas (n = 2 o n = 5), las medias empiezan a agruparse en torno al centro. Cuando el tamaño de la muestra alcanza 30 (n = 30), las tres distribuciones de medias muestrales se asemejan prácticamente a una curva de campana perfecta.

Convergencia hacia la distribución normal de una suma de variables aleatorias independientes distribuidas binomialmente. https://es.wikipedia.org/wiki/Teorema_del_l%C3%ADmite_central

Este fenómeno es asombroso. Es como si un principio de orden universal actuara sobre el caos, lo que nos permite utilizar las propiedades de la distribución normal para hacer predicciones precisas, incluso cuando la fuente de nuestros datos es completamente anárquica. Este teorema es el pilar sobre el que se construye gran parte de la estadística inferencial.

6. Conclusión: de los datos a la sabiduría.

El análisis de datos es mucho más que aplicar fórmulas. Se trata de un proceso de descubrimiento que se apoya en herramientas conceptuales poderosas, accesibles y, a menudo, sorprendentes. Desde comprender que el análisis es una exploración informal hasta apreciar el «milagro» del Teorema del Límite Central, estos conceptos nos capacitan para ir más allá de los números y comenzar a extraer conocimiento real.

La próxima vez que te enfrentes a un conjunto de datos, no te limites a calcular promedios. Míralos con curiosidad, busca su forma, comprende su distribución y escucha atentamente.

¿Qué historia inesperada podrían contarte tus propios datos si te detuvieras a escucharlos?

En esta conversación se presentan las ideas más interesantes sobre este tema.

El siguiente vídeo resume bien la información sobre el análisis exploratorio de datos.

Licencia de Creative Commons
Esta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.