Clasificación y principios fundamentales del diseño experimental

Cuando pensamos en un experimento, solemos imaginar una prueba simple para ver qué opción es “mejor”. Sin embargo, esta visión apenas roza la superficie de una disciplina profunda y estratégica. Existen principios sorprendentes que rigen el diseño experimental y son cruciales no solo para la ciencia, sino también para cualquier toma de decisiones informada. A continuación, se describen brevemente los tipos de experimentos que pueden utilizarse en la investigación científica.

El diseño experimental se clasifica en dos categorías principales, según la propuesta de Anscombe (1947): el experimento absoluto y el experimento comparativo. El experimento absoluto se enfoca en la medición de propiedades físicas constantes para ampliar el conocimiento científico, utilizando un modelo estadístico de efectos aleatorios (Modelo II de Eisenhart), ya que los tratamientos se seleccionan al azar de una población más amplia. Por el contrario, el experimento comparativo está orientado a la toma de decisiones en ciencias aplicadas, con el fin de determinar cuál de varios tratamientos predefinidos es “mejor”. Este enfoque utiliza un modelo de efectos fijos (Modelo I de Eisenhart) y exige una definición precisa del problema para garantizar su validez.

El éxito de un experimento, especialmente el comparativo, depende del cumplimiento de cinco principios fundamentales: simplicidad, nivel de precisión adecuado, ausencia de error sistemático, amplio rango de validez de las conclusiones y una correcta cuantificación de la incertidumbre. La elección del diseño y el modelo estadístico asociado (fijo, aleatorio o mixto) determinan directamente el alcance y la naturaleza de las inferencias que pueden extraerse, vinculando de manera inseparable la planificación experimental con las conclusiones científicas y las decisiones de gestión.

La clasificación propuesta por Anscombe distingue los experimentos en dos grandes tipos según su objetivo fundamental: la adquisición de conocimiento puro o la fundamentación de decisiones prácticas.

Uno de ellos es el llamado experimento absoluto. En este tipo de experimento, el interés principal es medir y conocer las propiedades físicas de una población. Se asume que dichas propiedades permanecen constantes, lo que justifica el uso del término absoluto. El objetivo no es comparar alternativas concretas, sino ampliar el conocimiento científico sobre el fenómeno estudiado.

Los experimentos absolutos suelen centrarse en un solo factor y consideran un número limitado de tratamientos o niveles de ese factor. Estos tratamientos suelen elegirse de forma aleatoria. Por esta razón, si el experimento se repite, no es obligatorio utilizar exactamente los mismos tratamientos en cada ocasión.

Debido a esta forma de selección, los tratamientos se consideran variables aleatoriasEn consecuencia, el análisis se basa en un modelo de efectos aleatorios, también conocido como el Modelo II de Eisenhart (1947). Este tipo de modelo permite identificar y estimar los distintos componentes de la variación aleatoria presentes en una población compuesta, lo que constituye un enfoque especialmente útil para muchos problemas de ingeniería.

El experimento comparativo es el segundo tipo de experimento descrito por Anscombe. Este enfoque se utiliza cuando se analizan varios tratamientos y se observa que, aunque los valores absolutos de los resultados pueden fluctuar de forma irregular, las comparaciones relativas entre tratamientos suelen mantenerse estables. En este contexto, es posible concluir que, bajo condiciones similares, algunos tratamientos ofrecen resultados claramente mejores que otros.

Brownlee (1957) sitúa este tipo de experimentos en el ámbito de las ciencias aplicadas, y no es casualidad: la teoría estadística del diseño de experimentos se desarrolló originalmente para responder a las necesidades de este tipo de estudios.

En un experimento comparativo, los tratamientos se evalúan según su efecto promedio sobre una variable de respuesta, con el objetivo principal de determinar cuál es “mejor” según un criterio definido. A diferencia de los experimentos orientados al conocimiento fundamental, aquí el propósito central es apoyar la toma de decisiones prácticas, especialmente las administrativas o de gestión.

Una característica fundamental de los experimentos comparativos es que todos los tratamientos de interés están incluidos explícitamente en el estudio. Por esta razón, el análisis se basa en un modelo de efectos fijos, también conocido como el Modelo I de Eisenhart (1947). Si el experimento se repite, se utilizan exactamente los mismos tratamientos, ya que no se considera una muestra aleatoria. El interés principal radica en detectar y estimar relaciones constantes entre las medias de los tratamientos, lo que conduce naturalmente a la evaluación de hipótesis estadísticas sobre dichas medias.

Para que un experimento comparativo sea válido, debe comenzar con una definición clara y precisa del problema. No basta con plantear de manera general la idea de “comparar tratamientos”. Es imprescindible especificar con detalle los objetivos del estudio y formular con precisión las hipótesis que se probarán. Esta definición inicial determina la población a la que se aplicarán las conclusiones, identifica los factores, los tratamientos y sus niveles, establece las variables de respuesta que se medirán y define qué diferencias entre tratamientos se consideran relevantes. Sin estas especificaciones, no es posible diseñar un experimento adecuado.

Finalmente, una consecuencia natural de los experimentos comparativos es que casi siempre conducen a decisiones concretas. Dado un nivel suficiente de recursos, la hipótesis nula de igualdad entre tratamientos puede rechazarse, lo que obliga a actuar: mantener la situación actual o cambiar a un nuevo tratamiento. Este proceso de decisión consta de dos etapas bien definidas:

  1. Análisis estadístico de los datos, en el que se evalúan las probabilidades asociadas a los resultados y se extraen conclusiones técnicas.
  2. Decisión de gestión en la que, con base en esas conclusiones, se define la acción a realizar.

Esta conexión directa entre el análisis estadístico y la toma de decisiones explica por qué los experimentos comparativos son una herramienta central en la divulgación y la práctica de la ingeniería y de las ciencias aplicadas.

El estadístico cumple un rol clave en el proceso experimental: su responsabilidad es presentar, con la mayor precisión posible, las probabilidades obtenidas en la etapa de análisis, de manera que se reduzca al mínimo la posibilidad de tomar decisiones equivocadas cuando llegue el momento de actuar.

Dado que las decisiones sobre las hipótesis dependen directamente de experimentos cuidadosamente planificados, es esencial que dichos ensayos cumplan con una serie de principios básicos. A continuación se resumen los más importantes, con un enfoque práctico para la ingeniería:

  • Simplicidad: Tanto la selección de los tratamientos como la organización del experimento deben ser lo más simples posible. Un diseño sencillo facilita el análisis estadístico y la interpretación de los resultados y reduce el riesgo de errores innecesarios.
  • Nivel de precisión: El experimento debe permitir detectar diferencias entre tratamientos con el grado de precisión que el investigador considere relevante. Para lograrlo, se requiere un diseño experimental adecuado y un número suficiente de repeticiones que garanticen mediciones confiables.
  • Ausencia de error sistemático: El experimento debe planearse de modo que las unidades experimentales que reciben distintos tratamientos no difieran sistemáticamente entre sí antes de aplicarlos. Este cuidado es fundamental para obtener estimaciones insesgadas del efecto real de cada tratamiento, evitando que factores externos distorsionen los resultados.
  • Rango de validez de las conclusiones: Las conclusiones del experimento deben ser aplicables a un rango de situaciones lo más amplio posible. Los experimentos replicados y los diseños factoriales ayudan a ampliar este rango de validez, ya que permiten evaluar la consistencia de los resultados bajo diferentes condiciones.
  • Cuantificación de la incertidumbre: Todo experimento conlleva cierto grado de incertidumbre. Por ello, el diseño debe permitir calcular la probabilidad de que los resultados observados se deban únicamente al azar. Esta cuantificación es esencial para evaluar la solidez de las conclusiones.

Estos principios conducen a una clasificación clásica de los modelos estadísticos, propuesta por Eisenhart (1947), que conecta el diseño del experimento con el tipo de inferencia que se desea realizar:

  • Modelo de efectos fijos: se utiliza cuando las conclusiones se formulan sobre un conjunto específico y previamente definido de tratamientos. En este caso, el interés estadístico se centra en comparar los efectos medios de dichos tratamientos.
  • Modelo de efectos aleatorios: se aplica cuando los tratamientos evaluados representan una muestra aleatoria de una población más amplia de tratamientos. Aquí, las conclusiones se extienden más allá de los tratamientos observados y la inferencia se centra en las varianzas asociadas a dichos tratamientos.
  • Modelo de efectos mixtos: surge cuando el experimento combina tratamientos de efectos fijos y aleatorios en un mismo estudio.

Esta clasificación permite comprender cómo las decisiones sobre el diseño experimental influyen directamente en el tipo de conclusiones que pueden extraerse, un aspecto fundamental tanto en la práctica como en la divulgación de la ingeniería.

En este archivo de audio puedes escuchar una conversación sobre los tipos de experimentos.

En este vídeo se resumen las ideas más importantes sobre este tema.

Referencias:

Anscombe, F. J. (1947). The validity of comparative experiments. Journal of the Royal Statistical Society, 61, 181–211.

Brownlee, K. A. (1957). The principles of experimental design. Industrial Quality Control, 13, 1–9.

Eisenhart, C. (1947). The assumptions underlying the analysis of variance. Biometrics, 3, 1–21.

Melo, O. O., López, L. A., & Melo, S. E. (2007). Diseño de experimentos: métodos y aplicaciones. Universidad Nacional de Colombia. Facultad de Ciencias.

Licencia de Creative Commons
Esta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.

Potencia de un test estadístico: Cómo evitar que nos la cuelen

https://neuromarketing.la/2018/12/riesgo-percibido-en-las-compras-online/

En un artículo anterior, «Jerga, falacias y encuestas electorales: Las hipótesis en la investigación científica«, expliqué lo que es una hipótesis de investigación y los errores estadísticos asociados. En aquel artículo se habló del nivel de significación α como la probabilidad de rechazar una hipótesis nula cuando es cierta. Por cierto, como curiosidad hay que decir que se llama «hipótesis nula» porque es la afirmación de una «ausencia de efecto» o de «no diferencia».

Para simplificar, supongamos un test de embarazo. En este caso, la hipótesis nula es no estar embarazada. Si el test da positivo, no estando embarazada, a este error se le denomina Tipo I o falso positivo. Este error también ocurriría cuando se realiza una operación quirúrgica a un individuo sano, se condena a un inocente o se suspende a un alumno que ha estudiado mucho. También se suele llamar a esta error el RIESGO DEL FABRICANTE, pues es la probabilidad de que el comprador le rechace un lote de producto correcto.

Normalmente se acepta un umbral de α=0,05 , por debajo del cual se puede decir que existe una diferencia entre los resultados del estudio y la hipótesis nula, cuando realmente no hay ninguna diferencia. No obstante, dependiendo del tipo de test y su finalidad, los umbrales pueden ser diferentes a 0,05. Para simplificar la decisión, se utiliza el concepto de significación muestra de la hipótesis nula o «p-valor«, que es la probabilidad de que un resultado sea correcto bajo una hipótesis nula. Así, si el p-valor obtenido es inferior al nivel de significación exigido, se rechazará la hipótesis nula.

Sin embargo, en este artículo me interesa centrarme en un aspecto a veces olvidado, o al menos al que se le da menor importancia que al nivel de significación. Este aspecto es la potencia de un test estadístico, muy relacionado con los falsos negativos. Supongamos, por ejemplo, que a una mujer embarazada el test le dice que no lo está, que se declara inocente a un asesino, que no se opera a un enfermo con metástasis o que se aprueba a alumnos que no han estudiado. Está claro que aquí el test no ha tenido la potencia suficiente como para detectar que ha habido un efecto. Dicho de otra forma, la potencia estadística de un test debe distinguir la señal del ruido. El gran problema que planteamos es que deberíamos distinguir si realmente ha habido un efecto determinado o bien el test no ha sido capaz de detectarlo.

Para ello debemos definir el error Tipo II, β o falso negativo. Se trata del error cometido al aceptar la hipótesis nula cuando ésta no es cierta. Pues bien, la potencia de la prueba se define como 1-β. También se le llama RIESGO DEL COMPRADOR, pues indica la probabilidad de aceptar un lote defectuoso de un fabricante. ¿Qué porcentaje delincuentes voy a declarar culpables en un juicio? ¿Qué probabilidad es aceptable para decir que un fármaco realmente es útil para una enfermedad? Vemos que esos porcentajes, es decir, la potencia del test, puede ser variable. Aunque es habitual exigir entre un 80 y 90%.

El error Tipo I y Tipo II se encuentran relacionados. Si hay diferencias significativas, estos errores son bajos. https://es.wikipedia.org/wiki/Errores_de_tipo_I_y_de_tipo_II

Como podemos ver, no tiene la misma importancia un falso positivo que un falso negativo. Imaginemos una prueba que detecta contaminación letal en un alimento. No es lo mismo decir que el alimento está contaminado, cuando no lo está, que afirmar que no hay contaminación, cuando sí que la hay. El resultado final es que el falso negativo puede provocar muertes, mientra que el falso positivo no.

Pues bien, en una prueba estadística, el nivel de significación, la potencia y el tamaño muestral, se encuentran relacionados. La única forma de bajar los falsos positivos y falsos negativos es aumentar el tamaño muestral. No obstante, como la potencia de la prueba trata de distinguir el efecto del ruido, también se podría incrementar dicha potencia utilizando muestras lo más homogéneas posibles (disminuyendo su variabilidad), utilizando instrumentos de medida muy fiables o utilizando contrastes concretos, entre otros.

Eso explica que, en el caso de los exámenes a nuestros estudiantes, una forma de reducir los suspensos a los alumnos que han estudiado y de suspender al máximo de número de estudiantes que no han estudiado, consiste en aumentar el número de preguntas. Además, deberíamos diseñar el examen de forma que las preguntas permitan distinguir claramente si se conoce o no un concepto.

Os paso algunos vídeos que explican estos conceptos de potencia de una prueba. Espero que os sean útiles.

A continuación os resuelvo un pequeño problema con MINITAB al respecto. Se quiere saber qué tamaño de muestra deberemos elegir para detectar diferencias respecto a la media mayor de 2 MPa un 80% de las veces, suponiendo un nivel de confianza del 95%. Suponemos conocida la desviación típica, que es de 3 MPa.

Pincha aquí para descargar

Licencia de Creative Commons
Esta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.

Jerga, falacias y encuestas electorales: Las hipótesis en la investigación científica

Muchas veces la jerga que utilizan determinados colectivos o profesiones confunden al común de los mortales. La creación de un lenguaje jergal propio es habitual en todo grupo humano muy cerrado, con contacto estrecho y prolongado entre sus integrantes, y con una separación muy nítidamente marcada entre “dentro” y “fuera”. Un ejemplo es la jerga médica, donde la precisión necesaria para describir una enfermedad requiere de una traducción simultánea al enfermo. Otras veces existen consultores que, escudándose en neologismos, tecnicismos o anglicismos, venden mejor sus ideas o productos. No menos confuso es el lenguaje estadístico, sobre todo cuando se trata de encuestas electorales. Este lenguaje confuso, y en numerosas ocasiones deliberadamente difícil de entender, oculta ideas o conceptos sencillos. Este es el caso de las hipótesis en la investigación científica y las pruebas de hipótesis empleadas en la estadística.

Todos esperamos de un jurado que declare culpable o inocente a un acusado. Sin embargo, esto no es tan sencillo. El acusado es inocente hasta que no se demuestre lo contrario, pero el dictamen final solo puede decir que no existen pruebas suficientes para declarar que el acusado sea culpable, lo cual no es equivalente a la inocencia. Además, es fácil intuir que el jurado no es infalible. Puede equivocarse culpando a un inocente y también absolviendo a un culpable. Lo mismo ocurre con un test de embarazo o de alcoholemia, puede dar un falso positivo o un falso negativo. ¿Qué significa que una encuesta afirma que el partido “A” va a ganar las elecciones? De esto trata una prueba de hipótesis, pero vayamos por partes.

B-DERsTIQAAgORN

Una hipótesis puede definirse como una explicación tentativa de un fenómeno investigado que se enuncia como una proposición o afirmación. A veces las hipótesis no son verdaderas, e incluso pueden no llegar a comprobarse. Pueden ser más o menos generales o precisas, y abarcar dos o más variables, pero lo que es común a toda hipótesis, es que necesita una comprobación empírica, es decir, se debe verificar con la realidad. Pero ahora viene el problema: ¿en cuántos casos necesitamos para verificar una hipótesis? Siempre quedará la duda de que el caso siguiente negará lo planteado en la hipótesis. Por tanto, nos encontramos ante un método inductivo donde el reto será generalizar una proposición partiendo de un conjunto de datos, que denominaremos muestra.

Este tipo de hipótesis son, en realidad, hipótesis de investigación o de trabajo. Pueden ser varias, y suelen denominarse como H1, H2, …, Hi. Se trata de proposiciones tentativas que pueden clasificarse en varios tipos:

a) Descriptivas de un valor o dato pronosticado

b) Correlacionales

c) De diferencia de grupos

d) Causales.

En estadística, se llaman hipótesis nulas aquellas que niegan o refutan la relación entre variables, denominándose como H0. Estas hipótesis sirven para refutar o negar lo que afirma la hipótesis de investigación. Por ejemplo, si lo que quiero comprobar es la relación existente entre la relación agua/cemento con la resistencia a compresión a 28 días de una probeta de hormigón, entonces la hipótesis nula es que no existe una relación entre ambas variables. La idea es demostrar mediante una muestra que no existen pruebas suficientemente significativas para rechazar la hipótesis nula que indica que no existe relación entre dichas variables. Sin embargo, en un lenguaje menos formal, lo que realmente queremos es verificar que existe dicha relación. Sin embargo, también existen hipótesis alternativas, que son posibilidades diferentes de las hipótesis de investigación y nula. Así, si nuestra hipótesis de investigación establece que “esta silla es roja”, la hipótesis nula es “esta silla no es roja”, pero las hipótesis alternativas pueden ser: “esta silla es verde”, “esta silla es azul”, etc. Realmente, la hipótesis alternativas no son más que otras hipótesis de investigación. Curiosamente, en investigación no hay una regla fija para la formulación de hipótesis. Hay veces que solo se incluye la hipótesis de investigación, en otras ocasiones se incluye la hipótesis nula y, en otras, también las alternativas.

Pero, ¿se puede afirmar que un partido va a ganar las elecciones según una encuesta?, o dicho de otro modo, ¿se puede probar que una hipótesis es, con toda rotundidad, verdadera o falsa? Desgraciadamente, no se puede realizar dicha afirmación. Lo único que se puede hacer es argumentar, a la vista de unos datos empíricos obtenidos de una investigación particular, que tenemos evidencias para apoyar a favor o en contra una hipótesis. Cuantas más investigaciones, más credibilidad tendrá, y ello solo será válido para el contexto en que se comprobó. De ahí la importancia de elegir una muestra que sea suficientemente representativa de la población total. Por tanto, solo podemos argumentar la validez de las hipótesis desde el punto de vista estadístico. Las pruebas de hipótesis sirven para este cometido.

A continuación os dejo una figura donde se describe, de forma muy resumida, lo que es una prueba de hipótesis. Me gustaría que os fijaseis en que en toda prueba de hipótesis existen dos tipos de errores, el falso positivo (mandar a un inocente a la cárcel) y el falso negativo (exculpar a un culpable). Estos errores deberían ser lo más bajos posibles, pero a veces no es sencillo. Para que ambos errores bajen de forma simultánea, no hay más remedio que aumentar el tamaño de la muestra. Por este motivo, para hacer un examen lo más justo posible, este debería aprobar a los que han estudiado y suspender a los que no. Lo mejor es que el número de preguntas sea lo más alto posible.

Por tanto, ojo cuando el titular de un periódico nos ofrezca una previsión electoral. Hay que mirar bien cómo se ha hecho la encuesta y, lo más importante, saber interpretar los resultados desde el punto de vista estadístico.

Test de hipótesis

Referencias:

Hernández, R.; Fernández, C.; Baptista, P. (2014). Metodología de la investigación. Sexta edición, McGraw-Hill Education, México.