Análisis de diseños experimentales con igual número de submuestras

Describimos un algoritmo general que, en sólo tres pasos, permite analizar los datos de cualquier diseño experimental con submuestreo en el que se haya tomado el mismo número de submuestras por unidad experimental.

Diseño experimental y análisis de varianza

Un diseño experimental sirve para comparar las medias de dos o más tratamientos (niveles de factor) a través del análisis de varianza, propuesto por Ronald A. Fisher a principios del Siglo XX, de los datos experimentales. Como se sabe, un experimento consiste en la manipulación intencional y controlada de una o más variables para evaluar su (supuesto) efecto en la variable dependiente (variable-respuesta). Dependiendo de las características del material experimental, el experimento puede hacerse en un diseño completamente aleatorizado (cuando el material experimental se supone sensiblemente homogéneo), en un diseño de bloques completos al azar (cuando se supone variación en una dirección), en diseño en cuadrados latinos (se asume que hay variación en dos direcciones); hay otras variantes de diseño experimental como el diseño grecolatino, parcelas divididas o anidado, bloques incompletos, bloques generalizados, entre otros. En otros términos, el diseño experimental involucra el arreglo físico de los diferentes niveles de factor cuando se realiza el experimento, según la variabilidad del material experimental; la partición de la variabilidad contenida en los datos experimentales en la variabilidad atribuida a las diferentes fuentes (de variación) se realiza a través del análisis de varianza. Este análisis permite concluir si hay diferencias o no entre las medias de los diferentes niveles de factor (los tratamientos). La implicación de esta búsqueda es, entre otros ejemplos, encontrar la combinación de factores óptima que nos produce el material más resistente, hallar la mejor combinación de elementos que produce el mayor aumento de biomasa en seres vivos o el nivel de combinación de factores que eficientan un proceso.

Importancia de la aleatorización y del registro de datos

Cada uno de los diseños experimentales, que se seleccionan de acuerdo a las características del material experimental y de los objetivos que persigue el experimentador, entraña un modo especial de realizar la aleatorización de los tratamientos sobre las unidades experimentales (o parcelas); de hecho, la aleatorización funciona como una especie de “seguro", según escriben Cochran y Cox en su libro de diseños experimentales de la década de los sesenta, que es una “prevención contra accidentes” que pueden ocurrir o no, y que en caso de ocurrir, pueden traer consecuencias graves o leves. Con la aleatorización, buscamos protegernos, obviamente, ante problemas graves. La aleatorización es una de las esencias en la realización de un experimento.

Por otro lado, el correcto registro de datos (medición de las variables respuesta) es crucial en la realización de un experimento. No importa qué tan bien se realice el experimento o qué diseño experimental tan "sofisticado" se utilice, si el registro de los datos no se hace correctamente, no se podrán esperar buenos resultados; y las predicciones que se obtengan a partir del análisis de datos incorrectos, no serán de utilidad. Por lo tanto, además de seleccionar el diseño adecuado y de planear y realizar cuidadosamente el experimento, se recomienda un máximo cuidado en el registro de los datos, para que éstos reflejen el comportamiento del fenómeno bajo estudio.

Diseños estándar y diseños con submuestreo

Un diseño experimental se considera estándar si en cada unidad experimental se toma sólo una observación al azar; en cambio, si se toma más de una observación por unidad experimental se tendrá un diseño experimental con submuestreo. Realizar el análisis de los diseños completamente al azar y bloques completos aleatorizados con submuestreo es relativamente fácil, puesto que los pasos y las fórmulas para dicho análisis se encuentran directamente en los libros de diseños conocidos como el de Steel y Torrie (1985) o el de Martínez Garza (1988). En cambio, el análisis de un diseño experimental con submuestreo que no sea el de los dos diseños mencionados resulta, cuando menos, ambiguo, puesto que no aparece explícitamente la metodología en la literatura conocida.

En estas notas se describe un algoritmo que en solo tres pasos permite realizar el análisis para cualquier diseño experimental con submuestreo balanceado (mismo número de submuestras en cada unidad experimental). Esto es, se hace la extensión del análisis con submuestreo de los diseños básicos (el completamente aleatorizado (o de un factor) y el de bloques) que aparece en la literatura, a cualquier otro diseño experimental.

En la siguiente sección se comenta brevemente el razonamiento del algoritmo y de la forma como se desarrolló y comprobó. Los detalles algebraicos y algunos ejemplos numéricos pueden leerse en Zamudio-Sánchez y Alvarado-Segura (1996). En la primera etapa del algoritmo, lo único que importa es el valor de la submuestra y la unidad experimental en la cual se registró. En la segunda etapa, se particiona (o desagrega) la suma de cuadrados de las unidades en las correspondientes sumas de cuadrados del diseño experimental utilizado; para esta partición, el valor de la suma de todas las submuestras de una unidad experimental dividido entre la raíz cuadrada del número de submuestras, es el dato que se utiliza para calcular las sumas de cuadrados, utilizando las fórmulas para el diseño experimental correspondiente. Debe tenerse en cuenta que la suma de cuadrados "total" obtenida en este segundo paso es, de hecho, la suma de cuadrados de las unidades experimentales, la que aparece como parte de la suma de cuadrados total en la Ecuación 1.

Variabilidad total de los datos experimentales

La variabilidad total, SC(total), de los datos de cualquier diseño experimental puede ser expresada como:

$SC(total)=SC(UE)+SC(EM)$ (Ecuación 1)

La suma de cuadrados de las unidades experimentales, SC(UE), representa la variablidad de los datos que se presenta entre unidades experimentales. La suma de cuadrados del error de muestreo, SC(EM), refleja la variabilidad que hay en las unidades experimentales, es decir, la variabilidad entre observaciones tomadas en la misma unidad experimental. Aquí hay un detalle importante de aclarar: la ecuación es válida tanto si el diseño experimental es con submuestras o es estándar, excepto que en este último caso, la SC(EM) adquiere el valor de cero puesto que no es posible medir la variabilidad en la unidad experimental en tanto que sólo ha sido tomada una observación al azar.

A la ecuación 1 le llamaremos identidad general de las sumas de cuadrados y al modelo lineal que representa esta idea general lo nombraremos diseño de las unidades experimentales, que se escribe como sigue:

$Y_{ij}=u+u_{i}+E_{ij}$ (Ecuación 2)

donde $Y_{ij}$ representa la j-ésima observación tomada al azar de la i-ésima unidad experimental, $u$ denota la media general, $u_{i}$ representa a la i-ésima unidad experimental y $E_{ij}$ el ij-ésimo error aleatorio que representa la variabilidad de observaciones dentro de unidades, esto es, $E_{ij}$ es el error de muestreo. Se consideran n unidades experimentales -o parcelas - y r submuestras en cada una. En total, hay r n observaciones.

Algoritmo para analizar diseños experimentales con submuestreo

En estas notas sólo se aborda el caso en el que hay el mismo número de submuestras por unidad experimental; los casos con diferente número de submuestras no se incluye, lo cual sería un punto interesante de desarrollar. El algoritmo presentado acá es válido para cualquier diseño experimental con el mismo número de submuestras.

Suponer que en un experimento balanceado con n unidades experimentales se toman r submuestras por unidad experimental. El modelo lineal de este diseño, al que llamaremos diseño de las unidades experimentales está representado por la ecuación 2. Es importante remarcar que el diseño de las unidades experimentales es sólo una forma de conceptualizar cualquier diseño experimental. No es una forma de disponer físicamente las unidades experimentales en la práctica sino una estrategia que nos permite hacer comparables, en cuanto a su análisis, diseños experimentales diferentes. Enseguida los tres pasos del algoritmo:

PASO 1. Se ajusta un modelo basado en las unidades experimentales, calculando la suma de cuadrados total, SCT; la suma de cuadrados de las unidades experimentales, SC(UE); y la suma de cuadrados del error muestreo, SC(EM). En este paso se usan los datos originales, las Yij. Recordemos que Yij es j-ésima observación de la i-ésima unidad experimental, con i=1, 2,..., n y j=1, 2,..., r; se tienen rn observaciones en total.

En este Paso 1, se emplean las siguientes fórmulas:

La suma de cuadrados total está dada por:

SCT=\sum _{i=1}^{n}\sum _{j=1}^{r}Y_{ij}^{2}-{\frac {\left(\sum _{i=1}^{n}\sum _{j=1}^{r}Y_{ij}\right)^{2}}{rn}}

La suma de cuadrados de la unidades experimentales, que define la variabilidad entre unidades experimentales, está dada por:

SC(UE)={\frac {\sum _{i=1}^{n}Y_{i.}^{2}}{r}}-{\frac {\left(\sum _{i=1}^{n}\sum _{j=1}^{r}Y_{ij}\right)^{2}}{rn}}

La suma de cuadrados del error muestral, que define la variabilidad de observaciones dentro unidades experimentales, está dada por:

SC(EM)=\sum _{i=1}^{n}\left(\sum _{j=1}^{r}Y_{ij}^{2}-{\frac {Y_{i}.^{2}}{r}}\right)

En estas fórmulas, $Y_{i.}$ representa el total de la i-ésima unidad experimental y $Y_{..}$ es el gran total obtenido de sumar todas las observaciones de todas las unidades experimentales.

PASO 2. Ahora se ajusta un modelo usando una variable-respuesta Nueva que denotaremos como $Y_{Nueva}$ . La $Y_{Nueva}$ se calcula así: (el total obtenido de sumar las submuestras de una unidad experimental) se divide entre (la raíz cuadrada del número de esas submuestras). Esta operación se hace en cada una de las unidades experimentales. Esto es, la $Y_{Nueva}$ está dada por:

$Y_{Nueva}={\frac {\sum _{j=1}^{r}Y_{ij}}{\sqrt {r}}}$

Nota: Observe que las $rn$ observaciones $Y_{ij}$ originales se convierten ahora en sólo n $Y_{Nueva}$ , una que corresponde a cada unidad experimental.

¿Qué se hace con la nueva variable respuesta, $Y_{Nueva}$ ?

Con $Y_{Nueva}$ se ajusta el modelo que corresponde al diseño experimental en que obtuvo los datos. Esto es, si los datos provienen de un diseño completamente aleatorizado, se calculan las sumas de cuadrados de tratamientos, del error y del "total", con la $Y_{Nueva}$ . Si los datos provienen de un diseño de bloques completos al azar, se requiere calcular las Sumas de cuadrados de bloques (SCbloq), Suma de cuadrados de tratamiento y Suma de cuadrados del Error; si los datos provienen de un diseño de cuadrado latino, se calculan las sumas de cuadrados de hileras, columnas, error y "total", y así en seguida. Estos cálculos deben hacerse considerando a $Y_{Nueva}$ como si fuera la observación "registrada" en las unidades experimentales.

Esta operación permite particionar las SC(UE) obtenida en el Paso 1, en las sumas de cuadrados de las fuentes correspondientes al diseño experimental particular de donde se tomaron los datos.

Es conveniente observar que las sumas de cuadrados "total" obtenidas con la $Y_{Nueva}$ en este Paso 2, corresponderán a la SC(UE) obtenida en el Paso 1.

PASO 3. Se combinan las sumas de cuadrados de los pasos 1 y 2 en una una nueva tabla y se tiene el Análisis de Varianza (ANOVA) del diseño experimental con submuestreo. Del Paso 2, se toman las Sumas de Cuadrados correspondientes al diseño particular; la Suma de Cuadrados Total del paso 2, debe coincidir con las SC(UE) del paso 1. De Paso 1, ha que tomar la Suma de Cuadrados del Error (es el error de muestreo) y la Suma de Cuadrados Total. Para hacer las pruebas de hipótesis sobre las fuentes de variación del diseño particular, se usará como denominador el cuadrado medio del error experimental obtenida en el Paso 2. Para hacer la prueba de hipótesis sobre el error experimental, se usará como denominado el Error de muestreo obtenido en el Paso 1.

Enlaces externos

Fuentes

Cochran y Cox. (1974). Diseños experimentales. México: Trillas.
Martínez-Garza, A. (1988). Diseños experimentales: métodos y elementos de teoría. México: Trillas.
Searle, S. R. (1990). Matrix Algebra useful for statistics.USA: John Wiley and Sons.
Snedecor, G. and W. Cochran. (1967). Statistical methods. Sixth edition. Ames, USA: Iowa State University.
Steel, R. y J. Torrie. (1988). Bioestadística: principios y procedimientos. 2.ª edición. México: McGrawHill.
Zamudio-Sánchez, F. J. y Alvarado-Segura A. A. (1996). Análisis de diseños experimentales con igual número de submuestras. México: Universidad Autónoma Chapingo. 83 p.