Análisis de diseños experimentales con igual número de submuestras

Proponemos un algoritmo general de tres pasos para analizar los datos de cualquier diseño experimental con submuestreo en el que se haya tomado el mismo número de submuestras por unidad experimental. La explicación detallada de cómo se deriva el algoritmo así como ejemplos numéricos acompañados de programas en SAS, puede encontrarlos acá.

Diseño experimental y análisis de varianza[editar]

Un diseño experimental sirve para comparar las medias de dos o más tratamientos (niveles de factor) a través del análisis de varianza, propuesto por Ronald A. Fisher a principios del siglo XX, de los datos experimentales. Como se sabe, un experimento consiste en la manipulación intencional y controlada de una o más variables para evaluar su (supuesto) efecto en la variable dependiente (variable de respuesta). Dependiendo de las características del material experimental, el experimento puede hacerse en un diseño completamente aleatorizado (cuando el material experimental se supone sensiblemente homogéneo), en un diseño de bloques completos al azar (cuando se supone variación en una sola dirección), en diseño en cuadrados latinos (se asume que hay variación en dos direcciones); hay otras variantes de diseño experimental como el diseño grecolatino, parcelas divididas o anidado, bloques incompletos, bloques generalizados, entre otros. Esto es, un diseño experimental consiste en el arreglo físico de los diferentes niveles de factor cuando se realiza el experimento, según la variabilidad del material experimental; la partición de la variabilidad total contenida en los datos experimentales en la variabilidad atribuida a las diferentes fuentes (de variación) se realiza a través del análisis de varianza. Este análisis permite concluir, bajo el modelo de efectos fijos, si hay diferencias estadísticas o no entre las medias de los diferentes niveles tratamientos. La implicación de esta búsqueda es, entre otros ejemplos, encontrar la combinación de factores óptima que nos produce el material más resistente, hallar la mejor combinación de elementos que produce el mayor aumento de biomasa en seres vivos o el nivel de combinación de factores que eficientan un proceso, como la propagación in vitro de una especie de interés económico pero con dificultades para reproducirse en su medio natural.

Importancia de la aleatorización y del registro de datos[editar]

Cada uno de los diseños experimentales, que se seleccionan de acuerdo a las características del material experimental y de los objetivos que persigue el experimentador, entraña un modo especial de realizar la aleatorización de los tratamientos sobre las unidades experimentales (o parcelas); de hecho, la aleatorización funciona como una especie de “seguro", según escriben Cochran y Cox en su libro de diseños experimentales de la década de 1960, que es una “prevención contra accidentes” que pueden ocurrir o no, y que en caso de ocurrir, pueden traer consecuencias leves o graves. Con la aleatorización, buscamos protegernos, obviamente, ante los problemas graves con las estimación de los efectos que estudiamos y la comparación entre ellos. Por estas razones la aleatorización es un elemento relevante en la realización de un experimento.

Por otro lado, el correcto registro de datos (medición de las variables de respuesta) es crucial cuando se realiza un experimento. No importa qué tan bien se realice dicho experimento o qué diseño experimental tan "sofisticado" se utilice, si el registro de los datos no se hace correctamente, no se podrán esperar buenos resultados (estimaciones apropiadas); y en consecuencia, las predicciones que se obtengan a partir del análisis de datos erróneamente registrados, no serán de utilidad. Por lo tanto, además de seleccionar el diseño adecuado y de planear y realizar cuidadosamente el experimento, se recomienda un máximo cuidado en el registro de los datos, para que éstos reflejen el comportamiento del fenómeno bajo estudio.

Diseños estándar y diseños con submuestreo[editar]

Un diseño experimental se considera estándar si en cada unidad experimental se toma sólo una observación al azar; en cambio, si se toma más de una observación por unidad experimental se tendrá un diseño experimental con submuestreo. El análisis de los datos de los diseños completamente al azar y bloques completos aleatorizados con submuestreo es relativamente fácil, puesto que los pasos y las fórmulas para dicho análisis se encuentran directamente en los libros de diseños conocidos como el de Steel y Torrie (1985) o el de Martínez Garza (1988). En cambio, el análisis de un diseño experimental con submuestreo que no sea el de los dos diseños mencionados resulta, cuando menos, ambiguo, puesto que no aparecen en los libros, de manera explícita, los pasos a seguir y las fórmulas correspondientes. Se deja a que el lector lo deduzca del análisis para los diseños más elementales, lo que no resulta sencillo.

En estas líneas se describe un algoritmo que en solo tres pasos permite realizar el análisis para cualquier diseño experimental con submuestreo balanceado (mismo número de submuestras en cada unidad experimental). Esto es, se hace la extensión del análisis con submuestreo de los diseños básicos (el completamente aleatorizado y el de bloques) que aparece en la literatura, a cualquier otro diseño experimental.

En la siguiente sección se comenta brevemente el razonamiento del algoritmo y de la forma como se desarrolló y comprobó. Los detalles algebraicos pueden encontrarse en Zamudio y Alvarado (1996), donde también se presentan algunos ejemplos numéricos y los correspondientes códigos en SAS para resolverlos. En la primera etapa del algoritmo, se utilizan los valores de las submuestras en cada unidad experimental para calcular la suma de cuadrados de las unidades experimentales, la suma de cuadrados muestral y la suma de cuadrados total (Ver Paso 1 del algoritmo). En la segunda etapa, se particiona (o desagrega) la suma de cuadrados de las unidades (calculada en el primer paso) en las correspondientes sumas de cuadrados del diseño experimental utilizado; para esta partición, el valor de la suma de todas las submuestras de una unidad experimental dividido entre la raíz cuadrada del número de submuestras, es el dato que se utiliza para calcular las sumas de cuadrados, utilizando las fórmulas para el diseño experimental correspondiente. Debe tenerse en cuenta que la suma de cuadrados "total" obtenida en este segundo paso corresponde, de hecho, a la suma de cuadrados de las unidades experimentales, la que aparece como parte de la suma de cuadrados total en la Ecuación (1).

Variabilidad total de los datos experimentales[editar]

La variabilidad total, SC(total), de los datos de cualquier diseño experimental puede ser expresada como:

(1) $SC_{total}=SC_{UE}+SC_{EM}$

La suma de cuadrados de las unidades experimentales, SC(UE), representa la variablidad de los datos que se presenta entre unidades experimentales. La suma de cuadrados del error de muestreo, SC(EM), refleja la variabilidad que hay en las unidades experimentales, es decir, la variabilidad entre observaciones tomadas en la misma unidad experimental. Acá hay un detalle importante de aclarar: la ecuación es válida tanto si el diseño experimental es con submuestras o es estándar. Sin embargo, cuando el experimento es estándar (es decir, no se toman varias muestras en las unidades experimentales), la SC(EM) toma el valor de cero puesto que no es posible estimar la variabilidad en la unidad experimental en tanto que sólo ha sido tomada una observación al azar.

A la ecuación (1) le llamaremos identidad general de las sumas de cuadrados y al modelo lineal que representa esta idea general lo nombraremos diseño de las unidades experimentales, que se escribe como sigue:

(2) $Y_{ij}=u+u_{i}+E_{ij}$

donde $Y_{ij}$ representa la j-ésima observación tomada al azar de la i-ésima unidad experimental, $u$ denota la media general, $u_{i}$ representa a la i-ésima unidad experimental y $E_{ij}$ el ij-ésimo error aleatorio que representa la variabilidad de observaciones dentro de unidades, esto es, $E_{ij}$ es el error de muestreo. Se consideran n unidades experimentales -o parcelas - y r submuestras en cada una. En total, hay r n observaciones.

Algoritmo para analizar diseños experimentales con submuestreo[editar]

Pensemos en una situación en que hay el mismo número de submuestras por unidad experimental; los casos con diferente número de submuestras no se incluye, lo cual sería un punto interesante de desarrollar. El algoritmo presentado acá es válido para cualquier diseño experimental con el mismo número de submuestras.

Suponer que en un experimento balanceado con n unidades experimentales se toman r submuestras por unidad experimental. El modelo lineal de este diseño, al que llamaremos diseño de las unidades experimentales está representado por la ecuación 2. Es importante remarcar que el diseño de las unidades experimentales es sólo una forma de conceptualizar cualquier diseño experimental. No es una forma de disponer físicamente las unidades experimentales en la práctica sino una estrategia que nos permite hacer comparables, en cuanto a su análisis, diseños experimentales diferentes. Enseguida los tres pasos del algoritmo:

PASO 1. Se ajusta un modelo basado en las unidades experimentales, calculando la suma de cuadrados total, SCT; la suma de cuadrados de las unidades experimentales, SC(UE); y la suma de cuadrados del error muestreo, SC(EM). En este paso se usan los datos originales, las Yij. Recordemos que Yij es j-ésima observación de la i-ésima unidad experimental, con i=1, 2,..., n y j=1, 2,..., r; se tienen rn observaciones en total.

En este Paso 1, se emplean las siguientes fórmulas:

La suma de cuadrados total está dada por:

SCT=\sum _{i=1}^{n}\sum _{j=1}^{r}Y_{ij}^{2}-{\frac {\left(\sum _{i=1}^{n}\sum _{j=1}^{r}Y_{ij}\right)^{2}}{rn}}

La suma de cuadrados de las unidades experimentales, que define la variabilidad entre unidades experimentales, está dada por:

SC(UE)={\frac {\sum _{i=1}^{n}Y_{i.}^{2}}{r}}-{\frac {\left(\sum _{i=1}^{n}\sum _{j=1}^{r}Y_{ij}\right)^{2}}{rn}}

La suma de cuadrados del error muestral, que define la variabilidad de observaciones dentro unidades experimentales, está dada por:

SC(EM)=\sum _{i=1}^{n}\left(\sum _{j=1}^{r}Y_{ij}^{2}-{\frac {Y_{i}.^{2}}{r}}\right)

En estas fórmulas, $Y_{i.}$ representa el total de la i-ésima unidad experimental y $Y_{..}$ es el gran total obtenido de sumar todas las observaciones de todas las unidades experimentales.

PASO 2. Ahora se ajusta un modelo usando una variable-respuesta Nueva que denotaremos como $Y_{Nueva}$ . La $Y_{Nueva}$ se calcula así: (el total obtenido de sumar las submuestras de una unidad experimental) se divide entre (la raíz cuadrada del número de esas submuestras). Esta operación se hace en cada una de las unidades experimentales. Esto es, la $Y_{Nueva}$ está dada por:

$Y_{Nueva}={\frac {\sum _{j=1}^{r}Y_{ij}}{\sqrt {r}}}$

Nota: Observe que las $rn$ observaciones $Y_{ij}$ originales se convierten ahora en sólo n $Y_{Nueva}$ , una que corresponde a cada unidad experimental.

¿Qué se hace con la nueva variable respuesta, $Y_{Nueva}$ ?

Con $Y_{Nueva}$ se ajusta el modelo que corresponde al diseño experimental en que obtuvo los datos. Esto es, si los datos provienen de un diseño completamente aleatorizado, se calculan las sumas de cuadrados de tratamientos, del error y del "total", con la $Y_{Nueva}$ . Si los datos provienen de un diseño de bloques completos al azar, se requiere calcular las Sumas de cuadrados de bloques (SCbloq), Suma de cuadrados de tratamiento y Suma de cuadrados del Error; si los datos provienen de un diseño de cuadrado latino, se calculan las sumas de cuadrados de hileras, columnas, error y "total", y así en seguida. Estos cálculos deben hacerse considerando a $Y_{Nueva}$ como si fuera la observación "registrada" en las unidades experimentales.

Esta operación permite particionar las SC(UE) obtenida en el Paso 1, en las sumas de cuadrados de las fuentes correspondientes al diseño experimental particular de donde se tomaron los datos.

Es conveniente observar que las sumas de cuadrados "total" obtenidas con la $Y_{Nueva}$ en este Paso 2, corresponderán a la SC(UE) obtenida en el Paso 1.

PASO 3. Para obtener el Análisis de Varianza (ANOVA) del diseño experimental con submuestreo, se combinan las sumas de cuadrados de los pasos 1 y 2 en una nueva tabla. Del Paso 2, se toman las Sumas de Cuadrados correspondientes al diseño particular; observe que la Suma de Cuadrados Total calculada en el paso 2, coincide con las SC(UE) calculada en el paso 1. Del Paso 1, se toman la Suma de Cuadrados del Error Muestral (SC(EM)) y la Suma de Cuadrados Total. Para hacer las pruebas de hipótesis sobre las fuentes de variación del diseño particular (esto es. tratamientos, bloques, filas, etc), se usará como denominador el cuadrado medio del error experimental obtenida en el Paso 2. Para hacer la prueba de hipótesis sobre el error experimental, se usará como denominado el Error de muestreo obtenido en el Paso 1.

Referencias[editar]

Bibliografía[editar]

Cochran y Cox. (1974). Diseños experimentales. México: Trillas.
Martínez-Garza, A. (1988). Diseños experimentales: métodos y elementos de teoría. México: Trillas.
Searle, S. R. (1990). Matrix Algebra useful for statistics.USA: John Wiley and Sons.
Snedecor, G. and W. Cochran. (1967). Statistical methods. Sixth edition. Ames, USA: Iowa State University.
Steel, R. y J. Torrie. (1988). Bioestadística: principios y procedimientos. 2.ª edición. México: McGrawHill.
Zamudio-S., F. J. y Alvarado-S., A. A. (1996). Análisis de diseños experimentales con igual número de submuestras. México: Universidad Autónoma Chapingo. 83 p.

Enlaces externos[editar]

Datos: Q5688178