ESTADISTICA

PAGINA DISEÑADA POR GERMÁN CABALLERO PALMA
INSTITUTO TECNOLOGICO DE CHIHUAHUA II
UN AGRADECIMIENTO ESPECIAL PARA EL ARTURO QUE SIN SU COLABORACIÓN ESTO NO HUBIERA SIDO POSIBLE Experimentos con un solo factor:
Análisis de Variancia

En este capitulo se exponen métodos para el diseño y el análisis de experimentos con un solo factor o unifactoriales con a niveles de factor (o a tratamientos). Se supondrá que el experimento ha sido aleatorizado por completo.

3-1 UN EJEMPLO
Un ingeniero de desarrollo de productos esta interesado en maximizar la resistencia a la tensión de una nueva fibra sintética que se empleará en la manufactura de tela de camisas de hombre. El ingeniero sabe por experiencia que la resistencia es influida por el porcentaje de algodón presente en la fibra. Además, él sospecha que elevar el contenido de algodón incrementara la resistencia, al menos inicialmente. También sabe que el contenido de algodón debe variar aproximadamente entre 10 y 40% para que la tela resultante tenga otras características de calidad que se desean (como capacidad de recibir un tratamiento de planchado permanente). El ingeniero decide probar muestras (o probetas) a cinco niveles de porcentaje de algodón: 15,20,25,30 y 35%. Asimismo, decide ensayar cinco muestras a cada nivel de contenido de algodón.
Este es un ejemplo de experimento unifactorial con a = 5 niveles del factor y n = 5 repeticiones. Las 25 corridas deben hacerse al azar. Para ilustrar la forma en que pueden aleatorizarse el orden de ejecución, supóngase que las corridas se numeran como sigue.

Ahora se elige un número aleatorio entre 1 y 25. Supóngase que este numero es 8. Entonces la observación número 8 (20% de algodón) se ejecuta primero. El proceso se repite hasta que se ha asignado una posición en la secuencia de prueba a cada una de las 25 observaciones. Supóngase que cada una de las pruebas obtenidas es:

Esta secuencia de prueba aleatorizada es necesaria para evitar que los resultados sean contaminados por los efectos de variables inconvenientes desconocidas, que pueden salir de control durante el experimento. Para ilustrar esta situación, supóngase que se corren las 25 muestras de prueba en el orden no aleatorio original (esto es, las cinco muestras con 15% de algodón se prueban primero, luego las cinco muestras con 20% de algodón, y así sucesivamente). Si la maquina probadora de la resistencia a la tensión presenta un efecto de calentamiento tal que a mayor tiempo de funcionamiento menores lecturas de resistencia a la tensión, entonces dicho efecto potencialmente contaminará los datos de resistencia e invalidara el experimento.
Supóngase ahora que el ingeniero ejecuta la prueba en el orden aleatorio que hemos determinado. Las observaciones que el obtiene acerca de la resistencia a la tensión se representa en la siguiente tabla.

Figura 3-1 Figura 3-2

Siempre es una buena idea representar gráficamente los datos experimentales. En la figura 3-1 se muestran diagramas de caja para resistencia a la tensión a cada nivel de porcentaje de algodón, y la figura 3-2 es un diagrama de presión para resistencia contra porcentaje de algodón. En esta última figura, los círculos negros son las observaciones individuales, y los blancos son valores medios de las resistencias observadas. Ambas gráficas indican que la resistencia a la tensión aumenta con el contenido de algodón, hasta un valor aproximado de este último de 30%. Más allá del 30% de algodón, ocurre un notable decremento en la resistencia. No hay una fuerte evidencia que sugiera que la variabilidad en la resistencia alrededor del promedio dependa del porcentaje de algodón. Con base en este sencillo análisis gráfico sospechamos fuertemente que (1) el porcentaje de algodón influye en la resistencia y la tensión y (2) un porcentaje aproximado de 30% de algodón daría por resultado la máxima resistencia.
Supóngase que deseamos ser más objetivos en nuestros análisis de los datos. Específicamente, supóngase que deseamos probar en busca de diferencias entre las resistencias medias a los a = 5 niveles de porcentaje de algodón. Por lo tanto, nos interesa probar la igualdad de las 5 medias. Al parecer la solución a este problema consiste en realizar pruebas t para todos los posibles pares de medias. Sin embargo, esta solución no es correcta ya que produce una gran distorsión en el error tipo 1. Por ejemplo, supongamos que se desea probar la igualdad de 5 medias usando comparaciones por pares. Existen 10 posibles pares, si la probabilidad de aceptar correctamente la hipótesis nula en cada prueba individual es 1-? = .95, entonces la probabilidad de aceptar correctamente la hipótesis nula en las 10 pruebas es (.95)10 = 0.60, si estas son independientes. Es así como se produce un incremento sustancial del error tipo 1.
El procedimiento apropiado para probar la igualdad de varias medias en el análisis de variancia. Sin embargo, este análisis tiene aplicaciones adicionales a la del problema descrito con anterioridad. Probablemente es la técnica más útil en el campo de la inferencia estadística.

3-2 Análisis de variancia.

Supongamos que se desea comparar a tratamientos o niveles de un factor único. La respuesta que se observa en cada uno de los tratamientos es una variable aleatoria. Los datos aparecerían como la siguiente tabla:
Tratamiento (nivel) Observaciones Totales Promedios

Una entrada de la tabla anterior (por ejemplo, Yij representa la j-esima observación del tratamiento i.) . En general, habrá n observaciones del tratamiento i. Obsérvese que la tabla anterior es el caso general de los datos de experimento de resistencia a la tensión resumido en la tabla 3-1.
Es útil describir las observaciones mediante el modelo estadístico lineal

en donde yij es la (ij)-ésima observación, ? es un parámetro común para todos los tratamientos denominado media global, ?i es un parámetro único para el i-ésimo tratamiento llamado efecto del tratamiento i-ésimo, y la ?ij es la componente aleatoria del error. Nuestro objetivo será probar hipótesis apropiadas con respecto a los efectos del tratamiento y hacer una estimación de ellos. Para probar la hipótesis, se supone que los errores del modelo son variables aleatorias independientes con distribución normal, con media cero y variancia ?2 . Se supone que esta última es constante para todos los niveles del factor.
Este modelo se denomina análisis de variancia de (o varianza) clasificación en un sentido porque solo se investiga un factor. Además se requiere que el experimento se realice en orden aleatorio, de manera que el medio ambiente en el que se usan los tratamientos (llamados a menudo unidades experimentales) sea lo más uniforme posible. Por tanto, este diseño experimental es un diseño completamente aleatorizado.
El modelo estadístico, ecuación 3-1, describe dos situaciones con respecto al efecto de los tratamientos. Primero, los a tratamientos podrían haber sido seleccionados específicamente por el experimentador. En esta situación se desea probar hipótesis sobre las medias de los tratamientos y las conclusiones se aplican solo a los niveles del factor considerados en el análisis. Las conclusiones no pueden hacerse extensivas a tratamientos similares que no hayan sido considerados específicamente. También sería deseable estimar los parámetros del modelo (?, ?i , ?2 ). Este modelo se denomina modelo de efectos fijos.
Alternativamente, los tratamientos pueden ser una muestra aleatoria de una población mayor de tratamientos. En esta situación será deseable generalizar las conclusiones (basadas en la muestra de tratamientos), a todos los tratamientos de la población, ya sea que hayan sido explícitamente considerados en el análisis o no. En este caso, las ?i son variables aleatorias y resulta relativamente inútil conocer sus valores particulares para los tratamientos investigados. En su lugar, se prueban hipótesis con referencia a la variabilidad de las ?i y se intenta dicha variabilidad. Esto se conoce como modelo de efectos aleatorios o de componentes de variancia.

3-3 Análisis de modelo de efectos fijos.
En esta sección se desarrolla el análisis de variancia para el modelo de efectos fijos de clasificación en un sentido. En este modelo los efectos de tratamiento ?i se definen usualmente como desviaciones con respecto a la media general, por esta razón

(3-2)

sea yi el total de las observaciones bajo el i-ésimo, y yi el promedio de las observaciones bajo el i-ésimo tratamiento. Similarmente, sea y.. la suma de todas las observaciones y y la media general de las observaciones. Expresado matemáticamente

(3-3)

en donde N = an es el número total de observaciones. Entonces, la notación del ?punto? en el subíndice implica la suma sobre el subíndice que reemplaza.
La media del i-ésimo tratamiento es E (yij) ? ?i = ? + ?i, i = 1,2,...,a. Por tanto, el valor medio del i-ésimo tratamiento consta de la suma de la media general y el efecto del i-ésimo tratamiento. Interesa probar la igualdad de las medias de los tratamientos; es decir , hay que observar

que si Ho es verdadera, todos los tratamientos tienen la media común ?. Una forma equivalente de expresar las hipótesis anteriores es en términos de los efectos de tratamiento ?i , o sea

por tanto, es posible hablar de probar la igualdad de las medias de los tratamientos, o bien de probar que los efectos de tratamiento (?i) son cero. El procedimiento apropiado para probar la igualdad en el nivel medio de a tratamientos es el análisis de variancia.

3-3.1 Descomposición de la suma total de cuadrados.
La denominación análisis de variancia resulta de descomponer la variabilidad total de los datos en sus partes componentes. La suma total de los cuadrados corregida

se usa como medida de la variabilidad total de los datos. Intuitivamente esto parece razonable, ya que se divide SST entre el numero apropiado de grados de libertad (en este caso entre an ? 1 = N ? 1), se obtiene la variancia muestral de y. Obviamente la variancia muestral es una medida estándar de la variabilidad.
Debe observarse que la suma total de cuadrados corregida SST (notación previamente de sum square, SS) puede escribirse como

La ecuación 3-6 muestra que la variabilidad total de los datos, medida por la suma total de cuadrados corregida, puede descomponerse en la suma de cuadrados de las diferencias entre los promedios de los tratamientos y el promedio general, y en la suma de cuadrados de las diferencias entre las observaciones dentro del tratamiento y el promedio del mismo. La diferencia entre los promedios observados de los tratamientos y el promedio general constituye una medida de la diferencia entre las medias del tratamiento, mientras que la causa de las diferencias de las observaciones dentro de los tratamientos con respecto al promedio del tratamiento puede ser solamente el error aleatorio. Por tanto, simbólicamente la ecuación 3-6 puede ser escrita como

SST = SSTratamientos + SSE

En donde SSTratamientos se denomina suma de cuadrados debida a los tratamientos (es decir, entre tratamientos) y SSE se llama suma de cuadrados debida al error (es decir, dentro de los tratamientos). SST tiene N ? 1 grados de libertad porque hay un total de an = N observaciones. Por otra parte, existen a niveles del factor (y a medias de tratamiento), de manera que SSTratamientos tiene a ? 1 grados de libertad. Finalmente, existen n replicas dentro de cada tratamiento, las cuales proporcionan n ? 1 grados de libertad para estimar el error experimental. Como hay a tratamientos, se tienen a (n ? 1) = an ? a = N ? a grados de libertad para el error.
Resulta útil examinar explícitamente los dos términos del lado derecho de la identidad fundamental del análisis de variancia (ecuación 3-6). Consideremos la suma de cuadrados del error:

En esta forma es fácil observar que el término ubicado entre los paréntesis rectangulares, dividido entre n ? 1, es la variancia muestral del i-ésimo tratamiento, o

Ahora bien, es posible combinar a variancias muestrales para producir una estimación de la variancia poblacional común como se muestra a continuación:

Por tanto SSE / (N ? a) es una estimación de la variancia común a cada uno de los tratamientos.
Igualmente, si no hay diferencia entre las medias de los tratamientos, puede usarse la variación de los promedios de los tratamientos con respecto al promedio general para estimar ?2 . Específicamente,

es una estimación de ?2 si las medias de los tratamientos son iguales. Individualmente, la razón de esto se presenta a continuación: una estimación para ?2 / n, la variancia de los promedios de los tratamientos, es:
        a                                                                                        a
       ? (yi. ? y..)2 / (a - 1); por lo tanto, n ? (yi. ? y..)2 / (a ? 1) debe estimar ?2 si no hay diferencia en el nivel
      i = 1                                                                                   i = 1
medio de los tratamientos.
Pude observarse que la identidad del análisis de variancia (Ecuación 3-6), proporciona dos estimaciones para ?2 ? una basada en la variabilidad propia e interna de los tratamientos y otra en la variabilidad entre los mismos. Si no existe diferencia en el nivel medio de los tratamientos, estas dos estimaciones deben ser similares; de no ser así, se sospecharía que la diferencia observada puede ser el resultado de una diferencia entre las medias de los tratamientos. A pesar de haber proporcionado un argumento intuitivo para desarrollar este resultado, es posible un enfoque mas formal.
Las cantidades

Se denominan medias de cuadrados (o cuadrados medios). (MS proviene de mean squares). A continuación se examinan los valores esperados de las medias de cuadrados. Considérese

Sustituyendo el modelo, ecuación 3-1, en lo anterior se obtiene

Ahora bien, cuando se levan al cuadrado las cantidades entre paréntesis rectangulares y se toma su valor esperado, los términos que contienen ?ij2 y ?i2 deben remplazarse por ?2 y n?2, respectivamente, porque E(?ij) = 0. Más aun, todos los producto de cruz que contienen ?ij poseen una expectativa igual a 0. Por lo tanto, al elevar el cuadrado y timar valor esperado, la ultima ecuación se transforma en

O bien

Usando un enfoque similar es posible mostrar que

Por lo tanto, como se argumento en forma heurística, una estimación para ? 2 es MSE = SSE / (N ? a ); por otra parte, si no hay diferencia en el nivel medio de los tratamientos ( lo que implica que ?i = 0),
MS Tratamientos = SS Tratamientos / (a - 1) proporciona otra estimación para ? 2. Sin embargo, hay que observar que si existe diferencia en las medias de los tratamientos, el valor esperado de la media de cuadrados de tratamiento es mayor que ? 2.
Resulta claro que una prueba para la hipótesis de la igualdad en el nivel medio de tratamientos puede efectuarse comparando MS Tratamientos y MSE.

3-3.2 Análisis Estadístico
Ahora se investiga como puede realizarse una prueba formal de la hipótesis de igualdad de medias de los tratamientos (H0: ?1 = ?2 = ... = ? a? o equivalentemente, H0: ?1 = ?2 = ... = ?a = 0). Al presuponer que los errores ?ij son independientes y están normalmente distribuidos con media cero y variancia ? 2, las observaciones yij también son independientes y se encuentran normalmente distribuidos con media ? + ?i y variancia ? 2. Es posible demostrar que SSr / ? 2 tiene una distribución ji cuadrada con N-1 grados de libertad porque SST es una suma de cuadrados de variables aleatorias normalmente distribuidas. También se puede mostrar que SSE / ?2 tiene una distribución ji cuadrada con N-1 grados de libertad y que si la hipótesis nula H0: ?1 = 0 es verdadera, SS Tratamientos / ? 2 tiene una distribución ji cuadrada con a-1 grados de libertad. Sin embargo, estas tres sumas de cuadrados no son independientes ya que SST es igual a SS Tratamientos mas SSE. El siguiente teorema, que es un caso particular de otro atribuido a Cochran, es útil para establecer la independencia entre SSE y SS Tratamientos.

Teorema 3-1. Teorema de Cochran Sean Zi variables aleatorias NID (0,1) para i = 1,2,..., v y

en donde s < = v, y Q1 tiene v grados de libertad (i = 1,2,..., s). Entonces Q1? Q2? .... , Q2 son variables aleatorias independientes con distribución ji cuadrada y v,..., vs grados de libertad, si y solo si

v = v1+ v2 + ... + vs

Como la suma de los grados de libertad de SS Tratamientos y de SSE es igual a N ?1, es decir, el total de los grados de libertad, el teorema de Cochran implica que SS Tratamientos / ? 2 y SSE / ? 2 son variables aleatorias independientes con distribución ji cuadrada. Por lo tanto, si la hipótesis nula de igualdad de medias de los tratamientos es verdadera, la razón

tiene una distribución F con a-1 y N-a grados de libertad. La ecuación 3-7 es la estadística para probar la hipótesis de igualdad de medias de los tratamientos.
Del valor esperado de la media de cuadrados se observa que, en general MSE es un estimador insesgado de ? 2. Por otra parte, si la hipótesis nula es verdadera, MS Tratamientos resulta ser un estimador insesgado de ? 2. Sin embargo, si la hipótesis nula es falsa, el valor esperado de MS Tratamientos es mayor que ? 2. Por tanto, el valor esperado del numerador en la estadística de prueba (ecuación 3-7), es mayor que el valor esperado del denominador si la hipótesis alterna es verdadera y, en consecuencia, debe rechazarse H0 si el valor de tal estadística es demasiado grande. Esto implica una región critica unilateral superior. En otras palabras se rechaza H0 si

donde F0 se calcula usando la Ecuación 3-7.
Es posible obtener formulas de cálculo para las sumas de cuadrados al reescribir y simplificar las definiciones de SS Tratamientos y de SST en la Ecuación 3-6. Esto da como resultado

la suma de los cuadrados del error se obtiene por diferencia

El procedimiento de prueba se resume en la tabla 3-2. Esta se denomina tabla de análisis de variancia.

Continuación

Problemas