Estudio R
Marzo de 2018
Experimento: procedimiento mediante el cual se controlan determinadas condiciones y es posible verificar (apoyar, rechazar o modificar) ciertas conjeturas, que se denominan hipótesis).
Experimento determinístico: aquél que bajo las mismas condiciones, arroja los mismos resultados.
Experimento aleatorio: aquél que bajo las mismas condiciones, arroja resultados diferentes.
Unidad experimental: muestra utilizada para generar valores representativos del resultado del experimento.
Variable respuesta: variable objetivo, a través de la misma, es posible conocer el efecto o el resultado de determinado experimento.
Factores controlables: son variables que se pueden fijar en determinados niveles. Usualmente controlados bajo experimentación u operación normal del proceso de interés; se caracterizan por posibilitar el cambio o la manipulación de su nivel de operación.
Factores no controlables (ruido): variables o características del fenómenos bajo experimentación, que no se pueden controlar.
Error experimental: parte de la variabilidad observada que no es posible explicar a través de los factores estudiados. En ese orden de ideas, siempre existirán casusas comunes o aleaotorias, que determinan la variabilidad natural del fenómeno.
Repetición: una repetición, es el número de veces que aparece el tratamiento en el experimento. Importante para aumentar la precisión del experimento, controlar el error experimental y disminuir la desviación estándar de la media.
Item | Descripción |
---|---|
Integrantes | Desarroladores del experimento |
Título del experimento | Conciso, diciente y específico |
Objetivos del experimento | Insesgados, específicos, cuantificables y de uso práctico |
Variables respuesta | Valores usuales de operación, distribución o rango usual, precisión o rango de medición, instrumento de medida y cómo será tomada |
Factores | Factores con cada uno de los niveles, distribución y rango de operación común, precisión o rango en la cual serán medidos. |
Diseño | Un factor, factorial, bloques, parcelas divididas, cuadro latino, entre otros |
Clasificiación de diseños experimentales:
Nota: tomado del libro Análisis y diseño de experimentos de Humberto Pulido y Román de la Vara.
Muestra: Estadístico \(\bar{x}\), \(\sigma^2\)
Distribuciones de probabilidad: las distribuciones de probabilidad o distribución de una variable aleatoria \(X\), asocia el conjunto de valores posibles de \(X\) (rango de \(X\)), con la probabilidad relacionada a cada uno de estos valores y son representados a través de una función (fómula matemática)
Ejemplo: si la variable aleatoria está dada por el estadístico \(\bar{X}\), conocer su distribución de probabilidad posibilita saber cuáles son los valores que puede tomar \(\bar{X}\) y cuáles son más probables. A través de la distribución de probabilidad, es posible describir o acotar los posibles valores de un estadístico muestral, con la finalidad de rechazar o apoyar determinadas hipótesis, o bien, hacer estimaciones poblacionales.
Fórmulas para intervalos de confianza:
births
del paquete openintro
contiene información sobre 150 nacimientos junto con información de las madres. Se pretende saber si existen diferencias estadísticamente signifcativas para el peso de los recien nacidos, entre madres fumadoras y no fumadoras.fAge | mAge | weeks | premature | visits | gained | weight | sexBaby | smoke |
---|---|---|---|---|---|---|---|---|
31 | 30 | 39 | full term | 13 | 1 | 6.88 | male | smoker |
34 | 36 | 39 | full term | 5 | 35 | 7.69 | male | nonsmoker |
36 | 35 | 40 | full term | 12 | 29 | 8.88 | male | nonsmoker |
41 | 40 | 40 | full term | 13 | 30 | 9 | female | nonsmoker |
42 | 37 | 40 | full term | NA | 10 | 7.94 | male | nonsmoker |
37 | 28 | 40 | full term | 12 | 35 | 8.25 | male | smoker |
Solución:
\[H_0: \mu_f=\mu_nf\] \[H_0: \mu_f\neq\mu_nf\]
tapply(births$weight, births$smoke, mean)
## nonsmoker smoker
## 7.1795 6.7790
fuma <- 6.7790
nofuma <- 7.1795
(diferencia <- fuma - nofuma)
## [1] -0.4005
Validar supuestos
library(ggplot2)
ggplot(births,aes(x = weight)) +
geom_histogram(aes(colour = smoke)) +
facet_grid(~ smoke) +
theme_bw()
par(mfrow = c(1, 2))
qqnorm(births[births$smoke == "nonsmoker","weight"], xlab = "",
main = "nonsmoker", col = "firebrick")
qqline(births[births$smoke == "nonsmoker","weight"])
qqnorm(births[births$smoke == "smoker","weight"], xlab = "",
main = "smoker", col = "springgreen4")
qqline(births[births$smoke == "smoker","weight"])
shapiro.test(births[births$smoke == "smoker","weight"])
##
## Shapiro-Wilk normality test
##
## data: births[births$smoke == "smoker", "weight"]
## W = 0.89491, p-value = 0.0003276
shapiro.test(births[births$smoke == "nonsmoker","weight"])
##
## Shapiro-Wilk normality test
##
## data: births[births$smoke == "nonsmoker", "weight"]
## W = 0.92374, p-value = 2.234e-05
library(car)
leveneTest(weight ~ smoke, data = births, center = "median")
## Levene's Test for Homogeneity of Variance (center = "median")
## Df F value Pr(>F)
## group 1 0.4442 0.5062
## 148
\[\alpha=0.05\]
t.test(x = births[births$smoke == "smoker", "weight"],
y = births[births$smoke == "nonsmoker", "weight"],
alternative = "two.sided", mu = 0, var.equal = TRUE, conf.level = 0.95)
##
## Two Sample t-test
##
## data: births[births$smoke == "smoker", "weight"] and births[births$smoke == "nonsmoker", "weight"]
## t = -1.5517, df = 148, p-value = 0.1229
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -0.9105531 0.1095531
## sample estimates:
## mean of x mean of y
## 6.7790 7.1795
Dado que el valor P es igual a 0.1229 (mayor que 0.05), no existe evidencia suficiente para rechazar \(H_0\), es decir, que el peso promedio de los recien nacidos con madres que fuman, no difiere de aquellos cuyas madre sí lo hacen. En otras palabras, no existe suficiente evidencia para decir que los promedios de peso de los recien nacidos son diferentes.