EL EXCEL APLICADO A LA ESTADÍSTICA Aplicar el Excel a la estadística, es fácil. Solo se requiere tener conocimientos básicos del Excel y sobre todo conocer estadística. El Excel, cuenta con un modulo ANÁLISIS DE DATOS, que tiene incorporado importantes funciones estadísticas, tales como: anova, muestra, estadística descriptiva, etc.
Este modulo se encuentra en el menú HERRAMIENTAS, caso contrario si no se encuentra se procederá de la siguiente manera: 1. 2. 3. 4.
Seleccionar del menú: Herramientas. Seleccionar: Complementos. Marcar: Herramientas para análisis Aceptar
Ahora si estamos listos para empezar con el Excel aplicado a la estadística.
Estadísticas descriptivas Muchas veces en nuestros análisis, necesitamos conocer las medidas de resumen que me describen a un conjunto de datos (media, mediana, desviación estándar, etc.). Para encontrar las estadísticas descriptivas con el Excel, procederemos de la siguiente manera: 1. 2. 3.
Seleccionamos del menú : Herramientas Seleccionamos : Análisis de datos Seleccionamos : Estadísticas descriptivas
4.
En Rango de entrada ingresamos los datos que estamos analizando.
El detalle esta como seleccionar los datos que estamos analizando. Es muy sencillo, póngase en la casilla que ocupa el primer dato, presione la tecla shif (no lo suelta para nada) luego de un solo toque a la tecla fin y luego un solo toque a la tecla direccional hacia abajo (siempre recomiendo a mis alumnos, que los datos que estamos analizando se encuentren en una sola columna) y recién suelte la tecla shif. NOTA: Para ingresar los datos, recomiendo presionar previamente el cuadrado siguiente (nunca se olvide de hacerlo): después de ingresar la información, se vuelve a presionar este cuadradito. De acuerdo a como estén agrupados los datos se marcan columna o fila 5.
Ahora trabajaremos en la sección Opciones de salidas. Usted tiene tres alternativas de donde desee que el Excel le muestre los resultados: a) b) c)
Rango de salida, que es en la misma hoja en donde se encuentra los datos que estamos analizando. En una hoja nueva. En un libro nuevo.
En las alternativas b y c solo marca la selección, no necesita hacer mas. En cambio en la alternativa a, si se requiere ingresar el rango en la cual usted desea que el Excel le muestre los resultados, este rango debe contener como mínimo dos columnas. No se olvide que después de haber escogido la opción a, previamente antes de ingresar el rango, presione el cuadradito mencionado anteriormente
6. 7.
. Ahora nos toca seleccionar Resumen de estadísticas. Ahora marcamos la opción de aceptar.
Las demás alternativas, tales como, nivel de confianza para la media, K-ésimo mayor o K-ésimo menor, se verán mas adelante. Después de seguir los pasos indicados, nos encontraremos con los resultados de las estadísticas descriptivas (antes es necesario anchar la columna donde figuran los nombres de las estadísticas descriptivas).
Histograma En el análisis de los datos observados, necesitamos agrupar los datos y obtener su respectivo grafico que no es otra cosa que un histograma en estadística. Para eso utilizaremos la opción Histograma del modulo de Análisis de Datos. Antes de aplicar el Excel, debemos encontrar los limites de los intervalos de categoría en que se agruparan el conjunto de datos, para esto aplicaremos las 07 reglas vistas en el curso. Para obtener el histograma con el Excel, procederemos de la siguiente manera: 1. 2. 3.
Seleccionamos el menú : Herramientas Seleccionamos : Análisis de datos Seleccionamos : Histograma
4.
En la sección de entrada, ingresaremos: a) b)
En rango de entrada, se ingresa el rango donde se encuentran los datos que estamos analizando. En rango de clase, se ingresa en rango donde se encuentran los limites superiores de los intervalos de clase.
En ambos casos, se sigue el procedimiento visto anteriormente.
5.
En las sección de salidas, procedemos como lo hemos visto anteriormente. Con la siguiente recomendación: que el rango donde se desean ver los resultados estén junto (como se observa en el figura) al limite superior calculado.
6.
Por ultimo se marca cualquiera de las opciones que figuran en el menú, tales como: Pareto, Porcentaje acumulado y Crear gráfico. En nuestro caso marcaremos Crear gráfico.
7.
Se presiona la opción aceptar del menú:
Y se obtiene el siguiente resultado:
Como se puede apreciar, obtenemos: a frecuencia y el histograma del conjunto de datos analizados. Se podrá observar que la distribución de los datos analizados esta sesgada hacia la derecha (sesgo positivo), y que el 87.7% de los datos observados (en total 50 observaciones) se encuentran entre 11.5 a 23.5 unidades de peso.
DISTRIBUCIÓN NORMAL Es una de las principales distribuciones de probabilidades de la estadística y muy utilizada en la estadística inferencial. Es necesario conocer que el Excel siempre nos dará : la probabilidad de menor a un valor k
µ
k
Planteamos un problema: Se sabe que la población de alumnos de la EPUFV tiene un comportamiento normal con una media de 219 de nivel de colesterol y una desviación estándar de 35.3. ¿Cuál es la probabilidad de que un alumno elegido al azar tenga: a) b) c)
Un nivel de colesterol menor a 210? Un nivel de colesterol mayor a 225? Un nivel de colesterol entre 205 y 230?
Planteando el problema a)
210
219
Una vez planteado el problema, se sigue el siguiente procedimiento: 1.
Presionar el icono de la barra de menú: Pegar función.
2.
Del menú de pegar función , escoger en la ventana izquierda las funciones estadísticas y en la ventana derecha la función DISTR.NORM y presionar luego Aceptar.
3.
En el casillero de la X, se introduce el valor del problema, en este caso 210. En el casillero de la Media, se introduce 219.
4.
5. 6. 7.
En el casillero Desv_estándar, se introduce 35.3 En el casillero acum., se introduce 1 Se presiona aceptar
Y este es el resultado que se muestra:
P ( x < 210 ) = 0.39937 = 39.94%
b)
P ( x > 225) = ? Planteando el problema
219
225
Se sigue el mismo procedimiento explicado anteriormente. Obteniendo:
P ( x > 225 ) = 1 – 0.56748 = 0.433 = 43.3% Acuérdense, que el Excel calcula la P(x<225) = 0.56748, y a nosotros estamos calculando P(x>225) que viene ha ser el complemento.
c)
P ( 205 < x < 230)
205
219
230
Acuérdense, que el Excel calcula: P ( x < 205) = 0.345831 P ( x < 230) = 0.622333 Entonces la solución a nuestro problema es una simple resta P ( 205 <x< 230) = 0.62233 – 0.345831 = 0.276 = 27.6%
SELECCION DE UNA MUESTRA La base de la estadística inferencial es: el tamaño de la muestra y que esta sea aleatoria. EL Excel, me permite seleccionar una muestra aleatoria de un conjunto de datos, para esto procederemos de la siguiente manera: 1. 2. 3.
Seleccionamos el menú: Herramientas Seleccionamos : Análisis de datos Seleccionamos: Muestra
4.
Presionamos: aceptar
5.
En rango de entrada, se ingresa el rango en donde se encuentran el conjunto de datos que estamos analizando.
6.
En método de muestreo, se selecciona Aleatorio y en el respectivo casillero se ingresa el tamaño de la muestra que deseamos seleccionar
7. En rango de salida, se selecciona donde se desea mostrar la muestra aleatoria seleccionada en la misma hoja de trabajo. Ver grafico anterior. 8. Se presiona aceptar y se obtiene el siguiente resultado: lo que esta sombreado es la muestra aleatoria de tamaño 30.
PRUEBA DE HIPÓTESIS Cuando uno realiza una prueba de hipótesis, esta puede ser con una muestra o con dos muestras. En el modulo de análisis de datos, están incorporadas las pruebas de hipótesis para dos muestras (son las que mas se ajustan a la realidad), estas son:
Prueba t para medias de dos muestras emparejadas. Veamos el siguiente ejemplo: Un investigador ha observado diversos sangrados en niños recién nacidos. En una gran proporción de ellos, al istrarles vitamina H, desaparece la hemorragia. El investigador propone la hipótesis de que los sangrados se deben a la deficiencia de factores de coagulación K
dependientes. Por limitación de recursos, decide solo medir el tiempo de protrombina antes y después de aplicar la vitamina K. Los resultados se muestran en la siguiente tabla (tiempo de protrombina en segundo): Antes del Despues del tratamiento tratamiento 28
19
22
15
23
17
21
20
32
19
40
22
24
18
HIPÓTESIS Ho: Ha:
µ antes ≥ µ después µ antes < µ después
Para encontrar las hipótesis, no se olviden, que deben leer la pregunta o lo que se desea demostrar, en este caso ..... En una gran proporción de ellos, al istrarles vitamina H, desaparece la hemorragia ....
PRUEBA ESTADÍSTICA Utilizaremos Prueba t para dos muestras emparejadas. (Espero que ustedes sepan porque? REGLA DE DECISIÓN
¿De qué depende el área de rechazo?, depende del valor de α, en este caso lo suponemos 0.05. ¿Y por qué la cola esta al lado izquierdo?. Espero que usted lo sepa
APLICANDO ANÁLISIS DE DATOS 1. 2. 3.
Seleccionamos el menú: Herramientas Seleccionamos : Análisis de datos Seleccionamos: Prueba t para dos medias de dos muestras emparejadas
Se observara la ventana que se muestra a continuación. Siempre se observa las dos secciones de la ventana bien marcada; entrada y opciones de salida.
4.
Ingresar rango de la variable 1, en nuestro caso la variable 1 es la primera variable de nuestra hipótesis: µ antes ≥ µ después, es decir antes del tratamiento. Y luego ingresamos es rango de la variable 2, que en nuestro caso es después del tratamiento.
En diferencia hipotética entre las medias, siempre ingresaremos cero. 5.
En opciones de salida, recomiendo seleccionar Rango de salida y luego ingresar el rango en donde deseo ver los resultados, generalmente cerca de los datos.
6.
Luego de verificar que todo esta correcto, presionamos
7.
aceptar. Y obtenemos el siguiente resultado.
Estadístico t = 4.1208
1.943
Como el estadístico cae en el área de aceptación, se acepta la Ho. Por lo tanto, no existe evidencia para aceptar que los sangrados se deben a la deficiencia de factores de coagulación K dependientes.