Predicción y Estadística Jornadas de Estadística 2007 IIMAS 9 de mayo
Dr. Ignacio Méndez Ramírez IIMAS UNAM
Panorama de la Plática • • • • •
Extrapolación - predicción Causalidad. Conceptos Modelos. Aleatoriedad y probabilidad Cuatro ejemplos de modelos estadísticos, con predicción
La palabra riesgo deriva del latín risicare, que significa “atreverse”. En este sentido, es una elección, antes que una suerte.
Las acciones que nos atrevemos a tomar, dependen de que tan libres somos para efectuar la elección.
El concepto de predecir posibles evoluciones de un fenómeno, para escoger entre alternativas es inherente al ser humano.
La expresión de la visión determinística: si conocemos perfectamente el comportamiento de todas las partículas que existe en el universo, podremos predecir el futuro (Laplace)
¿Me enfermaré si como el fruto rojo?
¿Me enfermaré si como el fruto rojo?
Estudio unos pocos frutos “iguales”, se los doy a comer a ratones, si se mueren todos, concluyo “Todos los frutos rojos son dañinos”. Me enfermaré si como un fruto rojo
Estudio unos pocos frutos “iguales”, se los doy a comer a ratones, se mueren 14% de ellos, concluyo “Es poco probable que me enferme si como el fruto rojo”
Estudio unos pocos frutos “iguales”, se extrae un compuesto que interfiere con la digestión en ratones. Concluyo “Esos frutos rojos son dañinos” Me enfermaré si como un fruto rojo
Estudio unos pocos frutos “iguales”, se los doy a comer a ratones, se mueren 92% de ellos, concluyo “Es probable que me enferme, si como el fruto rojo”
Conocimiento
¿Me enfermaré si como un fruto como ese?
¿¿Me enfermaré si como un fruto rojo??
Extrapolación “Predicción”
Dudas: ¿todos los frutos rojos semejantes son indigestos? ¿influye el tamaño del fruto? ¿el tono de rojo? ¿la época del año? ¿el tipo de árbol o arbusto? ¿la persona que lo consume? etcétera. ¿Qué es ser semejante o “igual”?
Extrapolación
La Ciencia hace extrapolaciones y con ellas predicciones. Ejemplo de ello son las investigaciones que se llevan a cabo con ciertos elementos (enfermos de amibiasis, fumadores empedernidos, plantas de maíz, cajas de Petri con un medio para crecer bacterias, etcétera), cuyas conclusiones se aplican a otros elementos semejantes a los estudiados.
Extrapolación
Elementos estudiados
Extrapolación Predicción
Elementos semejantes a los estudiados
Poblaciones y Muestras
Se puede considerar que lo estudiado, o experiencia previa, es una muestra de todo un conjunto de otros elementos o nuevas experiencias semejantes a los estudiados. Este conjunto no estudiado es la población.
Poblaciones y Muestras
Muestra
Población
Extrapolación
Poblaciones y Muestras
¿ Es la Extrapolación(predicion) Válida? Nos preguntamos: ¿la extrapolación no se equivoca?, ¿cómo hacer que no se equivoque? La respuesta es sí , se puede equivocar, pero frecuentemente no se equivoca.
Poblaciones y Muestras
Si se pueden encontrar leyes deterministas que expresen relaciones (necesarias y suficientes) entre propiedades de las instancias estudiadas (muestras), muestras entonces: se pueden aplicar los resultados o conclusiones a todas las instancias (población) no estudiadas aún, que cumplan con las propiedades requeridas.
Poblaciones y Muestras
Aquí están muchas leyes de la naturaleza, principalmente inorgánicas, como la física clásica, termodinámica (macroscópica), etcétera. Así la experiencia (traducida en leyes) con ciertos planetas, se aplica a otros; con ciertos gases se aplica a otros; con ciertas moléculas se aplica a otras; etcétera.
ALEATORIEDAD No se puede predecir con certeza el resultado de un estudio o evento
No hay modelos matemáticos que liguen todos los elementos del fenómeno
¿Por que hay aleatoriedad?
Rechazar la aleatoriedad. Einstein: “Diós no juega dados”
1. Complejidad de los fenómenos y no se conoce todos los aspectos y leyes involucradas, pero el mundo es determinado. 2. Hay aleatoriedad intrínseca. 3. Pequeños cambios de condiciones iniciales tienen efectos muy grandes (t. Caos)
itir la aleatoriedad. Heisenberg
Bifurcaciones, atractores
Para estudiar fenómenos aleatorios se usa la probabilidad
Aleatoriedad e indeterminismo Hay procesos o fenómenos en los que no se pueden encontrar relaciones entre sus propiedades, que sean necesarias y suficientes. Hay mucha variabilidad, variabilidad hay indeterminismo. indeterminismo Se pueden encontrar ciertas “leyes” pero son de naturaleza probabilística y no determinística.
Aleatoriedad e indeterminismo
Estas leyes nos permiten hacer extrapolaciones, pero nunca son seguras, siempre hay la posibilidad de equivocarse. La estadística lo que busca es que la “probabilidad” de equivocarse sea “pequeña”.
Aleatoriedad e indeterminismo
Ejemplo: Considere el esquema siguiente donde se tienen datos de desarrollo de enfermedad cardiovascular en 50,000 personas. Aquí hay dos tipos de extrapolación, una es a toda la población de la cual los 50,000 se consideran una muestra; y la otra a una persona en el futuro que es considerada un elemento tomado al azar de la población.
Aleatoriedad e indeterminismo muestra Se estudian 5,000 personas de 40 años que fuman (20 cigarros al día o más) y con colesterol elevado. Se encuentra que 15% de ellas desarrolla enfermedad cardiovascular antes de cumplir 50 años.
población
extrapolación
Se tiene una población de un millón de personas que fuman,semejantes a las estudiadas. Se espera “alrededor” de 150,000 con enfermedad cardiovascular antes de los 50 años.
extrapolación
elemento
Una persona de 40 años que fuma, con colesterol elevado, semejante a los estudiados, tiene una probabilidad de 0.15 de enfermedad cardiovascular antes de cumplir 50 años.
Aleatoriedad e indeterminismo
En la primera inferencia o extrapolación se puede predecir con poco error cuántas personas en ese millón desarrollarán la enfermedad; en cambio en el caso de una persona no se puede predecir con poco error, únicamente se le asignan las probabilidades de desarrollar la enfermedad de la población a que pertenece. En estos razonamientos es crucial la validez del supuesto que las condiciones de la muestra sean semejantes a las de la población o individuo.
tiempo Predicción: si se da esa configuración va a ocurrir el efecto. La causalidad determinística
tiempo Predicción: si se da esa configuración van a ocurrir los efectos con ciertas probabilidades. La causalidad probabilística
CAUSALIDAD Ejemplos
Hipótesis Teórica. Un concepto influye en otro(s)Conceptos o “Constructos”
Hipótesis Empírica (s) Relaciones entre Indicadores de los conceptos.
Pobreza Represión Educación
Salud Agresión Ingresos
x
y
X1
Y1
X2
Y2
X3
Y3
X4 ...
Y4 ...
Xk
Ym
CONCEPTOS DE CAUSALIDAD Trisomía 21
X X
Sx. Down
Y Y Amibiasis
Amiba
Causa necesaria pero no suficiente
Anemia
Deficiencia Fe
X
Causalidad determinística La causa es necesaria y suficiente para el efecto. La configuración del mundo está totalmente determinada por la configuración anterior.
Y
Causa suficiente pero no necesaria
CONCEPTOS DE CAUSALIDAD Tabaquismo
X
Y Cáncer pulmonar
Causalidad probabilística •Causa no necesaria ni suficiente •Asociación estadística •Las probabilidades de Y cambian al cambiar X
Se decubren leyes que describen matemáticamente las variables importantes de un proceso, sin incluir consideraciones aleatorias. E=mc2 , f=ma, mecánica clásica, ecuaciones diferenciales para muy variados fenómenos, fluidos, dinámica poblacional, etc.
No se encuentran leyes que sin incluir consideraciones aleatorias, describan matemáticamente a las variables del proceso. Se encuentran modelos, pero ahora son probabilísticos
• Con un modelo matemático, determinístico o probabilístico podemos derivar consecuencias siguiendo su lógica interna y en esta medida, efectuar predicciones. Estas siempre están sujetas a la validez del modelo. En el caso de los modelos probabilísticos, además se debe tener una idea del grado de incertidumbre en predicciones individuales.
El uso de los modelos en el trabajo de investigación se da de acuerdo al esquema:
2. Probabilidad clásica o de “juegos” • La probabilidad de un resultados _ con _ A evento A es el cociente P ( A) = resultados _ totales del número de posibles resultados favorables al Espacio muestral: El evento entre el número conjunto que comprende total de resultados a todos los resultados posibles posibles. Supone un “espacio muestral” equiprobable. Todos los posibles resultados son igualmente probables. Por esto es “a priori” y “subjetiva”. En el mundo no hay espacios equiprobables exactos.
2. Probabilidad clásica o de “juegos” • Probabilidad de “águila” al lanzar una moneda es igual a ½, que resulta de tener un caso favorable entre dos posibles. • Probabilidad de un número mayor de 4 al lanzar un dado, es 2/6=1/3, ya que el 5 y el 6, dos resultados son mayores que 4, y hay 6 posibles resultados. • Se dice que debe ser una moneda “ honesta “ o un dado “honesto”. ¿Qué es esto? Que sean igualmente probables los posibles resultados. • ¿Hay dados y monedas honestos en el mundo? • ¿Se aplica a aspectos biológicos, sociales, económicos, etc.
3.- MODELACION BASADA EN LA REGULARIDAD ESTADISTICA La regularidad estadística consiste en el hecho universalmente observado ,que funciona como un supuesto muy apoyado, que al estudiar un número grande de veces un fenómeno en condiciones constantes (o casi ) las proporciones en las que ocurren los posibles resultados son muy estables (casi no cambian ) . Es decir, no se puede predecir el resultado al estudiar uno o unos pocos elementos, pero en conjuntos grandes de elementos si es posible la predicción con poco error de las proporciones o porcentajes con los que ocurren los diversos resultados.
J. Bernoulli, Ars Conjectandi, 1713
Lim P │p-P│< ε = 1
Población muy grande o infinita o un proceso que genera elementos A
n→∝ →∝
Lim p=P
n→∝ →∝
P
La proporción de ellos con A es p
p A
Muestra aleatoria de n elementos
Liga con representatividad de las muestras
La proporción de elementos con A es P
×
p
0 1 .66 .5 0
1
n ×
p 1
1
×
p
1 ×
×
0
Pudo ocurrir así o de otro modo, es × impredecible ×
2
3
4
n
1
.66
2 1
0
0
n
×
Fre(S)
1
Fre(S)
REGULARIDAD ESTADISTICA EN VARIABLES DICOTOMICAS ×
×
×
×
×
p 1
×
p
×
...
2
n
3
pocos cambios en la frecuencia ×
×
×
P(S) 1
2
3
4
100
∞
Predecible
El valor en el que se estabilizan las proporciones se le conceptualiza como la probabilidad de sobrevida para esos pacientes con esa técnica quirúrgica, la población
REGULARIDAD ESTADÍSTICA Al estudiar un fenómeno aleatorio muchas veces, en condiciones casi constantes (población), los diferentes resultados ocurren con una proporción estable. A esa proporción le llamamos probabilidad de cada resultado. ¿Se muere el paciente, dentro del próximo año?
...
...
La proporción de pacientes muertos es estable, en la población
En el futuro, el paciente se muere o no se muere; si se llega a morir, se muere “todito”, no el 32%. ¡Se le aplica a un elemento una característica de la población a la que pertenece.!
Regularidad Estadística
Variables Categóricas
Población de Autos
1 0.8
P(F)
El auto durante el recorrido de 80,000Km., ¿se descompone de clutch, frenos, motor o no se descompone?
0.6 0.4 0.2
Frenos Clutch Motor No
P1 P2 P3 P4
0
Constancia de Proporciones = Probabilidades
Los diámetros del pecho de los soldados se modelan bien con una distribución normal
X = Diámetro del pecho α/2 =0.025 -4
-3
-2
0.475 0.475 -1
0
1
2
3
X
4
Regularidad estadística, base de la probabilidad frecuentista • Al estudiar un fenómeno muchas veces en condiciones constantes o casi (la población), la frecuencia de los posibles resultados es muy estable. • La definición de los resultados de interés (espacio muestral) y las condiciones de estudio (población) es subjetiva, sin embargo, los valores en los que se estabilizan las frecuencias relativas o probabilidades son objetivos. • Para entender, describir y predecir fenómenos aleatorios, se pretende conocer esas probabilidades
Uso de modelos en la regularidad estadística Para describir, entender y predecir los fenómenos aleatorios, frecuentemente se recure a postular modelos probabilísticos. Estos pueden haber surgido por tres vías: 1. Experiencias empíricas previas. 2. Consideraciones teóricas sobre la naturaleza del fenómeno estudiado, y 3. Combinaciones de las dos anteriores. 4. Simplicidad
f (x θ )
FUMAR Y ENFERMEDAD CARDIACA Relación causal determinada en forma no experimental En un estudio de seguimiento por varios años de toda una población de personas, se construyó el modelo logístico que permite concluir, que en hombres de 45 años la probabilidad de ataque cardiaco dentro de 12 años se estima como sigue: 0.03, si no fuma, con presión y colesterol normales 0.05. si fuma 20 cigarros al día 0.075, si fuma y tiene presión 140/88 0.15, si fuma, tiene presión 140/88 y nivel sérico de colesterol 250 mg/dL
En estadística es común que se plantee un modelo para explicar las características de generación de los datos. El modelo puede representar la situación esperada de una hipótesis de causalidad, o bien puede ser el modelo de negación de una hipótesis dada (Hipótesis de nulidad) En ambos casos, se evalúa la concordancia entre los datos observados, O y los esperados E, si el modelo es cierto. Usualmente esta discordancia se valora de acuerdo a la probabilidad de una discordancia como la obtenida o aún mayor suponiendo cierto el modelo. Es el ”Valor de P”
Significancia Estadística ¿ Que tanto es tantito? ¿ Cuándo las diferencias entre los datos obtenidos y los esperados bajo un modelo probabilistico son “grandes”? Razonamiento de Fisher : Se supone que el modelo es cierto, se evalúa la probabilidad de una discrepancia entre los datos observados y los esperados, como la obtenida o aun mayor. Este es el llamado Valor de P. Si la P es menor de .05 , es decir 5%, se considera que el modelo no es compatible con los datos. Se dice las diferencias son significativas Reaccionamos ante lo improbable ! Es improbable encontrar tres elefantes en la calle !
¿QUE?
La significancia estadística, no demuestra que el modelo sea falso, solo que los datos son incompatibles (poco probables) con ese modelo.
0.350 P(asma, mv)
NUEVA
0.300
0.450
0.250 0.200
100
0.150 0.100 0.400 0.350
0.050
0 20
30
40
EDAD
50
60
413 trabajadores de una industria del cemento, con su historia de trabajo por varios años, se construyó un índice del grado de exposición a los polvos de la caliza y otros componentes del cemento, se le llamó “nueva”. Además la edad de los trabajadores es una variable confusora para la presencia de asma y otros padecimientos. Estimación de probabilidades de asma en modelo logístico. Se nota claramente la interacción en el “efecto del trabajador sano”
800 trabajadores de una empresa siderúrgica. (Datos del Dr. Mariano Noriega, Maestría “Salud en el Trabajo”, UAM-X). Entre varios diagnósticos y varias exigencias de trabajo, se selecciona la relación entre la edad, el trabajo aburrido y con esfuerzos como factores de riesgo (causa) para el diagnóstico de patología del corazón. Esta relación se selecciona por que es donde hay una fuerte interacción triple. Las probabilidades aumentan con la edad pero mucho más si sólo hay trabajo aburrido, un poco menos con sólo esfuerzos y poco con ambos, casi nada cuando no esta ninguna de las dos exigencias. Hay un efecto antagónico, la presencia de ambos riesgos produce menores probabilidades de diagnóstico corazón, que cada uno de ellos por separado 0.9 0.8
Prob[cor.mv]
0.7 0.6
-Abu Probabilidades de Corazón Máxima Verosimilitud Interacción Edad*Esf*Abu Esf-
0.5 0.4
EsfAb ...
0.3 0.2
--
0.1 20
30
40
50 EDAD
60
70
Datos de la Encuesta Nacional de Nutrición.1999. Gráfica 5. Probabilidades de bajo peso para la edad y desmedro (baja talla para la edad), y también de emaciación (bajo peso para la talla). Bajo peso y desmedro %
Emaciación %
1 (intermedio)
18.8
2.7
2 (Peor condición)
30.5
2.4
3 (mejor condición)
10.3
1.8
no
14.4
2.1
si
47.6
2.0
Urbano
12.4
2.1
Rural
26.0
2.2
Variable Grupo nivel socioeconómico
Indigenismo
Estrato
Ensayo clínico doble ciego para probar dos fármacos y un placebo para disminuir glucosa en diabéticos 28
Placebo: FBG end = -2.43 + 1.16 FBG beg
26
glibencamide: FBG end = 2.7 + 0.63 FBG beg
24 22
V-411: FBG end = 1.8 + 0.62 FBG beg
Placebo
FBG end
20
Glucosa final
18
Glibenclamida
16 14 12
V-411
10 8 6 4 7
8
9
10
11
12
13
14
FBG beg Glucosa inicial Linear Fit Treatment=="Glibencamide" Linear Fit Treatment=="Placebo" Linear Fit Treatment=="V-411"
15
16
17
18
19
20
Los dos fármacos producen disminuciones semejantes de glucosa, y el placebo produce ligeros aumentos