jueves, 23 de febrero de 2012

[MSDS] Procesos Estocásticos Discretos y Contínuos

"La distribución de probabilidad de una variable aleatoria es una función que asigna a cada suceso definido sobre la variable aleatoria la probabilidad de que dicho suceso ocurra.
La distribución de probabilidad está definida sobre el conjunto de todos los sucesos, cada uno de los sucesos es el rango de valores de la variable aleatoria.
Cuando la variable aleatoria toma valores en el conjunto de los números reales, la distribución de probabilidad está completamente especificada por la función de distribución, cuyo valor en cada real x es la probabilidad de que la variable aleatoria sea menor o igual que x."



Distribución Discreta

Las distribuciones discretas son aquellas en las que la variable aleatoria puede pude tomar un número determinado de valores, por ejemplo:

  • Si se lanza una moneda al aire puede salir cara o cruz
  • Si se tira un dado puede salir un número de 1 al 6
  • En una ruleta el número puede tomar un valor del 1 al 32
Para mi tarea elegí la distribución discreta binomial.

Distribución Discreta Binomial


Grafica de la Distribucion Discreta Binomial (fuente: Wikipedia.org)

Las distribución binomial parte de la distribución de Bernouilli.

La distribución de Bernouilli se aplica cuando se realiza una sola vez un experimento que tiene únicamente dos posibles resultados (éxito o fracaso), por lo que la variable sólo puede tomar dos valores: el 1 y el 0

La distribución binomial se aplica cuando se realizan un número"n" de veces el experimento de Bernouilli, siendo cada ensayo independiente del anterior. La variable puede tomar valores entre:

  • 0: si todos los experimentos han sido fracaso
  • n: si todos los experimentos han sido éxitos
Por ejemplo: se tira una moneda 10 veces: ¿cuantas caras salen?.

Si no ha salido ninguna la variable toma el valor 0; si han salido dos caras la variable toma el valor 2; si todas han sido cara la variable toma el valor 10

Partiendo de esta definición, tome el siguiente problema de distribución binomial, tratare de explicar un poco si comportamiento binomial y posteriormente lo relacionaremos con una distribución de probabilidad continua.

Planteamiento

"Tenemos un examen que consta de 20 preguntas, cada pregunta puede ser verdadera o falsa. ¿La probabilidad de obtener 13 preguntas acertadas?"

Comportamiento

En este caso, la respuesta es binaria, entonces podemos deducir que:
  • La probabilidad de éxito es 0.5
  • La probabilidad de fracaso es 0.5
Ahora, la distribución binomial recibe 2 parámetros, B(n,p)
  • n: que es el número de veces que se repite el experimento.
  • p: que es la probabilidad de que el experimento sea exitoso, en este caso, que la respuesta sea acertada
La variable aleatoria x en este caso puede valer x = 0, 1, 2, ..., 20 dependiendo de cuantas preguntas sean acertadas (éxitos); la probabilidad de éxito se calcula con la siguiente formula:


donde:


Ahora, analicemos el comportamiento del problema con el siguiente programita, escrito reutilizando algunos módulos de la clase anterior, recibe el numero de repeticiones "n" y la probabilidad "p" y lo único que hace es aumentar el valor de x desde 0 hasta n (en este caso, 20), con estos valores podremos realizar una pequeña gráfica, utilizo la función bincoeff de Octave para obtener la mayor precisión, el código es el que sigue:

Se ejecuta entrando a Octave y llamando al script, escribiendo el nombre de la funcion y pasando los parametros correspondientes a nuestro problema planteado: binomial(20, 0.5) La salida generada consiste en 2 columnas donde la segunda corresponde a la probabilidad de obtener el numero de respuestas acertadas, dado por la primera columna, la salida es la siguiente:

Y la gráfica es la siguiente, generada con la herramienta GNUplot:


El resultado a nuestro problema es una probabilidad de 0.073929 (7.3929%) de obtener 13 aciertos de 20 preguntas de verdadero y falso.

Distribución Continua

Las distribuciones continuas son aquellas que presentan un número infinito de posibles soluciones, por ejemplo:
  • El peso medio de los alumnos de una clase puede tomar infinitos valores dentro de cierto intervalo (42,37 kg, 42,3764 kg, 42, 36541kg, etc)
  • La esperanza media de vida de una población (72,5 años, 7,513 años, 72, 50, 63 años)

Analizando la gráfica de la distribución discreta binomial de mi problema, pude relacionar que comportamiento de la misma con la distribución continua normal.

Distribución Continua Normal


Grafica de la Distribucion Continua Normal (fuente: Wikipedia.org)


Es el modelo de distribución más utilizado en la práctica, ya que multitud de fenómenos se comportan según una distribución normal.

Esta distribución de caracteriza porque los valores se distribuyen formando una campana de Gauss, en torno a un valor central que coincide con el valor medio de la distribución.


No quiere decir que mi problema sea continuo, sin embargo, estuve leyendo ciertas investigaciones acerca de la relación existente entre ambas distribuciones y es posible obtener una distribución binomial mediante una aproximación.

El método de aproximación a una distribución binomial por medio de la normal es muy común, vamos a analizar el comportamiento de mi problema mediante una distribución normal. Para ello ya no podemos plantear nuestro problema de la misma forma que en la binomial, ahora el planteamiento seria:

"Tenemos un examen que consta de 20 preguntas, cada pregunta puede ser verdadera o falsa. ¿La probabilidad de obtener por lo menos 13 preguntas acertadas?"

El primer paso es calcular los valores media y desviación estándar correspondientes a la distribucion normal. Para ello se utiliza el teorema de De Moivre, donde:


Entonces calculamos (recordemos que n = 20, p = 0.5, q = 0.5):
Media = np = (20)(0.5) = 10

Desviación Estándar = sqrt(npq) = sqrt[(20)(0.5)(0.5)] = sqrt(5) = 2.236068

Teniendo estos datos, es posible aproximarnos al resultado mediante la siguiente formula:


Donde x sigue valiendo 13 (13 aciertos en 20 preguntas). Entonces calculamos:
Z = [(13 - 10)/2.236068] = (3/2.23608) = 1.34
El valor de 1.34 no es en realidad el valor de la probabilidad, sino el limite central de la distribución normal. Si comparamos este valor de límite central con las tablas de distribución normal vemos que la probabilidad es de 0.91014 (91.014%) de obtener por lo menos 13 preguntas acertadas. Utilizando la funcion normcdf de Octave:



Hay que recordar que nos da un valor de 0.91014 (91.014%) porque nos esta dando la probabilidad de obtener POR LO MENOS 13, es decir, se suman las probabilidades de obtener desde 1 pregunta hasta 13.
Si sumamos los valores de la table que obtuvimos con la binomial el resultado sera 0.94234 que comparado con el 0.91014 lo cual es una buena aproximacion.

Entonces, ahora es posible generar la gráfica de la distribución normal y ver como es su aproximación a la distribución binomial, para ello modifique el programa que calcula la binomial para que calcule la también la normal y realice un proceso de "tipificación" que es lo que nos proverá los valores aproximados a la binomial, esto es, restar a 1 la probabilidad obtenida por la tabla de la distribución normal de acuerdo al limite central obtenido por cada experimento. El código del calculo y ploteo quedaron como sigue:


la parte importante del código es donde se comienza a convertir la gráfica, si vemos son 3 estados principales los cuales producen las siguientes gráficas, los estados los obtenemos comentando y descomentando las lineas (pero nunca debemos tener 2 o mas lineas descomentadas):

Estado 1. Que es la binomial en rojo sin ningún ajuste contra la normal estándar en verde.



Estado 2. Donde ajustamos el desplazamiento causado por la binomial cuando 'n' crece.



Estado 3. Donde convertimos la gráfica binomial basada en la altura de los puntos, a una distribución normal basada en el área debajo de la Campana de.



Asi es como aproxime mi problema binomial y a una normal. :)

Referencias

2 comentarios: