La distribución de probabilidad está definida sobre el conjunto de todos los sucesos, cada uno de los sucesos es el rango de valores de la variable aleatoria.
Cuando la variable aleatoria toma valores en el conjunto de los números reales, la distribución de probabilidad está completamente especificada por la función de distribución, cuyo valor en cada real x es la probabilidad de que la variable aleatoria sea menor o igual que x."
Distribución Discreta
Las distribuciones discretas son aquellas en las que la variable aleatoria puede pude tomar un número determinado de valores, por ejemplo:- Si se lanza una moneda al aire puede salir cara o cruz
- Si se tira un dado puede salir un número de 1 al 6
- En una ruleta el número puede tomar un valor del 1 al 32
Distribución Discreta Binomial
Grafica de la Distribucion Discreta Binomial (fuente: Wikipedia.org)
Las distribución binomial parte de la distribución de Bernouilli.
La distribución de Bernouilli se aplica cuando se realiza una sola vez un experimento que tiene únicamente dos posibles resultados (éxito o fracaso), por lo que la variable sólo puede tomar dos valores: el 1 y el 0
La distribución binomial se aplica cuando se realizan un número"n" de veces el experimento de Bernouilli, siendo cada ensayo independiente del anterior. La variable puede tomar valores entre:
- 0: si todos los experimentos han sido fracaso
- n: si todos los experimentos han sido éxitos
Si no ha salido ninguna la variable toma el valor 0; si han salido dos caras la variable toma el valor 2; si todas han sido cara la variable toma el valor 10
Partiendo de esta definición, tome el siguiente problema de distribución binomial, tratare de explicar un poco si comportamiento binomial y posteriormente lo relacionaremos con una distribución de probabilidad continua.
Planteamiento
"Tenemos un examen que consta de 20 preguntas, cada pregunta puede ser verdadera o falsa. ¿La probabilidad de obtener 13 preguntas acertadas?"
Comportamiento
En este caso, la respuesta es binaria, entonces podemos deducir que:
- La probabilidad de éxito es 0.5
- La probabilidad de fracaso es 0.5
- n: que es el número de veces que se repite el experimento.
- p: que es la probabilidad de que el experimento sea exitoso, en este caso, que la respuesta sea acertada
donde:
Ahora, analicemos el comportamiento del problema con el siguiente programita, escrito reutilizando algunos módulos de la clase anterior, recibe el numero de repeticiones "n" y la probabilidad "p" y lo único que hace es aumentar el valor de x desde 0 hasta n (en este caso, 20), con estos valores podremos realizar una pequeña gráfica, utilizo la función bincoeff de Octave para obtener la mayor precisión, el código es el que sigue:
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
function binomial(n, p) | |
q = 1 - p; | |
output = fopen("simBinomial.dat", "w"); | |
for k = 0 : n | |
fprintf(output, "%d %f\n", k, bincoeff(n, k) * p**k * q**(n - k)); | |
endfor | |
fclose(output); | |
endfunction |
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
0 0.000001 | |
1 0.000019 | |
2 0.000181 | |
3 0.001087 | |
4 0.004621 | |
5 0.014786 | |
6 0.036964 | |
7 0.073929 | |
8 0.120134 | |
9 0.160179 | |
10 0.176197 | |
11 0.160179 | |
12 0.120134 | |
13 0.073929 | |
14 0.036964 | |
15 0.014786 | |
16 0.004621 | |
17 0.001087 | |
18 0.000181 | |
19 0.000019 | |
20 0.000001 |
El resultado a nuestro problema es una probabilidad de 0.073929 (7.3929%) de obtener 13 aciertos de 20 preguntas de verdadero y falso.
Distribución Continua
Las distribuciones continuas son aquellas que presentan un número infinito de posibles soluciones, por ejemplo:- El peso medio de los alumnos de una clase puede tomar infinitos valores dentro de cierto intervalo (42,37 kg, 42,3764 kg, 42, 36541kg, etc)
- La esperanza media de vida de una población (72,5 años, 7,513 años, 72, 50, 63 años)
Analizando la gráfica de la distribución discreta binomial de mi problema, pude relacionar que comportamiento de la misma con la distribución continua normal.
Distribución Continua Normal
Grafica de la Distribucion Continua Normal (fuente: Wikipedia.org)
Es el modelo de distribución más utilizado en la práctica, ya que multitud de fenómenos se comportan según una distribución normal.
Esta distribución de caracteriza porque los valores se distribuyen formando una campana de Gauss, en torno a un valor central que coincide con el valor medio de la distribución.
No quiere decir que mi problema sea continuo, sin embargo, estuve leyendo ciertas investigaciones acerca de la relación existente entre ambas distribuciones y es posible obtener una distribución binomial mediante una aproximación.
El método de aproximación a una distribución binomial por medio de la normal es muy común, vamos a analizar el comportamiento de mi problema mediante una distribución normal. Para ello ya no podemos plantear nuestro problema de la misma forma que en la binomial, ahora el planteamiento seria:
"Tenemos un examen que consta de 20 preguntas, cada pregunta puede ser verdadera o falsa. ¿La probabilidad de obtener por lo menos 13 preguntas acertadas?"
El primer paso es calcular los valores media y desviación estándar correspondientes a la distribucion normal. Para ello se utiliza el teorema de De Moivre, donde:
Entonces calculamos (recordemos que n = 20, p = 0.5, q = 0.5):
Media = np = (20)(0.5) = 10 Desviación Estándar = sqrt(npq) = sqrt[(20)(0.5)(0.5)] = sqrt(5) = 2.236068Teniendo estos datos, es posible aproximarnos al resultado mediante la siguiente formula:
Donde x sigue valiendo 13 (13 aciertos en 20 preguntas). Entonces calculamos:
Z = [(13 - 10)/2.236068] = (3/2.23608) = 1.34El valor de 1.34 no es en realidad el valor de la probabilidad, sino el limite central de la distribución normal. Si comparamos este valor de límite central con las tablas de distribución normal vemos que la probabilidad es de 0.91014 (91.014%) de obtener por lo menos 13 preguntas acertadas. Utilizando la funcion normcdf de Octave:
Hay que recordar que nos da un valor de 0.91014 (91.014%) porque nos esta dando la probabilidad de obtener POR LO MENOS 13, es decir, se suman las probabilidades de obtener desde 1 pregunta hasta 13.
Si sumamos los valores de la table que obtuvimos con la binomial el resultado sera 0.94234 que comparado con el 0.91014 lo cual es una buena aproximacion.
Entonces, ahora es posible generar la gráfica de la distribución normal y ver como es su aproximación a la distribución binomial, para ello modifique el programa que calcula la binomial para que calcule la también la normal y realice un proceso de "tipificación" que es lo que nos proverá los valores aproximados a la binomial, esto es, restar a 1 la probabilidad obtenida por la tabla de la distribución normal de acuerdo al limite central obtenido por cada experimento. El código del calculo y ploteo quedaron como sigue:
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
function aproxBinomial(n, p) | |
q = 1.0 - p; | |
binFile = fopen("binomial.dat", "w"); | |
normFile = fopen("normal.dat", "w"); | |
# Calculamos las variables de la distribucion normal ============== | |
media = n * p | |
desviacion = sqrt(n*p*q) | |
# ================================================================= | |
k = 0.0; | |
while(k < n) | |
# Tipificamos la variable de probabilidad | |
x = (k - media) / desviacion; | |
# Ahora, con dicha tipificacion vamos a imprimir | |
# una grafica de una distribucion normal estandar. | |
z = normpdf(x, 0, 1); | |
# Aqui transformamos la grafica, de ser una grafica basada en la altura de las lineas | |
# a ser una grafica que depende del area debajo de la curva. Como es una normal. | |
y = desviacion * (bincoeff(n, k) * p**k * q**(n - k)); | |
# Estado 1: Binomial vs. Normal | |
#fprintf(binFile, "%f %f\n", k, bincoeff(n, k) * p**k * q**(n - k)); | |
# Estado 2: Ajustar el desplazamiento de la binomial | |
#fprintf(binFile, "%f %f\n", x, bincoeff(n, k) * p**k * q**(n - k)); | |
# Estado 3: Ajustar la altura de la binomial a la normal estandar | |
fprintf(binFile, "%f %f\n", x, y); | |
# Imprimir una grafica normal estandar | |
fprintf(normFile, "%f %f\n", x, z); | |
k = k + 0.1; | |
endwhile | |
fclose(binFile); | |
fclose(normFile); | |
endfunction |
la parte importante del código es donde se comienza a convertir la gráfica, si vemos son 3 estados principales los cuales producen las siguientes gráficas, los estados los obtenemos comentando y descomentando las lineas (pero nunca debemos tener 2 o mas lineas descomentadas):
Estado 1. Que es la binomial en rojo sin ningún ajuste contra la normal estándar en verde.
Estado 2. Donde ajustamos el desplazamiento causado por la binomial cuando 'n' crece.
Estado 3. Donde convertimos la gráfica binomial basada en la altura de los puntos, a una distribución normal basada en el área debajo de la Campana de.
Asi es como aproxime mi problema binomial y a una normal. :)
Referencias