jueves, 23 de febrero de 2012

[MSDS] Procesos Estocásticos Discretos y Contínuos

"La distribución de probabilidad de una variable aleatoria es una función que asigna a cada suceso definido sobre la variable aleatoria la probabilidad de que dicho suceso ocurra.
La distribución de probabilidad está definida sobre el conjunto de todos los sucesos, cada uno de los sucesos es el rango de valores de la variable aleatoria.
Cuando la variable aleatoria toma valores en el conjunto de los números reales, la distribución de probabilidad está completamente especificada por la función de distribución, cuyo valor en cada real x es la probabilidad de que la variable aleatoria sea menor o igual que x."



Distribución Discreta

Las distribuciones discretas son aquellas en las que la variable aleatoria puede pude tomar un número determinado de valores, por ejemplo:

  • Si se lanza una moneda al aire puede salir cara o cruz
  • Si se tira un dado puede salir un número de 1 al 6
  • En una ruleta el número puede tomar un valor del 1 al 32
Para mi tarea elegí la distribución discreta binomial.

Distribución Discreta Binomial


Grafica de la Distribucion Discreta Binomial (fuente: Wikipedia.org)

Las distribución binomial parte de la distribución de Bernouilli.

La distribución de Bernouilli se aplica cuando se realiza una sola vez un experimento que tiene únicamente dos posibles resultados (éxito o fracaso), por lo que la variable sólo puede tomar dos valores: el 1 y el 0

La distribución binomial se aplica cuando se realizan un número"n" de veces el experimento de Bernouilli, siendo cada ensayo independiente del anterior. La variable puede tomar valores entre:

  • 0: si todos los experimentos han sido fracaso
  • n: si todos los experimentos han sido éxitos
Por ejemplo: se tira una moneda 10 veces: ¿cuantas caras salen?.

Si no ha salido ninguna la variable toma el valor 0; si han salido dos caras la variable toma el valor 2; si todas han sido cara la variable toma el valor 10

Partiendo de esta definición, tome el siguiente problema de distribución binomial, tratare de explicar un poco si comportamiento binomial y posteriormente lo relacionaremos con una distribución de probabilidad continua.

Planteamiento

"Tenemos un examen que consta de 20 preguntas, cada pregunta puede ser verdadera o falsa. ¿La probabilidad de obtener 13 preguntas acertadas?"

Comportamiento

En este caso, la respuesta es binaria, entonces podemos deducir que:
  • La probabilidad de éxito es 0.5
  • La probabilidad de fracaso es 0.5
Ahora, la distribución binomial recibe 2 parámetros, B(n,p)
  • n: que es el número de veces que se repite el experimento.
  • p: que es la probabilidad de que el experimento sea exitoso, en este caso, que la respuesta sea acertada
La variable aleatoria x en este caso puede valer x = 0, 1, 2, ..., 20 dependiendo de cuantas preguntas sean acertadas (éxitos); la probabilidad de éxito se calcula con la siguiente formula:


donde:


Ahora, analicemos el comportamiento del problema con el siguiente programita, escrito reutilizando algunos módulos de la clase anterior, recibe el numero de repeticiones "n" y la probabilidad "p" y lo único que hace es aumentar el valor de x desde 0 hasta n (en este caso, 20), con estos valores podremos realizar una pequeña gráfica, utilizo la función bincoeff de Octave para obtener la mayor precisión, el código es el que sigue:

function binomial(n, p)
q = 1 - p;
output = fopen("simBinomial.dat", "w");
for k = 0 : n
fprintf(output, "%d %f\n", k, bincoeff(n, k) * p**k * q**(n - k));
endfor
fclose(output);
endfunction
view raw binomial.m hosted with ❤ by GitHub
Se ejecuta entrando a Octave y llamando al script, escribiendo el nombre de la funcion y pasando los parametros correspondientes a nuestro problema planteado: binomial(20, 0.5) La salida generada consiste en 2 columnas donde la segunda corresponde a la probabilidad de obtener el numero de respuestas acertadas, dado por la primera columna, la salida es la siguiente:

0 0.000001
1 0.000019
2 0.000181
3 0.001087
4 0.004621
5 0.014786
6 0.036964
7 0.073929
8 0.120134
9 0.160179
10 0.176197
11 0.160179
12 0.120134
13 0.073929
14 0.036964
15 0.014786
16 0.004621
17 0.001087
18 0.000181
19 0.000019
20 0.000001
view raw simBinomial.dat hosted with ❤ by GitHub
Y la gráfica es la siguiente, generada con la herramienta GNUplot:


El resultado a nuestro problema es una probabilidad de 0.073929 (7.3929%) de obtener 13 aciertos de 20 preguntas de verdadero y falso.

Distribución Continua

Las distribuciones continuas son aquellas que presentan un número infinito de posibles soluciones, por ejemplo:
  • El peso medio de los alumnos de una clase puede tomar infinitos valores dentro de cierto intervalo (42,37 kg, 42,3764 kg, 42, 36541kg, etc)
  • La esperanza media de vida de una población (72,5 años, 7,513 años, 72, 50, 63 años)

Analizando la gráfica de la distribución discreta binomial de mi problema, pude relacionar que comportamiento de la misma con la distribución continua normal.

Distribución Continua Normal


Grafica de la Distribucion Continua Normal (fuente: Wikipedia.org)


Es el modelo de distribución más utilizado en la práctica, ya que multitud de fenómenos se comportan según una distribución normal.

Esta distribución de caracteriza porque los valores se distribuyen formando una campana de Gauss, en torno a un valor central que coincide con el valor medio de la distribución.


No quiere decir que mi problema sea continuo, sin embargo, estuve leyendo ciertas investigaciones acerca de la relación existente entre ambas distribuciones y es posible obtener una distribución binomial mediante una aproximación.

El método de aproximación a una distribución binomial por medio de la normal es muy común, vamos a analizar el comportamiento de mi problema mediante una distribución normal. Para ello ya no podemos plantear nuestro problema de la misma forma que en la binomial, ahora el planteamiento seria:

"Tenemos un examen que consta de 20 preguntas, cada pregunta puede ser verdadera o falsa. ¿La probabilidad de obtener por lo menos 13 preguntas acertadas?"

El primer paso es calcular los valores media y desviación estándar correspondientes a la distribucion normal. Para ello se utiliza el teorema de De Moivre, donde:


Entonces calculamos (recordemos que n = 20, p = 0.5, q = 0.5):
Media = np = (20)(0.5) = 10

Desviación Estándar = sqrt(npq) = sqrt[(20)(0.5)(0.5)] = sqrt(5) = 2.236068

Teniendo estos datos, es posible aproximarnos al resultado mediante la siguiente formula:


Donde x sigue valiendo 13 (13 aciertos en 20 preguntas). Entonces calculamos:
Z = [(13 - 10)/2.236068] = (3/2.23608) = 1.34
El valor de 1.34 no es en realidad el valor de la probabilidad, sino el limite central de la distribución normal. Si comparamos este valor de límite central con las tablas de distribución normal vemos que la probabilidad es de 0.91014 (91.014%) de obtener por lo menos 13 preguntas acertadas. Utilizando la funcion normcdf de Octave:



Hay que recordar que nos da un valor de 0.91014 (91.014%) porque nos esta dando la probabilidad de obtener POR LO MENOS 13, es decir, se suman las probabilidades de obtener desde 1 pregunta hasta 13.
Si sumamos los valores de la table que obtuvimos con la binomial el resultado sera 0.94234 que comparado con el 0.91014 lo cual es una buena aproximacion.

Entonces, ahora es posible generar la gráfica de la distribución normal y ver como es su aproximación a la distribución binomial, para ello modifique el programa que calcula la binomial para que calcule la también la normal y realice un proceso de "tipificación" que es lo que nos proverá los valores aproximados a la binomial, esto es, restar a 1 la probabilidad obtenida por la tabla de la distribución normal de acuerdo al limite central obtenido por cada experimento. El código del calculo y ploteo quedaron como sigue:

function aproxBinomial(n, p)
q = 1.0 - p;
binFile = fopen("binomial.dat", "w");
normFile = fopen("normal.dat", "w");
# Calculamos las variables de la distribucion normal ==============
media = n * p
desviacion = sqrt(n*p*q)
# =================================================================
k = 0.0;
while(k < n)
# Tipificamos la variable de probabilidad
x = (k - media) / desviacion;
# Ahora, con dicha tipificacion vamos a imprimir
# una grafica de una distribucion normal estandar.
z = normpdf(x, 0, 1);
# Aqui transformamos la grafica, de ser una grafica basada en la altura de las lineas
# a ser una grafica que depende del area debajo de la curva. Como es una normal.
y = desviacion * (bincoeff(n, k) * p**k * q**(n - k));
# Estado 1: Binomial vs. Normal
#fprintf(binFile, "%f %f\n", k, bincoeff(n, k) * p**k * q**(n - k));
# Estado 2: Ajustar el desplazamiento de la binomial
#fprintf(binFile, "%f %f\n", x, bincoeff(n, k) * p**k * q**(n - k));
# Estado 3: Ajustar la altura de la binomial a la normal estandar
fprintf(binFile, "%f %f\n", x, y);
# Imprimir una grafica normal estandar
fprintf(normFile, "%f %f\n", x, z);
k = k + 0.1;
endwhile
fclose(binFile);
fclose(normFile);
endfunction
view raw aproxBinomial.m hosted with ❤ by GitHub

la parte importante del código es donde se comienza a convertir la gráfica, si vemos son 3 estados principales los cuales producen las siguientes gráficas, los estados los obtenemos comentando y descomentando las lineas (pero nunca debemos tener 2 o mas lineas descomentadas):

Estado 1. Que es la binomial en rojo sin ningún ajuste contra la normal estándar en verde.



Estado 2. Donde ajustamos el desplazamiento causado por la binomial cuando 'n' crece.



Estado 3. Donde convertimos la gráfica binomial basada en la altura de los puntos, a una distribución normal basada en el área debajo de la Campana de.



Asi es como aproxime mi problema binomial y a una normal. :)

Referencias

miércoles, 1 de febrero de 2012

[MSDS] Sistemas deterministas: Lineas de Producción

Primero empezare por definir algunos conceptos:

¿Qué es un Sistema?



"Un sistema es un conjunto de partes o elementos organizadas y relacionadas que interactúan entre sí para lograr un objetivo. Los sistemas reciben (entrada) datos, energía o materia del ambiente y proveen (salida) información, energía o materia. 

Un grupo de elementos no constituye un sistema si no hay una relación e interacción, que de la idea de un "todo" con un propósito."

Determinismo


"Sostiene que todo acontecimiento físico, incluyendo el pensamiento y acciones humanas, están causalmente determinados por la irrompible cadena causa-consecuencia."

Entonces, un Sistema Determinista es un sistema en el cual el azar no está involucrado en los futuros estados del sistema. Dadas ciertas variables de entrada y condiciones de funcionamiento, es sencillo saber cómo el sistema ha de comportarse con el paso del tiempo, entonces se puede predecir sin ningún riesgo de error el estado siguiente del sistema.

Con esta definición, decidí explicar porqué una linea de producción es un ejemplo de sistema determinista. Lo elegí porqque es un sistema (por definicion de sistema) y es determinista debido a que tiene un conjunto de estados preestablecidos para conseguir un fin común.

Lineas de Produccion


Una línea de producción es un conjunto armonizado de subsistemas, mayormente mecanicos, neumáticos, hidráulicos y electrónicos. Todos estos con una finalidad en común: transformar o integrar materia prima en otros productos.

Se puede utilizar una linea de produccion en muchisismo campos de manufactura, las entradas pueden ser: polimeros, telas, metales, maderas, minerales, incluso la energia utilizada en los procesos.

Mientras que las salidas tambien son de variados tipos: automoviles, refrescos, jabones, alimentos enlatados, en fin.

Debido al gran consumismo de la sociedad actual, fue necesario intensificar el uso de las lineas de produccion, ya que las necesidades actuales exigen la existencia permante de ciertos productos con caracteristicas semejantes y de gran calidad.

Henry Ford, fundador de la compañía Ford Motor Company, es considerado el padre de las lineas de produccion modernas al instalar el primer sistema de produccion en masa en su fabrica de automoviles.

Ventajas de una linea de produccion
  • Reduce el tiempo de producción.
  • Regula la carga de trabajo dividiendo el mismo en estaciónes.
  • Es más fácil detectar errores en la producción.
  • Aumenta la productividad.
  • Reduce costos y aumenta la calidad.
  • Reduce inventarios (materiales comprados, obra en proceso, productos terminados).
  • Se puede aplicar a cualquier tipo de empresa que reciba o despache mercancías.

Invito a que vean este video extra donde se explica cómo se fabrican botellas de vidrio, es un ejemplo de linea de produccion.


¿Porqué una Línea de Producción es un sistema determinista?


Considero que es determinista porque involucra variables de entrada como lo expliqué anteriormente y requiere de ciertas condiciones para funcionar. Cada una de las estaciones se puede decir que son los estados de la linea de produccion.
  • Preparacion: Se carga la materia prima y esta se prepara para el siguiente paso. Aqui se puede, por ejemplo, derretir un metal o un polimero, o se puede cargar en algun medio de almacenamiento temporal para su uso posterior.
  • Procesos de moldeado: Este es un paso que se repite en muchas lineas de produccion, al moldear la materia prima, extruirla, aplastarla, etcetera.
  • Ensamblaje: A veces este proceso es paralelizable, es decir, una vez que un material se ha moldeado, posiblemente es mas factible tambien ensamblar pequenas cosas a la vez, y despues juntarlas en un todo.
  • Pruebas: Todas las empresas realizan pruebas de seguridad y calidad para verificar que su producto cumpla con las especificaciones del mercado, se prueba un lote en cieros momentos del dia y por lo general se descarta todo el lote si un solo producto del mismo salio mal.
  • Almacenamiento: Algunos productos son almacenados, ya que a veces se requiere que el mismo sea transportado a otras ciudades a determinados horarios, mientras ese moomento llega, habran de esperar un momento en alguna bodega.
  • Distribucion: El producto se entrega a diferentes cadenas comerciales para que pueda ser adquirido por el usuario final.
  • Uso y reciclado: Se aprovecha el producto, eso le da valor agregado dependiendo de la satisfaccion del cliente, cuando el producto ya no es funcional o es obsoleto, es desechado. Posteriormente se verifica si alguna parte es reciclable y esta se convierte de nuevo en la entrada al sistema.
Además podemos extender lo anterior a los estados establecidos a la maquinaria y robots, los cuales estan preparados para seguir un proceso para el cual fueron programados. De hecho esta fue la razon por la cual el recurso humano fue remplazado por robots, porque rinden mejor y, dadas una serie de instrucciones, son capaces de realizar la misma tarea con gran exactitud y de manera consecutiva.

Pseudocodigo


Algo de estilo con Python:

Espero les haya agradado mi explicacion, sin mas por el momento, quedo en ustedes.

De antemano gracias.

Referencias