jueves, 26 de febrero de 2015

Medidas de Distibución - Asimetría y Curtosis

Medidas de Distibución - Asimetría y Curtosis


Las medidas de distribución nos permiten identificar la forma en que se separan o aglomeran los valores de acuerdo a su representación gráfica. Estas medidas describen la manera como los datos tienden a reunirse de acuerdo con la frecuencia con que se hallen dentro de la información. Su utilidad radica en la posibilidad de identificar las características de la distribución sin necesidad de generar el gráfico. Sus principales medidas son la Asimetría y la Curtosis.



1. ASIMETRÍA

Esta medida nos permite identificar si los datos se distribuyen de forma uniformealrededor del punto central (Media aritmética). La asimetría presenta tres estados diferentes [Fig.5-1], cada uno de los cuales define de forma concisa como están distribuidos los datos respecto al eje de asimetría. Se dice que la asimetría es positiva cuando la mayoría de los datos se encuentran por encima del valor de la media aritmética, la curva es Simétrica cuando se distribuyen aproximadamente la misma cantidad de valores en ambos lados de la media y se conoce comoasimetría negativa cuando la mayor cantidad de datos se aglomeran en losvalores menores que la media.





El Coeficiente de asimetría, se representa mediante la ecuación matemática,





Donde (g1) representa el coeficiente de asimetría de Fisher, (Xi) cada uno de losvalores, (http://www.spssfree.com/spss/curso/5-C2-1.gif) la media de la muestra y (ni) la frecuencia de cada valor. Losresultados de esta ecuación se interpretan:

·         (g1 = 0): Se acepta que la distribución es Simétrica, es decir, existe aproximadamente la misma cantidad de valores a los dos lados de la media. Este valor es difícil de conseguir por lo que se tiende a tomar los valores que son cercanos ya sean positivos o negativos (± 0.5).
·         (g1 > 0): La curva es asimétricamente positiva por lo que los valores se tienden a reunir más en la parte izquierda que en la derecha de la media.
·         (g1 < 0): La curva es asimétricamente negativa por lo que los valores se tienden a reunir más en la parte derecha de la media.

Desde luego entre mayor sea el número (Positivo o Negativo), mayor será la distancia que separa la aglomeración de los valores con respecto a la media.

2. CURTOSIS

Esta medida determina el grado de concentración que presentan los valores en la región central de la distribución. Por medio del Coeficiente de Curtosis, podemos identificar si existe una gran concentración de valores (Leptocúrtica), una concentración normal (Mesocúrtica) ó una baja concentración (Platicúrtica).





Para calcular el coeficiente de Curtosis se utiliza la ecuación:





Donde (g2) representa el coeficiente de Curtosis, (Xi) cada uno de los valores, (http://www.spssfree.com/spss/curso/5-C2-1.gif) la media de la muestra y (ni) la frecuencia de cada valor. Los resultados de esta fórmula se interpretan:

·         (g2 = 0) la distribución es Mesocúrtica: Al igual que en la asimetría es bastante difícil  encontrar un coeficiente de Curtosis de cero (0), por lo que se suelen aceptar los valores cercanos (± 0.5 aprox.).
·         (g2 > 0) la distribución es Leptocúrtica
·         (g2 < 0) la distribución es Platicúrtica

Cuando la distribución de los datos cuenta con un coeficiente de asimetría (g1 = ±0.5) y un coeficiente de Curtosis de (g2 = ±0.5), se le denomina Curva Normal. Este criterio es de suma importancia ya que para la mayoría de los procedimientos de la estadística de inferencia se requiere que los datos se distribuyan normalmente.

La principal ventaja de la distribución normal radica en el supuesto que el 95% de los valores se encuentra dentro de una distancia de dos desviaciones estándar de la media aritmética (Fig.5-3); es decir, si tomamos la media y le sumamos dos veces la desviación y después le restamos a la media dos desviaciones, el 95% de los casos se encontraría dentro del rango que compongan estos valores.




Desde luego, los conceptos vistos hasta aquí, son sólo una pequeña introducción a las principales medidas de Estadística Descriptiva; es de gran importancia que los lectores profundicen en estos temas ya que la principal dificultad del paqueteSPSS radica en el desconocimiento de los conceptos estadísticos.

Las definiciones plasmadas en este capítulo han sido extraídas de los librosEstadística para administradores escrito por Alan Wester de la editorial McGraw-Hill y el libro Estadística y Muestreo escrito por Ciro Martínez editorial Ecoe editores (Octava edición). No necesariamente tienes que guiarte por estos librosya que en las librerías encontraras una gran variedad de textos que pueden ser de bastante utilidad en la introducción a esta ciencia.


medidas de dispersión

Medidas de dispersión



Estudia la distribución de los valores de la serie, analizando si estos se encuentran más o menos concentrados, o más o menos dispersos.
Existen diversas medidas de dispersión, entre las más utilizadas podemos destacar las siguientes:
1.- Rango: mide la amplitud de los valores de la muestra y se calcula por diferencia entre el valor más elevado y el valor más bajo.
2.- Varianza: Mide la distancia existente entre los valores de la serie y la media. Se calcula como sumatorio de las difrencias al cuadrado entre cada valor y la media, multiplicadas por el número de veces que se ha repetido cada valor. El sumatorio obtenido se divide por el tamaño de la muestra.
http://www.aulafacil.com/CursoEstadistica/Nueva%20carpeta/Lecc-6-1.gif
La varianza siempre será mayor que cero. Mientras más se aproxima a cero, más concentrados están los valores de la serie alrededor de la media. Por el contrario, mientras mayor sea la varianza, más dispersos están.
3.- Desviación típica: Se calcula como raíz cuadrada de la varianza.
4.- Coeficiente de varización de Pearson: se calcula como cociente entre la desviación típica y la media.
Ejemplo: vamos a utilizar la serie de datos de la estatura de los alumnos de una clase (lección 2ª) y vamos a calcular sus medidas de dispersión.
Variable
Frecuencias absolutas
Frecuencias relativas
(Valor)
Simple
Acumulada
Simple
Acumulada
x
x
x
x
x
1,20
1
1
3,3%
3,3%
1,21
4
5
13,3%
16,6%
1,22
4
9
13,3%
30,0%
1,23
2
11
6,6%
36,6%
1,24
1
12
3,3%
40,0%
1,25
2
14
6,6%
46,6%
1,26
3
17
10,0%
56,6%
1,27
3
20
10,0%
66,6%
1,28
4
24
13,3%
80,0%
1,29
3
27
10,0%
90,0%
1,30
3
30
10,0%
100,0%

1.- Rango: Diferencia entre el mayor valor de la muestra (1,30) y el menor valor (1,20). Luego el rango de esta muestra es 10 cm.
2.- Varianza: recordemos que la media de esta muestra es 1,253. Luego, aplicamos la fórmula:
http://www.aulafacil.com/CursoEstadistica/Nueva%20carpeta/Lecc-6-2.gif
Por lo tanto, la varianza es 0,0010
3.- Desviación típica: es la raíz cuadrada de la varianza.
http://www.aulafacil.com/CursoEstadistica/Nueva%20carpeta/Lecc-6-3.gif
Luego:
http://www.aulafacil.com/CursoEstadistica/Nueva%20carpeta/Lecc-6-4.gif
4.- Coeficiente de variación de Pearson: se calcula como cociente entre la desviación típica y la media de la muestra.
Cv = 0,0320 / 1,253

Luego,
Cv = 0,0255

El interés del coeficiente de variación es que al ser un porcentaje permite comparar el nivel de dispersión de dos muestras. Esto no ocurre con la desvación típica, ya que viene expresada en las mismas unidas que los datos de la serie.
Por ejemplo, para comparar el nivel de dispersión de una serie de datos de la altura de los alumnos de una clase y otra serie con el peso de dichos alumnos, no se puede utilizar las desviaciones típicas (una viene vienes expresada en cm y la otra en kg). En cambio, sus coeficientes de variación son ambos porcentajes, por lo que sí se pueden comparar.

medidas de tendencia central 2

Definiciones:

Las medidas de tendencia central son valores que se ubican al centro de un conjunto de datos ordenados según su magnitud. Generalmente se utilizan 4 de estos valores también conocidos como estadigrafos, la media aritmética, la mediana, la moda y al rango medio. 

La media aritmética es la medida de posición utilizada con más frecuencia. Si se tienen n valores de observaciones, la media aritmética es la suma de todos y caca uno de los valores dividida entre el total de valores: Lo que indica que puede ser afectada por los valores extremos, por lo que puede dar una imagen distorcionada de la información de los datos.

La Mediana, es el valor que ocupa la posición central en un conjunto de datos, que deben estar ordenados, de esta manera la mitad de las observaciones es menor que la mediana y la otra mitad es mayor que la mediana, resulta muy apropiada cuando se poseen observaciones extremas. 

La Moda es el valor de un conjunto de datos que aparece con mayor frecuencia. No depende de valores extremos, pero es más variables que la media y la mediana.

Rango Medio es la media de las observaciones menor y mayor. como intervienen solamente estas observaciones, si hay valores extremos, se distorsiona como medida de posición, pero 
ofrece un valor adecuado, rápido y sencillo para resumir al conjunto de datos. 

Datos Discretos
No Agrupados
Analicemos para ello las edades que utilizamos cuando se vió la organización y presentación de datos discretos:

12
15
14
15
16
18
19
14
15
17
15
17
18
16
19
16
17
15
15
17
16
18
17
19
17
23
16
17
18
19

Estos fueron loa datos mostrados originalmente, no se han ordenado ni agrupado, determinemos ahora los valores de la Media, la Mediana y la moda, para ello recurramos a las fórmulas de estas medidas que resumimos en la siguiente tabla:
Medida
Formula
Observaciones
Media
https://sites.google.com/site/estadisticadm/_/rsrc/1273771808858/b-organizacion-y-presentacon-de-datos/b-3-medidas-de-tendencia-central/media.png
Donde xi se refiere a todo y cada uno de los elementos de la muestra y n es el numero total de elementos en la muestra.
Mediana
a)      p = (n/2)
Es la posición en donde se encuentra la mediana.
Si n es impar, entonces es la opción a, en caso contrario, la b.
El valor de la mediana se obtiene por observación
b)      p = (n/2) + 1
Moda

Se obtiene el valor por observación
Rango Medio
(Valor máximo + Valor Mínimo) / 2

Aplicando, se obtienen los siguientes valores:
Para la media:
    12 + 15 + 14 + 15 + 16 + 18 + 19 + 14 + 15 + 17 + 15 + 17 + 18 + 16 + 19 + 16 + 17 + 15 + 15 + 17 + 16 + 18 + 17 + 19 + 17 + 23 + 16 + 17 + 18 + 19  
X = -----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
                                                                                                     30

_         500
X = ------------ = 16.6667
             30

Para la mediana debera ordenarse el grupo de datos, como n = 30, utilizaremos la posición p = (30/2) = 15, el primer valor mayor a 15 corresponde a la clase 17.

La moda estaría determinada por observación directa, y correspondería al valor 17, que se presenta hasta 7 veces en la muestra.
El rango medio se determina por la suma entre 23 y 12 dividido entre 2 (23 + 12)/2 = 35/2 = 17.5
Si observamos los valores obtenidos veremos que solo para el cálculo de la mediana se obtiene tuvo que ordenar la información (así lo específica la definición), sin embargo podemos también observar que este ordenamiento no afecta de manera directa ninguno de los cálculos, de esta manera se puede construir la siguiente tabla:
Medida
Valor Calculado
Observaciones
Media
16.6667

Mediana
17
Se requirió el cálculo de la frecuencia acumulada
Moda
17

Rango Medio
17.5

Es de notar lo cercano de todos los valores que se han calculado, que circundan el valor de 17, no se notan cambios en los resultados comparados con los datos originales, sin embargo las formulas si se ven modificadas.



Agrupados
Recurramos ahora al agrupamiento de los datos discretos del ejercicio que hemos estado utilizando:
 Clase
Repeticiones
 Total de Años de la clase 
12
1
12
14
2
28
15
6
90
16
5
80
17
7
119
18
4
72
19
4
76
23
1
23
Total
30
500
En donde podemos observar la suma de las frecuencias y de los años multiplicados por la clase que agrupa a los datos coinciden con los datos utilizados cuando no se agruparon en la sección anterior, utilizando ahora las formulas de la siguiente tabla:
Medida
Formula
Observaciones
Media
https://sites.google.com/site/estadisticadm/_/rsrc/1273763203876/b-organizacion-y-presentacon-de-datos/b-3-medidas-de-tendencia-central/Media_Continuos_agrupados.png
Donde xi se refiere a todo y cada uno de los elementos de la muestra y n es el número total de elementos en la muestra y fi se refiere a la frecuencia de la clase.



Mediana



p = (n/2)


Es la posición en donde se encuentra la mediana.
Se ubica en la tabla el primer valor de frecuencia acumulada mayor a la posición calculada, si ese valor es mayor, entonces la mediana es la clase correspondiente al mismo. Si el valor es igual a la posición, entonces se suman el valor anterior más el valor obtenido y se divide entre 2.
Moda

Se obtiene el valor por observación de la mayor frecuencia
Rango Medio
(Valor máximo + Valor Mínimo) / 2

Aplicando, se obtienen los siguientes valores:
Para la media:
_      12 * 1 + 14 * 2 + 15 * 6 + 16 * 5 + 17 * 7 + 18 * 4 + 19 * 4 + 23 * 1           12 + 28 + 90 +  80 + 119 + 72 + 76 + 23
X = -------------------------------------------------------------------------------------------- = ---------------------------------------------------------------
                                                      30                                                                                            30

_         500
X = ------------ = 16.6667
             30

Para la Mediana, utilizaremos la frecuencia acumulada:

 Clase
Frecuencia
Frecuencia Acumulada
12
1
1
14
2
3
15
6
9
16
5
14
17
7
21
18
4
27
19
4
29
23
1
30
Total
30

Como n = 30, utilizaremos la posición p = (30/2) = 15, el primer valor mayor a 15 corresponde a la clase 17.

La moda estaría determinada por observación directa, y correspondería al valor 17, que se presenta hasta 7 veces en la muestra.
El rango medio se determina por la suma entre 23 y 12 dividido entre 2 (23 + 12)/2 = 35/2 = 17.5
Si observamos los valores obtenidos veremos que solo para el cálculo de la mediana se obtiene tuvo que ordenar la información (así lo específica la definición), sin embargo podemos también observar que este ordenamiento no afecta de manera directa ninguno de los cálculos, de esta manera se puede construir la siguiente tabla:
Medida
Valor Calculado
Observaciones
Media
16.6667

Mediana
17
Se requirió el cálculo de la frecuencia acumulada
Moda
17

Rango Medio
17.5

Es de notar lo cercano de todos los valores que se han calculado, que circundan el valor de 17, no se notan cambios en los resultados comparados con los datos originales, sin embargo las formulas si se ven modificadas.


Datos Continuos
No agrupados
Las medidas de tendencia central para datos continuos no agrupados no tienen mayor significación, ya que el comportamiento es similar al de datos discretos no agrupados, por ello utilizaremos las mismas formúlas, pero ahora con los datos continuos del ejercicio de la sección correspondiente:
1.25
1.2
1.28
1.29
1.2
1.24
1.27
1.21
1.32
1.27
1.18
1.29
1.2
1.23
1.25
1.28
1.24
1.28
1.27
1.25
1.24
1.25
1.27
1.28
1.29
1.18
1.21
1.24
1.2
1.23
1.25
1.27
1.28
1.24
1.29
1.21
Aplicando, se obtienen los siguientes valores:
Para la media, aplicando la formula de la media para datos no agrupados (vista en la sección de datos discretos):
_    1.25 + 1.2 + 1.28+1.29+1.2 + 1.24 + 1.27 + 1.21 + 1.32 + 1.27 + 1.18 + 1.29 + 1.2 + 1.23 + 1.25 + 1.28 + 1.24 + 1.28 + 1.27 + 1.25 + 1.24 + 1.25 + 1.27 + 1.28 + 1.29 + 1.28 + 1.21 + 1.24 + 1.2 + 1.23 + 1.25 + 1.27 + 1.28 + 1.24 + 1.29 + 1.21
X = ----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
                                                                                                                    30
 _         44.93
X = ------------ = 1.24805556
             30

Para la Mediana, como n = 36, es par, utilizaremos la posición p = (36/2) = 18
Por lo que la mediana se encontrará entre los valores que se ubiquen (de manera ordenada) entre las posiciones 18 y 19 (observa que antes de esa posición hay 17 y después también hay 17 valores), se encuentran 1.25 y 1.25, por lo que la mediana sería 1.25.

La moda estaría determinada por observación directa, y corresponderían a los valores 1.24, 1.25 y 1.27 que se repiten en la muestra 5 veces, por lo que la característica según la moda es una muestra trimodal (normalmente se le conoce como multimodal).
El rango medio se determina por la sumaentre 1.18 y 1.32 dividido entre 2 (1.18 + 1.32)/2 = 2.5 / 2 = 1.25
Si observamos los valores obtenidos veremos que solo para el cálculo de la mediana se tuvo que ordenar la información (así lo específica la definición), sin embargo podemos también observar que este ordenamiento no afecta de manera directa ninguno de los cálculos, de esta manera se puede construir la siguiente tabla:
Medida
Valor Calculado
Observaciones
Media
1.24805556

Mediana
1.25
Se requirió del ordenamiento de los datos
Moda
1.24,1.25, 1.27
Muestra multimodal
Rango Medio
1.25

Es de notar lo cercano de todos los valores que se han calculado, que circundan el valor de 1.25.
Agrupados
Retomando los cálculos realizados en la sección correspondiente a organización y presentación de datos continuos agrupados.
Clases
Li
Ls
Mc
F
fa
fc
fr
fra
frc
I
1.175
1.203
1.189
6
6
30
16.67%
16.67%
83.33%
II
1.213
1.241
1.227
10
16
20
27.78%
44.44%
55.56%
III
1.251
1.279
1.265
10
26
10
27.78%
72.22%
27.78%
IV
1.289
1.317
1.303
9
35
1
25.00%
97.22%
2.78%
V
1.327
1.355
1.341
1
36
0
2.78%
100.00%
0.00%
En ella se pueden observar los límites superiores e inferiores de cada clase, lo que indica (de no conocer los datos originales) que por ejemplo esos 6 valores de la clase pueden ubicarse en cualquier valor del rango, pueden ser por ejemplo 1.17, 1.171, 1.20, 1.202, 1.18, 1.1901.
Es decir pueden tomar cualquier valor dentro del rango lo que dificulta tomar estos parametros como elementos para el cálculo de las medidas de tendencia central, por ello se realizó el cálculo de la Mc (Marca de Clase) que en otras palabras es el rango medio de cada clase, que servirá para el cálculo de la media como lo establecemos en la siguiente tabla de cálculo para las medidas de tendencia central:
Medida
Formula
Observaciones
Media
https://sites.google.com/site/estadisticadm/_/rsrc/1273771486020/b-organizacion-y-presentacon-de-datos/b-3-medidas-de-tendencia-central/media_continuo_agrupado.png
Donde Mc se refiere a la marca de clase de cada clase, n es el número total de elementos en la muestra y fi se refiere a la frecuencia de la clase.


Mediana


p = (n/2)


Es la posición en donde se encuentra la mediana.
Se ubica en la tabla el primer valor de frecuencia acumulada mayor a la posición calculada.
El valor de la mediana se calcula tomando la formula del 5to. Decil.
Moda


https://sites.google.com/site/estadisticadm/_/rsrc/1273771540140/b-organizacion-y-presentacon-de-datos/b-3-medidas-de-tendencia-central/moda_cont_agrup.gif?height=47&width=200
Donde Li es el límite inferior de la clase que tiene la mayor frecuencia.
fm es la frecuencia  modal (aquella donde se encuentra la frecuencia  mayor)
f(m -1) es la frecuencia anterior a la frecuencia modal, en caso de encontrarse en la primera clase, este valor es cero.
F(m+1) es la frecuencia posterior a la frecuencia modal, en caso de encontrarse en la última clase, este valor es cero.
A es la amplitud de la clase modal.
Rango Medio
(Valor máximo + Valor Mínimo) / 2

Aplicandolas para calcular la media y complementando la tabla anterior:
Clases
Li
Ls
Mc
F
fa
fc
fr
fra
frc
Mc * f
I
1.175
1.203
1.189
6
6
30
16.67%
16.67%
83.33%
7.134
II
1.213
1.241
1.227
10
16
20
27.78%
44.44%
55.56%
12.27
III
1.251
1.279
1.265
10
26
10
27.78%
72.22%
27.78%
12.65
IV
1.289
1.317
1.303
9
35
1
25.00%
97.22%
2.78%
11.727
V
1.327
1.355
1.341
1
36
0
2.78%
100.00%
0.00%
1.341
36
45.122
Con fundamento en la tabla podemos entonces obtener:
                   45.122
Media =  ---------------- = 1.253388889
                      36

Para el cálculo de la mediana, se utiliza la formula del 5to. Decil (puede ser el 50tavo percentil), para ello determinamos la posición de este estadígrafo, p = (36/10)*5 = 3.6 * 5 = 18.
Con este valor recurrimos a la columna de la frecuencia acumulada y observarmos que el primer elemento mayor al valor calculado se ubica en la clase III, aplicando la fórmula obtenemos:
                                       ((36/10)*5 – 16)                                            (18 – 16)
Mediana = 1.251 + (----------------------------) * 0.028 = 1.251 + (---------------) * 0.028
                                                  10                                                             10

                                         2
Mediana = 1.251 + ( ---------) * 0.028 = 1.251 + (0.2 * 0.028) = 1.251 + 0.0056 = 1.2566
                                        10
La moda se encontraría en las clases II y III, son las que mayores frecuencias manifiestan, por lo tanto podemos definir que existen una característica de multimodalida en la muestra, calculemos la primera moda (dejamos como actividad complementaria el cálculo de la segunda moda).
                              ( 10 – 6)                                                     4
Mo = 1.213 + ( -------------------------) 0.028 = 1.213 + (--------) * 0.028 = 1.213 + 0.028
                              (2* 10 – 6 – 10)                                         4
Mo = 1.241

El rango medio se determina por la sumaentre 1.18 y 1.32 dividido entre 2 (1.18 + 1.32)/2 = 2.5 / 2 = 1.25
Si observamos los valores obtenidos veremos que solo para el cálculo de la mediana se tuvo que ordenar la información (así lo específica la definición), sin embargo podemos también observar que este ordenamiento no afecta de manera directa ninguno de los cálculos, de esta manera se puede construir la siguiente tabla:
Medida
Valor Calculado
Observaciones
Media
1.253388889

Mediana
1.2566
Se requirió del uso de fórmulas del 5to decil, se pudieron usar las de 50tavo centil.
Moda
1.241
Muestra multimodal, solo se calculó la primera moda
Rango Medio
1.25

Es de notar lo cercano de todos los valores que se han calculado, que circundan el valor de 1.25.
Construyamos una tabla comparativa de resultados de cálculo de estas medidas;
Medida
No agrupados
Agrupados
Media
1.24805556
1.253388889
Mediana
1.25
1.2566
Moda
1.24,1.25, 1.27
1.241
Rango Medio
1.25
1.25
Puede en esta tabla observarse una diferencia marcada en los valores obtenidos por agrupamiento y no agrupamiento para la media, la mediana y la moda, la última, por observación en el caso de no agrupamiento nos presenta 3 modas, mientras que en el agrupamiento, se obtienen 2 modas, la realidad es que el agrupar datos continuos se tiene una perdida de valores por la aproximación que se tiene al calcular por ejemplo la marca de clase como valor representativo medio de la misma.

Después de estos ejercicios que realizamos para la determinación de las medidas de tendencia central, para datos discretos y continuos tanto agrupados como no agrupados, realicemos los ejercicios de evaluación de esta sección, para ello baja el documento correspondiente en la sección de archivador (Ejercicios de Medidas de Tendencia Central.pdf) , resuelve los ejercicios (de preferencia en excel o en un software estadístico (spss, minitab, etc.) posteriormente envíalo a: leonardo.hernandez@gmai.com o sube tus respuestas en los archivos adjuntos de esta página.