Medidas de Distibución - Asimetría y Curtosis

Las medidas de distribución nos permiten identificar la forma en que se separan o aglomeran los valores de acuerdo a su representación gráfica. Estas medidas describen la manera como los datos tienden a reunirse de acuerdo con la frecuencia con que se hallen dentro de la información. Su utilidad radica en la posibilidad de identificar las características de la distribución sin necesidad de generar el gráfico. Sus principales medidas son la Asimetría y la Curtosis.

1. ASIMETRÍA

Esta medida nos permite identificar si los datos se distribuyen de forma uniformealrededor del punto central (Media aritmética). La asimetría presenta tres estados diferentes [Fig.5-1], cada uno de los cuales define de forma concisa como están distribuidos los datos respecto al eje de asimetría. Se dice que la asimetría es positiva cuando la mayoría de los datos se encuentran por encima del valor de la media aritmética, la curva es Simétrica cuando se distribuyen aproximadamente la misma cantidad de valores en ambos lados de la media y se conoce comoasimetría negativa cuando la mayor cantidad de datos se aglomeran en losvalores menores que la media.

El Coeficiente de asimetría, se representa mediante la ecuación matemática,

Donde (g1) representa el coeficiente de asimetría de Fisher, (Xi) cada uno de losvalores, (

) la media de la muestra y (ni) la frecuencia de cada valor. Losresultados de esta ecuación se interpretan:

· (g1 = 0): Se acepta que la distribución es Simétrica, es decir, existe aproximadamente la misma cantidad de valores a los dos lados de la media. Este valor es difícil de conseguir por lo que se tiende a tomar los valores que son cercanos ya sean positivos o negativos (± 0.5).

· (g1 > 0): La curva es asimétricamente positiva por lo que los valores se tienden a reunir más en la parte izquierda que en la derecha de la media.

· (g1 < 0): La curva es asimétricamente negativa por lo que los valores se tienden a reunir más en la parte derecha de la media.

Desde luego entre mayor sea el número (Positivo o Negativo), mayor será la distancia que separa la aglomeración de los valores con respecto a la media.

2. CURTOSIS

Esta medida determina el grado de concentración que presentan los valores en la región central de la distribución. Por medio del Coeficiente de Curtosis, podemos identificar si existe una gran concentración de valores (Leptocúrtica), una concentración normal (Mesocúrtica) ó una baja concentración (Platicúrtica).

Para calcular el coeficiente de Curtosis se utiliza la ecuación:

Donde (g2) representa el coeficiente de Curtosis, (Xi) cada uno de los valores, (

) la media de la muestra y (ni) la frecuencia de cada valor. Los resultados de esta fórmula se interpretan:

· (g2 = 0) la distribución es Mesocúrtica: Al igual que en la asimetría es bastante difícil encontrar un coeficiente de Curtosis de cero (0), por lo que se suelen aceptar los valores cercanos (± 0.5 aprox.).

· (g2 > 0) la distribución es Leptocúrtica

· (g2 < 0) la distribución es Platicúrtica

Cuando la distribución de los datos cuenta con un coeficiente de asimetría (g1 = ±0.5) y un coeficiente de Curtosis de (g2 = ±0.5), se le denomina Curva Normal. Este criterio es de suma importancia ya que para la mayoría de los procedimientos de la estadística de inferencia se requiere que los datos se distribuyan normalmente.

La principal ventaja de la distribución normal radica en el supuesto que el 95% de los valores se encuentra dentro de una distancia de dos desviaciones estándar de la media aritmética (Fig.5-3); es decir, si tomamos la media y le sumamos dos veces la desviación y después le restamos a la media dos desviaciones, el 95% de los casos se encontraría dentro del rango que compongan estos valores.

Desde luego, los conceptos vistos hasta aquí, son sólo una pequeña introducción a las principales medidas de Estadística Descriptiva; es de gran importancia que los lectores profundicen en estos temas ya que la principal dificultad del paqueteSPSS radica en el desconocimiento de los conceptos estadísticos.

Las definiciones plasmadas en este capítulo han sido extraídas de los librosEstadística para administradores escrito por Alan Wester de la editorial McGraw-Hill y el libro Estadística y Muestreo escrito por Ciro Martínez editorial Ecoe editores (Octava edición). No necesariamente tienes que guiarte por estos librosya que en las librerías encontraras una gran variedad de textos que pueden ser de bastante utilidad en la introducción a esta ciencia.

(fuente: http://www.spssfree.com/spss/analisis3.html)

Definiciones:

Las medidas de tendencia central son valores que se ubican al centro de un conjunto de datos ordenados según su magnitud. Generalmente se utilizan 4 de estos valores también conocidos como estadigrafos, la media aritmética, la mediana, la moda y al rango medio.

La media aritmética es la medida de posición utilizada con más frecuencia. Si se tienen n valores de observaciones, la media aritmética es la suma de todos y caca uno de los valores dividida entre el total de valores: Lo que indica que puede ser afectada por los valores extremos, por lo que puede dar una imagen distorcionada de la información de los datos.

La Mediana, es el valor que ocupa la posición central en un conjunto de datos, que deben estar ordenados, de esta manera la mitad de las observaciones es menor que la mediana y la otra mitad es mayor que la mediana, resulta muy apropiada cuando se poseen observaciones extremas.

La Moda es el valor de un conjunto de datos que aparece con mayor frecuencia. No depende de valores extremos, pero es más variables que la media y la mediana.

Rango Medio es la media de las observaciones menor y mayor. como intervienen solamente estas observaciones, si hay valores extremos, se distorsiona como medida de posición, pero

ofrece un valor adecuado, rápido y sencillo para resumir al conjunto de datos.

Datos Discretos

No Agrupados

Analicemos para ello las edades que utilizamos cuando se vió la organización y presentación de datos discretos:

12	15	14	15	16
18	19	14	15	17
15	17	18	16	19
16	17	15	15	17
16	18	17	19	17
23	16	17	18	19

Estos fueron loa datos mostrados originalmente, no se han ordenado ni agrupado, determinemos ahora los valores de la Media, la Mediana y la moda, para ello recurramos a las fórmulas de estas medidas que resumimos en la siguiente tabla:

Medida	Formula	Observaciones
Media		Donde x_i se refiere a todo y cada uno de los elementos de la muestra y n es el numero total de elementos en la muestra.
Mediana	a) p = (n/2)	Es la posición en donde se encuentra la mediana. Si n es impar, entonces es la opción a, en caso contrario, la b. El valor de la mediana se obtiene por observación
Mediana	b) p = (n/2) + 1
Moda		Se obtiene el valor por observación
Rango Medio	(Valor máximo + Valor Mínimo) / 2

Aplicando, se obtienen los siguientes valores:

Para la media:

_ 12 + 15 + 14 + 15 + 16 + 18 + 19 + 14 + 15 + 17 + 15 + 17 + 18 + 16 + 19 + 16 + 17 + 15 + 15 + 17 + 16 + 18 + 17 + 19 + 17 + 23 + 16 + 17 + 18 + 19

_ 500

X = ------------ = 16.6667

Para la mediana debera ordenarse el grupo de datos, como n = 30, utilizaremos la posición p = (30/2) = 15, el primer valor mayor a 15 corresponde a la clase 17.

La moda estaría determinada por observación directa, y correspondería al valor 17, que se presenta hasta 7 veces en la muestra.

El rango medio se determina por la suma entre 23 y 12 dividido entre 2 (23 + 12)/2 = 35/2 = 17.5

Si observamos los valores obtenidos veremos que solo para el cálculo de la mediana se obtiene tuvo que ordenar la información (así lo específica la definición), sin embargo podemos también observar que este ordenamiento no afecta de manera directa ninguno de los cálculos, de esta manera se puede construir la siguiente tabla:

Medida	Valor Calculado	Observaciones
Media	16.6667
Mediana	17	Se requirió el cálculo de la frecuencia acumulada
Moda	17
Rango Medio	17.5

Es de notar lo cercano de todos los valores que se han calculado, que circundan el valor de 17, no se notan cambios en los resultados comparados con los datos originales, sin embargo las formulas si se ven modificadas.

Agrupados

Recurramos ahora al agrupamiento de los datos discretos del ejercicio que hemos estado utilizando:

Clase	Repeticiones	Total de Años de la clase
12	1	12
14	2	28
15	6	90
16	5	80
17	7	119
18	4	72
19	4	76
23	1	23
Total	30	500

En donde podemos observar la suma de las frecuencias y de los años multiplicados por la clase que agrupa a los datos coinciden con los datos utilizados cuando no se agruparon en la sección anterior, utilizando ahora las formulas de la siguiente tabla:

Medida	Formula	Observaciones
Media		Donde x_i se refiere a todo y cada uno de los elementos de la muestra y n es el número total de elementos en la muestra y f_i se refiere a la frecuencia de la clase.
Mediana	p = (n/2)	Es la posición en donde se encuentra la mediana. Se ubica en la tabla el primer valor de frecuencia acumulada mayor a la posición calculada, si ese valor es mayor, entonces la mediana es la clase correspondiente al mismo. Si el valor es igual a la posición, entonces se suman el valor anterior más el valor obtenido y se divide entre 2.
Moda		Se obtiene el valor por observación de la mayor frecuencia
Rango Medio	(Valor máximo + Valor Mínimo) / 2

Aplicando, se obtienen los siguientes valores:

Para la media:

_ 12 * 1 + 14 * 2 + 15 * 6 + 16 * 5 + 17 * 7 + 18 * 4 + 19 * 4 + 23 * 1 12 + 28 + 90 + 80 + 119 + 72 + 76 + 23

X = -------------------------------------------------------------------------------------------- = ---------------------------------------------------------------

30 30

_ 500

X = ------------ = 16.6667

Para la Mediana, utilizaremos la frecuencia acumulada:

Clase	Frecuencia	Frecuencia Acumulada
12	1	1
14	2	3
15	6	9
16	5	14
17	7	21
18	4	27
19	4	29
23	1	30
Total	30

Como n = 30, utilizaremos la posición p = (30/2) = 15, el primer valor mayor a 15 corresponde a la clase 17.

La moda estaría determinada por observación directa, y correspondería al valor 17, que se presenta hasta 7 veces en la muestra.

El rango medio se determina por la suma entre 23 y 12 dividido entre 2 (23 + 12)/2 = 35/2 = 17.5

Medida	Valor Calculado	Observaciones
Media	16.6667
Mediana	17	Se requirió el cálculo de la frecuencia acumulada
Moda	17
Rango Medio	17.5

Datos Continuos

No agrupados

Las medidas de tendencia central para datos continuos no agrupados no tienen mayor significación, ya que el comportamiento es similar al de datos discretos no agrupados, por ello utilizaremos las mismas formúlas, pero ahora con los datos continuos del ejercicio de la sección correspondiente:

1.25	1.2	1.28	1.29	1.2	1.24
1.27	1.21	1.32	1.27	1.18	1.29
1.2	1.23	1.25	1.28	1.24	1.28
1.27	1.25	1.24	1.25	1.27	1.28
1.29	1.18	1.21	1.24	1.2	1.23
1.25	1.27	1.28	1.24	1.29	1.21

Aplicando, se obtienen los siguientes valores:

Para la media, aplicando la formula de la media para datos no agrupados (vista en la sección de datos discretos):

_ 1.25 + 1.2 + 1.28+1.29+1.2 + 1.24 + 1.27 + 1.21 + 1.32 + 1.27 + 1.18 + 1.29 + 1.2 + 1.23 + 1.25 + 1.28 + 1.24 + 1.28 + 1.27 + 1.25 + 1.24 + 1.25 + 1.27 + 1.28 + 1.29 + 1.28 + 1.21 + 1.24 + 1.2 + 1.23 + 1.25 + 1.27 + 1.28 + 1.24 + 1.29 + 1.21

X = ----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

_ 44.93

X = ------------ = 1.24805556

Para la Mediana, como n = 36, es par, utilizaremos la posición p = (36/2) = 18

Por lo que la mediana se encontrará entre los valores que se ubiquen (de manera ordenada) entre las posiciones 18 y 19 (observa que antes de esa posición hay 17 y después también hay 17 valores), se encuentran 1.25 y 1.25, por lo que la mediana sería 1.25.

La moda estaría determinada por observación directa, y corresponderían a los valores 1.24, 1.25 y 1.27 que se repiten en la muestra 5 veces, por lo que la característica según la moda es una muestra trimodal (normalmente se le conoce como multimodal).

El rango medio se determina por la sumaentre 1.18 y 1.32 dividido entre 2 (1.18 + 1.32)/2 = 2.5 / 2 = 1.25

Si observamos los valores obtenidos veremos que solo para el cálculo de la mediana se tuvo que ordenar la información (así lo específica la definición), sin embargo podemos también observar que este ordenamiento no afecta de manera directa ninguno de los cálculos, de esta manera se puede construir la siguiente tabla:

Medida	Valor Calculado	Observaciones
Media	1.24805556
Mediana	1.25	Se requirió del ordenamiento de los datos
Moda	1.24,1.25, 1.27	Muestra multimodal
Rango Medio	1.25

Es de notar lo cercano de todos los valores que se han calculado, que circundan el valor de 1.25.

Agrupados

Retomando los cálculos realizados en la sección correspondiente a organización y presentación de datos continuos agrupados.

Clases	Li	Ls	Mc	F	fa	fc	fr	fra	frc
I	1.175	1.203	1.189	6	6	30	16.67%	16.67%	83.33%
II	1.213	1.241	1.227	10	16	20	27.78%	44.44%	55.56%
III	1.251	1.279	1.265	10	26	10	27.78%	72.22%	27.78%
IV	1.289	1.317	1.303	9	35	1	25.00%	97.22%	2.78%
V	1.327	1.355	1.341	1	36	0	2.78%	100.00%	0.00%

En ella se pueden observar los límites superiores e inferiores de cada clase, lo que indica (de no conocer los datos originales) que por ejemplo esos 6 valores de la clase pueden ubicarse en cualquier valor del rango, pueden ser por ejemplo 1.17, 1.171, 1.20, 1.202, 1.18, 1.1901.

Es decir pueden tomar cualquier valor dentro del rango lo que dificulta tomar estos parametros como elementos para el cálculo de las medidas de tendencia central, por ello se realizó el cálculo de la Mc (Marca de Clase) que en otras palabras es el rango medio de cada clase, que servirá para el cálculo de la media como lo establecemos en la siguiente tabla de cálculo para las medidas de tendencia central:

Medida	Formula	Observaciones
Media		Donde Mc se refiere a la marca de clase de cada clase, n es el número total de elementos en la muestra y f_i se refiere a la frecuencia de la clase.
Mediana	p = (n/2)	Es la posición en donde se encuentra la mediana. Se ubica en la tabla el primer valor de frecuencia acumulada mayor a la posición calculada. El valor de la mediana se calcula tomando la formula del 5to. Decil.
Moda		Donde Li es el límite inferior de la clase que tiene la mayor frecuencia. f_m es la frecuencia modal (aquella donde se encuentra la frecuencia mayor) f_{(m -1)} es la frecuencia anterior a la frecuencia modal, en caso de encontrarse en la primera clase, este valor es cero. F_(m+1) es la frecuencia posterior a la frecuencia modal, en caso de encontrarse en la última clase, este valor es cero. A es la amplitud de la clase modal.
Rango Medio	(Valor máximo + Valor Mínimo) / 2

Aplicandolas para calcular la media y complementando la tabla anterior:

Clases	Li	Ls	Mc	F	fa	fc	fr	fra	frc	*Mc f**
I	1.175	1.203	1.189	6	6	30	16.67%	16.67%	83.33%	7.134
II	1.213	1.241	1.227	10	16	20	27.78%	44.44%	55.56%	12.27
III	1.251	1.279	1.265	10	26	10	27.78%	72.22%	27.78%	12.65
IV	1.289	1.317	1.303	9	35	1	25.00%	97.22%	2.78%	11.727
V	1.327	1.355	1.341	1	36	0	2.78%	100.00%	0.00%	1.341
				36						45.122

Con fundamento en la tabla podemos entonces obtener:

45.122

Media = ---------------- = 1.253388889

Para el cálculo de la mediana, se utiliza la formula del 5to. Decil (puede ser el 50tavo percentil), para ello determinamos la posición de este estadígrafo, p = (36/10)*5 = 3.6 * 5 = 18.

Con este valor recurrimos a la columna de la frecuencia acumulada y observarmos que el primer elemento mayor al valor calculado se ubica en la clase III, aplicando la fórmula obtenemos:

((36/10)*5 – 16) (18 – 16)

Mediana = 1.251 + (----------------------------) * 0.028 = 1.251 + (---------------) * 0.028

10 10

Mediana = 1.251 + ( ---------) * 0.028 = 1.251 + (0.2 * 0.028) = 1.251 + 0.0056 = 1.2566

La moda se encontraría en las clases II y III, son las que mayores frecuencias manifiestan, por lo tanto podemos definir que existen una característica de multimodalida en la muestra, calculemos la primera moda (dejamos como actividad complementaria el cálculo de la segunda moda).

( 10 – 6) 4

Mo = 1.213 + ( -------------------------) 0.028 = 1.213 + (--------) * 0.028 = 1.213 + 0.028

(2* 10 – 6 – 10) 4

Mo = 1.241

El rango medio se determina por la sumaentre 1.18 y 1.32 dividido entre 2 (1.18 + 1.32)/2 = 2.5 / 2 = 1.25

Medida	Valor Calculado	Observaciones
Media	1.253388889
Mediana	1.2566	Se requirió del uso de fórmulas del 5to decil, se pudieron usar las de 50tavo centil.
Moda	1.241	Muestra multimodal, solo se calculó la primera moda
Rango Medio	1.25

Es de notar lo cercano de todos los valores que se han calculado, que circundan el valor de 1.25.

Construyamos una tabla comparativa de resultados de cálculo de estas medidas;

Medida	No agrupados	Agrupados
Media	1.24805556	1.253388889
Mediana	1.25	1.2566
Moda	1.24,1.25, 1.27	1.241
Rango Medio	1.25	1.25

Puede en esta tabla observarse una diferencia marcada en los valores obtenidos por agrupamiento y no agrupamiento para la media, la mediana y la moda, la última, por observación en el caso de no agrupamiento nos presenta 3 modas, mientras que en el agrupamiento, se obtienen 2 modas, la realidad es que el agrupar datos continuos se tiene una perdida de valores por la aproximación que se tiene al calcular por ejemplo la marca de clase como valor representativo medio de la misma.

Después de estos ejercicios que realizamos para la determinación de las medidas de tendencia central, para datos discretos y continuos tanto agrupados como no agrupados, realicemos los ejercicios de evaluación de esta sección, para ello baja el documento correspondiente en la sección de archivador (Ejercicios de Medidas de Tendencia Central.pdf) , resuelve los ejercicios (de preferencia en excel o en un software estadístico (spss, minitab, etc.) posteriormente envíalo a: leonardo.hernandez@gmai.com o sube tus respuestas en los archivos adjuntos de esta página.

( Fuente: https://sites.google.com/site/estadisticadm/b-organizacion-y-presentacon-de-datos/b-3-medidas-de-tendencia-centra)

Variable	Frecuencias absolutas		Frecuencias relativas
(Valor)	Simple	Acumulada	Simple	Acumulada
x	x	x	x	x
1,20	1	1	3,3%	3,3%
1,21	4	5	13,3%	16,6%
1,22	4	9	13,3%	30,0%
1,23	2	11	6,6%	36,6%
1,24	1	12	3,3%	40,0%
1,25	2	14	6,6%	46,6%
1,26	3	17	10,0%	56,6%
1,27	3	20	10,0%	66,6%
1,28	4	24	13,3%	80,0%
1,29	3	27	10,0%	90,0%
1,30	3	30	10,0%	100,0%

ESTADISTICA APLICADA ESAT UAEH SEM ENE-JUL 2015 GABRIEL DE JESUS

jueves, 26 de febrero de 2015