martes, 16 de octubre de 2012

DATOS AGRUPADOS




DATOS AGRUPADOS
Cálculo de Medidas Estadísticas.

OBJETIVOS:

·         Hallar la Media Aritmética da Datos Agrupados utilizando diversos métodos.
·         Calcular la Moda en una distribución de Datos Agrupados.
·         Construir Intervalos y determinar Cuartiles, Deciles y percentiles.
·         Buscar la Varianza y la Desviación Estándar de datos agrupados, utilizando diferentes técnicas.

PROCESO DE COMPRENSIÓN Y ANÁLISIS

MEDIA ARITMÉTICA:

Distribución: 2, 4, 5, 2, 6, 7, 5, 4, 6, 7, 5, 4, 2, 7, 6.   n = 15
Datos ordenados: 2, 2, 2, 4, 4, 4, 5, 5, 5, 6, 6, 6, 7, 7, 7.     n = 15
Tabla de Frecuencias
Marca x
Fx
2
3
4
3
5
3
6
3
7
3

               


Ejemplo: El seguimiento de un estudiante en Estadística es el siguiente:
3.2, valor 10%; 3.5, valor 20%; 2.5, valor 30%; 3.7, valor 40%. Cuál es la nota definitiva?
Definitiva: 0.32 + 0.7 + 0.75 + 1.48 = 3.25
Otra solución.
Calificaciones
Incidencia según %
3.2
10
3.5
20
2.5
30
3.7
40



Ejemplo: En la siguiente tabla aparece una distribución de datos agrupados en intervalos de clase. Estos son los puntajes obtenidos por 50 estudiantes en una aprueba de Química. Calcular M = X.
Clase i
Intervalos de Clase
Frecuencia
Fi
Punto Medio
Xi
FiXi
1
8---10
8
9
72
2
11---13
6
12
72
3
14---16
12
15
180
4
17---19
10
18
180
5
20---22
9
21
189
6
23---25
5
24
120




= 16.26   Valor localizado hacia el centro de la distribución (Clase 3 y 4)

Otro Método para hallar M = X.
Clase i
Intervalo de Clase
Limites Reales
Frecuencia
Fi
Punto Medio
Xi
X’i
FiX’i
1
8---10
7.5---10.5
8
9
-2
-16
2
11---13
10.5---13.5
6
12
-1
-6
3
14---16
13.5---16.5
12
15
0
0
4
17---19
16.5---19.5
10
18
1
10
5
20---22
19.5---22.5
9
21
2
18
6
23---25
22.5---25.5
5
24
3
15





Instrucciones:
1.       Para hallar la columna X’i, elegimos la clase intermedia (en este caso la 3) y partimos de cero.
2.       El punto medio de esta clase es 15, el cual se denominará M’ = 15
3.       Longitud del intervalo de limites reales: B = 3
   Compromiso: Verificarlo con la clase 4
Productos: 
1.       En una distribución el 6 aparece 5 veces, el 8 aparece 15 veces, el 10 aparece 9 veces, el 14 aparece 7 veces y el 21 se repite 9 veces. Cuál es la media aritmética?
2.       Cinco grupos de estudiantes, formados por 12, 15, 8, 10 y 16 individuos registran respectivamente una media de pesos de 150, 170, 165, 180, 172 libras. Hallar el peso promedio de todos los estudiantes.  
3.       Encuentra la  Media Aritmética de la siguiente distribución de datos:

Clase i
Intervalos de Clase
Frecuencia
Fi
Punto Medio
Xi
FiXi

4----10
11----17
18----24
25----31
32----38
7
9
12
14
6





4.       Para los datos, altura en centímetros, calcular la media aritmética por el método de límites reales.
Clase i
Intervalo de Clase
Limites Reales
Frecuencia
Fi
Punto Medio
Xi
X’i
FiX’i
1
84---92

12



2
93---101

8



3
102---110

10



4
111---119

13



5
120---128

15









INTERVALOS DE CLASE.

Cuando existe un volumen grande de datos, los procesos para hallar las Medidas de Tendencia Central (Media Aritmética, Moda y Mediana) o para elaborar gráficas, se convierte en procesos dispendiosos y tediosos; por ello se acostumbra agrupar los datos, técnica que permite agilizar operaciones y procesos pero que además requiere conocer algunos conceptos indispensables:
Rango: Diferencia entre los valores extremos de una serie de datos ordenados.
Número de intervalos: Los intervalos para agrupar los datos no pueden ser menores que 5 ni mayores que 18.   
Distribuir los datos: 7, 8, 9,…, 36,…40 en grupos o intervalos:
1.       Rango: 40 – 7 = 33
2.       Buscamos dos números cuyo producto sea el mayor más cercano al rango: 7*5 = 35. Esto nos indica que tomamos 7 intervalos, cada uno con un ancho de 5 unidades.
3.       Primer intervalo:
a.       Diferencia entre el producto y el rango: 35 - 33 = 2
b.       Dividimos esta diferencia entre 2: 2/2 = 1
c.        Este cociente lo restamos del límite inferior: 7 – 1 = 6. Extremo inferior del primer intervalo.
d.       El extremo superior del primer intervalo será 6 más el ancho disminuido en 1: 6 + (5 -1) = 10
4.       Segundo Intervalo:
a.       Al límite superior del primer intervalo, le sumamos 1: 10 + 1 =11(Lím. inf. del 2º)
b.       Extremo superior: 11 más 4 = 15
5.       Los demás intervalos se hallan de forma similar.
Clase
Intervalo
1
2
3
4
5
6
7
6------10
11------15
16------20
21------25
26------30
31------35
36------40

Otro Método:

1 + 3.3 LogN: 1+ 3.3 (Log40) = 1 + 3.3 (1.602) = 6.28.   Por exceso: 7 Intervalos.
Rango: 40 – 7 = 33
. Por defecto: 4 de ancho.

Primer intervalo:
Límite inferior inicial: Primer dato menos 1: 7 – 1 = 6
Limite superior: Agregar el ancho al limite inferior anterior: 6 + 4 = 10

Segundo Intervalo:

Limite Inferior: Lím. Superior del 1º más 1.
Limite superior: Lím inferior más el ancho.

Los demás intervalos se hallan con procedimiento similar.
Clase
Intervalo
1
2
3
4
5
6
7
6------10
11------15
16------20
21------25
26------30
31------35
36------40

Límite Real: Al límite inferior le restamos 0.5 y al límite superior le sumamos 0.5

Clase
Intervalo
Límite Real
1
2
3
4
5
6
7
6------10
11------15
16------20
21------25
26------30
31------35
36------40
5.5-----10.5
10.5-----15.5
15.5-----20.5
20.5-----25.5
25.5-----30.5
30.5-----35.5
35.5-----40.5
Frecuencia de cada Intervalo: Se suman las correspondientes a los datos que caen dentro del intervalo. Permite identificar la moda.
Marcas de Clase: Conocida también como Punto Medio. Sirven como referencia para hallar la media aritmética y la moda de datos agrupados.  MC =
SITUACIÓN PROBLEMA
A continuación se relacionan las ventas de una empresa en millones de pesos.
55
76
85
65
80
88
74
65
91
89
60
76
83
60
71
70
86
67
68
73
65
77
71
55
75
75
68
74
72
75
60
84
75
65
75
73
67
68
79
70
55
72
63
63
77
89
60
72
83
88

Datos ordenados:
55
55
55
60
60
60
60
63
63
65
65
65
65
67
68
68
68
70
70
71
71
72
72
72
73
73
74
74
75
75
75
75
75
76
76
77
77
79
80
83
83
84
85
86
87
88
88
89
89
91

Tabla de Frecuencias Absolutas:
Ventas
Frecuencia
55
3
60
4
63
2
65
4
67
1
68
3
70
2
71
2
72
3
73
2
74
2
75
5
76
2
77
2
79
1
80
1
83
2
84
1
85
1
86
1
87
1
88
2
89
2
91
1

N = 50


Intervalos:
1 + 3.3 LogN: 1+ 3.3 (Log50) = 1 + 3.3 (1.698) = 6.60.   Por exceso: 7 Intervalos.
Rango: 91 – 55 = 36
. Por defecto: 5 de ancho.                                                               

Primer intervalo:
Límite inferior inicial: Primer dato menos 1: 55 – 1 = 54
Limite superior: Agregar el ancho al limite inferior anterior: 54 + 5 = 59

Segundo Intervalo:
Limite Inferior: Lím. Superior del 1º más 1
Limite superior: Lím inferior más el ancho.

Clase
Intervalo
1
54-----59
2
60-----65
3
66-----71
4
72-----77
5
78-----83
6
84-----89
7
90-----95


MEDIDAS DE TENDENCIA CENTRAL

Hallar la Media Aritmética. (Simple o Ponderada): Conocida también como promedio. Matemáticamente se define como la suma de los valores observados, dividida entre el número de observaciones. Es la medida más conocida, la más fácil de calcular y con la que siempre estamos familiarizados, ya que continuamente calculamos el promedio de las calificaciones, gastos, desempeños semanales, mensuales, etc. A veces nos conduce a resultados que no revelan lo que se pretende presentar (Variables cuantitativas discretas o continuas). Medida que se presta a tratamientos algebraicos, presenta una gran estabilidad en el muestreo y es altamente sensible a cualquier cambio en los valores de la distribución. Su mayor desventaja radica en la imposibilidad de ser aplicada en aquellas distribuciones que no tienen definidos sus valores extremos y debido a su gran sensibilidad para valores muy grandes de la variable, puede darnos un valor promedio que no sea típico o representativo (Sueldo mínimo promediado con el sueldo del Senado). No es recomendable su uso cuando la variable está dada en forma de tasa o porcentaje o cuando presenta un crecimiento geométrico. Se puede afirmar que la media aritmética es representativa del conjunto, si se quieren promediar cantidades semejantes, que presenten variaciones dentro de un margen razonable.
         
Clase i
Intervalos de Clase
Frecuencia
Fi
Punto Medio Xi
o marcas de Clase
FiXi
1
54-----59
3
56.5
169.5
2
60-----65
10
62.5
625
3
66-----71
8
68.5
548
4
72-----77
16
74.5
1192
5
78-----83
4
80.5
322
6
84-----89
8
86.5
692
7
90-----95
1
92.5
92.5




= 72.82 Valor localizado hacia el centro de la distribución (Clase 4)

Otro Método para hallar M = X.
Clase i
Intervalo de Clase
Limites Reales
Frecuencia
Fi
Punto Medio Xi
o Marcas de Clase
X’i
FiX’i
1
54----59
53.5---59.5
3
56.5
-3
-9
2
60----65
59.5---65.5
10
62.5
-2
-20
3
66----71
65.5---71.5
8
68.5
-1
-8
4
72----77
71.5---77.5
16
74.5
0
0
5
78----83
77.5---83.5
4
80.5
1
4
6
84----89
83.5---89.5
8
86.5
2
16
7
90----95
89.5---95.5
1
92.5
3
3





Instrucciones:
1.       Para hallar la columna X’i, elegimos la clase intermedia (en este caso la 4) y partimos de cero.
2.       El punto medio de esta clase es 74.5, el cual se denominará M’ = 74.5
3.       Longitud del intervalo de limites reales: B = 6
  

Hallar la Moda: Mo. Se define como el valor de la variable o atributo que presenta la mayor densidad o frecuencia dentro de una distribución. Si una información tiene una moda, se le denomina unimodal, dos modas: bimodal y varias modas: multimodal; sin embargo también puede ocurrir que la información no posea moda. La moda constituye otra medida de posición, menos importante que el promedio y la mediana, su uso es bastante limitado. Al igual que la mediana, sus fórmulas no admiten tratamiento algebraico; tampoco es sensible a valores extremos o a los cambios que se hagan a los valores de la variable diferente a la moda. Su uso se hace indispensable cuando la distribución presenta el primero y último intervalo abierto o no definido. Se utiliza de preferencia en distribuciones con amplitud constante y en especial cuando la variable o el atributo presenta una frecuencia demasiado grande con relación a las demás. Algunos consideran la moda como un “Promedio Industrial” ya que la fabricación o la venta de un artículo puede estar determinado por la moda.   Nota: A pesar de que el valor hallado no  es un valor real dentro de la información, matemáticamente se asume que es el valor que posee mayor frecuencia de ocurrencia.


Hallamos la mayor frecuencia y con ella la marca de clase o punto medio.
Fi: 16     Marca de clase: 74.5        Ojo

Otra forma de hallar la moda:

Identificar: Mayor Fi; A: Amplitud o ancho; Nj-1: Fi anterior; Nj+1: Fi posterior.
Mo =  = 71.5+ Ojo

Compromiso: Completar tabla de información. (Anexo Excel: Archivo Información Adicional)

Mediana para Datos Agrupados: Me. Otra medida de tendencia central utilizada principalmente en estadística no paramétrica, la cual no se basa en la magnitud de los datos, como la media aritmética, sino en la posición central que debe ocupar debido al oren de su magnitud. Es un valor central que divide la información en dos partes iguales, deja igual número de datos por encima y por debajo de ella. Medida de posición menos importante que la media aritmética, se define como aquel valor de la variable que supera la mitad de las observaciones y a su vez es superado por la otra mitad de dichas observaciones; por tal razón, se le considera como el valor central ya que el promedio estará situado en el centro de la distribución.  Su aplicación es menos frecuente que la media aritmética o promedio, presenta gran inestabilidad en el muestreo, sus fórmulas son rígidas y no admiten tratamiento algebraico como la media. En aquellas distribuciones irregulares, que presentan valores extremos que por lo general afectan el promedio, deberá utilizarse la mediana, ya que no se afecta por los cambios que sufra la variable, mientras no sea en la observación central. Para calcularla se requiere de una ordenación de datos de menor a mayor o viceversa. Es utilizada con mayor frecuencia, cuando la distribución presenta el primero y último intervalo abierto o no definido. El valor de este promedio depende del número de observaciones y no del valor de las mismas; es poco conocida y presenta dificultades en su aplicación. Para datos no agrupados debe tenerse en cuanta cuando n es par o impar y para los datos agrupados: se debe localizar el intervalo de Límites Reales en donde ésta se halle. Recordemos que la mediana está ubicada en la mitad de la distribución.

Clase i
Intervalo de Clase
Limites Reales
Frecuencia
Fi
Frecuencia Acumulada
1
54----59
53.5---59.5
3
3
2
60----65
59.5---65.5
10
13
3
66----71
65.5---71.5
8
21
4
72----77
71.5---77.5
16
37
5
78----83
77.5---83.5
4
41
6
84----89
83.5---89.5
8
49
7
90----95
89.5---95.5
1
50





El tamaño de la distribución es N = 50;   

El dato 25 corresponde a la clase 4 en la cual se encuentra la Mediana: 71.5 ---- 77.5 con frecuencia absoluta de 16, muestra una frecuencia acumulada de (3+10+8+16 = 37)

L: Límite inferior del intervalo de límites reales donde está la Mediana = 71.5

F. Acum: Frecuencia acumulada antes de éste intervalo: 21
Fi: Frecuencia del intervalo donde está la Mediana = 16
B: Longitud o ancho del intervalo de límites reales = 6
Me:  


Falta por construir: Marcas para Z, Histograma y polígono de frecuencias. Curva Normal: Rango Percentílico. Correlación: Magnitud de una correlación, coeficiente correlación, correlación x, y (Positivas o negativas). Regresión lineal simple: Ecuación de regresión. Diferencia entre el valor observado y el valor predicho. Coeficiente de determinación. Coeficiente de determinación.




MEDIDAS DE POSICIÓN

Una prueba de ortografía reportó los siguientes resultados:
Clase i
Intervalo de
Clase
Limites
Reales
Frecuencia
Fi
Frecuencia Acumulada
1
2
3
4
5
6
7
8
6 --------12
13---------19
20---------26
27---------33
34---------40
41---------47
48---------54
55---------61
5.5 ----------12.5
12.5---------19.5
19.5---------26.5
26.5---------33.5
33.5---------40.5
40.5---------47.5
47.5---------54.5
54.5---------61.5
7
8
6
10
9
11
12
5
7
15
21
31
40
51
63
68
                                                                                       68

CALCULO DEL CUARTIL Q – ESIMO
Calcular el cuartil 2: en la tabla anterior. (Según Limites Reales)
Debe tenerse en cuenta las siguientes apreciaciones:
En tal desigualdad, el entero j nos ayuda a localizar el intervalo donde se encuentra el cuartil requerido (Según FA).
L
Límite inferior del intervalo de limites reales donde se encuentra
FA
Frecuencia acumulada antes del intervalo donde se encuentra
Fi
Frecuencia absoluta donde se encuentra
B
Longitud del intervalo de limites reales donde se encuentra

El de la distribución anterior se encuentra así:

Tamaño N = 68,  K = 2
   De la desigualdad  se tiene que el entero j = 35(Según Fa)

Luego, decimos entonces que este cuartil está ubicado en el intervalo de límites reales: 33.5 – 40.5, Clase 5, cuya frecuencia absoluta es: Fi = 9

 = 

CALCULO DEL QUINTIL Q – ESIMO
Calcular el quintil 4: en la tabla anterior. (Según Limites Reales)
Debe tenerse en cuenta las siguientes apreciaciones:
En tal desigualdad, el entero j nos ayuda a localizar el intervalo donde se encuentra el quintil requerido (Según FA)
L
Límite inferior del intervalo de limites reales donde se encuentra
FA
Frecuencia acumulada antes del intervalo donde se encuentra
Fi
Frecuencia absoluta donde se encuentra
B
Longitud del intervalo de limites reales donde se encuentra

El de la distribución anterior se encuentra así:

Tamaño N = 68,  K = 4
 De la desigualdad  se tiene que el entero j = 55 (Según FA)

Luego, decimos entonces que este quintil está ubicado en el intervalo de límites reales: 47,5 --- 54,5 Clase 7, cuya frecuencia absoluta es: Fi = 12

 = 

CALCULO DEL DECIL K – ESIMO
Calcular el decil 2: en la tabla anterior. (Según Limites Reales)
Debe tenerse en cuenta las siguientes apreciaciones:
En tal desigualdad, el entero j nos ayuda a localizar el intervalo donde se encuentra el decil requerido (Según FA).
L
Límite inferior del intervalo de limites reales donde se encuentra
FA
Frecuencia acumulada antes del intervalo donde se encuentra
Fi
Frecuencia absoluta donde se encuentra
B
Longitud del intervalo de limites reales donde se encuentra

El de la distribución anterior se encuentra así:

Tamaño N = 68,  K = 2
   De la desigualdad  se tiene que el entero j =     14(Según Fa)

Luego, decimos entonces que este decil está ubicado en el intervalo de límites reales: 12.5 --- 19,5 Clase 2, cuya frecuencia absoluta es: Fi = 8

 = 

CALCULO DEL PERCENTIL K – ESIMO  
Calcular el percentil 65: en la tabla anterior. (Según Limites Reales)
Debe tenerse en cuenta las siguientes apreciaciones:
En tal desigualdad, el entero j nos ayuda a localizar el intervalo donde se encuentra el percentil requerido.
L
Límite inferior del intervalo de limites reales donde se encuentra
FA
Frecuencia acumulada antes del intervalo donde se encuentra
Fi
Frecuencia absoluta donde se encuentra
B
Longitud del intervalo de limites reales donde se encuentra  

El de la distribución anterior se encuentra así:

Tamaño N = 68,  K = 65
   De la desigualdad  se tiene que el entero j = 45

Luego, decimos entonces que este percentil está ubicado en el intervalo de límites reales: 40,5 --- 47,5 Clase 6, cuya frecuencia absoluta es: Fi = 11

 = 


SEGÚN INTERVALOS DE CLASE

Una prueba de ortografía reportó los siguientes resultados:
Clase i
Intervalo de
Clase
Limites
Reales
Frecuencia
Fi
Frecuencia Acumulada
1
2
3
4
5
6
7
8
6 --------12
13---------19
20---------26
27---------33
34---------40
41---------47
48---------54
55---------61
5.5 ----------12.5
12.5---------19.5
19.5---------26.5
26.5---------33.5
33.5---------40.5
40.5---------47.5
47.5---------54.5
54.5---------61.5
7
8
6
10
9
11
12
5
7
15
21
31
40
51
63
68
                                                                                       68

CALCULO DE CUARTILES 
Calcular el cuartil 2: en la tabla anterior
Debe ubicarse en la FA, nos permite ubicar la clase y su Fi
L
Límite inferior de la clase donde se encuentra
FA
Frecuencia acumulada antes del intervalo donde se encuentra
Fi
Frecuencia absoluta donde se encuentra
B
Amplitud del intervalo.

Tamaño N = 68,  K = 2
   Debe ubicarse en FA
Luego, decimos entonces que este cuartil está ubicado en el intervalo 34 – 40 Clase 5, cuya frecuencia absoluta es: Fi = 9

 = 

CALCULO QUINTILES
Calcular el quintil 4: en la tabla anterior
Debe ubicarse en la FA, nos permite ubicar la clase y su Fi
L
Límite inferior de la clase donde se encuentra
FA
Frecuencia acumulada antes del intervalo donde se encuentra
Fi
Frecuencia absoluta donde se encuentra
B
Amplitud del intervalo.

Tamaño N = 68,  K = 4
   Debe ubicarse en FA
Luego, decimos entonces que este quintil está ubicado en el intervalo 48 – 54 Clase 7, cuya frecuencia absoluta es: Fi = 12

 = 


CALCULO DE DECILES  
Calcular el decil 2: en la tabla anterior.
Debe ubicarse en la FA, nos permite ubicar la clase y su Fi
L
Límite inferior de la clase donde se encuentra
FA
Frecuencia acumulada antes del intervalo donde se encuentra
Fi
Frecuencia absoluta donde se encuentra
B
Amplitud del intervalo.

Tamaño N = 68,  K = 2
   Debe ubicarse en FA
Luego, decimos entonces que este decil está ubicado en el intervalo 13 – 19, Clase 2, cuya frecuencia absoluta es: Fi = 8

 = 


CALCULO DE PERCENTILES
Calcular el percentil 65: en la tabla anterior.
Debe ubicarse en la FA, nos permite ubicar la clase y su Fi
L
Límite inferior de la clase donde se encuentra
FA
Frecuencia acumulada antes del intervalo donde se encuentra
Fi
Frecuencia absoluta donde se encuentra
B
Amplitud del intervalo.

Tamaño N = 68,  K = 65
   Debe ubicarse en FA
Luego, decimos entonces que este percentil está ubicado en el intervalo 41 – 47 Clase 6, cuya frecuencia absoluta es: Fi = 11

 = 




MEDIDAS DE DISPERSIÓN
VARIANZA, DESVIACIÓN ESTANDARD Y FRECUENCIA

a). Considerar la siguiente distribución de datos no agrupados: 7, 3, 1, 4, 3, 7, 7, 1, 3, 7, 1, 4

MARCA X
FRECUENCIA Fi
FiX
1
3
4
7
3
3
2
4
3
9
8
28
1
9
16
49
3
27
32
196
                        12
48

258

Varianza:

Desviación Estándar: = = 2.35

b). Datos agrupados: Hallar la varianza y la desviación estándar de los siguientes pesos en kilos de un grupo de estudiantes.

Clase i
Intervalo de Clase
Limites Reales
Frecuencia Fi
Xi´
Xi^2
FiXi´
Fi * Xi´^2
1
2
3
4
5
24 --- 26
27 --- 29
30 --- 32
33 --- 35
36 --- 38
23.5 - 26.5
26.5 - 29.5
29.5 - 32.5
32.5 -35.5
35.5 -38.5
2
10
8
4
1
-2
-1
0
1
2
4
1
0
1
4
-4
-10
0
4
2
8
10
0
4
4



25


-8
26

Varianza:  donde B es la longitud del intervalo de Lim. Reales


Desviación Estándar:


Otra Forma:
Clase i
Intervalo de
 Clase
Frecuencia
 Fi
Punto Medio Xi
Xi^2
FiXi
Fi * Xi^2
1
2
3
4
5
24 --- 26
27 --- 29
30 --- 32
33 --- 35
36 --- 38
2
10
8
4
1
25
28
31
34
37
625
784
961
1156
1369
50
280
248
136
37
1250
7840
7688
4624
1369




751
22771

Varianza:
Desviación Estándar:



CURVA NORMAL O DISTRIBUCIÓN DE GAUSS

Objetivos.
  • Calcular el Rango Percentílico para cualquier puntuación, dado los valores de la Media Aritmética y la desviación Estándar.
  • Calcular el valor de la puntuación para cualquier rango Percentílico, dada la Media Aritmética y la Desviación Estándar.
  • Determinar analíticamente si una distribución cumple los requisitos para ser catalogada como una distribución normal.


Continúen “niños (as)” curiosos (as)…...




No hay comentarios:

Publicar un comentario