jueves, 30 de abril de 2020

EXPLICACIÓN TEMA 5: ESTADÍSTICOS UNVARIABLES, MEDIDAS DE TENDENCIA CENTRAL, DE DISPERSIÓN, DE POSICIÓN Y FORMAS DE DISTRIBUCIÓN





TEMA 5: ESTADÍSTICOS UNIVARIABLES. VARIABLES CUANTITATIVAS

1.  RESUMEN NUMÉRICO DE UNA SERIE ESTADÍSTICA

Tres tipos de medidas estadísticas:
  • Tendencia central: dan idea de valores alrededor de los cuales el resto tienden a agruparse. Son: moda, mediana y media.
  • Tendencia  de posición: dividen un conjunto ordenador de datos en grupos con la misma cantidad de individuos. Son: cuartiles, deciles y percentiles.
  • Tendencia de dispersión o variabilidad: dan información sobre la heterogeneidad de las observaciones. Son: rango, desviación media y típica, varianza y coeficiente de variación.

2. MEDIDAS DE TENDENCIA CENTRAL

2.1 MEDIA

Más básico y usado. Se acompaña de la desviación típica y estándar. Se usa para variables cuantitativas y es el centro geométrico de los datos. Es la suma de todos los valores entre el número total de observaciones.
Es decir, si tengo 20 datos seria la suma de esos 20 datos entre el número de datos que sería 20.
Propiedades:
  1. La suma de las desviaciones respecto de la media es igual a 0.
  2. No se altera por una transformación lineal de escala: si a un conjunto de datos cuya media es x se le suma a cada uno de ellos un número k, la media aumentara en k unidades; además, si haces lo mismo pero multiplicándolo la media quedaría multiplicada por k.
  3. Es muy sensible a puntuaciones extremas
Otro tipos de medias son:
  • Geométrica (G): es la raíz N-ésima del producto de los N valores observado.
  • Armónica (H): es el inverso de la media aritmética de los inversos de los valores de la variable.
  • Ponderada (x): media aritmética de la suma del producto de cada valor multiplicado por el peso o relevancia asignada al mismo.

2.2 LA MEDIANA

- Puntuación que ocupa la posición central de la distribución.
- Necesitamos ordenar los datos ya sea de forma creciente o decreciente para calcularla.
- El valor obtenido es tal que un 50% es menor y un 50% es mayor.
- Si la mediana y la media son iguales, entonces la variable es simétrica.
- Es más robusta que la media y menos sensible a valores extremos.
- Cuando poseemos poco datos, tenemos valores extremos o datos truncados se calcula la mediana porque se afecta menos. Aunque generalmente se usa menos.
Podemos obtener que el número de las observaciones sea impar, por lo tanto la mediana será (n+1)/2, es decir, si tenemos 13 resultados su mediana seria (13+1) /2= 7, por lo que la mediana sería el valor que coincida con la posición 7 una vez que los tengamos ordenador. En el caso de que el número sea par se realizaría de la misma manera pero con el uso de esta fórmula (n/2)+1.


2.3 MODA

- Valor que más se repite.
- Medida menos usada.
- Cuando solo presenta 1 moda es unimodal, si presenta dos bimodal y si presenta más de dos multimodal.
- Se puede calcular en cualquier tipo de variable.
- En una distribución unimodal simétrica, coinciden la media aritmética, la mediana y la moda.
- Si los datos están agrupados es una clase modal y corresponde al intervalo en el cual el resultado entre la frecuencia relativa y la amplitud es mayor.


3. MEDIDAS DE POSICIÓN

Dividen un conjunto de datos en grupos con el mismo número de individuos.
  1. En variables cuantitativas, donde solo se tienen en cuenta la posición de los valores en la muetra.
  2. Se define el cuantil de orden "n" como un valor de la variable por debajo del cual se encuentra la frecuencia acumulada n.
  3. Los más usuales son percentiles (100), deciles (10) y cuartiles (4), según si la muestra es ordenada en 100, 10 o 4.

3.1 PERCENTILES

Dividen la muestra en 100 partes, de manera que los percentiles son los 99 puntos que dividen la distribución en parte iguales y se representa con la letra P (n).
El percentil "i" es el valor que una vez que los datos están ordenador en forma creciente el i% de ellas son menores a ese valor y el (100-i)% será mayor.
Cuando los datos están agrupados lo buscamos en el intervalo en el que la frecuencia relativa (hi) sea superior al valor del percentil.
P50 es igual a la mediana


3.2 DECILES

Dividen la muestra en 10 partes, por lo que los deciles son los 9 valores que lo dividen en partes iguales.
Cada parte incluye el 10% de los valores y se representa con la letra D.
Por lo tanto, el decil "i" es el valor que una vez ordenado los datos de manera creciente, el i/10% de ellas son menores y el (100-i)/10% serán mayores.
D5 es igual a P50 por lo tanto también es igual a la mediana


3.3 CUARTILES

Dividen la muestra en 4 parte, y son los 3 valores que dividen la distribución en las 4 partes iguales incluyendo en cada una el 25%. Se representa:
  • Q1: 1º cuartil, indica el valor que ocupa en la serie numérica tal que el 75% de los valores será mayor y el 25% será menor.
  • Q2: 2º  cuartil, indica el valor que ocupa en la serie numérica tal que el 50% será mayor y el 50% menor. Corresponde con D5, mediana y P50.
  • Q3: 3º cuartil, indica el valor que ocupa en la serie numérica tal que el 25% será menor y el 75% será mayor.
  • Q4: 4º cuartil, indica el valor máximo.
Los mas usados son el 1, 2 y 3.


4. MEDIDAS DE DISPERSIÓN

La información aportada por las medidas de tendencia central son limitadas por lo que cuando necesitamos comparar dos series usamos las medidas de dispersión. Estas miden las distancias entre dos datos considerándolos conjuntamente. Si son parecidos se darán valores pequeños y si son diferentes valores grandes.


4.1 RANGO O RECORRIDO (R)

Es el más simple ya que consiste en tomar la puntuación mayor y restarle la menor. Pero presenta como limitación que se ve muy afectado por los valores extremos. Puede ser:
  • Recorrido intercuartílico (RI): diferencia entre el 3º y 1º cuartil.
  • Recorrido semiintercuantílico: se denomina también desviación cuartil o espectro semicuartil. Confiere mayor estabilidad en el rango y se calcula de la siguiente manera:
RSC= (Q3-Q1) /2


4.2 DESVIACIÓN MEDIA (DM)

Es la media aritmética de las distancias de cada observación con respecto a la media de la muestra:

DM= sumatorio | Xi - X (media aritmética| / n

Se usa más la desviación típica.


4.3 VARIANZA (S2)

Media de los cuadrados de las diferencias entre cada valor de la variable y la media aritmética de la distribución. 
Siempre tiene valor positivo, se mide en unidades de la variable estudiada. Cuanto menor sea a varianza  más homogénea es la muestra y menor dispersión.
Denominador de la varianza:
- N para la muestra (s2)
- N-1 para la población


4.4 DESVIACIÓN TÍPICA O ESTÁNDAR (S)

Es el valor que siempre se va a ver en cualquier estadística o tabla. 
Expresa la dispersión de la distribución mediante un valor positivo, en las mismas unidades de los valores. Es la más usada en estadística descriptiva.
Cuando los valores son alejados de la muestra, el numerador será grande y la varianza y desviación típica también lo serán.
Al aumenta el tamaño de la muestra, disminuye la varianza y la desviación típica.

Desviación estándar o típica - Qué es, definición y concepto ...
Propiedades:
  • El valor siempre es + o cero (en el caso de que sean iguales).
  • Si a todos los valores le sumamos un número "n" la desviación típica no varía.
  • Si multiplicamos todos los valores por un número "n" la desviación típica quedará multiplicada por ese número.
Observaciones de la desviación típica:
  1. Es un índice muy sensible a las puntuaciones extremas.
  2. Si no se puede hallar la media tampoco se puede hallar la desviación típica, ya que en su fórmula lleva introducida la media.
  3. Cuanto más pequeña sea mayor será la concentración de los datos alrededor de la media.

4.5 COEFICIENTE DE VARIACIÓN (CV)

- También se llama variabilidad relativa, ya que es una medida de dispersión relativa de los datos.
- Permite diferenciar 2 supuestos.
- Se calcula: dividimos la desviación típica entre la media de la muestra y lo multiplicamos por 100.
- Es adimensional y permite comparar la dispersión entre grupos.
- No se usa con valores negativo o donde el valor de 0 sea fijado arbitrariamente.
CV= s/X (media)


5. DISTRIBUCIONES NORMALES

También llamada distribución de Gauss. Es una de las distribuciones de probabilidad de variable continua que con más frecuencia aparece en fenómenos reales.
La gráfica tiene forma acampanada y es simétrica respecto a los valores de posición central, es decir, media, mediana y moda. También coincide con P5 y P50.
El punto medio deja el 50% de los valores de la distribución a ambos lados. 
El aplanamiento de la curva se denomina curtosis


6. MEDIDAS DE FORMA

Indican si la distribución es simétrica y el grado de apuntamiento, tomando como referencia la curva normal.
Si hay asimetría no coinciden ni la media, ni la moda ni la mediana.


6.1 ASIMETRÍAS

El coeficiente de asimetría es el grado de asimetría de la distribución. Las distribuciones asimétricas también se denominan sesgadas, en ellas el pico está descentrado y aparece una cola más larga que la otra.
Es adimensional y adopta valores entre -1 y 1.
Tipos de asimetría:
  • G1=0 : simétrica,  igual concentración de valores a ambos lados.
  • G2>0 : asimétrica positiva. La cola es más larga hacia la derecha y los valores más elevados quedan en la izquierda, donde calculamos la moda, la mediana y la media.
  • G3<0 : asimétrica negativa, la cola es más larga hacia la izquierda y los valores más elevados quedan a la dereha.
Cuál es la asimetría de una distribución de chi cuadrado? - Quora


6.2 CURTOSIS O APUNTAMIENTO

Coeficiente de apuntamiento es el grado de concentración de los valores que toma en torno a su media. 
Elige como referencia una variable con distribución normal, para la cual el coeficiente de curtosis es 0.
Adopta valores entre -1 y 1. Es una medida adimensional.
Resultados posibles:
  1. G2=0 : distribución mesocúrtica. Presenta un grado de concentraci´´on medio alrededor de los valores centrales de la variable.
  2. G2>0 : distribución leptocúrtica. Presenta un elevado grado de concentración alrededor de los valores centrales de la variable.
  3. G2<0 : distribución platicútica. Presenta un reducido grado de concentración alrededor de os valores centrales de la variable.



No hay comentarios:

Publicar un comentario