lunes, 30 de enero de 2017

Estadistica Descriptiva



La estadística descriptiva es la rama de las Matemáticas que recolecta, presenta y caracteriza un conjunto de datos (por ejemplo, edad de una población, altura de los estudiantes de una escuela, temperatura en los meses de verano, etc.) con el fin de describir apropiadamente las diversas características de ese conjunto. Al conjunto de los distintos valores numéricos que adopta un carácter cuantitativo se llama variable estadística.

Las variables pueden ser de dos tipos:
• Variables cualitativas o categóricas: no se pueden medir numéricamente (por ejemplo: nacionalidad, color de la piel, sexo).
• Variables cuantitativas: tienen valor numérico (edad, precio de un producto, ingresos anuales).

 Las variables también se pueden clasificar en:

• Variables unidimensionales: sólo recogen información sobre una característica (por ejemplo: edad de los alumnos de una clase).

• Variables bidimensionales: recogen información sobre dos características de la población (por ejemplo: edad y altura de los alumnos de una clase).

• Variables pluridimensionales: recogen información sobre tres o más características (por ejemplo: edad, altura y peso de los alumnos de una clase).

Por su parte, las variables cuantitativas se pueden clasificar en discretas y continuas:

• Discretas: sólo pueden tomar valores enteros (1, 2, 8, -4, etc.). Por ejemplo: número de hermanos (puede ser 1, 2, 3...., etc., pero, por ejemplo, nunca podrá ser 3.45).

• Continuas: pueden tomar cualquier valor real dentro de un intervalo. Por ejemplo, la velocidad de un vehículo puede ser 90.4 km/h, 94.57 km/h...etc.

Cuando se estudia el comportamiento de una variable hay que distinguir los siguientes conceptos:

• Individuo: cualquier elemento que porte información sobre el fenómeno que se estudia. Así, si estudiamos la altura de los niños de una clase, cada alumno es un individuo; si se estudia el precio de la vivienda, cada vivienda es un individuo.

 • Población: conjunto de todos los individuos (personas, objetos, animales, etc.) que porten información sobre el fenómeno que se estudia. Por ejemplo, si se estudia el precio de la vivienda en una ciudad, la población será el total de las viviendas de dicha ciudad.

• Muestra: subconjunto que seleccionado de una población. Por ejemplo, si se estudia el precio de la vivienda de una ciudad, lo normal será no recoger información sobre todas las viviendas de la ciudad (sería una labor muy compleja), sino que se suele seleccionar un subgrupo (muestra) que se entienda que es suficientemente representativo.

 Las variables aleatorias son variables que son seleccionadas al azar o por procesos aleatorios.
Los datos son medidas y/o números recopilados a partir de la observación. Los datos pueden concebirse como información numérica necesaria para ayudar a tomar una decisión con más bases en una situación particular.
Existen muchos métodos mediante los cuales se pueden obtener datos necesarios. Primero, se puede buscar datos ya publicados por otras fuentes. Segundo, se puede diseñar un experimento. En tercer lugar, se puede conducir un estudio. Cuarto, se pueden hacer observaciones del comportamiento, actitudes u opiniones de los individuos en los que se está interesado.

Los datos se pueden clasificar en:

• Datos discretos. Son respuestas numéricas que surgen de un proceso de conteo.

• Datos continuos. Son respuestas numéricas que surgen de un proceso de medición.

Cuando se tiene un grupo de observaciones, se desea describirlo a través de un sólo número. Para tal fin, no se usa el valor más elevado ni el valor más pequeño como único representante, ya que sólo representan los extremos. Una de las propiedades más sobresalientes de la distribución de datos es su tendencia a acumularse hacia el centro de la misma. Esta característica se denomina tendencia central.
Las medidas de tendencia central más usuales son: la media aritmética, la mediana y la moda.

MEDIA ARITMÉTICA
La media aritmética de n valores, es igual a la suma de todos ellos dividida entre n.

MEDIANA
La mediana es el punto central de una serie de datos ordenados de forma ascendente o descendente. De acuerdo al número de casos o datos, hay dos formas para calcular la mediana: para número impar y para número par:
• Número impar de datos ordenados de menor a mayor o de mayor a menor: la mediana es el valor que queda justo al centro.
• Número de datos par: en este caso se busca la media aritmética entre los dos valores centrales.

MODA
La moda de un conjunto de datos numéricos es el valor que más se repite, es decir, el que tiene el mayor número de frecuencias absolutas. La moda puede ser no única e inclusive no existir.
La moda es una medida de tendencia central muy importante, porque permite planificar, organizar y producir para satisfacer las necesidades de la mayoría.

RANGO
 El rango de una distribución es la diferencia entre el valor máximo (M) y el valor mínimo (m) de la variable estadística. Para su cálculo, basta con ordenar los valores de menor a mayor m de M.
Características del rango:
1. A medida que el rango es menor, el grado de representatividad de los valores centrales se incrementa.
2. A medida que el rango es mayor, la distribución está menos concentrada o más dispersa.
3. Su cálculo es extremadamente sencillo.
4. Tiene gran aplicación en procesos de control de calidad.
5. Tiene el inconveniente de que sólo depende de los valores extremos. De esta forma basta que uno de ellos se separe mucho para que el recorrido se vea sensiblemente afectado.

PERCENTILES
 Los percentiles son números que dividen en 100 partes iguales un conjunto de datos ordenados. Es decir, El percentil k es un valor que deja aproximadamente el k por ciento de los datos por abajo de él. Se denota por medio de P(k%).

DECILES
 Los deciles son números que dividen la sucesión de datos ordenados en diez partes porcentualmente iguales. Son los nueve valores que dividen al conjunto de datos ordenados en diez partes iguales, son también un caso particular de los percentiles. Los deciles se denotan D(1), D(2),..., D(9), que se leen primer decil, segundo decil, etc.

CUARTILES
 Los cuartiles se definen como los tres valores que dividen la distribución en cuatro partes iguales. En términos de percentiles el primer cuartil Q(1) coincide con el P(25) (percentil 25); el segundo cuartil Q(2) con el P(50) o mediana, y el tercer cuartil Q(3) con el P(75). Entre el primer y el tercer cuartil se encuentra el 50% central de las observaciones.

DESVIACIÓN MEDIA
 La desviación media es la división de la sumatoria del valor absoluto de las distancias existentes entre cada dato y su media aritmética y el número total de datos.

DESVIACIÓN MEDIA
La desviación media es la división de la sumatoria del valor absoluto de las distancias existentes entre cada dato y su media aritmética y el número total de datos. La desviación estándar es una medida estadística de la dispersión de un grupo o población. Una gran desviación estándar indica que la población está muy dispersa respecto de la media. Una desviación estándar pequeña indica que la población está muy compacta alrededor de la media.

VARIANZA
 La varianza mide la mayor o menor dispersión de los valores de la variable respecto a la media aritmética. Cuanto mayor sea la varianza mayor dispersión existirá y por tanto, menor representatividad tendrá la media aritmética. La varianza se expresa en las mismas unidades que la variable analizada, pero elevadas al cuadrado.

DIAGRAMAS DE DISPRESIÓN
 La distribución conjunta de dos variables puede expresarse gráficamente mediante un diagrama de dispersión: en un plano se representa cada elemento observado haciendo que sus coordenadas sobre los ejes cartesianos sean los valores que toman las dos variables para esa observación.

COVARIANZA
La covarianza es una medida de la asociación lineal entre dos variables que resume la información existente en un gráfico de dispersión. Es un indicador de si los valores están relacionados entre sí.

CORRELACIÓN
Es frecuente que se estudie sobre una misma población los valores de dos variables estadísticas distintas, con el fin de ver si existe alguna relación entre ellas, es decir, si los cambios en una de ellas influyen en los valores de la otra. Si ocurre esto se dice que las variables están correlacionadas o bien que hay correlación entre ellas.

MÍNIMO Y MÁXIMO
El máximo se refiere al valor más alto; el mínimo, al más bajo.

SUMA

La suma es el total de todos los valores de los datos.


No hay comentarios.:

Publicar un comentario