La estadística
descriptiva es la rama de las Matemáticas que recolecta, presenta y caracteriza
un conjunto de datos (por ejemplo, edad de una población, altura de los
estudiantes de una escuela, temperatura en los meses de verano, etc.) con el
fin de describir apropiadamente las diversas características de ese conjunto.
Al conjunto de los distintos valores numéricos que adopta un carácter
cuantitativo se llama variable estadística.
Las variables pueden
ser de dos tipos:
• Variables
cualitativas o categóricas: no se pueden medir numéricamente (por ejemplo:
nacionalidad, color de la piel, sexo).
• Variables
cuantitativas: tienen valor numérico (edad, precio de un producto, ingresos
anuales).
Las variables también se pueden clasificar en:
• Variables
unidimensionales: sólo recogen información sobre una característica (por
ejemplo: edad de los alumnos de una clase).
• Variables
bidimensionales: recogen información sobre dos características de la población
(por ejemplo: edad y altura de los alumnos de una clase).
• Variables
pluridimensionales: recogen información sobre tres o más características (por
ejemplo: edad, altura y peso de los alumnos de una clase).
Por su parte, las
variables cuantitativas se pueden clasificar en discretas y continuas:
• Discretas: sólo
pueden tomar valores enteros (1, 2, 8, -4, etc.). Por ejemplo: número de
hermanos (puede ser 1, 2, 3...., etc., pero, por ejemplo, nunca podrá ser
3.45).
• Continuas: pueden
tomar cualquier valor real dentro de un intervalo. Por ejemplo, la velocidad de
un vehículo puede ser 90.4 km/h, 94.57 km/h...etc.
Cuando se estudia el
comportamiento de una variable hay que distinguir los siguientes conceptos:
• Individuo: cualquier
elemento que porte información sobre el fenómeno que se estudia. Así, si
estudiamos la altura de los niños de una clase, cada alumno es un individuo; si
se estudia el precio de la vivienda, cada vivienda es un individuo.
• Población: conjunto de todos los individuos
(personas, objetos, animales, etc.) que porten información sobre el fenómeno
que se estudia. Por ejemplo, si se estudia el precio de la vivienda en una
ciudad, la población será el total de las viviendas de dicha ciudad.
• Muestra: subconjunto
que seleccionado de una población. Por ejemplo, si se estudia el precio de la
vivienda de una ciudad, lo normal será no recoger información sobre todas las
viviendas de la ciudad (sería una labor muy compleja), sino que se suele
seleccionar un subgrupo (muestra) que se entienda que es suficientemente
representativo.
Las variables aleatorias son variables que son
seleccionadas al azar o por procesos aleatorios.
Los datos son medidas
y/o números recopilados a partir de la observación. Los datos pueden concebirse
como información numérica necesaria para ayudar a tomar una decisión con más
bases en una situación particular.
Existen muchos métodos
mediante los cuales se pueden obtener datos necesarios. Primero, se puede buscar
datos ya publicados por otras fuentes. Segundo, se puede diseñar un
experimento. En tercer lugar, se puede conducir un estudio. Cuarto, se pueden
hacer observaciones del comportamiento, actitudes u opiniones de los individuos
en los que se está interesado.
Los datos se pueden
clasificar en:
• Datos discretos. Son
respuestas numéricas que surgen de un proceso de conteo.
• Datos continuos. Son
respuestas numéricas que surgen de un proceso de medición.
Cuando se tiene un
grupo de observaciones, se desea describirlo a través de un sólo número. Para
tal fin, no se usa el valor más elevado ni el valor más pequeño como único
representante, ya que sólo representan los extremos. Una de las propiedades más
sobresalientes de la distribución de datos es su tendencia a acumularse hacia
el centro de la misma. Esta característica se denomina tendencia central.
Las medidas de
tendencia central más usuales son: la media aritmética, la mediana y la moda.
MEDIA
ARITMÉTICA
La media aritmética de
n valores, es igual a la suma de todos ellos dividida entre n.
MEDIANA
La mediana es el punto
central de una serie de datos ordenados de forma ascendente o descendente. De
acuerdo al número de casos o datos, hay dos formas para calcular la mediana:
para número impar y para número par:
• Número impar de datos
ordenados de menor a mayor o de mayor a menor: la mediana es el valor que queda
justo al centro.
• Número de datos par:
en este caso se busca la media aritmética entre los dos valores centrales.
MODA
La moda de un conjunto
de datos numéricos es el valor que más se repite, es decir, el que tiene el
mayor número de frecuencias absolutas. La moda puede ser no única e inclusive
no existir.
La moda es una medida
de tendencia central muy importante, porque permite planificar, organizar y
producir para satisfacer las necesidades de la mayoría.
RANGO
El rango de una distribución es la diferencia
entre el valor máximo (M) y el valor mínimo (m) de la variable estadística.
Para su cálculo, basta con ordenar los valores de menor a mayor m de M.
Características del
rango:
1. A medida que el
rango es menor, el grado de representatividad de los valores centrales se
incrementa.
2. A medida que el
rango es mayor, la distribución está menos concentrada o más dispersa.
3. Su cálculo es extremadamente sencillo.
4. Tiene gran
aplicación en procesos de control de calidad.
5. Tiene el
inconveniente de que sólo depende de los valores extremos. De esta forma basta
que uno de ellos se separe mucho para que el recorrido se vea sensiblemente
afectado.
PERCENTILES
Los percentiles son números que dividen en 100
partes iguales un conjunto de datos ordenados. Es decir, El percentil k es un
valor que deja aproximadamente el k por ciento de los datos por abajo de él. Se
denota por medio de P(k%).
DECILES
Los deciles son números que dividen la sucesión
de datos ordenados en diez partes porcentualmente iguales. Son los nueve
valores que dividen al conjunto de datos ordenados en diez partes iguales, son
también un caso particular de los percentiles. Los deciles se denotan D(1),
D(2),..., D(9), que se leen primer decil, segundo decil, etc.
CUARTILES
Los cuartiles se definen como los tres valores
que dividen la distribución en cuatro partes iguales. En términos de
percentiles el primer cuartil Q(1) coincide con el P(25) (percentil 25); el
segundo cuartil Q(2) con el P(50) o mediana, y el tercer cuartil Q(3) con el
P(75). Entre el primer y el tercer cuartil se encuentra el 50% central de las
observaciones.
DESVIACIÓN
MEDIA
La desviación media es la división de la
sumatoria del valor absoluto de las distancias existentes entre cada dato y su
media aritmética y el número total de datos.
DESVIACIÓN
MEDIA
La desviación media es
la división de la sumatoria del valor absoluto de las distancias existentes
entre cada dato y su media aritmética y el número total de datos. La desviación
estándar es una medida estadística de la dispersión de un grupo o población.
Una gran desviación estándar indica que la población está muy dispersa respecto
de la media. Una desviación estándar pequeña indica que la población está muy
compacta alrededor de la media.
VARIANZA
La varianza mide la mayor o menor dispersión
de los valores de la variable respecto a la media aritmética. Cuanto mayor sea
la varianza mayor dispersión existirá y por tanto, menor representatividad
tendrá la media aritmética. La varianza se expresa en las mismas unidades que
la variable analizada, pero elevadas al cuadrado.
DIAGRAMAS
DE DISPRESIÓN
La distribución conjunta de dos variables
puede expresarse gráficamente mediante un diagrama de dispersión: en un plano
se representa cada elemento observado haciendo que sus coordenadas sobre los
ejes cartesianos sean los valores que toman las dos variables para esa
observación.
COVARIANZA
La covarianza es una
medida de la asociación lineal entre dos variables que resume la información
existente en un gráfico de dispersión. Es un indicador de si los valores están
relacionados entre sí.
CORRELACIÓN
Es frecuente que se
estudie sobre una misma población los valores de dos variables estadísticas
distintas, con el fin de ver si existe alguna relación entre ellas, es decir,
si los cambios en una de ellas influyen en los valores de la otra. Si ocurre
esto se dice que las variables están correlacionadas o bien que hay correlación
entre ellas.
MÍNIMO
Y MÁXIMO
El máximo se refiere al
valor más alto; el mínimo, al más bajo.
SUMA
La suma es el total de
todos los valores de los datos.