domingo, 13 de julio de 2025

ESTADÍSTICA DESCRIPTIVA

¡Hola! ¿Listo para descubrir el poder de la estadística? No te preocupes si los números te asustan un poco; te prometo que, al final de esta explicación, verás que la Estadística Descriptiva es una herramienta súper útil y fácil de entender. Es como aprender a leer un mapa para saber qué hay en un territorio.

1. ¿Qué es la Estadística?

En su esencia, la Estadística es una ciencia que nos ayuda a entender el mundo a través de los datos. Imagina que tienes muchísima información y necesitas darle sentido: la estadística te da las herramientas para organizarla, resumirla, analizarla e interpretarla para que puedas sacar conclusiones y tomar mejores decisiones.

Piensa en ella como un lente especial que te permite ver patrones y tendencias que a simple vista no podrías.

Diferencia entre Estadística Descriptiva e Inferencial

La estadística se divide en dos grandes ramas:

  • Estadística Descriptiva: Esta rama se encarga de organizar, resumir y presentar los datos de manera que sean fáciles de entender. Su objetivo es simplemente describir lo que los datos muestran. No hacemos suposiciones sobre un grupo más grande; solo describimos el grupo que estamos estudiando.
  • Ejemplo: Si analizas las edades de los estudiantes de tu clase y dices que "la edad promedio es 20 años" o "la mayoría tiene entre 18 y 22 años", estás usando estadística descriptiva.
  • Estadística Inferencial: Esta rama va un paso más allá. Utiliza los datos de una pequeña parte (una muestra) para hacer conclusiones o predicciones sobre un grupo mucho más grande (una población). Aquí sí que hacemos inferencias, estimaciones o probamos hipótesis.
  • Ejemplo: Si tomas una muestra de 1000 votantes y, basándote en sus opiniones, predices que un candidato ganará las elecciones nacionales, estás usando estadística inferencial.

En esta clase, nos centraremos en la Estadística Descriptiva. Es el primer paso para cualquier análisis de datos y la base para entender conceptos más avanzados.

Ejemplos Reales de Uso Cotidiano

La estadística está en todas partes:

  • El Clima: Cuando el meteorólogo dice "hay un 80% de probabilidad de lluvia", está usando estadísticas para predecir el tiempo.
  • Encuestas de Opinión: Antes de unas elecciones, las encuestas nos dan un promedio de la intención de voto o qué temas preocupan más a la gente.
  • Deportes: El promedio de bateo de un jugador de béisbol, los goles marcados por un equipo de fútbol, o el porcentaje de canastas de un baloncestista.
  • Salud: Cuando un médico te dice el "rango normal" de tu presión arterial o colesterol, son valores estadísticos.
  • Negocios: Las empresas usan estadísticas para saber qué productos se venden más, cuál es el promedio de edad de sus clientes o para predecir las ventas futuras.

2. Conceptos Básicos Iniciales

Antes de sumergirnos en los cálculos, necesitamos entender algunos términos clave.

Población vs. Muestra

  • Población: Es el grupo completo de elementos (personas, objetos, eventos) que queremos estudiar. Es el universo de nuestro interés.
  • Ejemplo: Si queremos saber la altura promedio de todos los estudiantes universitarios de tu país, esa es nuestra población.
  • Muestra: Es una parte o subconjunto de la población que seleccionamos para estudiar. Recopilar datos de toda una población suele ser imposible o demasiado costoso, por eso usamos muestras. La clave es que la muestra debe ser representativa de la población.
  • Ejemplo: Si no podemos medir a todos los estudiantes universitarios, tomamos una muestra de 1000 estudiantes de diferentes universidades y los medimos.

Parámetro vs. Estadístico

  • Parámetro: Es una medida que describe una característica de la POBLACIÓN. Generalmente, los parámetros son valores fijos y desconocidos (porque no podemos medir a toda la población). Se denotan con letras griegas.
  • Ejemplo: La altura promedio real de todos los estudiantes universitarios de tu país (\\mu).
  • Estadístico: Es una medida que describe una característica de la MUESTRA. Los estadísticos se calculan a partir de los datos de la muestra y se utilizan para estimar los parámetros de la población. Se denotan con letras latinas.
  • Ejemplo: La altura promedio calculada de los 1000 estudiantes de tu muestra (\\bar{x}).

Variable Cualitativa y Cuantitativa

Una variable es una característica o atributo que puede cambiar o tomar diferentes valores.

  • Variable Cualitativa (o Categórica): Describe una cualidad, característica o categoría que no se puede medir numéricamente, pero sí se puede clasificar.
  • Ejemplos: Color de ojos (azul, verde, marrón), tipo de sangre (A, B, AB, O), género (masculino, femenino), estado civil (soltero, casado, divorciado).
  • Variable Cuantitativa (o Numérica): Describe una cantidad y se puede medir numéricamente.
  • Ejemplos: Edad, altura, peso, ingresos, número de goles, tiempo de reacción. Las variables cuantitativas se subdividen en:
  • Discreta: Puede tomar solo valores enteros y se obtiene contando. No puede haber valores intermedios.
  • Ejemplos: Número de hijos (1, 2, 3), número de coches en un garaje, número de errores en un examen. No puedes tener 2.5 hijos.
  • Continua: Puede tomar cualquier valor dentro de un rango dado y se obtiene midiendo.
  • Ejemplos: Altura (1.75 m, 1.80 m), peso (65.3 kg, 70.1 kg), temperatura (25.5 °C), tiempo (3.25 segundos).

3. Organización y Representación de Datos

Una vez que tenemos los datos, el primer paso es organizarlos para que sean legibles y nos permitan ver patrones.

Tablas de Frecuencias

Una tabla de frecuencias es una forma organizada de mostrar cuántas veces aparece cada valor o categoría en un conjunto de datos.

Ejemplo 1: Datos no agrupados (Puntajes de un examen - cualitativa ordinal o cuantitativa discreta)

Imagina que 15 estudiantes obtuvieron los siguientes puntajes en un examen (del 1 al 5): 3, 4, 2, 3, 5, 3, 1, 4, 3, 2, 3, 4, 3, 5, 3

Paso a paso para construir la tabla:

  1. Listar los valores únicos: Identifica todos los valores diferentes que aparecen en tus datos. En este caso: 1, 2, 3, 4, 5.
  2. Calcular Frecuencia Absoluta (f\_i): Cuenta cuántas veces aparece cada valor.
  • 1: aparece 1 vez
  • 2: aparece 2 veces
  • 3: aparece 7 veces
  • 4: aparece 3 veces
  • 5: aparece 2 veces
  • Total de datos (N): 1+2+7+3+2 = 15
  1. Calcular Frecuencia Relativa (fr\_i): Divide la frecuencia absoluta de cada valor entre el total de datos (f\_i / N). Se puede expresar en decimal o porcentaje.
  • 1/15 \\approx 0.067
  • 2/15 \\approx 0.133
  • 7/15 \\approx 0.467
  • 3/15 \\approx 0.200
  • 2/15 \\approx 0.133
  • Suma de fr\_i (debe ser 1 o muy cerca de 1 por redondeo): 0.067 + 0.133 + 0.467 + 0.200 + 0.133 = 1.000
  1. Calcular Frecuencia Absoluta Acumulada (F\_i): Suma las frecuencias absolutas de forma acumulativa.
  • Para 1: 1
  • Para 2: 1 + 2 = 3
  • Para 3: 3 + 7 = 10
  • Para 4: 10 + 3 = 13
  • Para 5: 13 + 2 = 15 (El último valor debe ser igual a N).
  1. Calcular Frecuencia Relativa Acumulada (Fr\_i): Suma las frecuencias relativas de forma acumulativa.
  • Para 1: 0.067
  • Para 2: 0.067 + 0.133 = 0.200
  • Para 3: 0.200 + 0.467 = 0.667
  • Para 4: 0.667 + 0.200 = 0.867
  • Para 5: 0.867 + 0.133 = 1.000 (El último valor debe ser 1 o muy cerca de 1).

Tabla de Frecuencias (Puntajes de Examen):

Puntaje

f\_i (Frecuencia Absoluta)

fr\_i (Frecuencia Relativa)

F\_i (Frecuencia Acumulada)

Fr\_i (Frecuencia Relativa Acumulada)

1

1

0.067

1

0.067

2

2

0.133

3

0.200

3

7

0.467

10

0.667

4

3

0.200

13

0.867

5

2

0.133

15

1.000

Total

15

1.000



Diagramas y Gráficos

Los gráficos son representaciones visuales que nos ayudan a entender la información de las tablas de frecuencias de un vistazo.

  1. Gráfico de Barras:
  • ¿Para qué sirve? Ideal para variables cualitativas y cuantitativas discretas. Cada barra representa una categoría o valor, y la altura de la barra indica su frecuencia. Las barras están separadas.
  • Ejemplo con los puntajes del examen: (Imagina un gráfico donde el eje X tiene los puntajes 1, 2, 3, 4, 5 y el eje Y tiene la frecuencia. La barra del 3 sería la más alta).
  1. Histograma:
  • ¿Para qué sirve? Se usa para variables cuantitativas continuas (o discretas con muchos valores), donde los datos se agrupan en intervalos (clases). Las barras están juntas para indicar la continuidad de los datos.
  • Ejemplo: Edades de empleados agrupadas en intervalos (18-25, 26-35, etc.).
  1. Polígono de Frecuencias:
  • ¿Para qué sirve? A menudo se usa junto con el histograma para variables cuantitativas continuas. Se construye uniendo los puntos medios de la parte superior de cada barra de un histograma. Es útil para comparar la forma de varias distribuciones.
  • Ejemplo: Superpuesto a un histograma de edades.
  1. Diagrama de Sectores (Pastel):
  • ¿Para qué sirve? Muestra la proporción de cada categoría con respecto al total (normalmente para variables cualitativas). Cada "rebanada" del pastel representa una categoría, y su tamaño es proporcional a su frecuencia relativa. Es mejor para pocas categorías.
  • Ejemplo: Porcentaje de estudiantes que votaron por cada candidato en una elección estudiantil.
  1. Diagrama de Caja y Bigotes (Box Plot):
  • ¿Para qué sirve? Muy útil para visualizar la distribución de una variable cuantitativa, mostrando la mediana, los cuartiles y los valores atípicos (outliers). Nos da una idea rápida de la dispersión y la simetría de los datos.
  • Componentes:
  • Caja: Va desde el primer cuartil (Q1) hasta el tercer cuartil (Q3).
  • Línea dentro de la caja: La mediana (Q2).
  • Bigotes: Se extienden desde la caja hasta los valores mínimo y máximo que no son atípicos.
  • Puntos fuera de los bigotes: Son los valores atípicos (outliers).
  • Ejemplo: Distribución de salarios en una empresa.

4. Medidas de Tendencia Central

Estas medidas nos dicen cuál es el "centro" o el valor más representativo de un conjunto de datos.

Media Aritmética (\\bar{x})

  • ¿Qué es? Es el promedio de todos los valores. Es la medida de tendencia central más utilizada.
  • Cómo calcularla: Suma todos los valores y divide por el número total de valores (N). \bar{x} = \frac{\sum_{i=1}^{n} x_i}{n} Donde \\sum x\_i es la suma de todos los valores y n es el número de valores.
  • Ejemplo (reutilizando los puntajes del examen): 3, 4, 2, 3, 5, 3, 1, 4, 3, 2, 3, 4, 3, 5, 3 Suma = 3+4+2+3+5+3+1+4+3+2+3+4+3+5+3 = 48 Número de datos (N) = 15 \\bar{x} = 48 / 15 = 3.2 La media de los puntajes es 3.2.
  • ¿Cuándo usarla? Cuando los datos son cuantitativos y no hay valores extremos (outliers) que puedan distorsionarla. Es muy sensible a los valores extremos.

Mediana (Me)

  • ¿Qué es? Es el valor central de un conjunto de datos una vez que han sido ordenados de menor a mayor (o de mayor a menor). Si hay un número par de datos, la mediana es el promedio de los dos valores centrales.
  • Cómo calcularla:
  1. Ordena los datos de menor a mayor.
  2. Si N es impar, la mediana es el valor que está justo en el centro. La posición es (N+1)/2.
  3. Si N es par, la mediana es el promedio de los dos valores centrales. Las posiciones son N/2 y (N/2)+1.
  • Ejemplo (Puntajes del examen ordenados): 1, 2, 2, 3, 3, 3, 3, **3**, 3, 4, 4, 4, 5, 5 (N=15, impar) La posición de la mediana es (15+1)/2 = 8. El 8º valor en la lista ordenada es 3. La mediana es 3.
  • Ejemplo (con N par): 2, 4, 6, 8 (N=4, par) Las posiciones son 4/2 = 2 y (4/2)+1 = 3. Los valores en esas posiciones son 4 y 6. Mediana = (4+6)/2 = 5.
  • ¿Cuándo usarla? Cuando los datos son cuantitativos y hay valores extremos (outliers), ya que la mediana no se ve afectada por ellos. También se puede usar con datos ordinales.

Moda (Mo)

  • ¿Qué es? Es el valor o categoría que aparece con mayor frecuencia en un conjunto de datos.
  • Cómo calcularla: Simplemente busca el valor que más se repite.
  • Ejemplo (Puntajes del examen): 3, 4, 2, 3, 5, 3, 1, 4, 3, 2, 3, 4, 3, 5, 3 El valor que más se repite es el 3 (aparece 7 veces). La moda es 3.
  • ¿Cuándo usarla? Para cualquier tipo de variable (cualitativa o cuantitativa). Es la única medida de tendencia central que se puede usar con datos nominales. Un conjunto de datos puede tener una moda (unimodal), dos modas (bimodal), varias modas (multimodal) o ninguna moda si todos los valores aparecen con la misma frecuencia.

5. Medidas de Dispersión o Variabilidad

Estas medidas nos dicen qué tan dispersos o separados están los datos entre sí. Si las medidas de tendencia central nos dicen dónde está el centro, las de dispersión nos dicen cuán "extendidos" están los datos alrededor de ese centro.

Rango

  • ¿Qué es? Es la diferencia entre el valor máximo y el valor mínimo en un conjunto de datos. Es la medida de dispersión más simple.
  • Cómo calcularlo: Rango = Valor Máximo - Valor Mínimo.
  • Ejemplo (Puntajes del examen): 1, 2, 2, 3, 3, 3, 3, 3, 3, 4, 4, 4, 5, 5 Valor Máximo = 5 Valor Mínimo = 1 Rango = 5 - 1 = 4.
  • Limitación: Es muy sensible a los valores extremos y no nos dice cómo se distribuyen los datos entre el máximo y el mínimo.

Varianza (\\sigma^2 para población, s^2 para muestra)

  • ¿Qué es? Es el promedio de las distancias al cuadrado de cada dato con respecto a la media. Nos da una idea de cuánto se "alejan" los datos de la media.
  • Fórmula (Muestra): s^2 = \\frac{\\sum\_{i=1}^{n} (x\_i - \\bar{x})^2}{n-1} (Se divide por n-1 para una muestra para obtener una estimación insesgada de la varianza poblacional).
  • Paso a paso con ejemplo (Puntajes del examen, \\bar{x} = 3.2):

x\_i

x\_i - \\bar{x}

(x\_i - \\bar{x})^2

1

1 - 3.2 = -2.2

4.84

2

2 - 3.2 = -1.2

1.44

2

2 - 3.2 = -1.2

1.44

3

3 - 3.2 = -0.2

0.04

3

3 - 3.2 = -0.2

0.04

3

3 - 3.2 = -0.2

0.04

3

3 - 3.2 = -0.2

0.04

3

3 - 3.2 = -0.2

0.04

3

3 - 3.2 = -0.2

0.04

3

3 - 3.2 = -0.2

0.04

4

4 - 3.2 = 0.8

0.64

4

4 - 3.2 = 0.8

0.64

4

4 - 3.2 = 0.8

0.64

5

5 - 3.2 = 1.8

3.24

5

5 - 3.2 = 1.8

3.24


Suma:

16.4

  • s^2 = 16.4 / (15 - 1) = 16.4 / 14 \\approx 1.17 La varianza es aproximadamente 1.17. La varianza está en unidades cuadradas (ej. "puntos al cuadrado"), lo que dificulta su interpretación directa.

Desviación Estándar (s para muestra, \\sigma para población)

  • ¿Qué es? Es la raíz cuadrada de la varianza. Es la medida de dispersión más importante y más utilizada, porque está en las mismas unidades que los datos originales, lo que facilita su interpretación. Nos dice el promedio de cuánto se desvía cada dato de la media.
  • Fórmula (Muestra): s = \\sqrt{\\frac{\\sum\_{i=1}^{n} (x\_i - \\bar{x})^2}{n-1}}
  • Paso a paso con ejemplo (Continuando con la varianza): s = \\sqrt{1.17} \\approx 1.08 La desviación estándar es aproximadamente 1.08 puntos. Esto significa que, en promedio, los puntajes se desvían 1.08 puntos de la media (3.2).

Coeficiente de Variación (CV)

  • ¿Qué es? Es una medida de dispersión relativa, que expresa la desviación estándar como un porcentaje de la media. Es útil para comparar la variabilidad de dos conjuntos de datos que tienen unidades de medida diferentes o medias muy distintas.
  • Fórmula: CV = \\frac{s}{\\bar{x}} \\times 100%
  • Paso a paso con ejemplo (Puntajes del examen): CV = (1.08 / 3.2) \\times 100% \\approx 33.75% Esto indica que la dispersión de los puntajes es del 33.75% con respecto a su media.
  • Ejemplo de uso: Si comparas la variabilidad de los salarios (en euros) con la variabilidad de la edad (en años) de un grupo de personas, el CV te permite decir cuál de las dos variables tiene una mayor variabilidad relativa, ya que las unidades no importan.

6. Medidas de Posición

Las medidas de posición (o cuantiles) nos ayudan a entender la ubicación de un dato dentro de un conjunto. Dividen el conjunto de datos ordenado en partes iguales.

  • Cuartiles (Q\_1, Q\_2, Q\_3): Dividen los datos en cuatro partes iguales.
  • Q\_1 (Primer Cuartil): El 25% de los datos están por debajo de este valor.
  • Q\_2 (Segundo Cuartil): Es la mediana; el 50% de los datos están por debajo.
  • Q\_3 (Tercer Cuartil): El 75% de los datos están por debajo de este valor.
  • Quintiles: Dividen los datos en cinco partes iguales.
  • Deciles: Dividen los datos en diez partes iguales. El decil 5 es la mediana.
  • Percentiles: Dividen los datos en cien partes iguales. El percentil 50 es la mediana.

Cómo se calculan (ejemplo con Cuartiles)

Datos ordenados (Puntajes del examen): 1, 2, 2, 3, 3, 3, 3, 3, 3, 4, 4, 4, 5, 5 (N=15)

Para calcular la posición de un cuantil, se usa la fórmula: Posición = \\frac{k(N+1)}{n} donde k es el número de la parte y n el total de partes.

  1. Mediana (Q\_2 o Percentil 50): Ya lo calculamos, es el valor en la posición (15+1)/2 = 8. El 8º valor es 3.
  2. Primer Cuartil (Q\_1 o Percentil 25):
  • Posición: (15+1)/4 = 4.
  • El 4º valor en la lista ordenada es 3. Entonces Q\_1 = 3.
  1. Tercer Cuartil (Q\_3 o Percentil 75):
  • Posición: 3 \\times (15+1)/4 = 3 \\times 4 = 12.
  • El 12º valor en la lista ordenada es 4. Entonces Q\_3 = 4.

Interpretación Práctica

  • Q\_1 = 3 significa que el 25% de los estudiantes obtuvieron un puntaje de 3 o menos.
  • Q\_2 = 3 (mediana) significa que el 50% de los estudiantes obtuvieron un puntaje de 3 o menos.
  • Q\_3 = 4 significa que el 75% de los estudiantes obtuvieron un puntaje de 4 o menos.

Esto nos dice que la mitad central de los estudiantes (entre Q1 y Q3) obtuvieron puntajes entre 3 y 4. La amplitud intercuartílica (AIQ) es Q\_3 - Q\_1 = 4 - 3 = 1, lo que nos da otra medida de dispersión del 50% central de los datos.

7. Medidas de Forma (Asimetría y Curtosis)

Estas medidas nos describen la "forma" de la distribución de nuestros datos, más allá de su centro y dispersión.

Asimetría (Sesgo)

  • ¿Qué significa? Mide si la distribución de los datos es simétrica o si tiene una "cola" más larga hacia un lado.
  • Distribución Simétrica: Los datos se distribuyen uniformemente a ambos lados de la media (como una campana). Media, mediana y moda son aproximadamente iguales.
  • Asimetría Positiva (o a la derecha): La "cola" de la distribución se extiende hacia la derecha. La mayoría de los datos se concentran en valores bajos, y hay algunos valores altos que tiran de la media hacia la derecha. (Moda < Mediana < Media).
  • Asimetría Negativa (o a la izquierda): La "cola" de la distribución se extiende hacia la izquierda. La mayoría de los datos se concentran en valores altos, y hay algunos valores bajos que tiran de la media hacia la izquierda. (Media < Mediana < Moda).
  • ¿Cómo afecta la interpretación? Una asimetría indica que los valores no se distribuyen de manera equilibrada. Por ejemplo, en ingresos, una asimetría positiva es común (pocas personas con ingresos muy altos). En tiempo de reacción, una asimetría positiva también es normal (nadie puede reaccionar "demasiado rápido" pero algunos pueden ser muy lentos).

Curtosis

  • ¿Qué significa? Mide la "altura" o el "pico" de una distribución y la concentración de datos en las colas. Nos dice qué tan "apuntada" o "aplanada" es la curva de una distribución, en comparación con la distribución normal.
  • Mesocúrtica: Curtosis similar a la de una distribución normal (curva en forma de campana "estándar").
  • Leptocúrtica: La distribución es más "apuntada" o tiene un pico más alto que la normal, y las colas son más "pesadas" (más datos en los extremos).
  • Platicúrtica: La distribución es más "aplanada" o tiene un pico más bajo que la normal, y las colas son más "ligeras" (menos datos en los extremos).
  • ¿Cómo afecta la interpretación? La curtosis nos da una idea de la dispersión de los datos en relación con el centro. Una distribución leptocúrtica sugiere que hay una alta concentración de datos alrededor de la media y/o más valores extremos. Una distribución platicúrtica sugiere una mayor dispersión de los datos con menos concentración en el centro y colas más ligeras.

8. Distribución de Datos Agrupados y No Agrupados

Hasta ahora, hemos trabajado principalmente con datos "no agrupados" (valores individuales). Pero a veces, cuando tenemos muchísimos datos cuantitativos, es más práctico agruparlos en intervalos o "clases".

¿Qué diferencias hay en los cálculos?

  • Datos No Agrupados: Los cálculos (media, varianza, etc.) se hacen directamente con cada valor individual. Son más precisos.
  • Datos Agrupados: Los cálculos se hacen usando los puntos medios de cada intervalo de clase y las frecuencias de esas clases. Esto introduce una ligera pérdida de precisión, pero simplifica el análisis de grandes volúmenes de datos.

Cómo construir intervalos (Clases)

Cuando agrupamos datos, necesitamos definir los intervalos o clases. Sigue estos pasos:

  1. Determinar el Rango (R): Valor Máximo - Valor Mínimo.
  2. Determinar el número de clases (k): No hay una regla estricta, pero una guía común es la regla de Sturges: k = 1 + 3.322 \\times \\log\_{10}(N), donde N es el número total de datos. El resultado se redondea a un número entero. (Generalmente entre 5 y 20 clases).
  3. Determinar la Amplitud de Clase (A): A = R / k. Redondea este valor hacia arriba a un número conveniente.
  4. Construir las clases: Empieza con el valor mínimo y suma la amplitud de clase para obtener el límite superior de la primera clase. El límite inferior de la siguiente clase será el límite superior de la anterior (normalmente, el límite superior no se incluye en la clase actual para evitar duplicidad, salvo en la última clase).

Ejemplo con Agrupación en Clases (Edades de 40 personas)

Imagina que tenemos las edades de 40 personas: 18, 20, 21, 22, 23, 24, 25, 25, 26, 27, 28, 29, 30, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56

  1. Rango: 56 - 18 = 38.
  2. Número de clases (k): k = 1 + 3.322 \\times \\log\_{10}(40) \\approx 1 + 3.322 \\times 1.602 \\approx 1 + 5.32 \\approx 6.32. Redondeamos a 7 clases.
  3. Amplitud de Clase (A): 38 / 7 \\approx 5.42. Redondeamos a 6 para mayor comodidad.

Tabla de Frecuencias para Datos Agrupados (Edades):

Intervalo de Clase

Marca de Clase (x\_m)

f\_i (Frec. Abs.)

fr\_i (Frec. Rel.)

F\_i (Frec. Acum.)

Fr\_i (Frec. Rel. Acum.)

[18 - 24)

(18+23)/2 = 21

7

7/40 = 0.175

7

0.175

[24 - 30)

(24+29)/2 = 27

6

6/40 = 0.150

13

0.325

[30 - 36)

(30+35)/2 = 33

6

6/40 = 0.150

19

0.475

[36 - 42)

(36+41)/2 = 39

6

6/40 = 0.150

25

0.625

[42 - 48)

(42+47)/2 = 45

6

6/40 = 0.150

31

0.775

[48 - 54)

(48+53)/2 = 51

6

6/40 = 0.150

37

0.925

[54 - 60)

(54+59)/2 = 57

3

3/40 = 0.075

40

1.000

Total


40

1.000



Nota: En el ejemplo, para simplificar los límites de los intervalos se han tomado como (Inferior - Superior-1). En la práctica, se utilizan límites exclusivos y el punto medio se calcula como (Límite Inferior + Límite Superior)/2. Lo importante es que todos los datos caigan en un intervalo y no haya solapamientos.

A partir de esta tabla, se pueden calcular la media, varianza, etc., utilizando la marca de clase (x\_m) como el representante de cada intervalo. Por ejemplo, la media para datos agrupados es \\bar{x} = \\frac{\\sum (x\_m \\times f\_i)}{N}.

9. Cómo Interpretar los Resultados

Los números por sí solos no significan nada. La magia de la estadística es darle contexto y significado.

  • Qué significan los números en contexto:
  • Si la media de ingresos en tu empresa es $$3000$, pero la **mediana es $$2000$**, y hay una asimetría positiva, significa que la mayoría gana menos que el promedio y hay unas pocas personas con salarios muy altos (la media se "arrastra" hacia esos valores altos).
  • Si la desviación estándar de las calificaciones de un examen es muy baja (ej. 1 punto), significa que la mayoría de los estudiantes obtuvieron calificaciones muy similares. Si es muy alta (ej. 15 puntos), significa que las calificaciones están muy dispersas, con muchos estudiantes sacando notas muy bajas y muy altas.
  • Cómo comparar dos conjuntos de datos:
  • Medias y Medianas: Compara los centros para ver qué grupo tiene valores típicamente más altos o bajos.
  • Desviación Estándar o Rango Intercuartílico: Compara la dispersión. Un grupo con menor desviación estándar es más "consistente" o "homogéneo".
  • Coeficiente de Variación: Úsalo para comparar la variabilidad relativa si las medias son muy diferentes o las unidades distintas.
  • Diagramas de Caja: Son excelentes para comparar visualmente varias distribuciones, mostrando sus centros, dispersiones y posibles valores atípicos.

10. Errores Comunes al Aplicar Estadística Descriptiva

Es fácil cometer errores si no se entiende bien la teoría:

  • Usar la media con datos asimétricos o con outliers: La mediana suele ser mejor en estos casos.
  • Confundir correlación con causalidad: Que dos variables se muevan juntas no significa que una cause la otra. Puede haber una tercera variable, o ser solo una coincidencia.
  • Graficar incorrectamente: Usar un gráfico de barras cuando se necesita un histograma, o un pastel con demasiadas categorías.
  • No considerar el contexto: Los números sin contexto no tienen sentido. Un promedio de 50 km/h en ciudad es rápido, en autopista es lento.
  • No considerar el tamaño de la muestra: Si la muestra es muy pequeña, los estadísticos pueden no ser representativos.
  • Redondear demasiado pronto: Mantén la mayor precisión posible durante los cálculos y redondea solo al final.

11. Aplicaciones Reales y Prácticas de la Estadística Descriptiva

La estadística descriptiva es la base para entender cualquier conjunto de datos.

  • En Negocios:
  • Ventas: Analizar el promedio de ventas por día/mes, la variabilidad de las ventas entre tiendas, el producto más vendido (moda).
  • Marketing: Perfil demográfico de clientes (edad promedio, género más común), efectividad de campañas publicitarias.
  • Recursos Humanos: Edad promedio de los empleados, distribución de salarios, tiempo promedio en un puesto.
  • En Salud:
  • Epidemiología: Frecuencia de enfermedades en una población, edad promedio de los pacientes, distribución de pesos/alturas.
  • Estudios Clínicos: Describir la distribución de respuestas a un tratamiento, efectos secundarios más comunes.
  • En Educación:
  • Rendimiento Académico: Calificación promedio de un curso, distribución de las calificaciones, porcentaje de aprobados/reprobados.
  • Demografía Estudiantil: Edad promedio, distribución por género, nivel socioeconómico.
  • En Política:
  • Encuestas: Porcentaje de aprobación de un político, temas más importantes para los votantes.
  • Análisis Electoral: Distribución de votos por región, edad promedio de los votantes de un partido.
  • En Ingeniería:
  • Control de Calidad: Diámetro promedio de piezas fabricadas, variabilidad en las medidas, porcentaje de piezas defectuosas.
  • Rendimiento: Promedio de vida útil de un componente, distribución de fallas.

12. Ejercicios y Problemas Resueltos Paso a Paso

Ejercicio Resuelto: Calificaciones de Matemáticas

Un profesor registra las calificaciones finales de 10 estudiantes en un examen (sobre 100 puntos): 75, 80, 65, 90, 75, 85, 70, 95, 60, 80

Objetivo: Calcular la media, mediana, moda, rango, varianza y desviación estándar.

Paso a paso:

  1. Ordena los datos: 60, 65, 70, 75, 75, 80, 80, 85, 90, 95 (N=10)
  2. Calcular la Media (\\bar{x}): Suma de datos = 60+65+70+75+75+80+80+85+90+95 = 775 \\bar{x} = 775 / 10 = 77.5
  3. Calcular la Mediana (Me): Como N=10 (par), la mediana es el promedio de los dos valores centrales. Posiciones: N/2 = 10/2 = 5 y (N/2)+1 = 6. Los valores en esas posiciones son 75 y 80. Me = (75 + 80) / 2 = 77.5
  4. Calcular la Moda (Mo): Los valores que más se repiten son 75 y 80 (ambos aparecen 2 veces). Mo = 75 \\text{ y } 80 (es bimodal).
  5. Calcular el Rango: Máximo = 95, Mínimo = 60 Rango = 95 - 60 = 35
  6. Calcular la Varianza (s^2) y Desviación Estándar (s): Necesitamos las desviaciones al cuadrado de la media (\\bar{x} = 77.5):

x\_i

x\_i - \\bar{x}

(x\_i - \\bar{x})^2

60

-17.5

306.25

65

-12.5

156.25

70

-7.5

56.25

75

-2.5

6.25

75

-2.5

6.25

80

2.5

6.25

80

2.5

6.25

85

7.5

56.25

90

12.5

156.25

95

17.5

306.25


Suma:

1058.75

  1. s^2 = 1058.75 / (10 - 1) = 1058.75 / 9 \\approx 117.64 s = \\sqrt{117.64} \\approx 10.85

Interpretación: La calificación promedio fue 77.5. La dispersión de las calificaciones es de aproximadamente 10.85 puntos alrededor de la media.

Ejercicio Propuesto: Tiempos de Carga de una Web

Una empresa registra los tiempos de carga (en segundos) de su página web para 12 usuarios: 3.2, 4.1, 2.9, 3.5, 4.0, 3.8, 3.1, 4.5, 3.3, 3.9, 2.8, 3.7

Calcula:

  1. Media
  2. Mediana
  3. Moda
  4. Rango
  5. Varianza (muestral)
  6. Desviación Estándar (muestral)
  7. Coeficiente de Variación

Soluciones (al final de la sección para que puedas practicar):

... ... ... ... ... ... ...

Soluciones Ejercicio Propuesto:

  1. Datos ordenados: 2.8, 2.9, 3.1, 3.2, 3.3, 3.5, 3.7, 3.8, 3.9, 4.0, 4.1, 4.5 (N=12)
  2. Media: Suma = 42.8. \\bar{x} = 42.8 / 12 \\approx 3.57 segundos.
  3. Mediana: Posiciones 6 y 7. Valores 3.5 y 3.7. Me = (3.5 + 3.7) / 2 = 3.6 segundos.
  4. Moda: No hay moda, todos los valores aparecen una sola vez.
  5. Rango: 4.5 - 2.8 = 1.7 segundos.
  6. Varianza (calcula las desviaciones al cuadrado y súmalas, luego divide por N-1=11): s^2 \\approx 0.32
  7. Desviación Estándar: s = \\sqrt{0.32} \\approx 0.56 segundos.
  8. Coeficiente de Variación: CV = (0.56 / 3.57) \\times 100% \\approx 15.69%

13. Herramientas Digitales para Aprender y Aplicar

No tienes que hacer todos estos cálculos a mano. Las herramientas digitales son tus mejores amigas.

  • Excel: Es excelente para la estadística descriptiva. Puedes usar funciones como PROMEDIO(), MEDIANA(), MODA(), RANGO(), VAR.S() (varianza muestral), DESVEST.M() (desviación estándar muestral). También puedes crear gráficos fácilmente.
  • R y Python (con la librería Pandas): Son lenguajes de programación muy potentes y gratuitos, ideales para el análisis de datos. Requieren un poco más de curva de aprendizaje, pero son estándar en la ciencia de datos.
  • En Python/Pandas:
    import pandas as pd
    datos = [75, 80, 65, 90, 75, 85, 70, 95, 60, 80]
    df = pd.DataFrame(datos, columns=['Calificaciones'])
    print(df.describe()) # Te dará media, desviación estándar, min, max, cuartiles
    print(df['Calificaciones'].mode()) # Para la moda

  • Calculadoras Estadísticas en Línea: Hay muchas páginas web gratuitas donde puedes introducir tus datos y te dan todas las medidas descriptivas. Busca "calculadora estadística descriptiva online".
  • SPSS (Statistical Package for the Social Sciences): Es un software estadístico comercial muy popular en las ciencias sociales y empresariales. Es muy amigable con el usuario y basado en menús.

Sugerencias de Cursos Gratuitos o Libros Recomendados

  • Cursos Online Gratuitos:
  • Coursera/edX: Busca cursos de "Introducción a la Estadística" de universidades reconocidas.
  • Khan Academy: Ofrece una excelente sección de estadística y probabilidad con videos y ejercicios.
  • YouTube: Canales como "Estadística para todos" o "Datademia" suelen tener buenos tutoriales.
  • Libros:
  • "Estadística para administración y economía" de Levin y Rubin.
  • "Estadística" de Mario F. Triola.
  • "Fundamentos de Estadística" de David C. Lane (disponible online y gratuito).



¡Felicidades! Has cubierto los conceptos fundamentales de la Estadística Descriptiva. Ahora entiendes cómo organizar, resumir y describir tus datos para sacar conclusiones significativas. El siguiente paso es practicar con más conjuntos de datos y familiarizarte con las herramientas digitales. 


No hay comentarios.:

Publicar un comentario