domingo, 13 de julio de 2025

ESTADÍSTICA APLICADA

MÓDULO 1. ESTADÍSTICA APLICADA. ANÁLISIS DE DATOS Y SPSS

¡Hola! Bienvenido al fascinante mundo de la Estadística Aplicada. Este módulo está diseñado para que comprendas los conceptos fundamentales de la estadística y cómo se aplican en el análisis de datos, incluyendo una introducción a una herramienta clave como SPSS. Prepárate para desentrañar los secretos que los números guardan.

UNIDAD DIDÁCTICA 1. CONCEPTOS BÁSICOS Y ORGANIZACIÓN DE DATOS

En esta unidad, sentaremos las bases de nuestro conocimiento estadístico, comprendiendo desde qué es la estadística hasta cómo organizar nuestros datos para analizarlos.

  1. Aspectos introductorios a la Estadística La estadística es una ciencia que va más allá de solo números; es una herramienta poderosa para entender el mundo que nos rodea. Nos permite recopilar, organizar, analizar, interpretar y presentar datos para tomar decisiones informadas. Desde estudios de mercado hasta investigaciones científicas, la estadística está en todas partes.
  2. Concepto y funciones de la Estadística En esencia, la Estadística es la disciplina que se ocupa del diseño de experimentos y encuestas, la recopilación de datos, la organización, el resumen, el análisis, la interpretación y la presentación de la información para sacar conclusiones válidas y tomar decisiones basadas en evidencia. Sus funciones principales son:
  • Descriptiva: Resumir y organizar datos para hacerlos comprensibles.
  • Inferencial: Sacar conclusiones sobre una población a partir de una muestra.
  1. Medición y escalas de medida Para analizar datos, primero debemos medirlos. La forma en que medimos algo define el tipo de análisis estadístico que podemos aplicar. Existen cuatro escalas de medida:
  • Nominal: Clasifica los datos en categorías sin ningún orden o jerarquía (ej. género: hombre, mujer; estado civil: soltero, casado).
  • Ordinal: Clasifica los datos en categorías con un orden o jerarquía, pero sin diferencias de valor uniformes entre ellas (ej. nivel educativo: primaria, secundaria, universidad; nivel de satisfacción: bajo, medio, alto).
  • De Intervalo: Clasifica los datos con un orden y diferencias de valor uniformes, pero sin un cero absoluto (ej. temperatura en Celsius o Fahrenheit, fechas).
  • De Razón: Clasifica los datos con un orden, diferencias de valor uniformes y un cero absoluto que indica ausencia de la propiedad (ej. altura, peso, ingresos, número de hijos).
  1. Variables: clasificación y notación Una variable es una característica o atributo que puede tomar diferentes valores. Se clasifican principalmente en:
  • Cualitativas (Categóricas): Describen una cualidad o característica no numérica (ej. color de ojos, tipo de sangre). Se subdividen en nominales y ordinales.
  • Cuantitativas (Numéricas): Describen una cantidad o característica numérica (ej. edad, ingresos, número de productos vendidos). Se subdividen en:
  • Discretas: Solo pueden tomar valores enteros (ej. número de hermanos, número de coches).
  • Continuas: Pueden tomar cualquier valor dentro de un rango dado (ej. altura, peso, tiempo).

La notación de variables suele ser con letras mayúsculas como X, Y, etc., y los valores individuales con minúsculas x_i, y_i.

  1. Distribución de frecuencias Una distribución de frecuencias es una tabla que organiza los datos, mostrando la cantidad de veces que aparece cada valor o categoría. Nos permite ver de un vistazo cómo se distribuyen los datos. Incluye:
  • Frecuencia Absoluta (f_i): Número de veces que se repite un dato.
  • Frecuencia Relativa (fr_i): Proporción de veces que se repite un dato (f_i / N, donde N es el total de datos).
  • Frecuencia Absoluta Acumulada (F_i): Suma de las frecuencias absolutas hasta un valor dado.
  • Frecuencia Relativa Acumulada (Fr_i): Suma de las frecuencias relativas hasta un valor dado.
  1. Representaciones gráficas Las representaciones gráficas son esenciales para visualizar rápidamente la distribución de los datos. El tipo de gráfico depende de la escala de medida de la variable:
  • Variables Cualitativas:
  • Diagrama de Barras: Para frecuencias absolutas o relativas de categorías discretas.
  • Diagrama de Sectores (Pastel): Para mostrar proporciones de un todo.
  • Variables Cuantitativas Discretas:
  • Diagrama de Barras: Similar a las cualitativas.
  • Variables Cuantitativas Continuas:
  • Histograma: Barras adyacentes que representan frecuencias en intervalos.
  • Polígono de Frecuencias: Une los puntos medios de las barras de un histograma.
  • Ojiva: Gráfico de frecuencias acumuladas.
  1. Propiedades de la distribución de frecuencias Al observar una distribución de frecuencias, nos interesan varias propiedades:
  • Tendencia Central: Dónde se concentran los datos (el "centro" de la distribución).
  • Variabilidad/Dispersión: Cuánto se dispersan los datos alrededor de la tendencia central.
  • Forma: Si la distribución es simétrica o asimétrica, y si tiene uno o varios picos (unimodal, bimodal).

UNIDAD DIDÁCTICA 2. ESTADÍSTICA DESCRIPTIVA BÁSICA

Esta unidad distingue entre los dos grandes pilares de la estadística, que guiarán todos nuestros análisis.

  1. Estadística descriptiva La Estadística Descriptiva se enfoca en resumir y organizar las características de un conjunto de datos. Su objetivo es describir los datos de manera clara y concisa, sin hacer inferencias o generalizaciones sobre una población más grande. Utiliza medidas de tendencia central, dispersión y representaciones gráficas para lograrlo. Por ejemplo, calcular el promedio de edad de un grupo de estudiantes o crear un gráfico de barras que muestre las calificaciones más comunes.
  2. Estadística inferencial La Estadística Inferencial va un paso más allá. Su objetivo es hacer predicciones o generalizaciones sobre una población basándose en los datos de una muestra de esa población. Implica el uso de la probabilidad para probar hipótesis y sacar conclusiones con un cierto grado de confianza. Por ejemplo, a partir de una muestra de votantes, predecir el resultado de una elección nacional, o determinar si un nuevo medicamento es efectivo en una población basándose en los resultados de un ensayo clínico.

UNIDAD DIDÁCTICA 3. MEDIDAS DE TENDENCIA CENTRAL Y POSICIÓN

Aquí aprenderemos a cuantificar dónde se "centran" nuestros datos y cuán dispersos están.

  1. Medidas de tendencia central Son valores que representan el "centro" o el valor más típico de un conjunto de datos. Las más comunes son la media, la mediana y la moda.
  2. La media aritmética También conocida como promedio, es la suma de todos los valores en un conjunto de datos dividida por el número total de datos. Es la medida más utilizada para datos cuantitativos. \bar{x} = \frac{\sum_{i=1}^{n} x_i}{n} Donde \bar{x} es la media, \sum x_i es la suma de todos los valores y n es el número de valores.
  3. La mediana Es el valor central en un conjunto de datos ordenado de menor a mayor. Si el número de datos es impar, es el valor del medio. Si es par, es el promedio de los dos valores centrales. Es útil cuando hay valores extremos (outliers) que podrían distorsionar la media.
  4. La moda Es el valor o categoría que aparece con mayor frecuencia en un conjunto de datos. Puede haber una moda (unimodal), varias modas (multimodal) o ninguna moda. Es la única medida de tendencia central que se puede usar con datos nominales.
  5. Medidas de posición Estas medidas dividen un conjunto de datos ordenado en partes iguales, permitiendo ubicar la posición de un valor dentro de la distribución. Las más comunes son:
  • Cuartiles: Dividen los datos en cuatro partes iguales (Q1, Q2, Q3). Q2 es la mediana.
  • Deciles: Dividen los datos en diez partes iguales.
  • Percentiles: Dividen los datos en cien partes iguales (el percentil 50 es la mediana).
  1. Medidas de variabilidad Nos indican qué tan dispersos o variados están los datos.
  • Rango: La diferencia entre el valor máximo y el valor mínimo.
  • Varianza (\sigma^2 o s^2): El promedio de los cuadrados de las desviaciones de cada dato con respecto a la media. Mide la dispersión promedio alrededor de la media.
  • Desviación Típica o Estándar (\sigma o s): La raíz cuadrada de la varianza. Es la medida de dispersión más utilizada, ya que está en las mismas unidades que los datos originales.
  • Coeficiente de Variación (CV): Relación entre la desviación típica y la media. Permite comparar la variabilidad de conjuntos de datos con diferentes unidades o medias.
  1. Índice de Asimetría de Pearson Mide el grado de asimetría de una distribución. Una distribución es asimétrica si sus lados no son imágenes especulares uno del otro.
  • Si el índice es cero, la distribución es simétrica.
  • Si es positivo, la distribución es asimétrica a la derecha (cola más larga hacia la derecha).
  • Si es negativo, la distribución es asimétrica a la izquierda (cola más larga hacia la izquierda).
  1. Puntuaciones típicas También conocidas como puntuaciones Z, transforman un valor bruto de una distribución a una escala estandarizada, indicando cuántas desviaciones típicas se encuentra un dato de la media. Z = \frac{x - \bar{x}}{s} Donde x es el valor individual, \bar{x} es la media y s es la desviación típica. Las puntuaciones Z son útiles para comparar datos de diferentes distribuciones.

UNIDAD DIDÁCTICA 4. ANÁLISIS CONJUNTO DE VARIABLES

En esta unidad, dejaremos de analizar variables de forma individual para estudiar cómo se relacionan entre sí.

  1. Introducción al análisis conjunto de variables El análisis conjunto o bivariable se centra en estudiar la relación entre dos variables para entender cómo se comportan una con respecto a la otra. Esto nos permite identificar patrones, asociaciones y posibles causalidades.
  2. Asociación entre dos variables cualitativas Cuando ambas variables son cualitativas (nominales u ordinales), se busca si existe una asociación entre ellas. Esto se suele analizar con:
  • Tablas de Contingencia (o tablas cruzadas): Muestran la distribución de frecuencias de dos variables cualitativas simultáneamente.
  • Chi-cuadrado (\chi^2): Es una prueba estadística que determina si existe una asociación significativa entre las dos variables o si son independientes.
  1. Correlación entre dos variables cuantitativas Si ambas variables son cuantitativas, nos interesa la correlación, que mide la fuerza y dirección de la relación lineal entre ellas.
  • Diagramas de Dispersión: Gráficos que muestran la relación entre dos variables, donde cada punto representa un par de valores.
  • Coeficiente de Correlación de Pearson (r): Mide la fuerza y dirección de una relación lineal. Varía de -1 a +1.
  • +1: Correlación lineal positiva perfecta.
  • -1: Correlación lineal negativa perfecta.
  • 0: No hay correlación lineal (no implica ausencia de relación, solo de relación lineal).
  1. Regresión lineal La regresión lineal va más allá de la correlación al intentar modelar la relación entre una variable dependiente (cuantitativa) y una o más variables independientes (cuantitativas o cualitativas codificadas). Su objetivo es predecir el valor de la variable dependiente a partir de las independientes.
  • Regresión Lineal Simple: Un modelo con una variable dependiente y una independiente. La ecuación de la recta de regresión es: Y = a + bX Donde Y es la variable dependiente, X la independiente, a la intersección con el eje Y y b la pendiente.
  • Se utiliza para entender cuánto cambia Y por cada unidad de cambio en X, y para hacer predicciones.

UNIDAD DIDÁCTICA 5. DISTRIBUCIONES DE PROBABILIDAD

Finalmente, nos adentraremos en el concepto de probabilidad y las distribuciones teóricas que nos permiten entender el comportamiento de los fenómenos aleatorios.

  1. Conceptos previos de probabilidad
  • Experimento Aleatorio: Un proceso con resultados inciertos pero observables (ej. lanzar un dado).
  • Espacio Muestral: Conjunto de todos los resultados posibles de un experimento (ej. {1, 2, 3, 4, 5, 6} al lanzar un dado).
  • Evento: Cualquier subconjunto del espacio muestral (ej. sacar un número par).
  • Probabilidad: La medida de la posibilidad de que ocurra un evento. Se expresa entre 0 y 1.
  1. Variables discretas de probabilidad Una variable aleatoria discreta es aquella que puede tomar un número contable de valores (ej. número de caras al lanzar una moneda 5 veces). Se asocia a cada valor una probabilidad.
  2. Distribuciones discretas de probabilidad Son modelos matemáticos que describen el comportamiento de variables aleatorias discretas. Ejemplos comunes incluyen:
  • Distribución de Bernoulli: Para experimentos con solo dos resultados posibles (éxito/fracaso).
  • Distribución Binomial: Describe el número de éxitos en una secuencia de n ensayos de Bernoulli independientes.
  • Distribución de Poisson: Modela el número de eventos que ocurren en un intervalo fijo de tiempo o espacio.
  1. Distribución Normal También conocida como distribución Gaussiana, es la distribución de probabilidad continua más importante y utilizada. Se caracteriza por su forma de campana y simetría. Muchos fenómenos naturales y sociales se distribuyen normalmente (ej. alturas de personas, errores de medición).
  • Se define por su media (\mu) y su desviación típica (\sigma).
  • La distribución Normal Estándar tiene una media de 0 y una desviación típica de 1, y se usa para calcular probabilidades para cualquier distribución normal.
  1. Distribuciones asociadas a la distribución Normal Varias distribuciones importantes en la estadística inferencial se derivan o están relacionadas con la distribución Normal:
  • Distribución t de Student: Se utiliza para la inferencia sobre medias de poblaciones cuando el tamaño de la muestra es pequeño y la desviación típica de la población es desconocida.
  • Distribución Chi-cuadrado (\chi^2): Utilizada en pruebas de bondad de ajuste, independencia en tablas de contingencia y para inferencia sobre varianzas.
  • Distribución F de Snedecor: Utilizada en el análisis de varianza (ANOVA) para comparar las medias de tres o más grupos, y en regresión.

¡Excelente! Con estos conceptos básicos, tienes una base sólida para entender el análisis de datos y sumergirte en el uso de herramientas como SPSS. 


La estadística es una habilidad fundamental en muchos campos hoy en día, y estás en el camino correcto para dominarla.


No hay comentarios.:

Publicar un comentario