📈 Estadística para DS
📈 Estadística para DS

Introducción a estadística con datos de Twitter (2020)

Aplicar conceptos fundamentales de estadística y análisis de datos sobre un dataset real de actividad en Twitter durante las elecciones americanas de 2020.

Problema

Aplicar conceptos fundamentales de estadística y análisis de datos sobre un dataset real de actividad en Twitter durante las elecciones americanas de 2020. El reto es elegir correctamente el número de bins de un histograma, entender muestreo aleatorio y comparar estadísticas entre muestra completa y muestra reducida.

Solución

Análisis estadístico exploratorio sobre datos de tweets: construcción de histogramas con funciones de densidad, muestreo aleatorio simple (10% de los datos) y comparación de estadísticas descriptivas entre la muestra completa y la muestra reducida para evaluar la representatividad.

Distribuciones e histogramas

  • Carga de datos de tweets desde URL: actividad de usuarios en X durante las elecciones 2020
  • Construcción de histogramas con función de densidad superpuesta (KDE)
  • Reglas para determinar el número óptimo de bins: Sturges, Freedman-Diaconis y Scott
  • Visualización de la distribución de actividad: usuarios con pocas vs. muchas interacciones

Muestreo y comparativa estadística

  • Muestreo aleatorio simple: extracción del 10% de la muestra con reproducibilidad (random_state)
  • Comparativa de estadísticos descriptivos: media, mediana, std entre muestra completa y reducida
  • ¿Cuánto se puede reducir el dataset sin perder representatividad estadística?
  • NumPy y Pandas para cálculo eficiente de estadísticos sobre grandes volúmenes de datos

Más proyectos en Estadística para DS