🤖 Machine Learning
🤖 Machine Learning

Clasificador binario — Regresión Logística

Clasificar observaciones en dos clases (fraude/no fraude, churn/no churn, positivo/negativo) con un modelo que sea interpretable: cada feature debe aportar una explicación legible del por qué de la predicción, no solo el resultado.

Problema

Clasificar observaciones en dos clases (fraude/no fraude, churn/no churn, positivo/negativo) con un modelo que sea interpretable: cada feature debe aportar una explicación legible del por qué de la predicción, no solo el resultado.

Solución

Regresión logística con análisis de coeficientes e odds ratios. Pipeline completo: imputación de nulos, codificación de categóricas, escalado StandardScaler y ajuste del umbral de decisión para optimizar la métrica de negocio relevante (recall, precision o F1).

Pipeline completo

  • Imputación de nulos con mediana (numéricas) y moda (categóricas)
  • Codificación one-hot para variables categóricas de baja cardinalidad
  • Escalado StandardScaler para que los coeficientes sean comparables
  • Validación cruzada estratificada k=5 para estimación robusta del rendimiento

Interpretación y ajuste

  • Coeficientes del modelo → odds ratios: qué features aumentan la probabilidad de la clase positiva
  • Curva ROC y AUC para evaluar el poder discriminativo del modelo
  • Ajuste del umbral: curva precision-recall para seleccionar el punto óptimo
  • Análisis de errores: falsos positivos vs. falsos negativos y su coste de negocio

Más proyectos en Machine Learning