🤖 Machine Learning

Clasificador binario — Regresión Logística

Clasificar observaciones en dos clases (fraude/no fraude, churn/no churn, positivo/negativo) con un modelo que sea interpretable: cada feature debe aportar una explicación legible del por qué de la predicción, no solo el resultado.

Problema

Solución

Regresión logística con análisis de coeficientes e odds ratios. Pipeline completo: imputación de nulos, codificación de categóricas, escalado StandardScaler y ajuste del umbral de decisión para optimizar la métrica de negocio relevante (recall, precision o F1).

Pipeline completo

Imputación de nulos con mediana (numéricas) y moda (categóricas)
Codificación one-hot para variables categóricas de baja cardinalidad
Escalado StandardScaler para que los coeficientes sean comparables
Validación cruzada estratificada k=5 para estimación robusta del rendimiento

Interpretación y ajuste

Coeficientes del modelo → odds ratios: qué features aumentan la probabilidad de la clase positiva
Curva ROC y AUC para evaluar el poder discriminativo del modelo
Ajuste del umbral: curva precision-recall para seleccionar el punto óptimo
Análisis de errores: falsos positivos vs. falsos negativos y su coste de negocio

Clasificador binario — Regresión Logística

Problema

Solución

Pipeline completo

Interpretación y ajuste

Clasificación de satisfacción de pasajeros de aerolínea