⚙️ MLOps
⚙️ MLOps

Experimentación con MLflow — predicción de tarifas de taxi NYC

Comparar múltiples algoritmos de regresión sobre más de 1 millón de registros de viajes de taxi en Nueva York sin perder el rastro de experimentos, hiperparámetros y métricas.

Problema

Comparar múltiples algoritmos de regresión sobre más de 1 millón de registros de viajes de taxi en Nueva York sin perder el rastro de experimentos, hiperparámetros y métricas. Sin tracking sistemático, la reproducibilidad es imposible y la selección del mejor modelo se vuelve arbitraria.

Solución

MLflow como plataforma de tracking: comparativa de 5 algoritmos de regresión (Linear Regression, Lasso, Ridge, Random Forest, XGBoost) sobre el dataset de NYC taxis, con registro automático de todos los parámetros y métricas. El mejor modelo (XGBoost: RMSE 0.74, R² 0.98) se registra en MLflow Model Registry.

Tracking con MLflow — NYC Taxis

  • Dataset: más de 1 millón de registros de viajes de taxi en Nueva York
  • mlflow.autolog() para scikit-learn y XGBoost: registro automático de métricas y modelos
  • Más de 10 experimentos registrados: Linear Regression, Lasso, Ridge, Random Forest, XGBoost
  • Comparativa tabular y visual en MLflow UI: ordenar runs por RMSE, R² y tiempo de entrenamiento

Model Registry y selección

  • Mejor modelo: XGBoost con RMSE 0.7433 y R² 0.9836 tras optimización con GridSearchCV
  • Feature engineering: distancia haversiana, duración del viaje, características temporales (hora, día, festivos)
  • Registro en MLflow Model Registry con transición None → Staging → Production
  • Análisis de importancia de features: qué variables explican más la tarifa predicha

Más proyectos en MLOps