🧠 Deep Learning
🧠 Deep Learning

Detección de objetos con YOLOv5

Detectar y localizar múltiples objetos en una imagen en tiempo real requiere un modelo que simultáneamente clasifique y regresione bounding boxes con alta precisión y baja latencia.

Problema

Detectar y localizar múltiples objetos en una imagen en tiempo real requiere un modelo que simultáneamente clasifique y regresione bounding boxes con alta precisión y baja latencia. Los enfoques de dos etapas (como R-CNN) son demasiado lentos para aplicaciones en tiempo real.

Solución

YOLOv5 preentrenado en COCO, entrenado durante 50 épocas en COCO128. YOLO procesa la imagen completa en un único forward pass, prediciendo bounding boxes y clases directamente. Aplicación práctica previa: detección de personajes vs. objetos en vídeos de Fortnite para un sistema recomendador de emotes.

Entrenamiento en COCO128

  • YOLOv5 con PyTorch: arquitectura de única pasada que predice clase y bounding box simultáneamente
  • Entrenamiento sobre COCO128 durante 50 épocas — convergencia estable y métricas documentadas
  • División de imagen en cuadrícula: cada celda predice bounding boxes con confianza y clase
  • Data augmentation en pipeline: mosaico, escala, flip y ajuste de HSV

Inferencia y aplicación

  • Inferencia en imágenes externas con visualización de detecciones y scores
  • Detección de múltiples objetos en una sola pasada con umbral de confianza ajustable
  • Aplicación previa: detección de personajes vs. objetos en Fortnite para recomendador de emotes
  • Validación visual: dibujado de bounding boxes, etiquetas y scores de confianza

Más proyectos en Deep Learning