Detección de objetos con YOLOv5

Problema

Detectar y localizar múltiples objetos en una imagen en tiempo real requiere un modelo que simultáneamente clasifique y regresione bounding boxes con alta precisión y baja latencia. Los enfoques de dos etapas (como R-CNN) son demasiado lentos para aplicaciones en tiempo real.

Solución

YOLOv5 preentrenado en COCO, entrenado durante 50 épocas en COCO128. YOLO procesa la imagen completa en un único forward pass, prediciendo bounding boxes y clases directamente. Aplicación práctica previa: detección de personajes vs. objetos en vídeos de Fortnite para un sistema recomendador de emotes.

Entrenamiento en COCO128

YOLOv5 con PyTorch: arquitectura de única pasada que predice clase y bounding box simultáneamente
Entrenamiento sobre COCO128 durante 50 épocas — convergencia estable y métricas documentadas
División de imagen en cuadrícula: cada celda predice bounding boxes con confianza y clase
Data augmentation en pipeline: mosaico, escala, flip y ajuste de HSV

Inferencia y aplicación

Inferencia en imágenes externas con visualización de detecciones y scores
Detección de múltiples objetos en una sola pasada con umbral de confianza ajustable
Aplicación previa: detección de personajes vs. objetos en Fortnite para recomendador de emotes
Validación visual: dibujado de bounding boxes, etiquetas y scores de confianza

Problema

Solución

Entrenamiento en COCO128

Inferencia y aplicación

Clasificador de imágenes con CNN

Análisis de sentimiento en reseñas con LSTM