Detectar y localizar múltiples objetos en una imagen en tiempo real requiere un modelo que simultáneamente clasifique y regresione bounding boxes con alta precisión y baja latencia.
Detectar y localizar múltiples objetos en una imagen en tiempo real requiere un modelo que simultáneamente clasifique y regresione bounding boxes con alta precisión y baja latencia. Los enfoques de dos etapas (como R-CNN) son demasiado lentos para aplicaciones en tiempo real.
YOLOv5 preentrenado en COCO, entrenado durante 50 épocas en COCO128. YOLO procesa la imagen completa en un único forward pass, prediciendo bounding boxes y clases directamente. Aplicación práctica previa: detección de personajes vs. objetos en vídeos de Fortnite para un sistema recomendador de emotes.