💬 NLP
💬 NLP

Transcripción Whisper y clasificación zero-shot

Construir aplicaciones web con modelos Transformer que combinen dos tareas de NLP: transcripción de audio con Whisper y clasificación zero-shot de texto — sin datos de entrenamiento etiquetados para la clasificación.

Problema

Construir aplicaciones web con modelos Transformer que combinen dos tareas de NLP: transcripción de audio con Whisper y clasificación zero-shot de texto — sin datos de entrenamiento etiquetados para la clasificación. El reto es integrarlos en una interfaz interactiva accesible.

Solución

Faster-Whisper para transcripción de audio de alta eficiencia + modelos Transformer de Hugging Face para clasificación zero-shot. Demo completa con Gradio: un clasificador de audios zero-shot que transcribe y luego clasifica el contenido sin necesidad de fine-tuning.

Transcripción con Whisper

  • Faster-Whisper (implementación optimizada de Whisper): mayor velocidad de inferencia
  • Pipeline de audio: carga, preprocesamiento y transcripción con detección automática de idioma
  • OpenAI Whisper original: comparativa de modelos (base, small, medium) por accuracy y velocidad
  • Procesamiento de distintos formatos de audio con PyTorch como backend

Clasificación zero-shot con Gradio

  • Modelos Transformer de Hugging Face para clasificación zero-shot de texto
  • Zero-shot: el modelo clasifica en categorías arbitrarias sin ningún entrenamiento previo
  • Demo Gradio: interfaz web interactiva que combina transcripción + clasificación en un pipeline
  • Clasificador de audios zero-shot: transcribe el audio con Whisper → clasifica el texto resultante

Más proyectos en NLP