Transcripción Whisper y clasificación zero-shot

Problema

Construir aplicaciones web con modelos Transformer que combinen dos tareas de NLP: transcripción de audio con Whisper y clasificación zero-shot de texto — sin datos de entrenamiento etiquetados para la clasificación. El reto es integrarlos en una interfaz interactiva accesible.

Solución

Faster-Whisper para transcripción de audio de alta eficiencia + modelos Transformer de Hugging Face para clasificación zero-shot. Demo completa con Gradio: un clasificador de audios zero-shot que transcribe y luego clasifica el contenido sin necesidad de fine-tuning.

Transcripción con Whisper

Faster-Whisper (implementación optimizada de Whisper): mayor velocidad de inferencia
Pipeline de audio: carga, preprocesamiento y transcripción con detección automática de idioma
OpenAI Whisper original: comparativa de modelos (base, small, medium) por accuracy y velocidad
Procesamiento de distintos formatos de audio con PyTorch como backend

Clasificación zero-shot con Gradio

Modelos Transformer de Hugging Face para clasificación zero-shot de texto
Zero-shot: el modelo clasifica en categorías arbitrarias sin ningún entrenamiento previo
Demo Gradio: interfaz web interactiva que combina transcripción + clasificación en un pipeline
Clasificador de audios zero-shot: transcribe el audio con Whisper → clasifica el texto resultante

Transcripción Whisper y clasificación zero-shot

Problema

Solución

Transcripción con Whisper

Clasificación zero-shot con Gradio

Chatbot conversacional con OpenAI API

Clasificación multi-etiqueta de posts de StackOverflow