Modelo de STT open source da OpenAI, disponível em múltiplos tamanhos (tiny a large-v3). Treinado em 680 mil horas de áudio multilíngue, incluindo pt-BR. Projetado para batch (não streaming nativo), mas implementações como whisper.cpp e Faster Whisper permitem inferência local otimizada. É o baseline de WER em benchmarks independentes. Para uso self-hosted ou offline — dados sensíveis, conformidade LGPD sem envio a terceiros — é a escolha padrão.
Onde aparece
Whisper é usado no componente STT quando o requisito é self-hosted (dados que não podem sair do ambiente controlado) ou quando custo de API é restrição crítica, em detrimento de latência.