ASR streaming - Mestre — Academia Brasileira de Voice AI

Pilar: Voice AI
Sinônimos / aliases: STT streaming, transcrição em tempo real, streaming ASR
Ver também: STT, VAD, Deepgram

Modalidade de transcrição que produz texto incrementalmente à medida que o áudio chega, sem aguardar o fim do enunciado (diferente de batch/offline). O modelo emite hipóteses parciais e uma transcrição final quando detecta fim de segmento. TTFB mede o tempo até a primeira palavra transcrita. Deepgram Nova-3 atinge TTFB abaixo de 300ms; AssemblyAI Universal-3 Pro Streaming prioriza accuracy com WER médio de 8,6% em benchmarks próprios (dados da empresa, mai/2026).

Onde aparece

ASR streaming é o modo padrão do STT em voice agents: chunks de áudio de 20–100ms são enviados continuamente à API, que retorna texto parcial antes mesmo de o usuário terminar a frase.

Fontes

AssemblyAI — Universal-3 Pro Streaming
Deepgram — Introducing Nova-3