Modalidade de transcrição que produz texto incrementalmente à medida que o áudio chega, sem aguardar o fim do enunciado (diferente de batch/offline). O modelo emite hipóteses parciais e uma transcrição final quando detecta fim de segmento. TTFB mede o tempo até a primeira palavra transcrita. Deepgram Nova-3 atinge TTFB abaixo de 300ms; AssemblyAI Universal-3 Pro Streaming prioriza accuracy com WER médio de 8,6% em benchmarks próprios (dados da empresa, mai/2026).
Onde aparece
ASR streaming é o modo padrão do STT em voice agents: chunks de áudio de 20–100ms são enviados continuamente à API, que retorna texto parcial antes mesmo de o usuário terminar a frase.