STT (Speech-to-Text)

Pilar: Voice AI
Sinônimos / aliases: ASR (Automatic Speech Recognition)
Ver também: VAD, ASR streaming, Deepgram

Tecnologia que converte sinal de áudio contendo fala humana em texto transcrito. Modelos modernos usam redes neurais profundas — tipicamente transformers ou arquiteturas híbridas CTC/attention — treinadas em grandes corpora de áudio rotulado. Métricas de qualidade: WER (Word Error Rate) e CER (Character Error Rate). Voice agents exigem variantes streaming com TTFB abaixo de 300ms para conversação fluida.

Onde aparece

No pipeline de voz, STT é o primeiro componente após o VAD: recebe áudio identificado como fala e produz o texto que alimenta o LLM.

Fontes