VAD (Voice Activity Detection)

Pilar: Voice AI
Sinônimos / aliases: Detecção de atividade de voz
Ver também: STT, Barge-in, Turn-taking

Componente que classifica frames de áudio (tipicamente 10–30ms) como “fala” ou “silêncio/ruído”, decidindo quando encaminhar sinal ao STT. Duas abordagens principais: WebRTC VAD (baseado em GMM, leve, 50% TPR a 5% FPR) e Silero VAD (DNN, 87,7% TPR a 5% FPR, menos de 1ms por chunk em CPU). Falsos positivos geram transcrições espúrias; falsos negativos cortam fala útil.

Onde aparece

O VAD opera entre a captura de áudio bruto (RTP ou WebRTC) e o STT, filtrando silêncio e ruído antes de enviar à transcrição.

Fontes

Picovoice — Choosing the Best VAD 2026
Silero VAD — GitHub