Componente que classifica frames de áudio (tipicamente 10–30ms) como “fala” ou “silêncio/ruído”, decidindo quando encaminhar sinal ao STT. Duas abordagens principais: WebRTC VAD (baseado em GMM, leve, 50% TPR a 5% FPR) e Silero VAD (DNN, 87,7% TPR a 5% FPR, menos de 1ms por chunk em CPU). Falsos positivos geram transcrições espúrias; falsos negativos cortam fala útil.
Onde aparece
O VAD opera entre a captura de áudio bruto (RTP ou WebRTC) e o STT, filtrando silêncio e ruído antes de enviar à transcrição.