Mecanismo que determina quando um participante (humano ou agente) deve ceder a palavra ao outro. Em voice agents, turn detection identifica o fim da fala humana para disparar a resposta do agente. Técnicas: energy-based com timeout de silêncio (simples, frágil a pausas longas) e modelos semânticos como o Pipecat SmartTurn, que detectam ponto de conclusão semântica reduzindo falsos disparos por pausas naturais.
Onde aparece
Turn-taking opera após o VAD: quando silêncio suficiente é detectado (ou o modelo semântico identifica fim de enunciado), o pipeline encaminha o texto transcrito ao LLM.