Turn-taking - Mestre — Academia Brasileira de Voice AI

Pilar: Voice AI
Sinônimos / aliases: Gerenciamento de turnos, turn detection
Ver também: VAD, Barge-in, Latência ponta-a-ponta

Mecanismo que determina quando um participante (humano ou agente) deve ceder a palavra ao outro. Em voice agents, turn detection identifica o fim da fala humana para disparar a resposta do agente. Técnicas: energy-based com timeout de silêncio (simples, frágil a pausas longas) e modelos semânticos como o Pipecat SmartTurn, que detectam ponto de conclusão semântica reduzindo falsos disparos por pausas naturais.

Onde aparece

Turn-taking opera após o VAD: quando silêncio suficiente é detectado (ou o modelo semântico identifica fim de enunciado), o pipeline encaminha o texto transcrito ao LLM.

Fontes

Pipecat — smart-turn GitHub
Pipecat — Overview docs