Tempo total entre o fim da fala do usuário e o início da resposta audível do agente. Soma: TTFB do STT + time-to-first-token do LLM + TTFA do TTS + latência de rede. Abaixo de 800ms P95, a conversa é percebida como natural; entre 800ms e 1,5s é perceptível; acima de 1,5s é notado como lag. É a métrica de experiência de usuário mais relevante em voice agents.
Onde aparece
Medida no sistema completo: do fim da fala do usuário (detectado pelo VAD) até o primeiro frame de áudio do agente chegando ao cliente.