Latência ponta-a-ponta

Pilar: Voice AI
Sinônimos / aliases: End-to-end latency, voice-to-voice latency, E2E latency
Ver também: STT, TTS, OpenAI Realtime API

Tempo total entre o fim da fala do usuário e o início da resposta audível do agente. Soma: TTFB do STT + time-to-first-token do LLM + TTFA do TTS + latência de rede. Abaixo de 800ms P95, a conversa é percebida como natural; entre 800ms e 1,5s é perceptível; acima de 1,5s é notado como lag. É a métrica de experiência de usuário mais relevante em voice agents.

Onde aparece

Medida no sistema completo: do fim da fala do usuário (detectado pelo VAD) até o primeiro frame de áudio do agente chegando ao cliente.

Fontes

WebRTC.ventures — Reducing Voice Agent Latency
LiveKit — Agents Introduction