Tecnologia que converte texto em áudio sintetizado com voz natural. Modelos modernos (Cartesia Sonic 3, ElevenLabs Flash) usam redes neurais generativas e produzem áudio via streaming de chunks. A métrica crítica para voice agents é TTFA (Time to First Audio): quanto menor o TTFA, mais natural a conversa — modelos de produção como Cartesia Sonic 3 (90ms) e ElevenLabs Flash (~40ms) estabelecem o estado da arte atual.
Onde aparece
TTS é o último estágio do pipeline STT → LLM → TTS: recebe a resposta textual do LLM e devolve áudio ao usuário final.