TTS (Text-to-Speech)

Pilar: Voice AI
Sinônimos / aliases: Síntese de voz, speech synthesis
Ver também: ElevenLabs, Cartesia, Latência ponta-a-ponta

Tecnologia que converte texto em áudio sintetizado com voz natural. Modelos modernos (Cartesia Sonic 3, ElevenLabs Flash) usam redes neurais generativas e produzem áudio via streaming de chunks. A métrica crítica para voice agents é TTFA (Time to First Audio): quanto menor o TTFA, mais natural a conversa — modelos de produção como Cartesia Sonic 3 (90ms) e ElevenLabs Flash (~40ms) estabelecem o estado da arte atual.

Onde aparece

TTS é o último estágio do pipeline STT → LLM → TTS: recebe a resposta textual do LLM e devolve áudio ao usuário final.

Fontes

Cartesia — Sonic 3 docs
ElevenLabs — Text to Speech API docs