Empresa e API de TTS com foco em latência ultra-baixa. Modelo Sonic 3 (lançado no final de 2025): TTFA 90ms; variante Turbo, 40ms. Preço: US$ 0,03/min TTS. Suporta voice cloning instant e Professional Voice Cloning. Ponto forte: menor latência do mercado em TTS — decisivo para pipelines com meta de E2E abaixo de 500ms. Ponto fraco: suporte a idiomas além do inglês em expansão contínua; documentação de voice cloning para pt-BR menos extensa que para inglês.
Onde aparece
Cartesia é escolhida no componente TTS quando latência é o critério dominante: atendimento ao cliente de alta frequência ou quando E2E abaixo de 600ms é meta de negócio.