Embeddings de voz

Pilar: Voice AI
Sinônimos / aliases: Speaker embeddings, voice embeddings, representações de falante
Ver também: Voice cloning, STT

Vetores de dimensão fixa (tipicamente 256–512 dimensões) que capturam a identidade vocal de um falante de forma compacta, independente do conteúdo linguístico. Gerados por modelos como x-vector (TDNN), d-vector (LSTM/GRU) ou ECAPA-TDNN. Usados em voice cloning, verificação de falante e diarização. Sob LGPD, são dados biométricos — armazenamento exige base legal explícita e consentimento do titular (art. 11, Lei 13.709/2018).

Onde aparece

Embeddings são calculados a partir de amostras de áudio de referência e injetados no pipeline de TTS para personalização de voz, ou usados offline para identificação e verificação de falante.

Fontes

CosyVoice 3 — arXiv 2505.17589
LGPD — Lei 13.709/2018, art. 11 (dados biométricos)