Vetores de dimensão fixa (tipicamente 256–512 dimensões) que capturam a identidade vocal de um falante de forma compacta, independente do conteúdo linguístico. Gerados por modelos como x-vector (TDNN), d-vector (LSTM/GRU) ou ECAPA-TDNN. Usados em voice cloning, verificação de falante e diarização. Sob LGPD, são dados biométricos — armazenamento exige base legal explícita e consentimento do titular (art. 11, Lei 13.709/2018).
Onde aparece
Embeddings são calculados a partir de amostras de áudio de referência e injetados no pipeline de TTS para personalização de voz, ou usados offline para identificação e verificação de falante.