Glossário de Voice AI · v1.4 · 20 verbetes

Glossário de Voice AI

Termos fundamentais de Voice AI, AI Telephony e Conversational AI, mantidos e verificados pela Mestre. Esta é a v1.4 — 20 verbetes essenciais com definições diretas ao ponto.

Filtro: 8 detalhados · 12 compactos · sugerir verbete

Verbetes detalhados

AudioSocket

Protocolo TCP binário nativo do Asterisk para streaming de áudio bidirecional em tempo real entre o Asterisk e um processo externo. Opera em formato de frames: 3 bytes de cabeçalho (tipo + comprimento) + N bytes de payload PCM 16-bit, 8 kHz, mono. Introduzido no Asterisk 16, estabilizado no 20 LTS. Latência de setup ~20 ms; sem overhead HTTP. Alternativa mais simples ao ARI ExternalMedia para pipelines de voz que não precisam de multiplexação.

Pilar: AI Telephony · verbete completo →

Barge-in

Capacidade de um agente de voz interromper sua própria fala quando detecta que o usuário começa a falar. Implementado via VAD (Voice Activity Detection) sobre o stream de entrada enquanto o TTS está tocando. Em pt-BR, falsos positivos de barge-in são frequentes porque vogais abertas e ruído de fundo têm espectro semelhante ao início de fala. Threshold de VAD entre 0.5 e 0.7 é o ponto de equilíbrio típico para português.

Pilar: Voice AI · verbete completo →

Endpointing

Detecção automática do fim de um turno de fala do usuário — o momento em que o agente deve parar de escutar e começar a processar. Tecnicamente: silêncio pós-fala por N ms (tipicamente 400–800 ms) detectado pelo VAD. Configurar muito curto causa cortes no meio da frase; muito longo aumenta a latência percebida. Em chamadas telefônicas via SIP/RTP, jitter de rede pode introduzir falsos silêncios — o endpointer precisa de buffer adaptativo.

Pilar: Voice AI · Sinônimos: turn-end detection, utterance boundary detection

Latência P95

O 95º percentil da distribuição de latência end-to-end do pipeline voice agent (STT → LLM → TTS). Significa que 95% das requisições terminam abaixo desse valor; os 5% restantes são os piores casos. Em produção com Asterisk + Deepgram + GPT-4o + ElevenLabs, P95 típico fica entre 1.8s e 3.2s dependendo do tamanho do contexto do LLM. Latência P50 (mediana) pode ser 1.2s mas P95 de 4s ainda torna a conversa ruim — por isso P95 é a métrica correta de SLA.

Pilar: Voice AI · verbete completo →

LLM (Large Language Model)

Modelo de linguagem de grande escala pré-treinado em corpus massivo e ajustado por RLHF para seguir instruções. No contexto de Voice AI, o LLM é o componente “cérebro” do pipeline STT→LLM→TTS: recebe a transcrição do STT, gera texto de resposta, envia ao TTS. Para agentes de voz, o LLM precisa de latência de primeira palavra (TTFT) < 400 ms e suporte a streaming de tokens para que o TTS possa começar antes da resposta completa.

Pilar: Voice AI · Conversational AI · Exemplos: GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Flash

STT (Speech-to-Text)

Componente do pipeline que converte áudio de voz em texto transcrito. No contexto de agentes de voz, dois modos: batch (envia áudio completo, retorna transcrição) e streaming (retorna transcrições parciais em tempo real, essencial para baixa latência). Provedores relevantes para pt-BR: Deepgram Nova-2, AssemblyAI Streaming, Whisper large-v3 (auto-hospedado). WER (Word Error Rate) para pt-BR varia: Deepgram 8–12%, Whisper 6–10%, dependendo do sotaque e ruído.

Pilar: Voice AI · verbete completo →

TTFT — Time to First Token

Tempo entre o envio do prompt ao LLM e o recebimento do primeiro token de resposta. Métrica crítica para latência percebida em voz: o TTS pode começar a sintetizar assim que chega o primeiro token (modo streaming). TTFT de 150–300 ms permite que o pipeline voice agent entregue primeira palavra ao usuário em ~800 ms. TTFT alto (> 500 ms) domina a latência end-to-end mais do que STT ou TTS. Fatores: tamanho do modelo, comprimento do contexto, carga do servidor.

Pilar: Voice AI · Conversational AI · Sinônimos: time-to-first-token, TTFT, latência de geração inicial

VAD (Voice Activity Detection)

Algoritmo que distingue frames de áudio com fala humana de frames com silêncio ou ruído de fundo. Usado em duas etapas do pipeline: (1) antes do STT, para evitar enviar silêncio desnecessário; (2) no endpointing, para detectar fim de turno. Silero VAD é o modelo open-source mais usado. Em ambientes de call center com PABX, o ruído de linha (50 Hz AC, codec G.711 µ-law) requer calibração específica do threshold.

Pilar: Voice AI · verbete completo →

Verbetes compactos

ARI (Asterisk REST Interface): API REST + WebSocket do Asterisk para controle programático de chamadas em tempo real. Mais poderoso que AGI/AMI; permite criar “Stasis apps” que recebem eventos e controlam mídia. Usado para integrar pipelines de voz com Python/Node sem dialplan complexo. →
Cartesia: Provedor de TTS com modelo Sonic — latência de primeira palavra <100 ms, streaming de áudio em tempo real, vozes treináveis em pt-BR. Alternativa ao ElevenLabs quando latência é crítica. →
Cold Start: Atraso inicial na primeira requisição a um serviço de IA serverless após período sem uso. Em funções AWS Lambda/GCP Cloud Run com modelos de LLM, cold start pode adicionar 2–8s. Solução: warm-up periódico ou instâncias mínimas provisionadas.
ElevenLabs: Provedor de TTS com vozes em pt-BR de alta fidelidade. Suporta streaming. Latência de primeira palavra ~200–400 ms. Voice cloning disponível. Custo por caractere. →
Function Calling: Mecanismo pelo qual o LLM emite uma instrução estruturada para executar uma função externa (API, banco de dados). Cada chamada adiciona 300–1500 ms de latência no pipeline de voz. →
RTP (Real-time Transport Protocol): Protocolo UDP para transporte de áudio/vídeo em tempo real sobre IP. Base da telefonia SIP: cada leg de chamada usa fluxos RTP separados. Jitter e perda de pacote RTP causam degradação de áudio perceptível acima de 1–2% de loss. →
SIP (Session Initiation Protocol): Protocolo de sinalização para estabelecer, modificar e encerrar sessões VoIP. SIP trunk = link entre um PABX (Asterisk) e a PSTN. Para voice agents, SIP é o caminho de entrada de chamadas reais ao Asterisk. →
Stasis: Estado especial de uma chamada Asterisk quando entregue ao controle via ARI. Uma chamada em Stasis está “pausada” na fila normal de dialplan e aguarda comandos da aplicação Python/Node via WebSocket ARI.
TTS (Text-to-Speech): Componente que converte texto em áudio sintetizado. No pipeline de voz, é o último elo: recebe tokens do LLM em streaming e gera áudio PCM que volta ao Asterisk. Qualidade e latência variam: Cartesia Sonic (ultra-baixa latência), ElevenLabs (alta qualidade), Coqui/Piper (open-source, on-premise). →
Turn-taking: Mecanismo pelo qual dois interlocutores alternam quem fala. Em agentes de voz, envolve barge-in + endpointing + gestão de sobreposição de fala. Brasileiro tende a usar sinais paralinguísticos (“uhum”, “sim”) mais que pausas longas — VAD precisa lidar com isso. →
RAG (Retrieval-Augmented Generation): Técnica de aumentar o contexto do LLM com documentos recuperados de uma base de conhecimento. Em voice agents, RAG reduz alucinação em domínios específicos (produtos, políticas, FAQs). Adiciona ~200–500 ms de latência para retrieval + reranking. →
Whisper: Modelo STT open-source da OpenAI. Versão large-v3 tem WER de 6–10% em pt-BR. Pode ser auto-hospedado (GPU necessária) ou via API OpenAI. Não suporta streaming nativo — para streaming, usar faster-whisper + servidor local. →

Falta algum verbete? Sugestões são bem-vindas.

Sugerir verbete

Glossário de Voice AI

Glossário de Voice AI

Verbetes detalhados

Verbetes compactos

Novidades técnicas, direto na sua caixa.