Glossário de Voice AI
Termos fundamentais de Voice AI, AI Telephony e Conversational AI, mantidos e verificados pela Mestre. Esta é a v1.4 — 20 verbetes essenciais com definições diretas ao ponto.
Filtro: 8 detalhados · 12 compactos · sugerir verbete
Verbetes detalhados
- AudioSocket
-
Protocolo TCP binário nativo do Asterisk para streaming de áudio bidirecional em tempo real entre o Asterisk e um processo externo. Opera em formato de frames: 3 bytes de cabeçalho (tipo + comprimento) + N bytes de payload PCM 16-bit, 8 kHz, mono. Introduzido no Asterisk 16, estabilizado no 20 LTS. Latência de setup ~20 ms; sem overhead HTTP. Alternativa mais simples ao ARI ExternalMedia para pipelines de voz que não precisam de multiplexação.
Pilar: AI Telephony · verbete completo →
- Barge-in
-
Capacidade de um agente de voz interromper sua própria fala quando detecta que o usuário começa a falar. Implementado via VAD (Voice Activity Detection) sobre o stream de entrada enquanto o TTS está tocando. Em pt-BR, falsos positivos de barge-in são frequentes porque vogais abertas e ruído de fundo têm espectro semelhante ao início de fala. Threshold de VAD entre 0.5 e 0.7 é o ponto de equilíbrio típico para português.
Pilar: Voice AI · verbete completo →
- Endpointing
-
Detecção automática do fim de um turno de fala do usuário — o momento em que o agente deve parar de escutar e começar a processar. Tecnicamente: silêncio pós-fala por N ms (tipicamente 400–800 ms) detectado pelo VAD. Configurar muito curto causa cortes no meio da frase; muito longo aumenta a latência percebida. Em chamadas telefônicas via SIP/RTP, jitter de rede pode introduzir falsos silêncios — o endpointer precisa de buffer adaptativo.
Pilar: Voice AI · Sinônimos: turn-end detection, utterance boundary detection
- Latência P95
-
O 95º percentil da distribuição de latência end-to-end do pipeline voice agent (STT → LLM → TTS). Significa que 95% das requisições terminam abaixo desse valor; os 5% restantes são os piores casos. Em produção com Asterisk + Deepgram + GPT-4o + ElevenLabs, P95 típico fica entre 1.8s e 3.2s dependendo do tamanho do contexto do LLM. Latência P50 (mediana) pode ser 1.2s mas P95 de 4s ainda torna a conversa ruim — por isso P95 é a métrica correta de SLA.
Pilar: Voice AI · verbete completo →
- LLM (Large Language Model)
-
Modelo de linguagem de grande escala pré-treinado em corpus massivo e ajustado por RLHF para seguir instruções. No contexto de Voice AI, o LLM é o componente “cérebro” do pipeline STT→LLM→TTS: recebe a transcrição do STT, gera texto de resposta, envia ao TTS. Para agentes de voz, o LLM precisa de latência de primeira palavra (TTFT) < 400 ms e suporte a streaming de tokens para que o TTS possa começar antes da resposta completa.
Pilar: Voice AI · Conversational AI · Exemplos: GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Flash
- STT (Speech-to-Text)
-
Componente do pipeline que converte áudio de voz em texto transcrito. No contexto de agentes de voz, dois modos: batch (envia áudio completo, retorna transcrição) e streaming (retorna transcrições parciais em tempo real, essencial para baixa latência). Provedores relevantes para pt-BR: Deepgram Nova-2, AssemblyAI Streaming, Whisper large-v3 (auto-hospedado). WER (Word Error Rate) para pt-BR varia: Deepgram 8–12%, Whisper 6–10%, dependendo do sotaque e ruído.
Pilar: Voice AI · verbete completo →
- TTFT — Time to First Token
-
Tempo entre o envio do prompt ao LLM e o recebimento do primeiro token de resposta. Métrica crítica para latência percebida em voz: o TTS pode começar a sintetizar assim que chega o primeiro token (modo streaming). TTFT de 150–300 ms permite que o pipeline voice agent entregue primeira palavra ao usuário em ~800 ms. TTFT alto (> 500 ms) domina a latência end-to-end mais do que STT ou TTS. Fatores: tamanho do modelo, comprimento do contexto, carga do servidor.
Pilar: Voice AI · Conversational AI · Sinônimos: time-to-first-token, TTFT, latência de geração inicial
- VAD (Voice Activity Detection)
-
Algoritmo que distingue frames de áudio com fala humana de frames com silêncio ou ruído de fundo. Usado em duas etapas do pipeline: (1) antes do STT, para evitar enviar silêncio desnecessário; (2) no endpointing, para detectar fim de turno. Silero VAD é o modelo open-source mais usado. Em ambientes de call center com PABX, o ruído de linha (50 Hz AC, codec G.711 µ-law) requer calibração específica do threshold.
Pilar: Voice AI · verbete completo →
Verbetes compactos
- ARI (Asterisk REST Interface)
- API REST + WebSocket do Asterisk para controle programático de chamadas em tempo real. Mais poderoso que AGI/AMI; permite criar “Stasis apps” que recebem eventos e controlam mídia. Usado para integrar pipelines de voz com Python/Node sem dialplan complexo. →
- Cartesia
- Provedor de TTS com modelo Sonic — latência de primeira palavra <100 ms, streaming de áudio em tempo real, vozes treináveis em pt-BR. Alternativa ao ElevenLabs quando latência é crítica. →
- Cold Start
- Atraso inicial na primeira requisição a um serviço de IA serverless após período sem uso. Em funções AWS Lambda/GCP Cloud Run com modelos de LLM, cold start pode adicionar 2–8s. Solução: warm-up periódico ou instâncias mínimas provisionadas.
- ElevenLabs
- Provedor de TTS com vozes em pt-BR de alta fidelidade. Suporta streaming. Latência de primeira palavra ~200–400 ms. Voice cloning disponível. Custo por caractere. →
- Function Calling
- Mecanismo pelo qual o LLM emite uma instrução estruturada para executar uma função externa (API, banco de dados). Cada chamada adiciona 300–1500 ms de latência no pipeline de voz. →
- RTP (Real-time Transport Protocol)
- Protocolo UDP para transporte de áudio/vídeo em tempo real sobre IP. Base da telefonia SIP: cada leg de chamada usa fluxos RTP separados. Jitter e perda de pacote RTP causam degradação de áudio perceptível acima de 1–2% de loss. →
- SIP (Session Initiation Protocol)
- Protocolo de sinalização para estabelecer, modificar e encerrar sessões VoIP. SIP trunk = link entre um PABX (Asterisk) e a PSTN. Para voice agents, SIP é o caminho de entrada de chamadas reais ao Asterisk. →
- Stasis
- Estado especial de uma chamada Asterisk quando entregue ao controle via ARI. Uma chamada em Stasis está “pausada” na fila normal de dialplan e aguarda comandos da aplicação Python/Node via WebSocket ARI.
- TTS (Text-to-Speech)
- Componente que converte texto em áudio sintetizado. No pipeline de voz, é o último elo: recebe tokens do LLM em streaming e gera áudio PCM que volta ao Asterisk. Qualidade e latência variam: Cartesia Sonic (ultra-baixa latência), ElevenLabs (alta qualidade), Coqui/Piper (open-source, on-premise). →
- Turn-taking
- Mecanismo pelo qual dois interlocutores alternam quem fala. Em agentes de voz, envolve barge-in + endpointing + gestão de sobreposição de fala. Brasileiro tende a usar sinais paralinguísticos (“uhum”, “sim”) mais que pausas longas — VAD precisa lidar com isso. →
- RAG (Retrieval-Augmented Generation)
- Técnica de aumentar o contexto do LLM com documentos recuperados de uma base de conhecimento. Em voice agents, RAG reduz alucinação em domínios específicos (produtos, políticas, FAQs). Adiciona ~200–500 ms de latência para retrieval + reranking. →
- Whisper
- Modelo STT open-source da OpenAI. Versão large-v3 tem WER de 6–10% em pt-BR. Pode ser auto-hospedado (GPU necessária) ou via API OpenAI. Não suporta streaming nativo — para streaming, usar faster-whisper + servidor local. →
Falta algum verbete? Sugestões são bem-vindas.
Sugerir verbete