OpenAI Realtime API

Pilar: Voice AI
Sinônimos / aliases: Realtime API, gpt-4o-realtime, speech-to-speech API
Ver também: Latência ponta-a-ponta, STT, TTS

API de speech-to-speech direto da OpenAI que elimina o pipeline tradicional STT → LLM → TTS, processando e gerando áudio diretamente em um único modelo. Modelos disponíveis: gpt-4o-realtime-preview (pré-lançamento com atualizações frequentes) e gpt-realtime (versão GA desde mai/2026), com janela de contexto de 128K tokens de áudio. Preço: ~US$ 0,06/min de áudio de entrada, ~US$ 0,24/min de saída. Vantagem: menor latência que pipeline cascade em condições ideais. Desvantagem: lock-in total na OpenAI, sem flexibilidade de trocar componentes.

Onde aparece

OpenAI Realtime API substitui o pipeline inteiro STT → LLM → TTS: o áudio do usuário é enviado diretamente à API, que retorna áudio de resposta sem intermediários de transcrição textual.

Fontes