API de speech-to-speech direto da OpenAI que elimina o pipeline tradicional STT → LLM → TTS, processando e gerando áudio diretamente em um único modelo. Modelos disponíveis: gpt-4o-realtime-preview (pré-lançamento com atualizações frequentes) e gpt-realtime (versão GA desde mai/2026), com janela de contexto de 128K tokens de áudio. Preço: ~US$ 0,06/min de áudio de entrada, ~US$ 0,24/min de saída. Vantagem: menor latência que pipeline cascade em condições ideais. Desvantagem: lock-in total na OpenAI, sem flexibilidade de trocar componentes.
Onde aparece
OpenAI Realtime API substitui o pipeline inteiro STT → LLM → TTS: o áudio do usuário é enviado diretamente à API, que retorna áudio de resposta sem intermediários de transcrição textual.