Mecanismo pelo qual um LLM emite, no lugar de texto livre, uma instrução estruturada para executar uma função externa — como consultar uma API, buscar um banco de dados ou disparar um evento. O modelo recebe o resultado da função e continua gerando a resposta. Cada chamada sequencial acumula latência: em agentes de voz, onde o pipeline STT+LLM+TTS já parte de 800 ms, tools adicionam entre 300 e 1500 ms dependendo da API chamada.
Onde aparece
Em agentes conversacionais de voz, function calling aparece quando o agente precisa de dados em tempo real — saldo de conta, status de pedido, horário disponível — antes de formular sua resposta.