Técnica que combina recuperação de documentos com geração de texto: dado um turno do usuário, o sistema recupera trechos relevantes de uma base de conhecimento e os injeta no contexto do LLM antes da geração. Em agentes de voz, o chunking precisa produzir fragmentos curtos — tipicamente 150–300 tokens — para que a resposta caiba em uma fala natural. A citação de fonte deve ser conversacional (“nossa política diz que…”), não visual, pois URLs e formatação não são audíveis.
Onde aparece
RAG aparece em agentes de suporte técnico e atendimento ao cliente que precisam responder com informações atualizadas de manuais, políticas e FAQs sem retreinar o modelo base.