RAG (Retrieval-Augmented Generation)

Pilar: Conversational AI
Sinônimos / aliases: geração aumentada por recuperação
Ver também: Function Calling, Prompt Engineering Aplicado a Voz

Técnica que combina recuperação de documentos com geração de texto: dado um turno do usuário, o sistema recupera trechos relevantes de uma base de conhecimento e os injeta no contexto do LLM antes da geração. Em agentes de voz, o chunking precisa produzir fragmentos curtos — tipicamente 150–300 tokens — para que a resposta caiba em uma fala natural. A citação de fonte deve ser conversacional (“nossa política diz que…”), não visual, pois URLs e formatação não são audíveis.

Onde aparece

RAG aparece em agentes de suporte técnico e atendimento ao cliente que precisam responder com informações atualizadas de manuais, políticas e FAQs sem retreinar o modelo base.

Fontes

Lewis et al., “Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks”, NeurIPS 2020, arXiv:2005.11401 (acessado 2026-05-12)
LangChain, “RAG” — documentação oficial (acessado 2026-05-12)