
RAG do zero: dê memória ao seu modelo de IA
Tutorial de exemplo em MDX (permite componentes além de Markdown).
RAG (Retrieval-Augmented Generation) conecta um modelo de linguagem a uma base de conhecimento, reduzindo alucinações e mantendo respostas atualizadas.
O fluxo em 4 passos
- Indexar documentos como embeddings em um banco vetorial.
- Recuperar os trechos mais relevantes para a pergunta.
- Aumentar o prompt com esses trechos.
- Gerar a resposta com base no contexto recuperado.
# pseudocódigo do passo de recuperação
query_emb = embed(pergunta)
trechos = vector_db.search(query_emb, k=4)
prompt = f"Contexto:\n{trechos}\n\nPergunta: {pergunta}"
resposta = llm(prompt)
No próximo tutorial, implementamos cada passo com código real.