RAG do zero: dê memória ao seu modelo de IA

Tutorial de exemplo em MDX (permite componentes além de Markdown).

RAG (Retrieval-Augmented Generation) conecta um modelo de linguagem a uma base de conhecimento, reduzindo alucinações e mantendo respostas atualizadas.

O fluxo em 4 passos

Indexar documentos como embeddings em um banco vetorial.
Recuperar os trechos mais relevantes para a pergunta.
Aumentar o prompt com esses trechos.
Gerar a resposta com base no contexto recuperado.

# pseudocódigo do passo de recuperação
query_emb = embed(pergunta)
trechos = vector_db.search(query_emb, k=4)
prompt = f"Contexto:\n{trechos}\n\nPergunta: {pergunta}"
resposta = llm(prompt)

No próximo tutorial, implementamos cada passo com código real.