⏱️ Leitura: 15 minutos · 🎯 Público: administradores, curadores de conhecimento, usuários avançados, arquitetos.
RAG (pronúncia: "rég") é provavelmente a capacidade mais transformadora da IA corporativa. Sem RAG, um modelo de IA responde com base apenas no que aprendeu durante o treinamento — desconhece sua empresa, suas políticas, seus produtos. Com RAG, o modelo responde fundamentado nos documentos e no conhecimento da sua organização, citando as fontes.
Esta página cobre tudo que você precisa saber para entender, configurar e otimizar RAG na Cortex.
RAG combina duas capacidades:
1. USUÁRIO pergunta
│
▼
2. SISTEMA vetoriza a pergunta (embedding)
│
▼
3. BUSCA na base de conhecimento
┌─────────────┬─────────────┬─────────────┐
│ │ │ │
▼ ▼ ▼ ▼
Chunk 1 Chunk 2 Chunk 3 Chunk 4
(relevante) (muito (relevante) (pouco
relevante) relevante)
│ │ │ │
└─────────────┴─────────────┴─────────────┘
│
▼
4. RERANKING (ordena por relevância real)
│
▼
5. INJEÇÃO no prompt junto com a pergunta
│
▼
6. LLM gera resposta fundamentada nos chunks
│
▼
7. RESPOSTA com citação das fontes
| Pergunta | Sem RAG | Com RAG |
|---|---|---|
| "Qual a política de home office da empresa?" | Modelo inventa uma resposta genérica ("geralmente, empresas permitem...") | Modelo responde citando "Política de Home Office v3 de 15/03/2026, cláusula 2.1..." |
| "Como solicitar férias?" | Resposta padrão sobre CLT | Resposta específica do fluxo da sua empresa, citando o sistema interno |
| "Temos modelo de NDA para fornecedor?" | Não sabe | "Sim — NDA_Fornecedor_v2.docx na coleção 'Modelos Jurídicos'" |
| "Qual foi a resolução do incidente X em 2025?" | Não tem como saber | Cita o relatório do post-mortem com a causa-raiz e a mitigação |
| Problema | Como RAG resolve |
|---|---|
| Alucinações (inventar fatos) | O modelo responde com base em documentos reais; se não achar, deve dizer que não sabe |
| Conhecimento desatualizado | Atualizar a base = atualizar o conhecimento, sem retreinar o modelo |
| Fatos específicos da empresa | A base é exclusivamente da sua organização |
| Rastreabilidade | Toda resposta pode citar a fonte exata (nome do documento, página) |
| Conformidade | Auditores conseguem verificar que a resposta veio de um documento oficial |
| Privacidade | Os documentos ficam na sua instância, não no treinamento de modelos públicos |
A Cortex implementa RAG em quatro etapas que acontecem automaticamente:
Quando você sobe um documento para uma Coleção de Conhecimento:
text-embedding-3-small ou text-embedding-3-large)Quando um usuário pergunta algo a um agente com RAG:
Os chunks recuperados passam por um reranker (rerank-v4.0-pro ou rerank-v3.5) que reordena por relevância real à pergunta. O reranker é mais caro que o embedding, por isso é usado só nos candidatos.
Resultado: top 3-8 chunks efetivamente úteis.
Os chunks selecionados são injetados no contexto da conversa com instruções como:
Use as informações abaixo, extraídas dos documentos da organização,
para responder a pergunta do usuário. Cite o nome do documento de
origem entre colchetes. Se a resposta não estiver nos trechos, diga
que não encontrou na base.
[Trecho 1 — política-home-office-v3.pdf, pág. 3]
...
[Trecho 2 — manual-rh-2026.pdf, pág. 12]
...
Pergunta: <pergunta do usuário>
O LLM gera a resposta usando os trechos como referência.
Antes de subir documentos, defina:
Dicas de upload:
politica-home-office-v3.pdf, não documento-final.pdf)Antes de liberar para usuários, teste com 10-15 perguntas típicas:
Avalie:
Se falhar, ajuste o prompt do sistema do agente e/ou melhore os documentos (veja Boas práticas de curadoria).
# no chatUsuários podem referenciar uma coleção pontualmente em uma conversa, sem precisar vincular a um agente. Basta digitar # no chat e escolher a coleção:
#PoliticasRH como funciona a licença-maternidade estendida?
Útil para casos esporádicos sem criar um agente dedicado.
Ao vincular um arquivo ou coleção a um agente, você pode alternar entre dois modos clicando no item:
O agente pesquisa e injeta apenas os trechos relevantes para cada pergunta.
Quando usar:
Vantagens:
Limitações:
O documento inteiro é injetado no prompt em toda conversa.
Quando usar:
Vantagens:
Limitações:
Tamanho do documento Modo recomendado
─────────────────────────────────────────────
< 5 páginas → Contexto completo
5-50 páginas, muito usado → Contexto completo (se couber)
5-50 páginas, uso esporádico → Busca focada
> 50 páginas → Busca focada (quase sempre)
Coleção com vários arquivos → Busca focada
Com function calling nativo habilitado (veja Engenharia de Prompts e Agentes Autônomos), o modelo recebe ferramentas para navegar ativamente na base de conhecimento, em vez de receber chunks automaticamente.
Dependendo de haver ou não uma coleção vinculada ao agente, o modelo recebe diferentes ferramentas:
| Ferramenta | O que faz |
|---|---|
list_knowledge |
Lista todas as bases e arquivos disponíveis ao agente |
search_knowledge_files |
Busca arquivos por nome |
query_knowledge_files |
Busca no conteúdo dos arquivos (usa o pipeline RAG) |
view_file |
Lê um arquivo com paginação (default 10 mil chars, até 100 mil) |
view_note |
Lê notas anexadas ao agente |
| Ferramenta | O que faz |
|---|---|
list_knowledge_bases |
Lista todas as coleções acessíveis ao usuário |
search_knowledge_bases |
Busca coleções por nome/descrição |
query_knowledge_bases |
Busca semântica nos nomes/descrições |
query_knowledge_files |
Busca no conteúdo de qualquer arquivo acessível |
view_knowledge_file |
Lê arquivo de qualquer coleção acessível |
Pergunta do usuário: "Quais mudanças aconteceram na política de LGPD nos últimos 6 meses?"
O modelo (agêntico):
list_knowledge_bases → encontra coleções "Políticas LGPD", "Políticas LGPD 2025", "Compliance"query_knowledge_files(query="mudanças LGPD 2025 2026", collections=["Políticas LGPD"]) → encontra 5 arquivos relevantesview_file(file="politica-lgpd-v3.pdf", page=1) → lê introduçãoview_file(file="politica-lgpd-v3.pdf", page=5) → lê seção sobre mudanças recentesview_file(file="changelog-lgpd-2026.md") → lê o changelog| Cenário | Recomendação |
|---|---|
| Bases pequenas, perguntas focadas | Busca focada (padrão, sem agêntico) |
| Bases grandes, perguntas complexas que requerem cruzamento | RAG agêntico |
| Documentos muito longos que o modelo precisa percorrer | RAG agêntico |
| Modelos que não suportam function calling | Busca focada obrigatória |
⚠️ Atenção: quando RAG agêntico está ativo, o conhecimento não é mais injetado automaticamente. O modelo precisa decidir chamar as ferramentas. Se sua base "parar de funcionar" após ativar function calling, verifique se o prompt orienta o modelo a usar as ferramentas de conhecimento.
A qualidade do RAG depende 80%+ da qualidade dos documentos e 20% da configuração. Curadoria é crítica.
✅ politica-home-office-v3-2026-03.pdf
✅ manual-compliance-lgpd-2026.pdf
✅ contrato-padrao-fornecedor-nivel-critico.docx
❌ documento_final_final.pdf
❌ Doc1.pdf
❌ novo.docx
# Política de Home Office v3
Vigência: 01/03/2026
Revisão prevista: 01/03/2027
Dono: Gerência de RH
Classificação: Interna
Inclua v1, v2, v3 no nome. Remova versões antigas da coleção quando a nova entrar em vigor (ou mantenha em coleção "Arquivo Histórico" separada).
Um PDF de 500 páginas é pior para RAG do que 50 PDFs de 10 páginas bem temáticos.
Documentos desatualizados = respostas desatualizadas. Defina calendário de revisão.
Para cada documento antes de subir:
Em vez de uma megaconleção "Documentos da Empresa", crie:
Políticas de RHPolíticas de Segurança da InformaçãoFAQ de Produto AManual de Procedimentos OperacionaisCada agente vincula apenas as coleções relevantes a ele. Isso:
Crie uma coleção pequena com:
Use em contexto completo em todos os agentes corporativos — garante consistência de terminologia.
A Cortex respeita hierarquia de títulos Markdown no chunking. Documentos escritos em Markdown com #, ##, ### chunkam melhor.
Se você tem flexibilidade sobre formato, prefira Markdown ou DOCX bem estruturado a PDFs rasterizados.
Adicione ao prompt do sistema do agente:
Sempre cite a fonte de cada afirmação entre colchetes, no formato
[nome-do-documento.ext, seção/página]. Se várias fontes suportam
a mesma afirmação, cite todas. Se a informação não estiver na base,
diga claramente: "Não encontrei nos documentos disponíveis."
Para agentes de pesquisa, combine:
O agente consulta primeiro a base, e complementa com web quando apropriado. Cite claramente o que veio de onde.
Quando atualizar um documento:
Evite "ambos os documentos na base" — pode gerar respostas conflitantes.
Notas (recurso diferente de Knowledge) injetam texto fixo em toda conversa — úteis para contexto que muda com frequência (ex.: "Hoje tem manutenção das 14h às 16h").
Use para:
Para garantir que seu RAG está funcionando bem, acompanhe:
| Métrica | O que mede | Como medir | Meta |
|---|---|---|---|
| Precisão@K | Dos top-K chunks, quantos são relevantes? | Avaliação humana amostral | > 80% no top-5 |
| Recall@K | Dos chunks realmente relevantes, quantos apareceram no top-K? | Avaliação humana | > 85% |
| Fidelidade | A resposta do modelo é fiel aos chunks? Não alucinou? | Comparação manual | > 95% |
| Cobertura | A resposta aborda todos os aspectos da pergunta? | Avaliação humana | > 85% |
| Latência | Tempo total (retrieval + reranking + geração) | Métrica automática | < 5s para consultas simples |
| Taxa de "não sei" | % de perguntas em que o agente admite não saber | Métrica automática | Saudável: 5-15% (muito baixa = alucinando; muito alta = base pobre) |
| Satisfação do usuário | Feedback 👍/👎 | Agregado | > 80% 👍 |
| Cobertura de citações | % de respostas com citação | Métrica automática | > 90% |
| Sintoma | Causa provável | Solução |
|---|---|---|
| Agente diz "não encontrei" em pergunta óbvia | Documento não está na base, ou chunking ruim | Verifique se arquivo foi processado; reprocesse; verifique se o agente tem a coleção vinculada |
| Responde com informação desatualizada | Versão antiga do documento ainda está na base | Remova versão antiga, suba a nova |
| Responde mas não cita fontes | Prompt do sistema não exige citação | Adicione obrigação de citar ao prompt |
| Cita fonte errada | Documentos muito similares; chunking confuso | Melhore nomenclatura; remova duplicatas |
| Respostas muito curtas | max_tokens baixo; chunks pequenos demais |
Ajuste parâmetros do agente |
| Respostas ignoram parte da pergunta | Top-K baixo; pergunta complexa | Aumente top-K; ou quebre a pergunta em partes |
| Latência alta | Base muito grande; reranking em todos os chunks | Segmente em coleções menores; reduza top-K |
| Agente "inventa" dados numéricos | Tabelas foram mal extraídas | Verifique extração; considere upload de CSV em vez de PDF |
| Respostas diferentes para mesma pergunta | Temperature alta; chunks variam em empate | Reduza temperature; fixe seed se disponível |
| Função de busca não é chamada | Function calling desabilitado; modelo não suporta | Verifique configuração; troque modelo |
| Busca em idioma errado | Modelo de embedding bilíngue mas com viés | Use text-embedding-3-large (multilíngue forte) |
Nem toda "não sei" é falha. É saudável o agente admitir não saber quando:
Agente que nunca diz "não sei" = agente que aluciona quando não sabe. Esse é um sintoma pior.
Uma dúvida comum: "devo usar RAG ou fine-tunar o modelo com nossos dados?"
| Aspecto | RAG | Fine-tuning |
|---|---|---|
| Atualização | Instantânea (atualiza a base) | Requer retreino |
| Custo | Baixo | Alto (GPU, dados, tempo) |
| Rastreabilidade | Alta (cita fontes) | Baixa (conhecimento "embutido") |
| Flexibilidade | Alta (múltiplas bases) | Baixa (modelo fixo) |
| Melhor para | Dados dinâmicos, fatos, documentos | Estilo, tom, padrão de resposta |
| Risco de alucinação | Menor (grounding) | Maior (sem fontes) |
| Escala de dados | Milhares de documentos | Exige conjunto cuidadosamente curado |
| Na Cortex | ✅ Pilar central | ✅ Via agentes com prompt/skills |
Recomendação prática:
Algumas coleções com ROI observado alto:
| Coleção | Impacto |
|---|---|
| FAQ de produto | Atendimento N1 automatizado, deflection de tickets |
| Políticas de RH e TI | Colaboradores tiram dúvidas sem abrir chamado |
| Manuais técnicos | Engenharia consulta manuais sem folhear |
| Contratos-modelo e cláusulas padrão | Pré-análise jurídica 10x mais rápida |
| Playbooks de incidente | Resposta a incidentes padronizada |
| Dicionário de dados | Agente "Text-to-SQL" confiável |
| Histórico de decisões (ADRs) | Preserva memória arquitetural |
| Manual de tom da marca | Redação consistente |
| Base de jurisprudência interna | Consultas jurídicas mais fundamentadas |
| Playbook de vendas e objeções | Equipe comercial preparada |
| Base de conformidade (ISO, LGPD) | Respostas de auditoria aceleradas |
💬 Precisa de ajuda para desenhar sua base de conhecimento? A SinapseTech oferece consultoria de curadoria — análise dos seus documentos, estruturação de coleções, desenho de agentes com RAG. Fale com a equipe via Atendimento e Suporte.