📅 Última atualização: Fevereiro de 2026
O RAG (Retrieval-Augmented Generation) é uma das técnicas mais importantes da IA corporativa moderna. Ele permite que modelos de linguagem (LLMs) consultem bases de conhecimento atualizadas antes de gerar respostas, eliminando alucinações e garantindo que as respostas sejam fundamentadas em dados reais da organização.
A Cortex utiliza RAG como pilar central para entregar respostas contextualizadas, precisas e rastreáveis.
RAG é uma arquitetura que combina dois processos:
Pergunta do Usuário
↓
[Busca Semântica] → Base de Conhecimento (documentos, políticas, FAQs, etc.)
↓
Contexto Recuperado + Pergunta Original
↓
[LLM]
↓
Resposta Fundamentada (com fontes)
Sem RAG: O LLM responde apenas com o que aprendeu no treinamento — pode estar desatualizado ou inventar informações.
Com RAG: O LLM responde com base em dados reais e atualizados da sua organização.
| Desafio sem RAG | Solução com RAG |
|---|---|
| Respostas genéricas e descontextualizadas | Respostas baseadas em documentos internos da empresa |
| Alucinações (informações inventadas) | Respostas fundamentadas com fontes rastreáveis |
| Conhecimento desatualizado do modelo | Acesso a dados atualizados em tempo real |
| Impossibilidade de usar dados proprietários | Base de conhecimento corporativa integrada |
| Falta de rastreabilidade | Citação de fontes e documentos de origem |
A Cortex permite importar documentos de diversas fontes:
Os chunks são armazenados em um banco de dados vetorial, permitindo busca semântica de alta performance:
Quando o usuário faz uma pergunta:
O LLM recebe:
E gera uma resposta fundamentada nos dados corporativos, com capacidade de citar as fontes utilizadas.
A forma como os documentos são divididos impacta diretamente a qualidade das respostas:
| Estratégia | Descrição | Quando usar |
|---|---|---|
| Chunking por tamanho fixo | Divide em blocos de N tokens | Documentos homogêneos (logs, dados tabulares) |
| Chunking por parágrafos/seções | Respeita a estrutura do documento | Políticas, manuais, contratos |
| Chunking semântico | Agrupa por similaridade de significado | Documentos longos e complexos |
| Chunking hierárquico | Mantém relação pai-filho entre chunks | Documentos com estrutura de tópicos |
Após a busca inicial, um modelo de reranking reordena os resultados para priorizar os mais relevantes:
Combina busca semântica (vetorial) com busca por palavras-chave (BM25):
Reformula a pergunta do usuário para melhorar a recuperação:
A Cortex implementa controles de segurança em todas as etapas do RAG:
| Camada | Controle de Segurança |
|---|---|
| Ingestão | Validação de formato, sanitização de conteúdo, verificação de malware |
| Armazenamento | Criptografia em repouso (AES-256), segregação por organização |
| Recuperação | Controle de acesso por perfil (RBAC), filtragem por permissões |
| Geração | Guardrails contra vazamento de dados, anti-prompt injection |
| Auditoria | Logs de acesso, rastreabilidade de fontes, relatórios de uso |
Princípios de segurança:
Para garantir que o RAG está funcionando bem, monitore estas métricas:
| Métrica | O que mede | Meta recomendada |
|---|---|---|
| Relevância dos chunks | Os trechos recuperados são relevantes para a pergunta? | > 80% dos chunks no top-5 |
| Fidelidade da resposta | A resposta é fiel aos dados recuperados (sem alucinação)? | > 95% de fidelidade |
| Cobertura | A resposta aborda todos os aspectos da pergunta? | > 85% de cobertura |
| Latência | Tempo total de recuperação + geração | < 5 segundos para consultas simples |
| Satisfação do usuário | Feedback direto dos usuários sobre a qualidade | > 4/5 em avaliações |
| Aspecto | RAG | Fine-Tuning |
|---|---|---|
| Atualização de dados | Em tempo real (basta atualizar a base) | Requer retreino do modelo |
| Custo | Menor (infraestrutura de busca) | Maior (GPU, tempo de treino) |
| Rastreabilidade | Alta (cita fontes) | Baixa (conhecimento "embutido") |
| Flexibilidade | Alta (múltiplas bases) | Baixa (modelo fixo) |
| Melhor para | Dados corporativos dinâmicos | Estilo, tom e comportamento do modelo |
| Na Cortex | ✅ Pilar central da plataforma | ✅ Usado para personalizar agentes |
Recomendação: Use RAG para dados e conhecimento, e fine-tuning para comportamento e estilo dos agentes.