⏱️ Leitura: 20 minutos · 🎯 Público: CIO, CFO, gestores financeiros, arquitetos, donos de agentes, equipes de controle de custos.
Adotar IA sem FinOps é garantia de surpresa no orçamento. Um agente mal configurado pode consumir 10x mais do que o necessário. Um usuário entusiasta pode esgotar o budget mensal em dias. Um modelo premium chamado para tarefas simples torna o custo por interação proibitivo.
FinOps para IA é a disciplina que traz controle, visibilidade e otimização contínua ao consumo de IA. A Cortex foi desenhada com FinOps nativo — não é plugin, é parte da plataforma.
FinOps (Financial Operations) é uma prática que une engenharia, finanças e negócio para tomar decisões informadas sobre uso de recursos de cloud e IA.
A FinOps Foundation define 6 princípios:
Aplicado à IA corporativa, FinOps é sobre:
Antes de otimizar, é crítico entender como o custo é formado.
LLMs cobram por tokens — unidades de texto processadas. Em português:
| Tipo | O que é | Ordem de grandeza |
|---|---|---|
| Input tokens | Prompt do sistema + histórico + mensagem atual + RAG + ferramentas injetadas | Tipicamente 500 - 20.000 tokens por requisição |
| Output tokens | Resposta gerada pelo modelo | Tipicamente 100 - 2.000 tokens |
| Reasoning tokens | Tokens internos de "pensamento" (modelos com thinking) | 0 - vários milhares; cobrados como output |
| Cached tokens | Tokens servidos de cache (prompt repetido) | Geralmente 50-90% mais baratos |
| Embedding tokens | Usados em RAG para vetorizar | Pago só uma vez por chunk |
Valores aproximados por 1 milhão de tokens (pode variar):
| Categoria | Exemplos | Input | Output |
|---|---|---|---|
| Ultra econômico | gpt-5-nano, claude-haiku, gemini-flash | US$ 0.05 - 0.30 | US$ 0.25 - 1.50 |
| Econômico | gpt-5-mini, claude-haiku-4-5 | US$ 0.50 - 1.50 | US$ 2.00 - 6.00 |
| Médio | gpt-5, claude-sonnet, gemini-pro | US$ 3.00 - 10.00 | US$ 15.00 - 40.00 |
| Premium | gpt-5.4, claude-opus, o3 | US$ 15.00 - 75.00 | US$ 60.00 - 300.00 |
⚠️ Preços mudam rapidamente. O catálogo vivo com preços atualizados está em Modelos Disponíveis.
Cenário: agente "Revisor de Contratos", 100 revisões/mês.
| Componente | Tokens médios | Valor |
|---|---|---|
| Prompt do sistema | 600 | × 100 = 60.000 |
| RAG (chunks injetados) | 2.000 | × 100 = 200.000 |
| PDF do contrato (extraído) | 6.000 | × 100 = 600.000 |
| Histórico da conversa | 500 | × 100 = 50.000 |
| Total input/mês | 9.100 | 910.000 tokens |
| Resposta gerada | 1.500 | × 100 = 150.000 tokens |
Com claude-sonnet-4-6 (≈ US$ 3/M input, US$ 15/M output):
Se usássemos claude-opus-4-7 (10x mais caro):
Para um caso onde sonnet é suficiente, usar opus é jogar 90% do orçamento fora.
| Multiplicador | Impacto |
|---|---|
| Base de conhecimento grande injetada integralmente | 5-20x o custo |
| Histórico de conversa longo | 2-5x |
| Reasoning tokens (modelos thinking) | 1.5-3x |
| Retry automático por erro | 1.5-2x |
| Falha silenciosa (loop) | pode ser 10x+ |
| Prompt ineficiente (texto desnecessário) | 1.2-1.5x |
| Regeneração pelo usuário | 1.5-2x |
Economia não é corte — é consciência.
FinOps maduro opera em ciclos contínuos. Cada caso de uso passa pelas fases:
┌─────────────────────────────────────────────────────────┐
│ │
│ 1️⃣ INFORM ─────→ 2️⃣ OPTIMIZE │
│ (medir, entender) (melhorar continuamente) │
│ │
│ ▲ │ │
│ │ ▼ │
│ │
│ 3️⃣ OPERATE ←───── │ │
│ (orçar, prever, │ │
│ governar) │ │
│ │ │
└─────────────────────────────────────────────────────────┘
Objetivo: ver o que está acontecendo.
Entregas:
Mantra: "você não controla o que não mede".
Objetivo: reduzir desperdício sem perder valor.
Entregas:
Mantra: "use o menor modelo capaz de fazer o trabalho com qualidade".
Objetivo: governar o consumo de forma sustentável.
Entregas:
Mantra: "autonomia com responsabilidade".
A estratégia de maior impacto. Nem toda tarefa precisa do modelo mais poderoso.
| Tipo de tarefa | Modelo recomendado | Ordem de custo |
|---|---|---|
| FAQ, classificação, triagem | gpt-5-nano, claude-haiku-4-5 | 💲 |
| Redação curta, e-mails, resumos | gpt-5-mini, claude-haiku-4-5 | 💲💲 |
| Análise técnica, coding, docs médios | gpt-5, claude-sonnet-4-6, gemini-pro | 💲💲💲 |
| Raciocínio profundo, agentes, docs longos | gpt-5.4, claude-opus-4-7, o3, grok-4.20-reasoning | 💲💲💲💲 |
| Pesquisa web com citação | perplexity/sonar-pro | 💲💲 |
| Geração de imagem | gpt-image-1.5 | Por imagem |
| Transcrição de voz | whisper-1 | Por minuto |
Regra de ouro: Use o menor modelo capaz de entregar qualidade aceitável. Se uma pergunta é respondida igualmente bem por mini e por flagship, use mini.
O cortex_model_orchestrator faz esse roteamento automaticamente: analisa cada pergunta e seleciona o modelo ideal considerando custo × qualidade × capacidade necessária.
Para organizações que não querem decidir modelo por agente, o orquestrador é o caminho padrão recomendado.
Perguntas iguais ou muito similares são servidas do cache sem chamar o modelo novamente.
Onde mais rende:
Economia típica:
Configuração: TTL (tempo de vida) por tipo de conteúdo. FAQ pode ter TTL longo (dias); pesquisas podem ter TTL curto (horas); conteúdo regulatório pode não ser cacheado.
RAG é um dos maiores drivers de custo. Como enxugar:
| Técnica | Impacto |
|---|---|
| Chunks menores (300-500 tokens) vs gigantes (2000+) | -40% a -60% input |
| Top-K reduzido (5-7 em vez de 15-20) | -50% a -70% input |
| Reranking rigoroso antes de injetar | -30% a -50% |
| Contexto focado (não "contexto completo") | -60% a -90% |
| Filtros de metadados (área, data) antes de buscar | -20% a -40% |
| Summarização dos chunks antes de injetar | -50% |
| Coleções separadas por tema | -30% |
👉 RAG — boas práticas em detalhe
Limites de max_tokens bem dimensionados:
| Tipo de resposta | max_tokens típico |
|---|---|
| Classificação (uma label) | 50 |
| Resposta curta | 300 |
| Resumo executivo | 500-800 |
| Análise detalhada | 1.500-3.000 |
| Relatório extenso | 4.000-8.000 |
Prompt também ajuda: peça explicitamente tamanho ("máximo 150 palavras") — o modelo respeita.
Function calling nativo aumenta o consumo (reasoning tokens + múltiplas idas e vindas). Só use quando:
Para casos simples, o modo padrão da Cortex é mais econômico.
Processar 100 itens em batch é mais barato que 100 chamadas individuais. A Cortex suporta batch via API para tarefas assíncronas (classificação em massa, embeddings, etc.).
Alguns provedores oferecem descontos fora do horário de pico. Para workloads não-urgentes (relatórios matinais, reprocessamento), aproveite.
Usuários ou agentes que consomem 10x a média merecem investigação. Geralmente indicam:
Prompts e skills bem feitos são ativos. Crie uma biblioteca organizacional. Evite que cada pessoa reinvente a roda (e o custo).
A Cortex oferece dashboards nativos de FinOps em múltiplas dimensões:
Dados podem ser exportados para:
Cada requisição gera registro com:
cost_usd e cost_brlmodel_usedtokens_input / tokens_output / tokens_cachedagent_id, user_id, groupcost_center (quando configurado)project_id (quando configurado)Permite slice and dice em qualquer dimensão posteriormente.
| Nível | Uso típico |
|---|---|
| Organização | Teto total aprovado no orçamento anual |
| Departamento | Cada área tem sua cota |
| Projeto | Iniciativas com escopo e prazo têm budget próprio |
| Agente | Agentes críticos têm budget dedicado |
| Usuário | Para perfis com risco de abuso (usuários externos, trials) |
Orçamentos podem ser soft (alertam) ou hard (bloqueiam ao exceder).
Configurados em limiares:
| % do orçamento atingido | Ação típica |
|---|---|
| 50% | E-mail informativo ao gestor |
| 75% | E-mail + Slack/Teams ao gestor e CoE |
| 90% | Alerta urgente; cabe revisão |
| 100% | Conforme política: bloqueia ou só alerta |
| 120% | Escalação ao comitê de IA |
Canais de alerta:
Showback — mostra para cada área quanto gastou (sem cobrança efetiva).
Chargeback — rateia efetivamente os custos para centros de custo no ERP.
Configuração típica:
cost_center e project_idOs mais comuns:
| Modelo | Como funciona | Quando usar |
|---|---|---|
| Proporcional | Cada área paga % do total baseado no uso | Padrão, mais justo |
| Igual | Rateio igual entre áreas | Quando uso é uniforme |
| Base + excedente | Todos pagam uma base; excedente proporcional | Plataformas compartilhadas |
| Cross-charge | Cada área paga integral por seu consumo | Máxima accountability |
| Cost center fixo | Centro dedicado de IA paga tudo | Fase inicial, sem chargeback |
Checklist prático quando identificar consumo alto:
Investigar:
Ações típicas:
Investigar:
Ações típicas:
Investigar:
Ações típicas:
Investigar:
Ações típicas:
Sinais:
Ações técnicas:
| Métrica | O que mede | Meta |
|---|---|---|
| Custo por interação | Custo médio de uma conversa completa | Reduzir 10-20% ao trimestre |
| Tokens por resposta | Entrada + saída média | Tendência de queda |
| Cache hit rate | % de respostas servidas do cache | >30% em FAQ |
| % de interações em modelo econômico | Uso de modelos baratos | >60% em uso geral |
| % de interações com contexto completo | Uso de full context | <15% |
| Métrica | O que mede |
|---|---|
| Custo por resultado útil | R$ por ticket resolvido, por contrato revisado, por lead qualificado, etc. |
| ROI do caso | Economia/receita gerada / custo da IA |
| Aderência a budget | % de consumo dentro do planejado |
| Custo per capita | Por usuário ativo |
| Custo per case | Por caso de uso ativo |
| Métrica | O que mede |
|---|---|
| Evolução de custo com crescimento de uso | Está escalando linearmente ou sublinearmente? |
| Custo por valor entregue | Deve cair com maturidade |
| Receita gerada por R$ de IA | Em casos de receita direta |
Estimativas aproximadas para dimensionamento inicial (preços podem variar):
| Cenário | Volume | Modelo típico | Custo estimado/mês |
|---|---|---|---|
| Chatbot de FAQ interno (50 usuários) | ~15k conversas | claude-haiku-4-5 / gpt-5-nano | US$ 30-80 |
| Suporte N1 externo (alto volume) | ~50k conversas | gpt-5-mini / claude-haiku | US$ 150-400 |
| Revisão de contratos (20 advogados) | ~400 contratos | claude-sonnet-4-6 | US$ 200-500 |
| Análise jurídica aprofundada | ~50 casos | claude-opus-4-7 | US$ 300-800 |
| DevSecOps / Code Review (50 devs) | ~2k PRs | gpt-5.3-codex | US$ 250-600 |
| Agente analista de dados (20 analistas) | ~3k análises | gpt-5 | US$ 400-1.000 |
| Pesquisa e síntese regulatória | ~1k pesquisas | perplexity/sonar-pro | US$ 100-300 |
| Atendimento comercial (30 executivos) | ~10k interações | claude-sonnet-4-6 | US$ 200-500 |
| SOC triagem de eventos | ~10k eventos | gpt-5 | US$ 500-1.500 |
| Geração de conteúdo marketing | ~500 peças | claude-sonnet-4-6 + gpt-image | US$ 150-400 |
⚠️ São estimativas. Custos reais variam com tamanho de contexto, RAG, retries, eficiência do prompt. Use como ponto de partida para dimensionamento; refine com dados reais do piloto.
FinOps não é só tecnologia — é cultura organizacional:
💬 Precisa de apoio para estruturar FinOps de IA na sua organização? A SinapseTech oferece consultoria FinOps dedicada — setup de dashboards, configuração de chargeback, workshops de otimização, revisão de agentes. Fale com a equipe via Atendimento e Suporte.