⏱️ Leitura: 12 minutos · 🎯 Público: qualquer pessoa curiosa sobre como a Cortex "pensa". Sem pré-requisitos técnicos.
LLM (pronúncia em inglês: "elê-elê-emê") é a sigla para Large Language Model — em português, Modelo de Linguagem de Grande Escala. É a tecnologia por trás da maioria das IAs com as quais conversamos hoje: ChatGPT, Claude, Gemini, Grok — e de todos os modelos disponíveis na Cortex.
Esta página explica, de forma acessível, o que é um LLM, como ele funciona, o que ele faz bem, o que ele faz mal e o vocabulário mínimo que todo profissional que vai usar a Cortex precisa dominar.
Um LLM é um programa de computador que aprendeu a prever a próxima palavra em um texto — e, por ter feito isso milhões de vezes com quase todo o texto publicado na internet, aprendeu de quebra a conversar, escrever, resumir, traduzir, programar e raciocinar em linguagem natural.
Imagine um aluno que leu toda a internet:
Esse aluno não lembra o texto exato de cada coisa (como uma enciclopédia), mas aprendeu os padrões: como as palavras se combinam, quais ideias costumam aparecer juntas, qual é o jeito certo de escrever uma carta, um e-mail, um código Python, uma cláusula jurídica.
Quando você pergunta algo, o aluno usa esses padrões aprendidos para montar uma resposta. Ele escolhe uma palavra, depois a próxima, depois a próxima — sempre a mais provável dada tudo que leu.
Isso é um LLM.
O mecanismo central é um só: prever a próxima palavra.
Veja o exemplo:
Texto de entrada: "O gato subiu no"
LLM prevê: "telhado" (85%)
"carro" (8%)
"muro" (4%)
"sofá" (2%)
...
O LLM escolhe "telhado" (a mais provável) e continua:
Texto: "O gato subiu no telhado"
LLM prevê próxima palavra: "da" (42%)
"e" (28%)
...
E continua assim, palavra por palavra, até completar a resposta. Por mais simples que pareça, fazer isso muito bem requer um modelo gigantesco treinado em volumes colossais de dados. É aí que entram as duas escalas:
Os LLMs modernos têm bilhões de parâmetros (números internos ajustados durante o treinamento). Parâmetros são como "sinapses" no cérebro do modelo. Mais parâmetros = mais capacidade de capturar padrões sutis.
| Modelo | Parâmetros (estimado) |
|---|---|
| GPT-3 (2020) | 175 bilhões |
| GPT-4 (2023) | 1+ trilhão |
| Claude 3.5 Sonnet | Centenas de bilhões |
| Llama 3 70B | 70 bilhões |
Um LLM moderno é treinado em trilhões de palavras — várias vezes o volume de tudo que um ser humano poderia ler em toda a vida. Daí vem a sensação de que o modelo "sabe de tudo".
A maioria dos LLMs usa uma arquitetura chamada Transformer, introduzida em 2017 em um artigo chamado "Attention Is All You Need".
O grande truque do Transformer é o mecanismo de atenção: ao processar cada palavra, o modelo "olha" para todas as outras palavras do texto de entrada e decide a quais prestar mais atenção para produzir a próxima palavra.
Exemplo prático:
"O cliente João, que fez três pedidos semana passada,
ligou hoje reclamando porque _____."
Para preencher a lacuna, o modelo precisa prestar atenção em "cliente", "pedidos" e "reclamando" — palavras distantes da lacuna, mas críticas para o sentido. O Transformer faz isso naturalmente.
Esse mecanismo é o que permite a um LLM escrever um texto coerente de 10 páginas sem perder o fio — ele mantém atenção distribuída em todo o contexto da conversa.
Cinco termos que você vai encontrar toda hora. Entendê-los evita frustração ao usar a Cortex.
O LLM não "lê" palavras. Ele trabalha com tokens — unidades menores, algo entre letras e palavras. Em inglês, cada token costuma ser ~¾ de uma palavra. Em português, um pouco menos.
Exemplos:
"cortex" → 1 token"Inteligência Artificial" → 4 tokens (Int, elig, ência, Artificial)"João" → 2 tokens💡 Por que isso importa? Porque o custo e os limites da IA são calculados em tokens, não em palavras. Uma regra prática: 1.000 tokens ≈ 750 palavras em português.
É o quanto de texto o modelo consegue "lembrar" ao mesmo tempo em uma conversa — prompt do sistema + histórico + sua mensagem + RAG + a resposta dele.
| Modelo | Janela de contexto | Equivalente |
|---|---|---|
| GPT-3.5 | 4.000 tokens | ~6 páginas |
| GPT-4 | 128.000 tokens | ~200 páginas |
| Claude Sonnet 4.6 | 1.000.000 tokens | ~1.500 páginas |
| Grok 4.1 Fast | 2.000.000 tokens | ~3.000 páginas |
Quando a conversa fica muito longa, o modelo começa a "esquecer" o começo — porque precisa liberar espaço na janela. Por isso, em conversas muito longas, é comum resumir e começar uma nova sessão.
Parâmetro que controla o quão previsível vs criativo o modelo é ao escolher a próxima palavra.
Temperatura 0.0 → "Vou escolher SEMPRE a palavra mais provável."
Respostas determinísticas. Mesma pergunta = mesma resposta.
Temperatura 0.7 → "Vou introduzir um pouco de variação."
Respostas naturais, humanas.
Temperatura 1.5 → "Vou ser bem criativo e arriscar palavras menos óbvias."
Respostas variadas, criativas, às vezes estranhas.
Para tarefas factuais (jurídico, técnico, compliance): use temperatura baixa (0.1-0.3).
Para tarefas criativas (copy, brainstorming, roteiro): use temperatura alta (0.7-1.2).
Quando o LLM gera uma resposta que soa plausível mas é falsa — uma citação inventada, um artigo de lei que não existe, um número errado.
Acontece porque o modelo não "sabe" no sentido humano da palavra; ele apenas produz a sequência de palavras mais provável. Às vezes a sequência mais provável não é a verdade.
o3, gpt-5, claude-opus "pensam" mais antes de responder👉 RAG explica em profundidade.
A capacidade do modelo de chamar ferramentas externas durante a geração da resposta:
Quando um modelo tem function calling, ele deixa de ser só um "gerador de texto" e passa a ser um agente que age no mundo. É o que permite agentes da Cortex consultarem o CRM, abrirem ticket no ITSM ou pesquisarem web em tempo real.
A Cortex dá acesso a mais de 67 modelos de praticamente todas as famílias relevantes:
gpt-5-nano ao topo de linha gpt-5.4o3/o4-mini para raciocínio profundogpt-image-1.5 para geração de imagenswhisper-1 (voz → texto), tts-1 (texto → voz), embeddings👉 Veja o catálogo completo com classificação por família, tags e capacidades.
✅ Produção de texto — e-mails, relatórios, posts, documentos
✅ Sumarização — reuniões, documentos longos, notícias
✅ Tradução e reescrita — entre idiomas e entre tons
✅ Análise semântica — sentimento, classificação, extração
✅ Geração e revisão de código — em praticamente qualquer linguagem
✅ Explicação de conceitos — para qualquer nível de público
✅ Raciocínio estruturado — com modelos apropriados (o3, opus, gpt-5)
✅ Conversa natural — em português fluente, contextualizada
❌ Matemática precisa com muitos passos — melhor usar Code Interpreter (Python)
❌ Fatos atualizados sem busca — modelos têm "corte de treinamento"
❌ Contagem exata — mesmo perguntas como "quantas palavras tem este texto" podem falhar
❌ Números, datas e valores monetários sem verificação — tendem a alucinação
❌ Informações sobre sua empresa sem base de conhecimento — é aqui que RAG entra
❌ Raciocínio causal profundo — modelos são estatísticos, não "lógicos"
❌ Consciência / opinião genuína — por mais que pareça, o modelo não "acredita" em nada
💡 Regra de ouro: tudo que importa deve ser verificado. LLMs são excelentes para primeira versão, síntese, exploração — mas decisões críticas precisam de revisão humana.
Tecnicamente: ele "acha".
O modelo calcula a sequência de palavras mais provável dada tudo que viu durante o treinamento. Ele não tem crença, intenção ou verdade interna. Ele tem probabilidades.
Isso tem implicações importantes:
Por isso, em uso corporativo, a Cortex adiciona camadas que grounding a resposta: bases de conhecimento (RAG), citações obrigatórias, busca web, ferramentas especializadas.
| Tecnologia | Exemplo | Para quê serve |
|---|---|---|
| LLM | GPT, Claude, Gemini | Texto, conversa, código, raciocínio |
| Modelo de visão computacional | CLIP, YOLO | Reconhecer objetos, rostos, texto em imagens |
| Modelo de geração de imagem | DALL-E, Midjourney, Stable Diffusion | Criar imagens a partir de texto |
| Modelo de fala | Whisper (STT), TTS | Voz para texto e vice-versa |
| Modelo multimodal | GPT-4o, Gemini, Claude | Combinam texto, imagem, áudio |
| Modelo de embeddings | text-embedding-3 | Converter texto em vetores (para RAG) |
| Rerankers | rerank-v4.0-pro | Ordenar resultados de busca |
A Cortex disponibiliza modelos de todas essas categorias — não só LLMs puros.
Um LLM puro, usado diretamente, é um "generalista cru" — sabe muito sobre o mundo em geral, mas nada sobre a sua empresa em específico.
A Cortex transforma um LLM em um colaborador da sua empresa ao adicionar camadas:
┌──────────────────┐
│ LLM genérico │ ← sabe sobre o mundo
│ (GPT, Claude) │
└────────┬─────────┘
│
▼
┌──────────────────┐
│ + Prompt do │ ← define papel, tom, regras
│ sistema │
└────────┬─────────┘
│
▼
┌──────────────────┐
│ + Conhecimento │ ← seus documentos, políticas
│ corporativo │
└────────┬─────────┘
│
▼
┌──────────────────┐
│ + Ferramentas │ ← integração com sistemas
│ corporativas │
└────────┬─────────┘
│
▼
┌──────────────────┐
│ + Governança │ ← LGPD, auditoria, FinOps
│ e segurança │
└────────┬─────────┘
│
▼
┌──────────────────┐
│ 🤖 AGENTE DA │
│ SUA EMPRESA │
└──────────────────┘
É essa composição que separa uma IA genérica de uma IA corporativa útil e segura.
👉 Agentes Especializados — aprenda a criar os seus
LLMs aprendem padrões da internet — e a internet tem vieses. O modelo pode reproduzir preconceitos raciais, de gênero, socioeconômicos, culturais. Uso responsável requer vigilância.
👉 IA Responsável e Ética Aplicada
O modelo pode gerar textos falsos que parecem verdadeiros. É especialmente perigoso em:
Dados sensíveis colados em um LLM público podem:
A Cortex resolve isso com ambiente privativo, filtros de PII e políticas contratuais explícitas. 👉 Segurança e Privacidade
Treinar e rodar LLMs consome muita energia. Provedores investem em eficiência (modelos menores, MoE, cache, hardware especializado), mas o impacto ambiental é real. FinOps também é greenops: usar modelo econômico quando basta é bom para o orçamento e para o planeta.
LLMs não substituem profissionais. Eles amplificam profissionais.
Humano sem LLM : capacidade × 1
LLM sem humano : risco × ∞
Humano com LLM : capacidade × 3-10
O papel do humano continua sendo:
Próximas leituras recomendadas:
💬 Ainda tem dúvidas conceituais sobre LLMs? Experimente perguntar direto a um agente na Cortex (meta, eu sei). Ou peça apoio via Atendimento e Suporte. A SinapseTech também oferece programas de capacitação sobre IA corporativa para equipes.