Submódulo 1: Como a IA funciona em alto nível: modelos, dados e interação com o usuário
Peças centrais: dados, arquitetura, tokens, embeddings e inferência
🔧 De que é feita uma resposta?
Existem três camadas que explicam por que um modelo responde do jeito que responde: (a) dados de treino — textos usados para aprender padrões; (b) arquitetura — como a rede neural armazena esses padrões; e (c) ciclo de treino — etapas (pré‑treino com grandes dados + ajustes como RLHF) que moldam o comportamento. Entender isso ajuda você a avaliar quando a IA pode errar ou inventar respostas. (1)

Tokens são as pequenas unidades que o modelo usa para ler e escrever: pense neles como "pedaços de palavra". Saber contar tokens ajuda a controlar o tamanho do prompt e do resultado (economia e qualidade). Por exemplo, há uma regra prática: 1 token ≈ ¾ palavra em inglês; e cada modelo tem limites de contexto (input+output) que você precisa respeitar. (2)
Embeddings são outra peça: transformam frases e ideias em vetores numéricos que medem semelhança semântica — muito úteis para buscar documentos, organizar notas ou comparar ideias. Ao combinar embeddings com buscas, você obtém respostas mais contextualizadas a partir do seu próprio acervo de documentos. (3)
🧠 Curiosidade: o modelo gera token a token; em cada passo ele escolhe o token mais provável segundo seus números internos. Por isso a mesma pergunta pode gerar respostas diferentes em invocações distintas.
Resumo prático: para tarefas como resumir um relatório longo, podemos usar embeddings para selecionar os trechos mais relevantes, e um prompt bem estruturado para pedir um resumo conciso dentro do limite de tokens — assim otimizamos custo e fidelidade.