Von Grossi

Posted on Feb 15 • Originally published at Medium

Fazendo um LLM do Zero #01: A Mágica é Apenas Estatística (Bem Feita) 🎩📊

#llms #python #genai #gpt

Você se lembra da primeira vez que usou o ChatGPT?

Para mim, houve um momento de estranhamento. Eu digitava uma pergunta complexa, e a resposta surgia na tela, palavra por palavra, como se houvesse um humano do outro lado digitando em tempo real. Parecia haver raciocínio, intenção, talvez até… consciência?

É fácil se deixar levar pela ilusão da “Inteligência”.

Mas, como engenheiros (ou aspirantes a), nosso trabalho não é admirar a mágica. É descobrir onde está o alçapão, os espelhos e os fios invisíveis.

Nessa parte da nossa série Fazendo um LLM do Zero, nós puxamos a cortina. E a verdade é, ao mesmo tempo, decepcionante para os sonhadores e fascinante para os construtores:

O modelo não sabe o que está dizendo. Ele está apenas chutando a próxima palavra.

Bem-vindo ao mundo da Previsão do Próximo Token.

🔮 A Bola de Cristal Probabilística

Para entender um Large Language Model (LLM), você precisa esquecer a ideia de “cérebro digital” por um minuto e olhar para o seu celular.

Abra o WhatsApp. Digite “Bom”.

O seu teclado provavelmente vai sugerir “dia”, “trabalho” ou “fim”.

O seu teclado entende o conceito de saudação matinal? Não.

Ele sabe que você está feliz ou cansado? Não.

Ele apenas calculou uma probabilidade condicional: “Dado que o usuário digitou ‘Bom’, existe 80% de chance da próxima palavra ser ‘dia’”.

Um LLM, no fundo, é um autocompletar que tomou esteroides. 💊

A diferença é a escala. Enquanto o teclado do seu celular olha para as últimas 2 ou 3 palavras, um modelo como o GPT-4 olha para milhares de palavras de contexto (livros, artigos, código, conversas) para calcular qual é o próximo pedacinho de texto (token) que faz mais sentido estatístico.

O fluxo simples de Texto -> Modelo -> Probabilidade

Quando o modelo escreve um poema ou um código em Python, ele não planejou o resultado final. Ele está navegando no escuro, acendendo uma luz (token) de cada vez, baseando-se apenas no caminho que já percorreu.

🏗️ A Revolução Transformer: Paramos de Ler como Humanos

Se a ideia é apenas “prever a próxima palavra”, por que não tínhamos IAs assim nos anos 90?

O problema era a memória.

Antigamente, as Redes Neurais Recorrentes (RNNs) liam texto como nós, humanos cansados: uma palavra de cada vez, da esquerda para a direita.

“O”… (ok, guardei)
“gato”… (ok, é um animal)
“subiu”… (ação)
…
“telhado”.

Quando a frase era longa, a rede já tinha “esquecido” o começo. Ela perdia o contexto.

Join Medium for free to get updates from this writer.

A grande virada de chave — e o motivo pelo qual estamos vivendo esse hype hoje — foi a introdução da arquitetura Transformer (apresentada pelo

Google no paper “Attention Is All You Need” em 2017).

O Transformer não lê como a gente. Ele olha para a frase inteira de uma vez só. Ele processa tudo em paralelo. É como se, em vez de ler um livro página por página, ele tirasse uma foto de todas as páginas ao mesmo tempo e entendesse as conexões entre o capítulo 1 e o capítulo 10 instantaneamente.

Isso permitiu treinar modelos com quantidades absurdas de dados. E, com dados suficientes, a estatística começou a parecer inteligência.

🧩 O GPT é um “Decoder-Only”

Existem muitos tipos de Transformers, mas nós vamos focar na arquitetura GPT (Generative Pre-trained Transformer).

O GPT é o que chamamos de modelo Decoder-Only.

Imagine um tradutor.

1. Ele ouve a frase em inglês (Encoder).

2. Ele gera a frase em português (Decoder).

O GPT ignorou a primeira parte. Ele é especialista apenas na segunda: gerar. Ele é treinado para olhar para o passado e alucinar o futuro, token por token. É por isso que ele é tão bom em criar histórias e conversar, mas às vezes falha em tarefas que exigem “ver o todo” antes de responder.

🛠️ Mão na Massa: O Que Fizemos no Código?

Chega de teoria. No notebook desta sessão, não usamos bibliotecas prontas de “caixa preta” como langchain ou openai. Nós descemos para o nível do PyTorch.

Neste Passo 01, você vai encontrar:

1. A intuição visual: Gráficos que explicam como o texto entra e sai do modelo.

2. O conceito de Contexto: Como o tamanho da “janela” que o modelo enxerga define o quão “inteligente” ele parece.

3. A estrutura do projeto: Como organizar pastas e arquivos para não se perder quando o código crescer.

🚀 Por que isso importa?

Quando você entende que o LLM é uma máquina de probabilidade e não um ser consciente, você se torna um usuário (e desenvolvedor) muito melhor.

Você para de tentar “convencer” o chat e começa a “engenheirar” o prompt. Você entende por que ele alucina (afinal, ele só quer completar o padrão, mesmo que precise inventar um fato).

A mágica desaparece, mas dá lugar a algo muito mais poderoso: o controle.

Pronto para ver como transformar texto em números e começar a calcular essas probabilidades? Esse é o tema da próxima sessão.

👇 Acesse o material completo e execute o código agora:

📓 Notebook no Google Colab:Clique aqui para rodar

📂 Repositório no GitHub:vongrossi/fazendo-um-llm-do-zero

Vamos adiante, onde vamos aprender a matemática necessaria para o nosso modelo. Até lá! 👋