Airton Lira junior

Posted on Nov 2, 2024

Criando um LLM do zero com Transformers

#llm #transformers #chatgpt #nlp

Introdução 🌟

Os Modelos de Linguagem de Grande Escala (LLMs) como GPT revolucionaram a interação humano-máquina. Neste guia completo, vamos aprender como construir um LLM do zero usando a arquitetura Transformer!

Encode e Decode: A Base dos LLMs 🔄

Antes de mergulhar no código, vamos entender os conceitos fundamentais. Similar aos encodings de texto (UTF-8, ANSI), os LLMs usam encode/decode para processar texto eficientemente.

Vejamos um exemplo simples:

# Dicionário para mapear palavras para índices
word_to_index = {
    'Olá': 1,
    'mundo': 2,
    'como': 3,
    'você': 4,
    'está': 5
}

def encode(text):
    return [word_to_index[word] for word in text.split() if word in word_to_index]

# Dicionário inverso
index_to_word = {index: word for word, index in word_to_index.items()}

def decode(indices):
    return ' '.join(index_to_word[index] for index in indices if index in index_to_word)

# Exemplo
text = "Olá mundo como você está"
encoded_text = encode(text)
decoded_text = decode(encoded_text)

Word Embeddings: O Coração do NLP 🧠

O que são Word Embeddings?

É uma técnica que converte palavras em vetores numéricos densos, capturando relações semânticas entre palavras. Principais características:

Representação Densa 📊
- Vetores densos vs. one-hot encoding
- Menor dimensionalidade
- Maior eficiência
Captura de Contexto 🎯
- Relações semânticas
- Relações sintáticas
- Proximidade vetorial significativa

Tipos de Embeddings 🔍

Word2Vec
- Desenvolvido pelo Google
- CBOW e Skip-gram
GloVe
- Stanford
- Estatísticas globais de co-ocorrência
FastText
- Facebook
- Suporte a subunidades de palavras

Construindo Nosso LLM: Passo a Passo 👨‍💻

1. Instalação das Dependências

pip install torch torchvision transformers datasets

2. Preparação dos Dados 📝

from datasets import load_dataset

# Carregando o dataset
dataset = load_dataset("wikitext", "wikitext-103-v1")
train_data = dataset['train']['text']

# Tokenização
from transformers import GPT2Tokenizer

tokenizer = GPT2Tokenizer.from_pretrained('gpt2')
train_encodings = tokenizer(
    train_data, 
    return_tensors='pt', 
    max_length=512, 
    truncation=True, 
    padding="max_length"
)

3. Construindo o Modelo 🏗️

from transformers import GPT2Config, GPT2LMHeadModel

config = GPT2Config(
    vocab_size=tokenizer.vocab_size,
    n_positions=512,
    n_ctx=512,
    n_embd=768,
    n_layer=12,
    n_head=12
)
model = GPT2LMHeadModel(config)

4. Treinamento 🎯

from torch.optim import AdamW
from torch.utils.data import DataLoader

optimizer = AdamW(model.parameters(), lr=5e-5)
train_loader = DataLoader(train_encodings, batch_size=8, shuffle=True)

model.train()
for epoch in range(5):
    for batch in train_loader:
        inputs, labels = batch['input_ids'], batch['input_ids']
        outputs = model(inputs, labels=labels)
        loss = outputs.loss
        loss.backward()
        optimizer.step()
        optimizer.zero_grad()
    print(f"Epoch {epoch}: Loss {loss.item()}")

5. Salvando e Usando o Modelo 💾

# Salvando
model.save_pretrained('./meuModeloGPT2')

# Usando
from transformers import pipeline

generator = pipeline('text-generation', model='./meuModeloGPT2', tokenizer='gpt2')

# Testando
prompt = "Qual é o significado da vida, do universo e tudo mais?"
response = generator(prompt, max_length=50, num_return_sequences=1)
print(response[0]['generated_text'])

Dicas e Boas Práticas 💡

Preparação de Dados
- Limpe e pré-processe seus dados
- Use tokenização apropriada
- Considere o tamanho do vocabulário
Treinamento
- Monitore a loss
- Use validation set
- Ajuste hiperparâmetros conforme necessário
Otimização
- Use GPU quando possível
- Implemente gradient clipping
- Considere técnicas de regularização

Recursos Úteis 📚

Conclusão 🎉

Construir um LLM do zero é um processo complexo mas gratificante. Este guia fornece os fundamentos necessários para começar sua jornada no desenvolvimento de modelos de linguagem.

Gostou do conteúdo? Me siga no LinkedIn para mais tutoriais sobre IA, LLMs e desenvolvimento! 🤝

nlp #machinelearning #python #llm #transformers #ia #deeplearning

DEV Community