DEV Community

Cover image for Memória Sob Demanda: Como o Engram Está Mudando a Forma como LLMs Pensam
Marcos Filipe
Marcos Filipe

Posted on

Memória Sob Demanda: Como o Engram Está Mudando a Forma como LLMs Pensam

Você já parou para pensar que os Transformers, a arquitetura por trás de modelos como ChatGPT, Claude e DeepSeek, são ótimos em raciocínio, mas... péssimos em memória?

É isso que um novo paper da Peking University e DeepSeek-AI propõe resolver. Tentei trazer aqui os principais insights, que acredito serem um grande passo para a próxima geração de modelos de linguagem.

🔍 O Problema: Transformers Não Sabem "Lembrar"

Um Transformer não tem um mecanismo nativo para recuperar conhecimento. Toda vez que ele precisa de uma informação como "Diana, Princesa de Gales", ele gasta várias camadas computacionais para reconstruir essa informação a partir do contexto.

É como se, em vez de consultar uma enciclopédia, ele tentasse redescobrir a história inteira a cada pergunta.

No paper, os autores mostram que, em um modelo tradicional, são necessárias cerca de 6 camadas para formar uma representação completa dessa entidade. Isso é ineficiente: o modelo está usando raciocínio profundo para fazer algo que poderia ser resolvido com uma simples consulta a uma tabela de memória.

💡 A Solução: Engram (Memória Condicional)

O Engram introduz um novo tipo de "órgão" no modelo: um módulo de memória estática que funciona como um banco de dados de padrões linguísticos.

Como funciona na prática:

O modelo identifica um padrão local (ex: "Princesa de Gales")

Ele usa esse padrão como chave para buscar um vetor de memória pré-armazenado (via hashing)

Esse vetor é injetado diretamente nas camadas profundas do modelo

O resultado? O modelo não precisa mais gastar camadas iniciais reconstruindo informação. Ele já começa com um "atalho" para o conhecimento.

📊 O Resultado na Prática

Os pesquisadores treinaram um modelo chamado Engram-27B e compararam com um modelo tradicional de mesmo tamanho e mesmo custo computacional (MoE-27B). Os resultados:

Benchmark Domínio Ganho
MMLU Conhecimento geral +3,4%
BBH Raciocínio complexo +5,0%
HumanEval Geração de código +3,0%
MATH Matemática +2,4%

O mais interessante? O Engram melhorou até tarefas de raciocínio, não só de memorização.

Isso acontece porque, ao liberar as primeiras camadas do trabalho de reconstrução, o modelo pode usá-las para "pensar" mais profundamente. Os autores chamam isso de "aumento da profundidade efetiva" da rede.

🧠 Por Que Isso É uma "Nova Dimensão de Esparsidade"?

Até agora, a principal forma de escalar modelos sem aumentar custo computacional era o MoE (Mixture of Experts), que ativa apenas alguns "especialistas" por vez.

O Engram introduz uma segunda dimensão:

Abordagem Função Como funciona
MoE Processa lógica dinâmica Ativa especialistas (cálculo)
Engram Recupera conhecimento Ativa memórias (busca O(1))

Juntos, formam uma dupla poderosa. E o melhor: o Engram é tão eficiente que pode armazenar 100 bilhões de parâmetros na memória RAM do computador sem prejudicar a velocidade — algo impossível com MoE puro.

🔧 Detalhes Técnicos

Se você quer entender melhor a arquitetura:

  • Compressão do tokenizer: Redução de 23% no vocabulário via normalização (NFKC, lowercasing)
  • Multi-head hashing: 8 cabeças de hash para cada ordem de N-gram (2 e 3)
  • Gating contextual: O estado oculto atual decide quanto da memória recuperada deve ser integrada
  • Posicionamento estratégico: Inserido nas camadas 2 e 15 para equilibrar intervenção precoce com riqueza contextual

O código está disponível no GitHub:

👉 https://github.com/deepseek-ai/Engram

🧭 Conclusão

O Engram mostra que, assim como o cérebro humano, os modelos de IA podem se beneficiar de mecanismos especializados. Ter um sistema separado para memória de longo prazo e outro para raciocínio dinâmico não só torna os modelos mais eficientes, como libera capacidade computacional para o que realmente importa: pensar com profundidade.

Essa pode ser uma das direções mais importantes para os LLMs do futuro: modelos que sabem quando pensar e quando lembrar.

📚 Fonte e Créditos

Paper original: "Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models"
Autores: Xin Cheng, Wangding Zeng, Damai Dai, et al. (Peking University & DeepSeek-AI)

Usei ferramentas de IA para me auxiliar na consolidação e organização das ideias.

Top comments (0)