DEV Community

Cover image for Você já ouviu falar do meme do monstro Shoggoth?
Lhayana Vieira
Lhayana Vieira

Posted on

Você já ouviu falar do meme do monstro Shoggoth?

Ele é usado na comunidade de IA para representar o que acontece durante o pré-treino dos grandes modelos de linguagem. O Shoggoth é um monstro cheio de tentáculos e diversos olhos (quem curte literatura de terror vai identificar de onde ele vem). Ele é usado como metáfora para o modelo "cru", treinado com uma quantidade absurda de dados da internet, sem nenhum filtro nem curadoria.

Um fato bem conhecido sobre LLMs é que eles são feito para completar texto, não para ter diálogos. Ou seja, ele não entende o que faz uma resposta parecer humana. Além disso, como o conjunto de dados vem de todos os cantos da internet, o modelo acaba herdando também os piores comportamentos que encontra por lá.

Visto que ninguém quer criar um modelo incel (eu espero), o pós-treino visa corrigir isso. No Supervised Finetuning (SFT), o modelo começa a aprender a conversar, passando por um processo supervisionado em que humanos altamente qualificados criam exemplos de conversas que servem como demonstração.

Após o SFT, é aplicado o Reinforcement Learning from Human Feedback (RLHF), visando alinhar o comportamento da IA com as preferências humanas, que é basicamente o processo que coloca o rostinho sorridente no monstro.

Porém, esse alinhamento às preferências humanas pode gerar alguns problemas. O primeiro é que não existe uma moral universal. O que é o correto quando o assunto é desarmamento, por exemplo? Outro problema é quando há um descompasso entre o conhecimento interno do modelo e o conhecimento dado pelo feedback humano. Nesse caso, o modelo pode acabar confirmando as visões do usuário mesmo que não sejam verdade ou inventando fatos para parecer prestativo.

No fim, a jornada de transformar esse monstrinho em um produto confiável é um desafio. Tenho estudado essas questões de arquitetura e segurança no livro AI Engineering, da Chip Huyen, estou gostando bastante!

Top comments (0)