O que você faz quando está fazendo uma prova e não sabe a resposta?
Você chuta uma alternativa, certo? As LLMs também!
Foi essa analogia que esse paper recente da OpenAI fez para explicar as alucinações e eu achei genial.
As avaliações de uma resposta nas LLMs são binárias, dando 1 ponto para a resposta correta e 0 para a incorreta ou em branco (no caso, seria afirmar que não sabe). Isso acaba incentivando o "chute", visto que afirmar que não sabe é uma certeza de que o resultado da avaliação vai ser 0. O artigo chama isso de epidemia de penalização da incerteza.
Recomendo a leitura pra quem se interessa no tema: https://lnkd.in/dJbTcKmx.
Top comments (0)