<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:dc="http://purl.org/dc/elements/1.1/">
  <channel>
    <title>DEV Community: Vinicius Fiedler</title>
    <description>The latest articles on DEV Community by Vinicius Fiedler (@vinifiedler).</description>
    <link>https://dev.to/vinifiedler</link>
    <image>
      <url>https://media2.dev.to/dynamic/image/width=90,height=90,fit=cover,gravity=auto,format=auto/https:%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Fuser%2Fprofile_image%2F872917%2F4d3f3ccc-7010-4057-a4da-e45b9d0a1909.jpg</url>
      <title>DEV Community: Vinicius Fiedler</title>
      <link>https://dev.to/vinifiedler</link>
    </image>
    <atom:link rel="self" type="application/rss+xml" href="https://dev.to/feed/vinifiedler"/>
    <language>en</language>
    <item>
      <title>Entendendo como o ChatGPT funciona: Tokenizadores</title>
      <dc:creator>Vinicius Fiedler</dc:creator>
      <pubDate>Sun, 07 Apr 2024 11:37:37 +0000</pubDate>
      <link>https://dev.to/vinifiedler/entendendo-como-o-chatgpt-funciona-tokenizadores-2ecf</link>
      <guid>https://dev.to/vinifiedler/entendendo-como-o-chatgpt-funciona-tokenizadores-2ecf</guid>
      <description>&lt;p&gt;O conceito geral de modelos de geração de texto-para-texto, para pessoas que não possuem conhecimento em exatas.&lt;/p&gt;

&lt;p&gt;Uma dúvida recorrente é a de como a geração de texto funciona, teria a máquina uma real “consciência” ou então são na verdade humanos respondendo no lugar das máquinas ou quem sabe um código com as respostas prontas, só esperando uma determinada frase?&lt;/p&gt;

&lt;p&gt;É fácil se perder na imaginação quando vemos ou utilizamos o ChatGPT, o Claude e tantos outros modelos grandes de linguagem (Large Language Models), mas a verdade sobre o funcionamento destes modelos é muito mais matemática e probabilidade do que se imagina. &lt;br&gt;
Contudo, sei que a maioria dos usuários não querem entender as minucias numéricas, mas sim ter um vislumbre de como este modelo funciona para então poder fazer um uso mais seguro e consciente das informações a eles alimentadas.&lt;/p&gt;

&lt;p&gt;Estes modelos funcionam todos de maneira similar, a um ponto que é possível definir um método de funcionamento genérico, que pode ser abstraindo para a maior parte dos modelos de geração de texto e até &lt;br&gt;
para alguns modelos de geração de imagens e som.&lt;/p&gt;

&lt;p&gt;Esta é uma série de textos que vai te levar a entender o como estes modelos verdadeiramente funcionam por baixo dos panos e vislumbrar o porquê eles funcionam tão bem em atividades como correção ortográfica e resumo de textos mas são tão ineficazes em operações matemáticas e problemas de lógica.&lt;/p&gt;

&lt;p&gt;As principais ferramentas do modelo são, o tokenizador, que possibilita que a máquina entenda o texto, os transformadores que geram o texto efetivamente. Já na parte de processamento há os textos que será utilizado pelo modelo, o treinamento que é onde efetivamente o modelo aprende e o modelo secundário, que é utilizado para verificar a coerência das respostas.&lt;/p&gt;

&lt;h2&gt;
  
  
  Tokenizador
&lt;/h2&gt;

&lt;p&gt;Um nome assustador, para algo que não é tão assustador assim. O tokenizador é a primeira etapa de uma longa cadeia para que os modelos de linguagem consigam entender as regras gramáticais e semânticas sem serem diretamente ensinados.&lt;/p&gt;

&lt;p&gt;É importante entender que as letras são armazenadas em um computador de forma numérica, ou seja, na memória do computador não vai ter a letra “a” escrita mas sim o número “97”, a letra “b” é salva como “98”, “c” “99” e assim vai até “z” que é “122". Dessa forma, a palavra “tio” é salva no computador como “116 105 111”.&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media.dev.to/cdn-cgi/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fvdrdje5k36u8rze8d8mq.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media.dev.to/cdn-cgi/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fvdrdje5k36u8rze8d8mq.png" alt="Imagem da tabela ASCII" width="253" height="633"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;Tendo em vista isso, pode-se imaginar que o modelo entenderia essa sequência de números como a palavra “tio”, mas isso não é verdade, como será discutido mais pra frente, esta abordagem não é eficiente e levaria nosso modelo a prever letras e não palavras. &lt;br&gt;
O que se pode pensar é que se pode somar o valor das letras e fazer com que elas valessem o mesmo que uma palavra. Esta abordagem é mais eficaz contudo, incorreta. Desta forma as palavras “tio”, “ito”, “oit” e todos os possíveis anagramas teriam o mesmo valor (332). &lt;/p&gt;

&lt;p&gt;É aqui que o tokenizador entra em ação, ele supre esta falta de entendimento do modelo com palavras e traz algo mais amplo e eficiente. permitindo assim que o evitemos anagramas, entendamos subpalavras, e a grande maioria dos dados de entrada.&lt;/p&gt;

&lt;p&gt;Mas antes é importante entender o conceito de token, no exemplo anterior cada token era uma letra, tokens podem ser letras, mas também podem ser palavras, subplavras e até um pequeno conjunto delas. Cada token tem um identificador numérico; por exemplo, a palavra “tio” vai ter o identificador 1, a palavra “ito” o identificador 2, a letra “o” o identificador 3, e assim por vai, alguns tokenizadores tem mais centenas de milhares de tokens já identificados.&lt;/p&gt;

&lt;p&gt;Tudo depende de como nosso tokenizador é configurado, mas para o nosso entendimento geral basta que utilizemos letras, palavras, pontuações e espaços como tokens.&lt;/p&gt;

&lt;p&gt;Agora, que o conceito abstrato de tokens está esclarecido, imagine que há um tokenizador que tem apenas 10 tokens no vocabulário.&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media.dev.to/cdn-cgi/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fazcjefy9gda2jrxsyj5b.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media.dev.to/cdn-cgi/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fazcjefy9gda2jrxsyj5b.png" alt="Tabela do tokenizador imaginário" width="213" height="309"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;A frase “O meu tio vai trabalhar.” pode ser transformada em “1 4 3 8 6 10 9”. Nota-se que o “\0” é usado para identificar que a nossa frase acabou. Agora esta sequência é passada para o modelo para que assim seja possível treiná-lo de forma eficiente e coesa.&lt;/p&gt;




&lt;h3&gt;
  
  
  Fontes:
&lt;/h3&gt;

&lt;p&gt;BERT (huggingface.co)&lt;/p&gt;

</description>
      <category>nlp</category>
      <category>chatgpt</category>
      <category>llm</category>
      <category>ai</category>
    </item>
  </channel>
</rss>
