<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:dc="http://purl.org/dc/elements/1.1/">
  <channel>
    <title>DEV Community: If Else</title>
    <description>The latest articles on DEV Community by If Else (@if_else).</description>
    <link>https://dev.to/if_else</link>
    <image>
      <url>https://media2.dev.to/dynamic/image/width=90,height=90,fit=cover,gravity=auto,format=auto/https:%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Fuser%2Fprofile_image%2F2810583%2F25367858-21e1-4980-a01a-66d7a588023b.png</url>
      <title>DEV Community: If Else</title>
      <link>https://dev.to/if_else</link>
    </image>
    <atom:link rel="self" type="application/rss+xml" href="https://dev.to/feed/if_else"/>
    <language>en</language>
    <item>
      <title>Ainda dá pra falar do DeepSeek?</title>
      <dc:creator>If Else</dc:creator>
      <pubDate>Mon, 03 Feb 2025 16:59:19 +0000</pubDate>
      <link>https://dev.to/if_else/ainda-da-pra-falar-do-deepseek-2cjc</link>
      <guid>https://dev.to/if_else/ainda-da-pra-falar-do-deepseek-2cjc</guid>
      <description>&lt;h4&gt;
  
  
  Autora: &lt;a href="https://dev.to/sthemonica"&gt;Sthefanie Monica&lt;/a&gt;
&lt;/h4&gt;

&lt;h4&gt;
  
  
  Criado em: 03/02/2025
&lt;/h4&gt;




&lt;p&gt;Uma das perguntas que veio na minha mente quando ouvi falar sobre o DeepSeek, um forte concorrente do ChatGPT, é se ele era tudo isso mesmo que as pessoas estavam falando. Ele teve um super BOOM de informações e pessoas falando sobre nesse final do mês de janeiro/2025, porque foi liberado para uso do público, mas já vem sendo estudado a mais tempo - os primeiros artigos publicados com o nome DeepSeek vem desde janeiro de 2024. &lt;/p&gt;

&lt;p&gt;Decidi escrever aqui, de uma forma mais técnica sobre os pontos importantes para nós depois que eu assisti um &lt;a href="https://www.youtube.com/watch?v=s2PShy1RxxI" rel="noopener noreferrer"&gt;vídeo da BBC News Brasil&lt;/a&gt;, onde eles comparam a evolução de IAs com a corrida espacial. Vamos conversar sobre isso?&lt;/p&gt;

&lt;h3&gt;
  
  
  O que diferencia a baleia azul do ChatGPT?
&lt;/h3&gt;

&lt;p&gt;O ChatGPT, queridinho do mundo atual, é amplamente usado para ajudar a criar textos, responder de uma forma natural (usando a linguagem natural - que é a qual conversamos com as pessoas :P) as nossas milhares de perguntas, faz análise e cria imagens a partir de um prompt e outras diversas coisas. O meu uso do ChatGPT se resume muito a Pair Programming (programação em pares), onde eu peço ajuda para encontrar pequenos erros no código que causam bugs indesejados, por exemplo.&lt;/p&gt;

&lt;p&gt;Já o nosso novo amigo chinês tem um destaque por analisar dados de uma forma completa, trazendo pontuações para que você possa tomar uma decisão mais assertiva, principalmente na parte estratégica de negócios (mas não somente a isso). Outro ponto que muitas pessoas comentaram como algo positivo é que ele mostra a sua linha de raciocínio e isso faz com que as pessoas entendam como ele está funcionando "por trás dos panos", e esse é um conceito que já vem sendo estudado em IA há um tempo e é o campo da XAI (Explainable Artificial Intelligence).&lt;/p&gt;

&lt;p&gt;Saindo da parte de usabilidade e ferramentas, o DeepSeek tem um custo muito menor para existir do que o ChatGPT, o que faz ser ainda mais atrativo, mas porque isso é importante para nós meros mortais?&lt;/p&gt;

&lt;h2&gt;
  
  
  Custo computacional
&lt;/h2&gt;

&lt;p&gt;Custo computacional é relacionado ao tempo de processamento que algo vai ter, e que está diretamente ligado ao gasto energético, ou seja, o quanto você precisa deixar seu computador ligado para terminar aquela tarefa conta (e muito). Se você trabalha com computador em nuvem já deve ter recebido uma mensagem amigável do seu gestor pedindo pra que desligue a máquina depois de usar, porque mesmo sem uso a cobrança existe, ou pedindo para otimizar códigos que estão muito "pesados", é a mesma linha de raciocínio quando estamos treinando uma IA.&lt;/p&gt;

&lt;p&gt;Essa área se tornou alvo de muitas pesquisas porque é importante entender e manejar gastos, mas também porque queremos sempre soluções mais inteligentes - que façam igual ou melhor do que temos, gastando menos tempo e menos energia - dá pra ver uma semelhança com o que nós DEVs fazemos no dia a dia, né?&lt;/p&gt;

&lt;p&gt;Na área de pesquisa eu comecei a ouvir muito esse termo e no início eu sinceramente não entendia, porém um dia eu precisei deixar minha pesquisa rodando por mais de 24h em um PC que eu usava apenas para a pesquisa e uma colega que estava fazendo um trabalho mais "complexo" computacionalmente conseguiu executar o projeto dela em 10h - porque a máquina dela era muito mais potente do que a minha e o código dela estava otimizado com o uso de Transfer Learning (vamos falar disso outra hora!).&lt;/p&gt;

&lt;h2&gt;
  
  
  A tecnologia usada
&lt;/h2&gt;

&lt;p&gt;Ambas IAs são criadas usando redes neurais profundas, porém enquanto o ChatGPT é baseado no modelo GPT(Generative Pre-trained Transformer), que é nada mais do que uma rede neural profunda para gerar textos de forma autônoma, o DeepSeek utiliza uma técnica diferente, usando NLP (processamento de linguagem natural) e machine learning para poder analisar e também interpretar os diversos dados inseridos.&lt;/p&gt;

&lt;p&gt;Qual é a diferença real entre essas duas tecnologias?&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;GPT (Generative Pre-trained Transformer)&lt;/strong&gt;

&lt;ul&gt;
&lt;li&gt;Baseado na arquitetura &lt;strong&gt;Transformer&lt;/strong&gt;, desenvolvida pelo Google em 2017.&lt;/li&gt;
&lt;li&gt;Treinado usando o conceito de &lt;strong&gt;aprendizado auto-supervisionado&lt;/strong&gt; em grandes conjuntos de dados textuais.&lt;/li&gt;
&lt;li&gt;Utiliza &lt;strong&gt;atenção auto-regressiva&lt;/strong&gt;, prevendo a próxima palavra com base nas anteriores.&lt;/li&gt;
&lt;li&gt;Modelos como &lt;a href="https://paperswithcode.com/method/gpt-4" rel="noopener noreferrer"&gt;GPT-4&lt;/a&gt; são projetados para compreensão e geração de texto em diversas línguas e contextos.&lt;/li&gt;
&lt;/ul&gt;


&lt;/li&gt;

&lt;li&gt;

&lt;strong&gt;DeepSeek&lt;/strong&gt;

&lt;ul&gt;
&lt;li&gt;Também usa Transformer, mas inclui &lt;strong&gt;técnicas avançadas de Reinforcement Learning&lt;/strong&gt; e métodos de atenção&lt;/li&gt;
&lt;li&gt;É treinado com um &lt;strong&gt;foco maior em multilinguismo&lt;/strong&gt;, especialmente para línguas asiáticas como o mandarim - já que foi criado na China.&lt;/li&gt;
&lt;li&gt;Integra abordagens &lt;strong&gt;híbridas&lt;/strong&gt;, combinando modelos &lt;strong&gt;estatísticos&lt;/strong&gt; com &lt;strong&gt;redes neurais profundas&lt;/strong&gt;.&lt;/li&gt;
&lt;/ul&gt;


&lt;/li&gt;

&lt;/ul&gt;

&lt;h2&gt;
  
  
  Porque ninguém falou disso antes?
&lt;/h2&gt;

&lt;p&gt;Muito tempo antes do ChatGPT ser lançado para o público existiam diversos artigos falando sobre esse modelo de rede neural criado chamado GPT e com o DeepSeek não foi diferente, há pelo menos um ano eles já estão publicando artigos, o que nos indica que existem mais anos de pesquisa por trás de tudo isso.&lt;/p&gt;

&lt;p&gt;Ainda temos uma barreira muito grande entre o mercado e a pesquisa, principalmente das pessoas usuárias terem acesso e efetivamente entender o que está acontecendo por trás de cada código - até porque quando começamos a falar de machine learning e de redes neurais a parte matemática aparece com muitas fórmulas de difícil leitura se você não for da área.&lt;/p&gt;

&lt;h2&gt;
  
  
  Como me informar sobre esse mundo?
&lt;/h2&gt;

&lt;p&gt;Se você é curioso e quer aprender mais sobre a área de IA, uma das plataformas que como pesquisadora eu uso muito é a &lt;a href="https://paperswithcode.com/" rel="noopener noreferrer"&gt;PapersWithCode&lt;/a&gt;. Ela é uma plataforma feita para espalhar a palavra de artigos pelo mundo, de uma forma fácil e com códigos - facilitando a vida de quem quer fazer trabalhos baseados em algum modelo de IA e quer aproveitar algo previamente treinado, ou só quer conhecer mais modelos.&lt;/p&gt;

&lt;h3&gt;
  
  
  Artigos do DeepSeek no PapersWithCode (por ordem cronológica)
&lt;/h3&gt;

&lt;p&gt;Separei os artigos que envolvem o DeepSeek, em ordem cronológica, para que se você quiser ler e conhecer mais sobre o modelo, ou até somente está curioso em como são os artigos científicos publicados.&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;a href="https://paperswithcode.com/paper/deepseek-llm-scaling-open-source-language" rel="noopener noreferrer"&gt;# DeepSeek LLM: Scaling Open-Source Language Models with Longtermism&lt;/a&gt;

&lt;ul&gt;
&lt;li&gt;5 Jan 2024&lt;/li&gt;
&lt;/ul&gt;


&lt;/li&gt;

&lt;li&gt; &lt;a href="https://paperswithcode.com/paper/deepseekmoe-towards-ultimate-expert" rel="noopener noreferrer"&gt;# DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models&lt;/a&gt;

&lt;ul&gt;
&lt;li&gt;11 Jan 2024&lt;/li&gt;
&lt;/ul&gt;


&lt;/li&gt;

&lt;li&gt;

&lt;a href="https://paperswithcode.com/paper/deepseek-r1-incentivizing-reasoning" rel="noopener noreferrer"&gt;# DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning&lt;/a&gt;

&lt;ul&gt;
&lt;li&gt;22 Jan 2025&lt;/li&gt;
&lt;/ul&gt;


&lt;/li&gt;

&lt;li&gt; &lt;a href="https://paperswithcode.com/paper/deepseek-coder-when-the-large-language-model" rel="noopener noreferrer"&gt;# DeepSeek-Coder: When the Large Language Model Meets Programming -- The Rise of Code Intelligence&lt;/a&gt;

&lt;ul&gt;
&lt;li&gt;25 Jan 2024&lt;/li&gt;
&lt;/ul&gt;


&lt;/li&gt;

&lt;li&gt;

&lt;a href="https://paperswithcode.com/paper/deepseekmath-pushing-the-limits-of" rel="noopener noreferrer"&gt;# DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models&lt;/a&gt;

&lt;ul&gt;
&lt;li&gt;5 Feb 2024&lt;/li&gt;
&lt;/ul&gt;


&lt;/li&gt;

&lt;li&gt; &lt;a href="https://paperswithcode.com/paper/deepseek-vl-towards-real-world-vision" rel="noopener noreferrer"&gt;# DeepSeek-VL: Towards Real-World Vision-Language Understanding&lt;/a&gt;

&lt;ul&gt;
&lt;li&gt;8 Mar 2024&lt;/li&gt;
&lt;/ul&gt;


&lt;/li&gt;

&lt;li&gt; &lt;a href="https://paperswithcode.com/paper/deepseek-v2-a-strong-economical-and-efficient" rel="noopener noreferrer"&gt;# DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model&lt;/a&gt;

&lt;ul&gt;
&lt;li&gt;7 May 2024&lt;/li&gt;
&lt;/ul&gt;


&lt;/li&gt;

&lt;li&gt;

&lt;a href="https://paperswithcode.com/paper/deepseek-coder-v2-breaking-the-barrier-of" rel="noopener noreferrer"&gt;# DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence&lt;/a&gt;

&lt;ul&gt;
&lt;li&gt;17 Jun 2024&lt;/li&gt;
&lt;/ul&gt;


&lt;/li&gt;

&lt;li&gt; &lt;a href="https://paperswithcode.com/paper/deepseek-prover-v1-5-harnessing-proof" rel="noopener noreferrer"&gt;# DeepSeek-Prover-V1.5: Harnessing Proof Assistant Feedback for Reinforcement Learning and Monte-Carlo Tree Search&lt;/a&gt;

&lt;ul&gt;
&lt;li&gt;15 Aug 2024&lt;/li&gt;
&lt;/ul&gt;


&lt;/li&gt;

&lt;li&gt; &lt;a href="https://paperswithcode.com/paper/deepseek-vl2-mixture-of-experts-vision" rel="noopener noreferrer"&gt;# DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding&lt;/a&gt;

&lt;ul&gt;
&lt;li&gt;13 Dec 2024&lt;/li&gt;
&lt;/ul&gt;


&lt;/li&gt;

&lt;li&gt;

&lt;a href="https://paperswithcode.com/paper/deepseek-v3-technical-report" rel="noopener noreferrer"&gt;# DeepSeek-V3 Technical Report&lt;/a&gt;

&lt;ul&gt;
&lt;li&gt;27 Dec 2024&lt;/li&gt;
&lt;/ul&gt;


&lt;/li&gt;

&lt;/ul&gt;

&lt;p&gt;Por hoje é só, mas nos vemos em breve!&lt;/p&gt;

&lt;p&gt;Beijinhos, &lt;/p&gt;

&lt;p&gt;Xté&lt;/p&gt;

</description>
      <category>ai</category>
      <category>chatgpt</category>
      <category>deepseek</category>
      <category>machinelearning</category>
    </item>
  </channel>
</rss>
