Ainda dá pra falar do DeepSeek?

If Else — Mon, 03 Feb 2025 16:59:19 +0000

Autora: Sthefanie Monica

Criado em: 03/02/2025

Uma das perguntas que veio na minha mente quando ouvi falar sobre o DeepSeek, um forte concorrente do ChatGPT, é se ele era tudo isso mesmo que as pessoas estavam falando. Ele teve um super BOOM de informações e pessoas falando sobre nesse final do mês de janeiro/2025, porque foi liberado para uso do público, mas já vem sendo estudado a mais tempo - os primeiros artigos publicados com o nome DeepSeek vem desde janeiro de 2024.

Decidi escrever aqui, de uma forma mais técnica sobre os pontos importantes para nós depois que eu assisti um vídeo da BBC News Brasil, onde eles comparam a evolução de IAs com a corrida espacial. Vamos conversar sobre isso?

O que diferencia a baleia azul do ChatGPT?

O ChatGPT, queridinho do mundo atual, é amplamente usado para ajudar a criar textos, responder de uma forma natural (usando a linguagem natural - que é a qual conversamos com as pessoas :P) as nossas milhares de perguntas, faz análise e cria imagens a partir de um prompt e outras diversas coisas. O meu uso do ChatGPT se resume muito a Pair Programming (programação em pares), onde eu peço ajuda para encontrar pequenos erros no código que causam bugs indesejados, por exemplo.

Já o nosso novo amigo chinês tem um destaque por analisar dados de uma forma completa, trazendo pontuações para que você possa tomar uma decisão mais assertiva, principalmente na parte estratégica de negócios (mas não somente a isso). Outro ponto que muitas pessoas comentaram como algo positivo é que ele mostra a sua linha de raciocínio e isso faz com que as pessoas entendam como ele está funcionando "por trás dos panos", e esse é um conceito que já vem sendo estudado em IA há um tempo e é o campo da XAI (Explainable Artificial Intelligence).

Saindo da parte de usabilidade e ferramentas, o DeepSeek tem um custo muito menor para existir do que o ChatGPT, o que faz ser ainda mais atrativo, mas porque isso é importante para nós meros mortais?

Custo computacional

Custo computacional é relacionado ao tempo de processamento que algo vai ter, e que está diretamente ligado ao gasto energético, ou seja, o quanto você precisa deixar seu computador ligado para terminar aquela tarefa conta (e muito). Se você trabalha com computador em nuvem já deve ter recebido uma mensagem amigável do seu gestor pedindo pra que desligue a máquina depois de usar, porque mesmo sem uso a cobrança existe, ou pedindo para otimizar códigos que estão muito "pesados", é a mesma linha de raciocínio quando estamos treinando uma IA.

Essa área se tornou alvo de muitas pesquisas porque é importante entender e manejar gastos, mas também porque queremos sempre soluções mais inteligentes - que façam igual ou melhor do que temos, gastando menos tempo e menos energia - dá pra ver uma semelhança com o que nós DEVs fazemos no dia a dia, né?

Na área de pesquisa eu comecei a ouvir muito esse termo e no início eu sinceramente não entendia, porém um dia eu precisei deixar minha pesquisa rodando por mais de 24h em um PC que eu usava apenas para a pesquisa e uma colega que estava fazendo um trabalho mais "complexo" computacionalmente conseguiu executar o projeto dela em 10h - porque a máquina dela era muito mais potente do que a minha e o código dela estava otimizado com o uso de Transfer Learning (vamos falar disso outra hora!).

A tecnologia usada

Ambas IAs são criadas usando redes neurais profundas, porém enquanto o ChatGPT é baseado no modelo GPT(Generative Pre-trained Transformer), que é nada mais do que uma rede neural profunda para gerar textos de forma autônoma, o DeepSeek utiliza uma técnica diferente, usando NLP (processamento de linguagem natural) e machine learning para poder analisar e também interpretar os diversos dados inseridos.

Qual é a diferença real entre essas duas tecnologias?

GPT (Generative Pre-trained Transformer)
- Baseado na arquitetura Transformer, desenvolvida pelo Google em 2017.
- Treinado usando o conceito de aprendizado auto-supervisionado em grandes conjuntos de dados textuais.
- Utiliza atenção auto-regressiva, prevendo a próxima palavra com base nas anteriores.
- Modelos como GPT-4 são projetados para compreensão e geração de texto em diversas línguas e contextos.
DeepSeek
- Também usa Transformer, mas inclui técnicas avançadas de Reinforcement Learning e métodos de atenção
- É treinado com um foco maior em multilinguismo, especialmente para línguas asiáticas como o mandarim - já que foi criado na China.
- Integra abordagens híbridas, combinando modelos estatísticos com redes neurais profundas.

Porque ninguém falou disso antes?

Muito tempo antes do ChatGPT ser lançado para o público existiam diversos artigos falando sobre esse modelo de rede neural criado chamado GPT e com o DeepSeek não foi diferente, há pelo menos um ano eles já estão publicando artigos, o que nos indica que existem mais anos de pesquisa por trás de tudo isso.

Ainda temos uma barreira muito grande entre o mercado e a pesquisa, principalmente das pessoas usuárias terem acesso e efetivamente entender o que está acontecendo por trás de cada código - até porque quando começamos a falar de machine learning e de redes neurais a parte matemática aparece com muitas fórmulas de difícil leitura se você não for da área.

Como me informar sobre esse mundo?

Se você é curioso e quer aprender mais sobre a área de IA, uma das plataformas que como pesquisadora eu uso muito é a PapersWithCode. Ela é uma plataforma feita para espalhar a palavra de artigos pelo mundo, de uma forma fácil e com códigos - facilitando a vida de quem quer fazer trabalhos baseados em algum modelo de IA e quer aproveitar algo previamente treinado, ou só quer conhecer mais modelos.

Artigos do DeepSeek no PapersWithCode (por ordem cronológica)

Separei os artigos que envolvem o DeepSeek, em ordem cronológica, para que se você quiser ler e conhecer mais sobre o modelo, ou até somente está curioso em como são os artigos científicos publicados.

# DeepSeek LLM: Scaling Open-Source Language Models with Longtermism
- 5 Jan 2024
# DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models
- 11 Jan 2024
# DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
- 22 Jan 2025
# DeepSeek-Coder: When the Large Language Model Meets Programming -- The Rise of Code Intelligence
- 25 Jan 2024
# DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models
- 5 Feb 2024
# DeepSeek-VL: Towards Real-World Vision-Language Understanding
- 8 Mar 2024
# DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model
- 7 May 2024
# DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence
- 17 Jun 2024
# DeepSeek-Prover-V1.5: Harnessing Proof Assistant Feedback for Reinforcement Learning and Monte-Carlo Tree Search
- 15 Aug 2024
# DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding
- 13 Dec 2024
# DeepSeek-V3 Technical Report
- 27 Dec 2024

Por hoje é só, mas nos vemos em breve!

Beijinhos,

Xté

DEV Community: If Else