DEV Community

Dica rápida: Rodando o DeepSeek (ou qualquer modelo) localmente

Angelo Belchior on January 29, 2025

Hype é Hype. Isso é fato. Mas confesso que fazia tempo que algo não me deixava tão empolgado quanto o Memphis Depay no Corinthians DeepSeek. N...

Read full post

Aramis • Jan 30

Tem suporte pra eu treinar uma LLM dessas com uma base de dados, por exemplo, artigos científicos? Assim tenho algo personalizado ou mais focado? Ou é mais eficiente usar as que já estão disponíveis mostradas no tutorial?

Angelo Belchior • Jan 30

Nesse caso talvez RAG (Retrieval-Augmented Generation) ajude. Você consegue fazer com que o modelo consulte uma base de dados externa antes de montar a mensagem de resposta. O modelo recebe os dados recuperados e usa como contexto para gerar uma resposta mais "precisa". Esse link pode te ajudar: blog.dsacademy.com.br/como-rag-ret...

Jessilyneh • Jan 29

Que artigo bacana, parabens!!! Vou salvar pra seguir como tutorial

Angelo Belchior • Jan 29

Muito obrigado!

Felipe Sales • Jan 29

Artigo fantástico Angelão. Parabéns cara!!!

Angelo Belchior • Jan 29

Valew :)

Flavio A Pompilio • Jan 30 • Edited

Top, Angelino! Obrigado por compartilhar.

Para alterar a porta:

[Environment]::SetEnvironmentVariable("OLLAMA_HOST", "127.0.0.1:[port]", "User")

Sai do carro, entra no carro.

Angelo Belchior • Jan 30

Hahahahah.. valew mano :)

Igor Garcia De Sousa • Jan 29

Artigo maravilhoso, porém me surgiu uma dúvida.
Há algum custo e se houver, qual é?

Angelo Belchior • Jan 29

Muito obrigado. Não tem nenhum custo!!! Tudo é executado na sua máquina de forma offline. (No caso você precista estar on-line para baixar o modelo, mas depois dele instalado, pode ficar offline)

Claubercy Kloss • Apr 14

Consigo rodar um modelo desses hospedado numa api Flask, por exemplo, para servir de IA para o meu front?

Angelo Belchior • Apr 14

É possível. Porém, a sua infraestrutura precisa ser muito boa para suportar algumas requisições ao mesmo tempo. Rodar o modelo em si é tranquilo, o problema é escalar isso. Atender duas ou três pessoas ao mesmo tempo é de boa, mas quando a quantidade de requisições começar a subir vai ser necessário ter uma infra parruda com máquinas com GPUs e uma boa quantiade de memória. Escalar um modelo LLM não é fácil e muito menos barato, vide OpenAI: OpenAI Is Growing Fast and Burning Through Piles of Money: nytimes.com/2024/09/27/technology/...

Calvin Alexandre • Feb 16

Bom demais!

Angelo Belchior • Feb 16

muito obrigado