DEV Community

Cover image for Rodando Modelos LLM Localmente com Ollama
Rafael Rotiroti
Rafael Rotiroti

Posted on • Edited on

Rodando Modelos LLM Localmente com Ollama

A IA tem dominado os palcos nos últimos anos e, cada vez mais, tem ganhado espaço com empresas, profissionais, estudantes... na verdade, em quase tudo.

Desde então, a IA Generativa tem sido assunto em todos os lugares. Ao utilizarmos ChatGPT, Gemini e DeepSeek, estamos usufruindo de LLMs. Um LLM (Large Language Model), que em português significa Modelo de Linguagem em Larga Escala, é um tipo de IA Generativa treinada com um volume imenso de dados. Para entender e se aprofundar mais sobre as diferenças entre alguns tipos de IA, este excelente artigo do Hugo Cardoso pode ajudar.

Quem utiliza no dia a dia as versões gratuitas do ChatGPT ou Gemini sabe que, em determinado momento, é necessário esperar algumas horas, trocar de modelo (ex: GPT-4o, mini) ou assinar o "premium". Isso acontece porque, obviamente, nem tudo é de graça (faz parte do modelo de negócio) mas também porque a execução desses modelos é custosa. O processo exige alto consumo de hardware e tráfego de rede para atender à demanda, principalmente em larga escala, como estamos vendo no mundo inteiro.

Uma solução para utilizar modelos atualizados e com muitos parâmetros é rodá-los localmente. Além de reduzir custos (evitando pagar por uma versão premium), essa abordagem pode oferecer mais desempenho (dependendo do seu hardware) e, com certeza, mais privacidade. E é isso que vamos aprender a fazer a seguir.

  1. Instalando o Ollama

Para rodarmos LLMs localmente, precisamos de uma ferramenta que as execute. Neste caso, vamos usar o Ollama. Basicamente, o Ollama funciona como um gerenciador e runtime de modelos LLM.

No meu caso, estou usando Linux, então a instalação pode ser feita com:

No meu caso estou usando Linux entao:

curl -fsSL https://ollama.com/install.sh | sh
Enter fullscreen mode Exit fullscreen mode

1.1 Configurando o Ollama

Para rodarmos LLMs localmente, precisamos de uma ferramenta que as execute. Neste caso, vamos usar o Ollama. Basicamente, o Ollama funciona como um gerenciador e runtime de modelos LLM.

No meu caso, estou usando Linux, então a instalação pode ser feita com:

ollama pull deepseek-r1
Enter fullscreen mode Exit fullscreen mode

ou se escolher outro modelo..

ollama pull [nome-modelo]
Enter fullscreen mode Exit fullscreen mode

Neste caso, optei pelo modelo DeepSeek, a febre do momento. Mas você pode encontrar todos os modelos disponíveis aqui: Ollama LIbrary

Aguarde o download finalizar e o modelo estará pronto para uso.

  1. Utilizando o Ollama

Temos algumas opções para rodar os modelos localmente. Podemos fazer isso de três formas, e vou ser direto em cada uma delas:

  • Rodar via CLI

Exemplo Ollama com CLI

  • Conectar via Software (ex: LM Studio)
    Print LM Studio

  • Usar via REST API

POST Insomnia

  1. Possibilidades, prós e contras.

Rodar um modelo LLM localmente abre um leque de possibilidades para desenvolvedores, pesquisadores e empresas. Dependendo do hardware disponível, é possível consumir modelos mais completos a um custo reduzido, treinar modelos personalizados e até integrá-los em aplicativos e serviços profissionais. No entanto, essa abordagem também traz desafios que precisam ser considerados.

✅ O que eu gostei

  1. Baixo custo: Sem taxas recorrentes de nuvem, basta ter o hardware certo.
  2. Modelos mais robustos: Acesso a LLMs avançados sem restrições de provedores.
  3. Privacidade: Os dados ficam locais, garantindo maior segurança.
  4. Personalização: Possibilidade de fine-tuning para necessidades específicas.
  5. Aplicações comerciais: Uso offline em apps, chatbots e automação.

⚠️ O que eu percebi

  1. Alto consumo de recursos: Requer GPUs potentes e muita RAM.
  2. Configuração complexa: Instalação e otimização podem ser trabalhosas.
  3. Manutenção constante: Atualizações e melhorias precisam ser feitas manualmente.
  4. Treinamento exige investimento: Fine-tuning pode demandar hardware caro.

Rodar LLMs localmente pode ser uma solução econômica e eficiente, mas exige planejamento e infraestrutura adequada. 🚀

Top comments (2)

Collapse
 
dheeraj-lee27 profile image
Dheeraj Malhotra

Recentemente, usei um software muito bom chamado Servbay, que permite implantar modelos grandes localmente com apenas um clique. Se estiver interessado, você pode conferir minha página!

Collapse
 
rotirotirafa profile image
Rafael Rotiroti

Sure! I'll see, thanks