Mariana Ribeiro for WoMakersCode

Posted on Jan 26

Rode seu próprio ChatGPT localmente

A inteligência artificial está se tornando cada vez mais presente no nosso dia a dia, o ChatGPT por exemplo atualmente é mais utilizado pelas novas gerações para fazer buscas e responder perguntas. Aposto que você também já o utiliza para algumas coisas, certo? Mesmo que você não seja um especialista, ferramentas como o ChatGPT ou ou DeepSeek tornam o mundo da IA muito intuitivo e acessível para todas as pessoas. Neste guia, vou te ensinar como criar seu próprio 'chatGPT' utilizando ferramentas acessíveis e fáceis de usar se você tem um conhecimento técnico mais básico. Prontos pra dar o primeiro passo no universo da IA? Vamos lá!

Estas são as ferramentas que vamos utilizar neste tutorial:

Ollama

O Ollama é uma ferramenta que facilita o uso de modelos de inteligência artificial diretamente no seu computador. Ele permite que você interaja com modelos de linguagem avançados, como o GPT, de forma local, sem depender exclusivamente da nuvem ou de serviços externos.

Open WebUI

E para que consigamos utilizar os modelos que rodam no Ollama de forma mais simplificada utilizaremos o Open WebUI. O Open WebUI é uma interface gráfica web que irá facilitar a nossa interação com os modelos de inteligência artificial. Nele conseguiremos gerenciar os modelos, ter uma interface gráfica como a do ChatGPT para interagir com os modelos e algumas coisas a mais, como criar sua própria base de conhecimento para que o modelo de IA possa fazer buscas nela.

Portainer

Nossas ferramentas estarão rodando em docker containers, então utilizaremos o Portainer para gerenciá-los. É como se fosse uma versão web do Docker Desktop, porém muito mais leve o mesmo também roda em um container.

Para este tutorial vamos utilizar o Ubuntu, no meu caso eu estou utilizando o mesmo dentro do WSL2, então se você está utilizando uma máquina Windows basta ter o mesmo instalado. Também vale a pena comentar que geralmente o processamento destes modelos localmente exigem um hardware um pouco melhor, como minha máquina é mais básica (16Gb de RAM e 500Gb de HD) eu estou rodando modelos menores (com menos parâmetros, menos inteligentes). Acredito que essa seja a configuração mínima para você executar esses modelos menores, mas caso seu computador tenha menos RAM, pule a instalação do Ollama que no final do tutorial vou ensinar como utilizar os modelos diretamente de uma plataforma externa (geralmente você precisa pagar a plataforma externa).

O objetivo deste tutorial não é ensinar como criar ou treinar modelos, apenas utilizá-los.

Então vamos começar!

Pré-requisitos

Inicialize o WSL (apenas para usuários Windows)
C:\WINDOWS\system32> wsl

Caso não tenha o WSL instalado, siga este tutorial da Microsoft.

Também vamos precisar que o Docker esteja instalado no WSL no Ubuntu (Não instalar o Docker Desktop). Caso não o tenha instalado siga este tutorial.

Agora sim, we are good to go!

Instalação das ferramentas

Primeiramente, cheque se sua instalação do docker está rodando:

Agora vamos instalar o Portainer para gerenciar nossos containers.
Baixe a imagem:
docker pull portainer/portainer-ce:latest

Inicie o container:
docker run -d -p 9000:9000 --restart always -v /var/run/docker.sock:/var/run/docker.sock portainer/portainer-ce:latest

O mesmo rodará localmente na porta 9000, você pode alterá-la caso seja necessário. Quando você acessá-lo pela primeira vez o mesmo pedirá que você crie um usuário e senha de administrador. Logo, quando logar, você deverá ver algo assim.

Agora vamos instalar o Ollama.

Vamos instalar direto do Docker Hub.
docker pull ollama/ollama

e rodar:

docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama
Esta instalação é para computadores que não possuem GPU (a famosa placa de vídeo, apesar que GPU é só o processador da mesma) ou possuem GPU integrada 'CPU only', mas caso você possua uma GPU NVidia ou AMD, selecione um dos outros comandos na página do Docker Hub.

Caso você já queira instalar o modelo, você pode pode utilizar docker exec -it ollama ollama run llama3.2:3b que irá instalar o modelo llama3 com 3 bilhões de parametros, porém, vamos fazer o mesmo depois dentro do WebUI.

Dentro do portainer vá em containers e o container do ollada deverá estar como running.

Acesse: http://localhost:11434/ e o mesmo deverá te retornar:

Dentro do Ubuntu teste:
curl http://localhost:11434/api/tags

Agora vamos instalar o Open WebUI:

docker run -d --name open-webui -e OLLAMA_BASE_URL=http://endereco-container-ollama:11434 -p 3000:8080 ghcr.io/open-webui/open-webui:main

Troque o endereco-container-ollama pelo endereço IP do container exibido no portainer.

Aqui você está instalando e já criando o container do OpenWeb UI, nele também já setamos uma variável de ambiente com o endereço do Ollama. Vá até o portainer, se seu container estiver verdinho, estamos prontos pra começar!

Acesse a plataforma em http://localhost:3000/ e a mesma pedirá que você crie um novo usuário administrador.

Logo, você deverá ver algo parecido com isto (sem o modelo, claro!)

Para facilitar nossa vida e evitar alguns erramos, vamos criar uma nova rede no docker e colocar nossos dois containers dentro da mesma.

No portainer, vá no menu Networks, clique em "Add network" e adicione um nome para sua de, eu coloquei ollama_network.

Agora volte no menu containers e clique no container do ollama.
Vá até o último grupo "Connected networks" e adicione sua nova rede.

Faça o mesmo com o container do WebUI.

Vamos testar se o container do WebUI está se connectando com o container do ollama?

Entre nas informações do container do WebUI pelo portainer e em Container Status acesse o console do mesmo.

No console execute curl http://endereco-container-ollama:11434/api/tags e o mesmo deverá conectar ao outro container e retornar algo.

No meu caso como já tenho alguns modelos instalados ele já trouxe o modelo, o seu provavelmente estará vazio.

Agora com nossa infraestrutura pronta já podemos configurar o WebUI para baixar os modelos no ollama e executar os mesmos.

Acesse o WebUI. http://localhost:3000/

Na lateral esquerda, na parte debaixo, clique no seu usuário e vá em configurações.

No popup que abrir, selecione configurações do admin.

Vá em 'Modelos' e clique em manage models (a setinha de download).

Um popup com o endereço do seu ollama local irá abrir.

Na página de modelos do ollama (modelos) podemos selecionar o modelo que queremos, como deepseek:r1, llama3, mistral, etc.

Na página também podemos ver quantos parâmetros o modelo tem

Lembre-se: quanto mais parâmetros, maior mais pesado o modelo é, e exige mais hardware para processamento, porém mais inteligente. No nosso caso vamos testar um modelo com até 3b (até 8b pode dar certo, porém vai demorar um pouco mais a resposta do mesmo).

Vamos testar o llama3.2 que tem bilhões de parâmetros.

Para instalá-lo, entre no modelo, selecione a quantidade de parâmetros e copie o nome do mesmo, no nosso caso llama3.2:3b

Agora volte ao WebUI e adicione esse nome em obter um modelo de ollama.com e clique no símbolo de download.

Quando clicar no download você irá ver uma barra de progresso carregando, ao finalizar você irá receber uma notificação verde.
Recarregue a página e volte aos modelos, você deverá ver seu novo modelo ali.

Agora é só testar!

Clique em novo chat, selecione o modelo que você quer utilizar, e faça uma pergunta para testar.

No meu computador, modelos 3b rodam bem rápido, já os de 8b tendem a demorar cerca de 5 minutos para gerar uma resposta.

Lendo modelos localmente você tem a opção de manter seus dados privados, sem suas informações irem para servidores terceiros, é uma ótima opção para empresas que não podem compartilhar dados confidencias mas ainda querem ter a opção de uso de alguma ferramenta de IA pelos seus funcionários. Lembrando que esses mesmos modelos também podem ser utilizados por outras ferramentas localmente como n8m, ou você pode criar sua própria base de conhecimento no WebUI, com arquivos de uma Wiki, por exemplo, e fazer com que o modelo leia e utilize esses arquivos para responder perguntas, facilitando a busca de informações dentro da empresa.

Agora você tem seu próprio 'ChatGPT' configurado para rodar em casa!
Claro que não é o ChatGPT em si, pois está utilizando outros modelos gratuitos (o deepseek é considerado tão bom quanto), mas caso você deseje, você pode adquirir uma chave e consumir o modelo do ChatGPT também pelo WebUI. Nos passos a seguir vou te ensinar como configurar uma API externa.

Geralmente para utilizar APIs rodando externamente precisamos pagar o processamento da API, no nosso exemplo vamos utilizar o DeepSeek e este são os valores. Caso você não tenha nenhum balando, quando você tentar executar a API a mesma irá te retornar a mensagem que você não tem dinheiro na sua conta.

Caso queira adicionar algum valor (até o momento o mínimo é 2 USD, sem taxas) vá até Top up na plataforma e adicione.

Faça uma conta no site do DeepSeek.
Acesse o mesmo e vá em API Keys e crie uma nova chave (salve essa chave).

Também vamos precisar de algumas informações fornecidas pela documentação da API.

Agora volte ao seu WebUI, vá nas configurações novamente mas desta vez em Conexões.

Em API OpenAI clique no + para adicionar uma nova conexão.
Pegue o endereço da API na documentação: https://api.deepseek.com e também adicione sua chave. Não vamos escolher nenhum modelo em específico.