Autor: Cleverson Gallego - Sr. Technical Product Manager
Olá amantes da boa inferência e de bons embeddings!
Sabemos que hoje, a infraestrutura é parte fundamental de qualquer negócio baseado em IA, seja ela direta ou indireta. Nós, da Magalu Cloud, estamos trabalhando para entregar uma infraestrutura robusta e acessível, projetada para impulsionar suas ideias e negócios desde a concepção até a escala em produção.
Hoje, queremos demonstrar como nossas máquinas virtuais (VMs) e Unidades de Processamento Gráfico (GPUs) podem acelerar seus workloads e trazer resultados mais rápidos.
Desempenho e flexibilidade: Nossos flavors de VMs para IA
Para atender a diversas necessidades, oferecemos uma variedade de flavors de VMs, permitindo que você escolha a combinação perfeita para seus workloads. Nossas VMs são confiáveis, flexíveis e você só paga pelo tempo de uptime ou seja, se a VM estiver desligada nada é cobrado. Abaixo exemplos de flavors e suas aplicações pós-processamento para workloads de IA:
Perfil da VM | vCPU | RAM | Casos de uso de pós-processamento IA | Exemplos de tarefas |
---|---|---|---|---|
Pequena | 4 | 16 GB | Pós-processamento leve / batchs pequenos | Agregação de resultados de inferência de imagens, análise simples de logs de NLP, pequenas pipelines de métricas de áudio |
Média | 16 | 64 GB | Processamento moderado / pipelines paralelos | Pós-processamento de visão computacional (segmentação + feature extraction), análise de embeddings de NLP em batchs maiores, TTS batch médio com pré e pós-processamento |
Grande | 32–64 | 256–512 GB | Processamento pesado / pipelines complexos | Processamento de vídeos de alta resolução pós-inferência, pós-processamento de grandes datasets multimodais, agregação de outputs de múltiplos modelos, análises estatísticas complexas pós IA |
Oferecemos acesso às GPUs NVIDIA L40, permitindo que você acelere seus modelos de machine learning, deep learning e outras cargas de trabalho computacionais intensivas, com performance e eficiência.
Com as nossas GPUs você pode:
Nº de GPUs | Casos de uso | Tipo de modelo | Observações |
---|---|---|---|
1 GPU | Inferência de LLMs grandes quantizados | Até 30B+ parâmetros (ex: Gemma 3 27B Q4KM) | Quantização permite rodar modelos maiores em 1 GPU; |
1 GPU | Inferência multimodal, visão, áudio | CLIP, BLIP, Stable Diffusion XL, Whisper large | 1 GPU lida com produção contínua; |
1 GPU | Fine-tuning / treinamento leve | Modelos até ~1B parâmetros | Adequado para experimentos ou protótipos de LLM ou CV |
2 GPUs | Treinamento / fine-tuning pesado | Modelos 1B–30B+ | Treinamento distribuído, batch grande ou LLMs não quantizados |
2 GPUs | Inferência massiva / pipelines paralelos | LLMs 30B+, diffusion ou multimodal batch grande | Multi-GPU reduz latency ou aumenta throughput para produção |
Além da performance de nossas GPUs, nossas máquinas virtuais oferecem flexibilidade para que você crie o seu laboratório de IA sob medida, não dependendo de plataformas gerenciadas. É possível configurar o ambiente aproveitando ferramentas já consolidadas no ecossistema da comunidade de IA.
Na prática, em poucos minutos você consegue ter uma máquina virtual pronta para desenvolver, treinar, executar inferência ou prototipar serviços de IA. Confira alguns exemplos de como nossos clientes e desenvolvedores já tem usado nossas VMs com GPU:
Caso de uso | Ferramentas / Stack | Descrição / Benefício |
---|---|---|
Ambiente de desenvolvimento interativo | Jupyter Notebook, VS Code Server | Permite escrever e testar código de IA diretamente na VM, acessar datasets, treinar modelos pequenos, visualizar resultados em tempo real |
Inferência local de LLMs | No-code/low-code tools Ollama, vLLM | Rodar modelos grandes ou quantizados diretamente na VM, sem depender de serviços externos, controle total do ambiente e recursos |
Testes e experimentação com modelos multimodais | backends (texto, imagem, áudio), Stable Diffusion, Whisper | Criar pipelines de teste de modelos multimodais (texto → imagem, texto → áudio, multimodal) para protótipos rápidos |
Treinamento ou fine-tuning leve | PyTorch, TensorFlow, vLLM | Treinar ou ajustar modelos menores, fine-tuning de LLMs ou CV, usando a GPU da VM sem necessidade de cluster |
Execução de pipelines de IA customizadas | Python scripts, Dask, Prefect | Processar dados pós-inferência, agregação de resultados, pré-processamento de imagens/vídeos, execução de batchs paralelos |
Integração e prototipagem de serviços de IA | FastAPI, Flask, Gradio | Criar APIs ou interfaces para testar modelos em produção ou demonstrar resultados para stakeholders |
Experimentação com quantização e performance | BitsAndBytes, QLoRA | Testar diferentes técnicas de quantização, medir throughput e latency, otimizar modelos grandes para inferência em 1 GPU |
Armazenamento e manipulação de datasets | Object Storage, MYSQL, SQL Server, pandas, NumPy | Gerenciar dados locais ou externos para treinos e inferência, realizar análises, preparar datasets para pipelines |
Estes são apenas alguns exemplos de ambientes que podemos criar com a nossa infraestrutura de IA, lembrando ainda que seus dados estarão no Brasil em infraestrutura nacional fora da linha de ação de big techs internacionais (cloud act) e com cobrança em reais, livres de oscilação cambial. Para mais detalhes referente a valores, confira o nosso site oficial.
Top comments (0)