DEV Community: Jose Tandavala

Descomplicando Machine Learning - Parte V

Jose Tandavala — Sat, 02 Dec 2023 23:06:01 +0000

Motivação

Parabéns por chegares até aqui! Percorremos uma jornada significativa até aqui. No início da nossa jornada, abordamos conceitos fundamentais de machine learning, isto é, no artigo I, também discutimos alguns desafios que podem se apresentar ao iniciar uma carreira nesta área empolgante. Caso ainda não tenhas lido, confira neste link.

Mais adiante, introduzimos o CRISP-DM, que serviu como bússola para desenvolver o nosso projeto de estudo de caso. Agora, com um modelo de aprendizado de máquina em mãos, é o momento de levá-lo à produção. Tudo pronto para embarcar nesta próxima fase da nossa aventura? Então vamos nessa.

Agenda:

Explorando MLOps: Uma visão abrangente
Entendendo Drift em Machine Learning: Uma breve introdução
Construindo um Pipeline de Desenvolvimento para Machine Learning

1. Explorando MLOps: Uma visão abrangente

Para profissionais que atuam no desenvolvimento de software, é amplamente reconhecido que ao implantar uma solução em produção, a adoção de práticas de DevOps é fundamental. No contexto de projetos de machine learning, a realidade não é diferente; para colocar uma solução em produção, recorremos a práticas de MLOps. Diria que MLOps é uma extensão do DevOps direcionada ao aprendizado de máquina, acredito que só com este argumento já dá para ter uma visão abrangente dessa abordagem.

Neste artigo veremos, como automatizar o cíclo de vida de desenvolvimento de um projeto ML usando ferramentas e práticas de MLOps. Abaixo, apresentamos uma lista das principais ferramentas que contribuem para a cultura de MLOps:

Cookiecutter: ferramenta de linha de comando que facilita a criação de projetos a partir de templates pré-definidos.
git/github: ferramentas de versionamento e hospegagem de código
Data version control (DVC): ferramenta projetada para gerenciar o versionamento de dados em projetos de ciência de dados e machine learning (não veremos aqui).
MLFlow: Registro e organização ( versionamento ) de experimentos de machine learning. Isso inclui a gravação de parâmetros, métricas e artefatos associados a um modelo durante o treinamento. ( usaremos apenas para o veriosnamento e gravação de artifatos ) - Docker: plataforma de código aberto que automatiza o processo de implantação de aplicativos dentro de container

Outras ferramentas:

Flask: framework para desenvolvimento de apps web e restfull em Python
Pytest: framework de teste em Python que facilita a escrita de testes unitários, de integração e funcionais
ReactJs: biblioteca JavaScript para a construção de interfaces de usuário

2. Entendendo Drift em Machine Learning: Uma breve introdução

Em machine learning, o termo drift refere-se a um fenômeno em que a distribuição dos dados utilizados para treinar um modelo de machine learning muda ao longo do tempo de maneira não esperada. Esse fenômeno pode ter um impacto significativo no desempenho do modelo, pois o modelo foi treinado com base em uma distribuição específica de dados, e sua eficácia pode diminuir quando confrontado com dados que diferem dessa distribuição original.

Existem dois tipos principais de drift em machine learning:

1. Drift de Conceito (Concept Drift): Isso ocorre quando a relação entre as variáveis de entrada e a variável de saída (rótulo) muda ao longo do tempo

2. Drift de Dados (Data Drift): Refere-se a mudanças na distribuição dos dados de entrada ao longo do tempo, ou seja, Se o modelo foi treinado em uma distribuição específica e é exposto a dados que não seguem mais essa distribuição, sua eficácia pode diminuir.

Abaixo, estão algumas práticas para prevenir drift em projetos de Machine Learning:

Monitoramento Contínuo
Re-treinamento Incremental (a importância desse tópico será abordada no próximo ponto)
Desenvolvimento de Modelos Robustos

3. Construindo um Pipeline de Desenvolvimento para Machine Learning

Pipeline em machine learning, refere - se a uma sequência de processos automatizados encadeados para realizar tarefas específicas, desde a preparação dos dados até a avaliação do modelo. O ciclo de vida de um modelo de machine learning não se encerra após o treinamento inicial e a implantação, como discutimos anteriormente, o cíclo de vida do projeto é transformado em um processo contínuo para evitar problemas como o Drift. É nesse contexto que os pipelines se destacam, essa abordagem sistemática é projetada para facilitar a reprodutibilidade, modularidade e eficiência no desenvolvimento e implementação de modelos de machine learning.

Os pipelines em machine learning geralmente incluem as seguintes etapas:

Coleta de Dados: Aquisição e importação dos dados necessários para treinar e testar o modelo.
Pré-processamento de Dados: Manipulação e limpeza dos dados brutos para torná-los adequados para treinamento de modelos
Engenharia de Recursos (Feature Engineering): Criação ou modificação de variáveis para melhorar o desempenho do modelo
Treinamento do Modelo: Utilização de algoritmos de machine learning para treinar o modelo nos dados preparados
Validação do Modelo: Avaliação do desempenho do modelo utilizando dados de validação ou testes
Ajuste do Modelo (Fine-Tuning): Ajuste dos hiperparâmetros do modelo para melhorar o desempenho.
Implantação: Colocação do modelo em produção para que ele possa ser usado para fazer previsões em dados novos

Já que estamos utilizando o scikit-learn em nosso projeto de caso de uso, então veremos na pratica a construção da pipeline usando esta ferramenta.

Conclusão

Agora que estabelecemos os fundamentos para a implantação de um projeto de machine learning, é importante recordar que abordamos temas cruciais, tais como MLOps, sua relevância, estratégias para evitar o drift em projetos de machine learning, e concluímos a discussão com o conceito de pipeline.

No próximo artigo, iremos colocar tudo isso em prática. Vamos construir nossa pipeline de machine learning, incorporando práticas de MLOps para automatizar o fluxo de re-treinamento e implantação do nosso modelo em produção. Até lá, cuide-se, e nos encontramos no próximo artigo.

Descomplicando Machine Learning - Parte IV

Jose Tandavala — Sat, 18 Nov 2023 16:52:32 +0000

Motivação

No ultimo artigo, falamos da importancia do CRISP-DM e vimos que o CRISP-DM emerge como uma estrutura proeminente, oferecendo uma abordagem sistemática e flexível para enfrentar os desafios complexos da mineração de dados. Também vimos que o CRISP-DM está subdividado em 6 parte, onde falamos das três primeiras fase e hoje vamos falar da quarta (Modelagem) e a Quinta fase (Evolutation) do CRISP-DM

Apesar que num projeto de machine learning gasta - se mas tempo na fase de preparação de dados, não é com isso que a fase da modelagem é a mais facil, pelo contrário dependendo da dimensão do projeto, modelagem é uma das fase complexa no ciclo de vida de desenvolvimento de um modelo de aprendezagem de máquina. E o nosso objectivo com este artigo de hoje é propor uma abordagem que pode servir de boilerplace na hora de fazer modelegam. Vamos á isso?

NOTA: Com o intuito de evitar que o artigo se transforme em um tutorial, iremos enfatizar apenas as partes essenciais. Para uma experiência mais completa ao seguir o artigo, não deixe de consultar o notebook do projeto.

4º Fase do CRISP-DM - Modelagem

Criar modelos em machine learning refere-se à etapa em que um modelo é desenvolvido usando algoritmos específicos e dados de trainamento para realizar tarefas específicas.

Na minha opinião, esta é a fase mais fascinante de um projeto de machine learning, pois é aqui que os elementos se entrelaçam para criar um produto utilizável pelo utilizador final. Para conduzir esta fase, vamos seguir os seguintes pontos:

Compreender a correlação entre a variável preditiva (o target) e as outras variáveis explicativas.
Preparar os dados para os algoritmos de machine learning.
Aplicar o dimensionamento de características (feature scaling)
Selecionar, treinar o modelo e avaliar o desempenho.

1. Compreender a correlação entre a variável preditiva (o target)

A correlação de dados em machine learning refere-se à medida estatística que avalia a relação entre duas variáveis. Essa relação pode ser positiva, negativa ou neutra, indicando como as variáveis mudam em relação uma à outra. A correlação é uma ferramenta crucial na fase de preparação de dados e na escolha de variáveis para construir modelos eficazes.

O coeficiente de correlação varia de –1 a 1. Quando está próximo de 1, significa que há uma forte correlação positiva; olhando no nosso exemplo, o valor médio das casas tende a subir quando a renda média aumenta. Quando o coeficiente está próximo de –1, significa que há uma forte correlação negativa como podem observar na imagem abaixo.

2. Preparar os dados para os algoritmos de machine learning

Quando abordamos a segunda fase do CRISP-DM, realizamos o carregamento do nosso conjunto de dados. Para uma compreensão mais aprofundada, essa etapa nos permitiu explorar a distribuição dos dados, enquanto lidamos com dados ausentes ao realizar imputações. Dessa forma, nosso conjunto de dados está pronto para as próximas fases.

Agora que percebemos a correlação entre os dados, uma das ações que tomaremos é a divisão dos dados, reservando 80% para o treinamento do modelo e 20% para testar o modelo treinado. Essa abordagem visa evitar tanto o subajuste (overfitting) quanto o sobreajuste (underfitting) do modelo em produção. No nosso caso, utilizamos a biblioteca scikit-learn, como mostrado no trecho de código abaixo.

from sklearn.model_selection import train_test_split

X_train, x_test, y_train, y_test = train_test_split(features, target, test_size=0.20, random_state=1)

3. Aplicar o dimensionamento de características (feature scaling)

Como observamos nas sessões anteriores, um conjunto de dados pode apresentar muitos atributos. No nosso caso, o conjunto de dados possui 9 atributos, e esses atributos podem ter magnitudes, variâncias, desvios padrão e médias diferentes. Por exemplo, a população pode estar na casa dos milhares, enquanto o preço pode estar na faixa de dois dígitos.

A discrepância nas escalas ou magnitudes dos atributos pode impactar o modelo. Por exemplo, variáveis com valores mais altos podem predominar sobre aquelas com valores menores em modelos lineares, como é o nosso caso. É ali onde entra a importancia do dimensionamento de características (feature scaling). Entretanto existem três abordagens comuns para o feature scaling:

Padronização (Standardization): Essa técnica ajusta os valores para ter uma média zero e um desvio padrão de um.
Normalização Min/Max (Min/Max Scaling): Redimensiona os valores para um intervalo específico, comumente entre 0 e 1.
Normalização pela Média (Mean Normalization): Ajusta os valores para ter uma média zero.

Considerando que já temos os dados separados em um conjunto de treino e outro de teste para evitar overfitting ou underfitting, optaremos pela primeira técnica: aplicar dimensionamento de características (feature scaling). A aplicação dessa técnica é bastante simples. Basta instanciar a classe e, em seguida, chamar o método fit_transform, que realizará o feature scaling automaticamente para nós, como demonstrado no trecho de código abaixo.

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
x_test = scaler.transform(x_test)

4. Selecionar, treinar o modelo e avaliar o desempenho

Finalmente! Nós definimos o problema, carregamos os dados e os exploromos, separamos um conjunto de treinamento e um conjunto de teste, aplicamos as devidas transformação agora estamos prontos para treinar o nosso modelo.

Antes de escolher um possivel algorimo, é importante saber o tipo de problema que estamos a resolver, pois este passo, vai indicar qual o algoritmo selecionar. No caso do aprendizado supervisionado temos dois tipo de problemas.

Regressão linear: A regressão linear é um método estatístico que busca estabelecer uma relação linear entre uma variável dependente (alvo) e uma ou mais variáveis independentes (características). O objetivo é criar um modelo que represente a relação linear entre essas variáveis, permitindo fazer previsões ou inferências sobre a variável dependente com base nas variáveis independentes,por exemple prever o preço de imóveis
Regressão logística: A regressão logística é um método estatístico utilizado para modelar a probabilidade de um evento ocorrer como uma função das variáveis independentes. Ela é particularmente adequada para problemas de classificação binária, onde o resultado desejado pode ser categorizado em duas classes, como sim OU não, positivo OU negativo, ou 1 OU 0, True OU False. por exemplo prever ser o paciente tem ou não covid-19

Uma vez que o problema que estamos modelando se enquadra na primeira categoria, vamos escolher entre uma série de algoritmos para treinar nosso modelo. Aquele que apresentar a melhor acurácia será selecionado para produção. Abaixo, vou listar os algoritmos selecionados:

Linear Regression
Decision Tree Regressor
Random Forest Regression
Support Vector Regression (SVR)

Para treinar nosso modelo, basta escrever o código abaixo, lembrando que vamos repetir até encontrarmos o melhor modelo.

from sklearn.linear_model import LinearRegression

lin_reg = LinearRegression()
lin_reg.fit(X_train, y_train)

y_pred = lin_reg.predict(x_test)

# Vamos selecionar um registo aleatório no conjunto de dados para testar
dado_entrada = scaler.transform(features.values[5].reshape(1, -1))
previsao = lin_reg.predict(dado_entrada)
previsao

Agora que treinamos e testamos vários modelos, é hora de escolher o melhor para colocarmos em produção. Antes de escolhermos o melhor modelo, realizamos alguns testes que nos levaram ao resultado conforme mostrado na imagem abaixo.

NOTA: Escolher o melhor modelo depende do objectivo, por exemplo:

Baixo MSE/MAE: Se o seu principal objetivo é realizar previsões precisas e minimizar erros, você pode preferir o modelo com o menor MSE ou MAE

Eficiência Computacional: Árvores de decisão geralmente são computacionalmente menos dispendiosas do que florestas aleatórias. Se houver restrições de tempo de computação, uma árvore de decisão pode ser uma opção mais rápida.

Interpretabilidade: Regressão Linear e Árvores de Decisão geralmente são mais interpretáveis do que Florestas Aleatórias. Se a interpretabilidade for crucial, você pode preferir esses modelos.

Trade-offs: A Floresta Aleatória aprimorada tem um MSE ligeiramente menor que a primeira instância, mas possui um RMSE maior. Considere os trade-offs entre diferentes métricas de erro.

Generalização: Certifique-se de que o modelo escolhido generalize bem para dados não vistos. Você pode querer usar técnicas como validação cruzada para avaliar o desempenho de generalização.

5ª Fase do CRISP-DM - Refinar o modelo e escolher a melhor abordagem possível.

Após o treinamento inicial, é possível que o modelo não atinja seu máximo desempenho. A etapa de refinamento, permite ajustar hiperparâmetros, modificar arquiteturas de rede ou fazer pequenas modificações no modelo para otimizar seu desempenho. Para esse demostração usamos o algoritmo Grid Search, para retreinar o algoritmo Random Forest Regression como mostro no trecho de código abaixo:

from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import GridSearchCV

param_grid = [
    {'n_estimators': [3, 10, 30], 'max_features': [2, 4, 6, 8]}, # Tente 12 (3×4) combinações de hiperparâmetros
    {'bootstrap': [False], 'n_estimators': [3, 10], 'max_features': [2, 3, 4]},# então tente 6 (2×3) combinações com o bootstrap definido como False
]

forest_reg = RandomForestRegressor(random_state=42)

# treine em 5 dobras, totalizando (12+6)*5=90 rodadas de treinamento
grid_search = GridSearchCV(forest_reg, param_grid, cv=5,
                        scoring='neg_mean_squared_error',
                        return_train_score=True)
grid_search.fit(X_train, y_train)

grid_search.best_params_

Após executar este trecho de código, obtemos os melhores parâmetros para retrainar nosso modelo e verificar se isso resulta em um desempenho aprimorado. Para mais detalhes, não deixe de consultar o notebook do projecto

Agora que identificamos os parâmetros ideais, resta-nos retrainar nosso modelo

forest_reg = RandomForestRegressor(max_features=6, n_estimators=30, random_state=42)
forest_reg.fit(X_train, y_train)

y_pred = forest_reg.predict(x_test)

Escolher o `modelo` para por em produção

No nosso caso, optaremos pelo modelo Support Vector Regression Machine, e a métrica que nos levou a essa escolha foi o baixo MSE. A alternativa seria o Random Forest Regression (aprimorado); no entanto, este modelo demanda considerável poder computacional em comparação com a opção escolhida

Conclusão

Hoje, abordamos as etapas 4 e 5 do CRISP-DM. Na prática, exploramos como identificar a correlação entre a variável dependente e as variáveis independentes, aprendemos a preparar os dados para os algoritmos de machine learning, aplicamos o dimensionamento de características (feature scaling), discutimos como selecionar, treinar o modelo e avaliar seu desempenho, e, por fim, refinamos o modelo para escolher a melhor abordagem possível.

No próximo artigo, colocaremos nosso modelo em produção, utilizando ferramentas como Docker para aproveitar o conceito de infraestrutura imutável, Flask para o backend, React JS para o frontend. Estou empolgado para levar nosso modelo à produção. E você, está animado? Sendo assim, nos vemos no próximo sábado. Cuide-se!

Descomplicando Machine Learning - Parte III

Jose Tandavala — Sat, 11 Nov 2023 06:32:24 +0000

Motivação

No último artigo da série, discutimos diversos desafios enfrentados por iniciantes na área, que vão desde crenças autolimitantes até a procrastinação, frequentemente justificada pela espera do momento ideal para iniciar uma carreira como engenheiro de machine learning. Agora, para aqueles que acabaram de chegar aqui por acaso, recomendo iniciar sua jornada lendo este artigo para se familiarizarem com o projecto.

Hoje, nossa jornada começa a ganhar impulso, e a partir de agora, vamos pôr a mão na massa. No final, completaremos o projeto funcional para enriquecer o portfólio de projetos paralelos. Para aceder o notebook do projeto, clique neste link. Minha recomendação é que abra seu próprio notebook e programe em paralelo comigo.

pre-requisito

Para quem deseja pôr a mão na massa comigo, há três opções disponíveis:

Utilize o Google Colab.
Utilize o Kaggle (minha recomendação).
Instale o Anaconda em seu computador

Entendendo CRISP-DM na prática

Segundo a wikipedia CRISP-DM é a abreviação de Cross Industry Standard Process for Data Mining, que pode ser traduzido como Processo Padrão Inter-Indústrias para Mineração de Dados. Ele descreve abordagens comumente usadas por especialistas em mineração de dados para atacar problemas.O CRISP-DM consiste em seis fases sequenciais, a saber:

Compreensão do negócio (Business understanding) – O que o negócio precisa?
Compreensão dos dados (Data understanding) – Que dados temos/precisamos? Estão limpos?
Preparação dos dados (Data preparation) – Como organizamos os dados para modelagem?
Modelagem (Modeling) – Quais técnicas de modelagem devemos aplicar?
Avaliação (Evaluation) – Qual modelo atende melhor aos objetivos do negócio?
Implantação (Deployment) – Como os interessados acessam os resultados?

Neste artigo veremos as fases 1, 2 e o 3 do CRISP-DM. Estás pronto para começar?

1. Compreensão do negócio

É fundamental compreender os objetivos e requisitos do negócio, pois isso permite a subsequente transformação desses objetivos em metas de mineração de dados. No notebook do projeto, durante a primeira fase do CRISP-DM, detalhamos minuciosamente os objetivos da fictícia empresa Vitari Imobiliárias. Ao final desta etapa, convertemos esses requisitos em metas específicas de mineração de dados, delineando o projeto da empresa para a construção de um modelo preditivo de aprendizado de máquina. Veja o print abaixo.

Minha sugestão é que você crie sua própria empresa fictícia e pratique cada fase do CRISP-DM, acompanhando-me com seu notebook aberto. Isso proporcionará uma experiência prática e enriquecedora.

2. Compreensão dos dados

Todo modelo de aprendizado de máquina é orientado a dados. No nosso caso, estamos abordando um problema no setor imobiliário, com foco no desenvolvimento de um modelo de aprendizado de máquina que prevê os preços de casas no estado da Califórnia, nos Estados Unidos. Para o efeito usamos o dataset da statlib, e quanto as ferramentas usamos o pandas para carregar os dados. Veja no print abaixo

Nesta fase do projeto, utilizamos os conceitos de análise de dados para criar gráficos fundamentais que auxiliam na compreensão e interpretação dos atributos do conjunto de dados. No final desse processo, por meio dos gráficos construídos, constatamos uma forte associação entre os preços dos imóveis e sua localização, destacando-se especialmente a proximidade ao mar e a densidade populacional.

3. Preparação dos dados

Esta é a fase do projeto em que o engenheiro de machine learning dedica mais de 80% do seu tempo, coletando os dados necessários, explorando-os para compreender sua qualidade, conteúdo e estrutura, e identificando possíveis problemas. No nosso caso, aqui estão os pontos que abordamos nesta fase:

Seleção de Características Relevantes: Identificamos as variáveis explicativas e a variável resposta cruciais para o nosso modelo.
Limpeza e Pré-processamento dos Dados: Realizamos a imputação de dados faltantes e aplicamos a codificação de rótulos (Label Encoding) em variáveis categóricas.
Transformação dos Dados para Formato Adequado aos Algoritmos de ML: Após separar e tratar os dados numéricos e categóricos, reintegramos ambos para formar um conjunto unificado, facilitando a criação das variáveis explicativas

Proximo passo

Para evitar que o artigo se torne extenso, encerraremos por hoje. Não deixe de acompanhar o código fonte do projeto para ver os conceitos do CRISP-DM na prática. No próximo artigo, abordaremos as partes 4 e 5 do CRISP-DM, e a parte 6 será discutida em um artigo separado já que vamos falar de implantação do nosso modelo de apredizando de máquina.

Conclusão

Hoje, iniciamos a exploração do CRISP-DM, reconhecendo-o como uma ferramenta fundamental para profissionais da área de dados. Essa metodologia desempenha um papel crucial na padronização do processo de mineração de dados, fornecendo uma estrutura robusta para orientar cada etapa do projeto.

Com o objetivo de pôr o CRISP-DM em prática, começamos a desenvolver um projeto (um modelo de aprendizado de máquina para prever preços de imóveis) que será progressivamente desenvolvido até a conclusão, abrangendo todas as fases. Este projeto representará uma oportunidade valiosa para aplicar os conceitos aprendidos, enfrentar desafios reais e aprimorar as habilidades práticas em mineração de dados. Estamos ansiosos para acompanhar esse desenvolvimento até a fase de depuração, consolidando assim o entendimento e a aplicação efetiva do CRISP-DM. Cuidem-se e até a próxima!

Descomplicando Machine Learning - Parte II

Jose Tandavala — Sat, 04 Nov 2023 07:21:03 +0000

Obstáculos que têm impedido as pessoas de iniciar uma carreira como engenheiro de machine learning

Bem-vindo à segunda parte da nossa série "Descomplicando Machine Learning". Na primeira parte desta série, exploramos a motivação por trás deste projeto. Também definimos o que é Machine Learning e, posteriormente, mergulhamos em alguns conceitos essenciais em ML. Entre esses conceitos, destacamos a Aprendizagem Supervisionada, a Aprendizagem Não Supervisionada e a Aprendizagem por Reforço.

Motivação

Hoje, falaremos de alguns obstáculos que têm impedido as pessoas de iniciar uma carreira como engenheiro de machine learning. Antes de começar, quero dar credito ao Prof. Jason Brownlee, PhD, pois grande parte do conteúdo deste artigo é baseado em seu trabalho intitulado "What Is Holding You Back From Your Machine Learning Goals?"

Identificar e Superar Suas Crenças Limitadoras Pessoais e, Finalmente, Fazer Progresso

Começar algo do zero não é fácil, ainda mais ao iniciar uma carreira em um mundo cheio de ruídos e inundado de informações. Mas tenho boas notícias: é possível superar os obstáculos que nos impedem de avançar. Segundo o Prof. Jason Brownlee, PhD, existem três tipos de obstáculos:

Crenças autolimitantes
Esperar o momento certo para começar
Esperando Condições Perfeitas

Crenças autolimitantes: São ideias que você assume como verdadeiras e que estão restringindo seu progresso. Isso geralmente começa com crenças que vão contra os objetivos que você estabeleceu ou os que deseja alcançar. No final do dia, você acaba acreditando mais nesse pensamento negativo do que no primeiro pensamento que o motivou a embarcar em um projeto ou jornada de sucesso.

Existem três tipos de crenças autolimitantes:

Se-então Crenças: por ex. Se eu começar a carreira de machine learning engineer, falharei porque não sou bom o suficiente
Crenças Universais: por ex. Todos os cientistas de dados têm doutorado. e são deuses da matemática
Crenças Pessoais e de Autoestima: por ex. Eu não sou bom o suficiente

Como diz o ditado, "um bom entendedor meia palavra basta". Isso significa que é essencial acreditar em nós mesmos e lutar pelos nossos sonhos. Um sábio já disse que tudo é possível para aqueles que acreditam. Fica a dica

Esperar o momento certo para começar: essa é uma das crenças mais difíceis de abandonar, pois geralmente traz consigo outros maus hábitos, sendo a procrastinação um deles. No caso de machine learning, acredita-se que é necessário primeiro se tornar um deus da matemática e estatística e, em seguida, dominar a programação de A a Z, para só então começar a estudar machine learning efetivamente. No entanto, quero lhe dizer que isso não é verdade. (De fato, o fato de você estar aqui já indica que está no caminho certo. Aqui, desenvolveremos alguns modelos que podem servir de inspiração para continuar praticando sem precisar antes ser o deus da matemática e estatística). O problema com esse tipo de crença é que o conhecimento prévio que você acredita precisar dominar na íntegra não é, na verdade, necessário para dar os primeiros passos. Para ser mais prático, você pode começar a desenvolver seu primeiro modelo de aprendizado de máquina sem ser um deus da matemática e estatística, pois essas ciências são tão vastas em escopo que mesmo especialistas no assunto não sabem tudo.

Abaixo estão algumas das crenças autolimitantes mais comuns sobre habilidades ou conhecimento prévio que devem ser adquiridos antes de você começar a se aventurar no mundo de machine learning.

Não posso iniciar uma carreira de machine learning engineer até...

...eu obter um diploma ou pós-graduação
...eu concluir um curso
...eu ser bom em álgebra linear
...eu entender estatísticas e teoria da probabilidade
...eu dominar a linguagem de programação R

Embora todos esses aspectos sejam importantes, eles não necessariamente precisam vir antes de você começar a praticar machine learning. É possível começar a desenvolver habilidades em machine learning desde o início e, à medida que você constrói sua base em desenvolvimento de modelos de aprendizado, pode estudar gradualmente cada tópico essencial, seja matemática ou estatística

Esperando Condições Perfeitas

Esta é uma crença autolimitante clássica, e não preciso entrar em detalhes sobre isso. Em vez disso, gostaria de compartilhar histórias inspiradoras de sucesso de pessoas que superaram essa crença e se tornaram exemplos para milhares de outras pessoas:

Mark Zuckerberg, fundador do Facebook, iniciou sua jornada com colegas de quarto em Harvard.
Larry Page e Sergey Brin começaram a Alphabet na garagem.
Valentina Vladimirovna Tereshkova, a primeira cosmonauta e a primeira mulher a ir para o espaço, cresceu em uma família humilde. Seu pai era um motorista de trator que desapareceu durante a Guerra Russo-Finlandesa em 1940. Valentina entrou na escola aos oito anos e começou a trabalhar em uma fábrica têxtil aos dezoito anos.

Essas histórias demonstram que o sucesso não espera por condições perfeitas. Elas nos inspiram a continuar, independentemente das circunstâncias iniciais, e a acreditar que podemos alcançar nossos objetivos. Portanto, faça um favor a si mesmo: deixe para trás a ideia de precisar de um computador poderoso ou de esperar terminar a faculdade para iniciar sua jornada. Simplesmente comece hoje.

Conclusão

Concordarias que leva tempo para se tornar habilidoso em qualquer coisa? Requer muita prática, repetição, dedicação e a crença de que você pode alcançar o sucesso. Portanto, quero estender um convite a você: deixe de lado o excesso de preocupações com as dificuldades, não se cobre demais e junte-se a mim nessa jornada na série "Descomplicando Machine Learning". Quem sabe, no final, você estará no ritmo, construindo um portfólio sólido e se inspirando com as dicas e exemplos que veremos aqui. Sendo assim, espero por você no próximo artigo, onde vamos falar sobre: CRISP-DM na prática. Até lá, cuide-se

Descomplicando Machine Learning - Parte II

Jose Tandavala — Sat, 04 Nov 2023 07:21:03 +0000

Obstáculos que têm impedido as pessoas de iniciar uma carreira como engenheiro de machine learning

Motivação

Identificar e Superar Suas Crenças Limitadoras Pessoais e, Finalmente, Fazer Progresso

Crenças autolimitantes
Esperar o momento certo para começar
Esperando Condições Perfeitas

Existem três tipos de crenças autolimitantes:

Se-então Crenças: por ex. Se eu começar a carreira de machine learning engineer, falharei porque não sou bom o suficiente
Crenças Universais: por ex. Todos os cientistas de dados têm doutorado. e são deuses da matemática
Crenças Pessoais e de Autoestima: por ex. Eu não sou bom o suficiente

Não posso iniciar uma carreira de machine learning engineer até...

...eu obter um diploma ou pós-graduação
...eu concluir um curso
...eu ser bom em álgebra linear
...eu entender estatísticas e teoria da probabilidade
...eu dominar a linguagem de programação R

Esperando Condições Perfeitas

Mark Zuckerberg, fundador do Facebook, iniciou sua jornada com colegas de quarto em Harvard.
Larry Page e Sergey Brin começaram a Alphabet na garagem.
Valentina Vladimirovna Tereshkova, a primeira cosmonauta e a primeira mulher a ir para o espaço, cresceu em uma família humilde. Seu pai era um motorista de trator que desapareceu durante a Guerra Russo-Finlandesa em 1940. Valentina entrou na escola aos oito anos e começou a trabalhar em uma fábrica têxtil aos dezoito.

Conclusão

Descomplicando Machine Learning - Parte I

Jose Tandavala — Wed, 01 Nov 2023 16:47:49 +0000

Motivação

Como programador, reconheço a importância do big data nos dias de hoje. Como deves saber, a velocidade com que geramos dados atualmente é sem precedentes. Aqui vai algumas estatísticas:

Segundo a Exploding Topics link

Aproximadamente 328,77 milhões de terabytes de dados são criados a cada dia
Cerca de 120 zettabytes de dados serão gerados este ano (2023)
Estima-se que serão gerados 181 zettabytes de dados em 2025

Simplesmente não há como não se impressionar com esses números. Não achas? Entretanto, nessa série de artigos, veremos como machine learning pode ajudar as empresas a extrair insights valiosos para ajudar a tomar decisões críticas informadas nos negócios e ajudar os demais a entender as tendências cada vez mais ferozes na geração contínua de dados.

Por esse motivo, estou começando uma série de artigos com o título "Descomplicando Machine Learning", com o objetivo de documentar e compartilhar os conhecimentos que estou adquirindo na área. Vamos começar?

Definição

Machine Learning (Aprendizagem de máquina) é um conjunto de regras e práticas que permite ao computador agir e tomar decisões baseadas em dados. Ainda podemos dizer que machine learning é um subcampo da inteligência artificial (IA) que se concentra no desenvolvimento de algoritmos e modelos estatísticos que permitem que computadores aprendam e façam previsões ou tomem decisões sem serem programados explicitamente.

Vale ressaltar que machine learning está presente em nosso dia a dia. Provavelmente, já está tão integrado em sua rotina que já nem percebes mais.

Vamos destacar alguns produtos de sucesso nos quais machine learning desempenha um papel fundamental: Google search (com suas recomendações de pesquisa), Youtube (com suas recomendações de vídeo), Twitter (que sugere pessoas para seguir), Spotify (que faz recomendações de músicas), Netflix (com suas sugestões de filmes) e Amazon (que sugere itens para comprar).

Entendendo as subdivisões da ML (machine learning)

A ciência tem uma tendência natural de se ramificar em diversas áreas, e ML não é diferente. No caso, temos dentro do mundo ML três ramificações principais:

A aprendizagem supervisionada;
A aprendizagem não supervisionada;
A aprendizagem por reforço.

Antes de detalharmos cada ponto dos tipos de aprendizagem de máquina, vale trazer um pouco de luz sobre o conceito de modelos

O que é um modelo

Em aprendizagem de máquina, um "modelo" é uma representação matemática ou estatística de um processo, sistema, fenômeno ou relação entre variávies. Esse modelo é criado com base em algoritmos e é treinado com dados para aprender a fazer previsões, tomar decisões ou extrair informações úteis a partir de novos dados. Um modelo pode ser considerado como uma simplificação da realidade que captura as características essenciais dos dados de trainamento.

Aprendizagem supervisionada

É um tipo de aprendizado no qual um modelo é supervisinado durante o treinamento, com base em exemplos rotulados.

Por exemplo, consideremos um modelo que prevê se um paciente tem ou não Covid-19. Para construir esse modelo, precisamos de um conjunto de dados de pacientes. A partir desses dados, extraímos dois grupos de variáveis: as variáveis explicativas, como idade, sexo, nome do paciente, presença de febre, tosse seca, etc.; e outro tipo de variável que chamamos de variável resposta. Neste caso, o valor da variável resposta pode ser positivo se o paciente tiver Covid-19 e negaivo caso contrário. A variável resposta é o rótulo que usamos no aprendizado supervisionado para treindar o modelo.

Aprendizagem não supervisionada

É o tipo de aprendizado em que o algoritmo é treinado em um conjunto de dados que não inclui rótulos.

Por exemplo, podemos usá-la para descobrir novos padrões em um conjunto de dados de uma loja de varejo, como classificar ou agrupar os clientes por região, volume de compras. O objetivo é agrupar itens ou objetos que compartilham padrões semelhantes.

Aprendizagem por reforço

Ao contrário da aprendizagem supervisionada, na qual os modelos são treinados com exemplos rotulados, e da aprendizagem não supervisionada, na qual os algoritmos descobrem padrões nos dados, a aprendizagem por reforço envolve um processo de tentativa e erros. O agente (computador) toma ações, recebe recompensas com base no feedback das tentativas (no caso positivo); no caso das negativas ajusta seu comportamento para otimizar as próximas tentativas ou o processo.

Por exemplo, imagine um robô semelhante a um ser humano que deseja aprender a andar de maneira eficaz. A tarefa do robô é manter o equilíbrio e dar passos para a frente. Este é um desafio complexo, pois o robô precisa constantemente ajustar seu equilíbrio para evitar quedas ou tropeços. Tudo isso é baseado no princípio de tentativa e erro, com recompensas associadas a ações corretas.

Conclusão

No início do artigo, exploramos a motivação que me levou a iniciar esta série de artigos com o tema: "Descomplicando machine learning". Em seguida, definimos o termo machine learning, e destacamos as suas subdivisões. Ainda destacamos alguns exemplos de produtos de sucesso que fazem uso de machine learning e que impactam a nossas vidas no dia a dia.

Espero que estejam tão emplogados quanto eu para a segunda parte deste artigo onde falaremos sobre obstáculos que têm impedido as pessoas de iniciar uma carreira como engenheiro de machine learning. Cuidem-se e até a próxima!

Node.js, Accept arguments from the command line

Jose Tandavala — Thu, 04 Feb 2021 05:15:21 +0000

When invoking a Node.js application on the terminal you can pass any number of arguments and arguments can be standalone or have a key and a value.

For example, let consider the below command

node app.js jose

What happens in a nutshell node.js expose an argv property, which is an array that contains all the command line invocation arguments.

The first element is the full path of the node command, the second element is the full path of the file being executed and all the additional arguments are present from the third position going forward, to check this out see the snippet below.

process.argv.forEach((val, index) => {
   console.log(`${index}:${val}`);
});

You can get only the additional arguments by creating a new array that excludes the first 2 params:

const args = process.argv.slice(2);

This said consider the below snippet

const args = process.argv.slice(2);
console.log(args);

We can execute this program now

node app.js jose

Here is the result

jose

Now that we know how to accept arguments from the command line, let us built a simple calculator on top of this knowledge

const args = process.argv.slice(2);
let result = 0;

if(args.length === 0){
    console.log('Pass two numbers to add');
    process.exit(1);
}
if(args.length <= 1){
    console.log('We need two numbers to add them');
    process.exit(1);
} 

args.forEach((value) => {
    result += parseInt(value);
});

console.log(`The sum of ${args[0]} with ${args[1]} is ${result}.`);

Running the app

node app.js 2 3

The result

The sum of 2 with 3 is 5.

I hope that you enjoy it, stay awesome!

How to Install OpenSSL from source code on Ubuntu 16.04

Jose Tandavala — Tue, 05 Jan 2021 05:38:46 +0000

SSL is the foundation of a secure internet and it protects our sensitive information as it travels across the world's computer network, in this article I will show you how to install OpenSSL from source code.

First, we need to download OpenSSL from the source, by doing this we can always have the last version running on our machine. To download it type the following command.

cd /usr/local/src/
sudo wget https://www.openssl.org/source/openssl-1.1.1c.tar.gz

Before we proceed, make sure that you have the necessary dependencies for building packages from the source code, go back to the terminal, and type the following.

sudo apt install build-essential checkinstall zlib1g-dev -y

The above command installs three packages build essential which is a reference for all packages needed to compile a Debian package, checkinstall is self-explanatory it is used to check if a given package is installed and zlib1g-dev library allows applications to conveniently read and write gzip compatible files.

Now that we have downloaded the source code and installed all the necessary dependencies packages, we need to extract the downloaded file using the command below, make sure that you are in the same directory where you have downloaded the file.

sudo tar -xf openssl-1.1.1c.tar.gz

After extracting the file, navigate to the extracted directory

cd openssl-1.1.1c

We are now going to install OpenSSL which we downloaded using the command below:

sudo ./config --prefix=/usr/local/ssl --openssldir=/usr/local/ssl shared zlib

sudo make
sudo make test
sudo make install

If no error, so far so good, now let us configure OpenSSL Shared Libraries, using nano text editor you can anyone of your choice.

cd /etc/ld.so.conf.d/
sudo nano openssl-1.1.1c.conf

This command will open nano text editor with an empty file, type the below text and save.

/usr/local/ssl/lib

Next, reload the dynamic link by issuing the command below:

sudo ldconfig -v

Last but not least, we need to configure OpenSSL binary, inserting the binary of our new version of OpenSSL installed (located at /usr/local/ssl/bin/openssl) to replace the default openssl binary (located at /usr/bin/openssl or /bin/openssl). But first, we need to backup the binary files.

sudo mv /usr/bin/c_rehash /usr/bin/c_rehash.backup
sudo mv /usr/bin/openssl /usr/bin/openssl.backup

Next we need to edit /etc/environment file using nano

sudo nano /etc/environment

With nano opened, let us update the /etc/environment file as the following after that we'll save the file.

PATH="/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/usr/games:/usr/local/games:/usr/local/ssl/bin"

Next, reload the OpenSSL environment and check the PATH bin directory using the commands below:

source /etc/environment
echo $PATH

We can now check and verify our installation of OpenSSL using the command below

which openssl
openssl version -a

Happy coding day!

DEV Community: Jose Tandavala

Descomplicando Machine Learning - Parte V

Motivação

Agenda:

1. Explorando MLOps: Uma visão abrangente

2. Entendendo Drift em Machine Learning: Uma breve introdução

3. Construindo um Pipeline de Desenvolvimento para Machine Learning

Conclusão

Descomplicando Machine Learning - Parte IV

Motivação

4º Fase do CRISP-DM - Modelagem

1. Compreender a correlação entre a variável preditiva (o target)

2. Preparar os dados para os algoritmos de machine learning

3. Aplicar o dimensionamento de características (feature scaling)

4. Selecionar, treinar o modelo e avaliar o desempenho

5ª Fase do CRISP-DM - Refinar o modelo e escolher a melhor abordagem possível.

Escolher o modelo para por em produção

Conclusão

Descomplicando Machine Learning - Parte III

Motivação

pre-requisito

Entendendo CRISP-DM na prática

1. Compreensão do negócio

2. Compreensão dos dados

3. Preparação dos dados

Proximo passo

Conclusão

Descomplicando Machine Learning - Parte II

Obstáculos que têm impedido as pessoas de iniciar uma carreira como engenheiro de machine learning

Motivação

Identificar e Superar Suas Crenças Limitadoras Pessoais e, Finalmente, Fazer Progresso

Esperando Condições Perfeitas

Conclusão

Descomplicando Machine Learning - Parte II

Obstáculos que têm impedido as pessoas de iniciar uma carreira como engenheiro de machine learning

Motivação

Identificar e Superar Suas Crenças Limitadoras Pessoais e, Finalmente, Fazer Progresso

Esperando Condições Perfeitas

Conclusão

Descomplicando Machine Learning - Parte I

Motivação

Definição

Entendendo as subdivisões da ML (machine learning)

O que é um modelo

Aprendizagem supervisionada

Aprendizagem não supervisionada

Aprendizagem por reforço

Conclusão

Node.js, Accept arguments from the command line

How to Install OpenSSL from source code on Ubuntu 16.04

Escolher o `modelo` para por em produção