Rodrigo Trindade

Posted on Apr 11, 2023

Tipos de Aprendizados de Machine Learning

#machinelearning #datascience #statistic

O leque de opções quando se trata de modelos de Machine Learning é gigantesco. Podendo até o levar o Cientista de Dados Iniciante a se perder facilmente ao tentar definir qual o modelo adequado para aplicar em seus projetos. Nesse contexto, conhecer os principais modelos e suas características pode ser de grande ajuda durante os estudos ou aplicações reais durante as suas análises.

Abaixo, listo alguns dos modelos supervisionados e Não supervisionados mais populares e suas características:

Aprendizado Supervisionado

O aprendizado supervisionado é uma abordagem de aprendizado de máquina em que o algoritmo é treinado a partir de dados rotulados, ou seja, dados que já possuem as respostas corretas (rótulos) para uma determinada tarefa. O objetivo é aprender a função que mapeia as entradas para as saídas com base nos dados rotulados fornecidos.

Em outras palavras, no aprendizado supervisionado, o algoritmo é fornecido com um conjunto de exemplos de entrada e a saída esperada para cada exemplo, e o objetivo é aprender uma função que possa generalizar esse conhecimento para novos exemplos não vistos. Por exemplo, um algoritmo de aprendizado supervisionado pode ser treinado para identificar se uma imagem contém um gato ou um cachorro com base em um conjunto de imagens previamente rotuladas.

Estes modelos podem ser divididos entre modelos de Regressão e Classificação

Modelos de Regressão

Modelo	Descrição
Regressão Linear Simples	um modelo em que a relação entre a variável dependente e a variável independente é linear e pode ser representada por uma equação de uma linha reta. Um exemplo de aplicação da regressão linear simples pode ser na previsão do preço de um imóvel com base em sua área. Nesse caso, a variável dependente seria o preço do imóvel e a variável independente seria a área do imóvel.
Regressão Linear Múltipla	um modelo em que a relação entre a variável dependente e duas ou mais variáveis independentes é linear e pode ser representada por uma equação de um hiperplano. Um exemplo de aplicação da regressão linear múltipla é na previsão do salário de um funcionário com base em várias variáveis independentes, como experiência, nível de educação e cargo.

Modelos de Classificação

Modelo	Descrição
Regressão Logística	um modelo usado para prever uma variável categórica binária (por exemplo, sim ou não) com base em uma ou mais variáveis independentes. Um exemplo de aplicação da regressão logística é na previsão da probabilidade de um cliente de um banco adquirir um novo produto financeiro, como um cartão de crédito, com base em variáveis como idade, renda, histórico de crédito e histórico de compras anteriores.
Árvores de Decisão	são modelos que dividem os dados de entrada em segmentos menores com base em regras de decisão que são determinadas por um algoritmo de aprendizado. As árvores de decisão são fáceis de interpretar e podem lidar com dados categóricos e numéricos. As árvores de decisão podem ser usadas em medicina para ajudar a diagnosticar uma doença com base nos sintomas do paciente. O modelo pode ser treinado usando informações como idade, sintomas, histórico médico e outros fatores para sugerir um diagnóstico.

Modelo

Descrição

Regressão Logística

um modelo usado para prever uma variável categórica binária (por exemplo, sim ou não) com base em uma ou mais variáveis independentes.

Um exemplo de aplicação da regressão logística é na previsão da probabilidade de um cliente de um banco adquirir um novo produto financeiro, como um cartão de crédito, com base em variáveis como idade, renda, histórico de crédito e histórico de compras anteriores.

Árvores de Decisão

são modelos que dividem os dados de entrada em segmentos menores com base em regras de decisão que são determinadas por um algoritmo de aprendizado. As árvores de decisão são fáceis de interpretar e podem lidar com dados categóricos e numéricos.

As árvores de decisão podem ser usadas em medicina para ajudar a diagnosticar uma doença com base nos sintomas do paciente. O modelo pode ser treinado usando informações como idade, sintomas, histórico médico e outros fatores para sugerir um diagnóstico.

Aprendizado Não Supervisionado

O aprendizado não supervisionado é uma subárea do aprendizado de máquina em que não há dados rotulados disponíveis para treinamento. Em outras palavras, não há um conjunto de dados de entrada e saída para o modelo aprender a prever. Em vez disso, o modelo é alimentado com dados brutos e deve encontrar padrões ou estruturas neles por conta própria. Algumas das técnicas aplicadas são Clustering, Redução de dimensionalidade e detecção de anomalias.

Clustering

Modelo	Descrição
Modelo Hierárquico	É uma técnica de análise multivariada usada para entender a estrutura subjacente dos dados e agrupá-los em clusters ou segmentos. O modelo hierárquico é construído usando uma abordagem passo a passo, onde os dados são agrupados em subgrupos menores e, em seguida, esses subgrupos são combinados em grupos maiores, até que todos os dados estejam agrupados em um único grupo. Os modelos hierárquicos são frequentemente usados em ciência de dados para agrupar clientes, produtos ou outras entidades em segmentos com base em suas características ou comportamentos. Esses segmentos podem ser usados para personalizar campanhas de marketing, recomendar produtos ou serviços e entender melhor o comportamento do cliente.
K-means	É um algoritmo de aprendizado não supervisionado de clustering que agrupa dados em k clusters, onde k é um número pré-definido pelo usuário. Inicialmente, o algoritmo seleciona aleatoriamente k pontos no conjunto de dados como os centróides iniciais dos clusters, depois atribui cada ponto de dados ao centróide mais próximo, por fim, o algoritmo recalcula o centróide de cada cluster com base nos pontos de dados atribuídos a ele e repete o processo até que todos os clusters sejam formados O modelo K-means tem várias aplicações em ciência de dados, como a segmentação de clientes em grupos com base em suas características, agrupamento de documentos em tópicos e detecção de anomalias em dados

Modelo

Descrição

Modelo Hierárquico

É uma técnica de análise multivariada usada para entender a estrutura subjacente dos dados e agrupá-los em clusters ou segmentos. O modelo hierárquico é construído usando uma abordagem passo a passo, onde os dados são agrupados em subgrupos menores e, em seguida, esses subgrupos são combinados em grupos maiores, até que todos os dados estejam agrupados em um único grupo.

Os modelos hierárquicos são frequentemente usados em ciência de dados para agrupar clientes, produtos ou outras entidades em segmentos com base em suas características ou comportamentos. Esses segmentos podem ser usados para personalizar campanhas de marketing, recomendar produtos ou serviços e entender melhor o comportamento do cliente.

K-means

É um algoritmo de aprendizado não supervisionado de clustering que agrupa dados em k clusters, onde k é um número pré-definido pelo usuário. Inicialmente, o algoritmo seleciona aleatoriamente k pontos no conjunto de dados como os centróides iniciais dos clusters, depois atribui cada ponto de dados ao centróide mais próximo, por fim, o algoritmo recalcula o centróide de cada cluster com base nos pontos de dados atribuídos a ele e repete o processo até que todos os clusters sejam formados

O modelo K-means tem várias aplicações em ciência de dados, como a segmentação de clientes em grupos com base em suas características, agrupamento de documentos em tópicos e detecção de anomalias em dados

Em resumo, Cada modelo tem suas próprias aplicações e limitações, e a escolha do modelo mais adequado depende dos objetivos do projeto, dos dados disponíveis e do tipo de problema a ser resolvido. É importante lembrar que o sucesso do modelo depende da qualidade dos dados e do processo de treinamento, bem como da capacidade do modelo de gerar outputs confiáveis para novos dados.

DEV Community