DEV Community: Beatriz Maia

Analisando meus dados da Netflix

Beatriz Maia — Thu, 12 Nov 2020 11:55:08 +0000

Aqui vamos nós para mais um post de Análise de Dados. Dessa vez mais incrível ainda, nós não vamos utilizar dados de outras pessoas para fazer uma análise, vamos utilizar nossos próprios dados. Incrível né?

Neste artigo você vai conseguir responder perguntas relacionadas à series e filmes assistidos por você.

Perguntas como:

Quanto tempo passei assistindo determinada serie ou filme?
Qual temporada eu mais assisti?
Quais foram os episódios mais assistidos?
Em quais dias da semana eu assisti mais episódios?
Em que hora do dia eu assisto episódios de Friends com mais frequência?

Primeiro vou começar fazendo uma Análise Exploratória geral nos dados. Depois irei filtrar os dados e analisar mais detalhadamente uma série de comédia que eu amo: Friends.

Vamos lá??

Para começar preciso dizer que esta análise foi inspirada em um artigo postado pelo Dataquest. Vou pedir para que vocês acessarem esse link, onde eles explicam o passo a passo para solicitar seus dados no site da Netflix. Além disso, você consegue ver a análise feita pelo autor do artigo.

Como de costume, começamos importando as bibliotecas necessárias. Aqui, para essa analise simples, foram utilizadas apenas essas três.

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

Conhecendo e Preparando os Dados

Vamos conhecer melhor nossos dados e prepara-los para a análise. Foram feitas transformações bem interessantes, tenho certeza que vai ser enriquecedor para você.
Depois de ler os dados que vieram no formato csv, vamos mostrar as 5 primeiras linhas do nosso DataFrame:

df = pd.read_csv('ViewingActivity.csv')
df.head()

Utilizando o .info() e .shape obtemos informações sobre nossas colunas e a quantidade de linhas e colunas, respectivamente.

df.shape

df.info()

Optei por eliminar algumas colunas que para minha analise não seriam interessantes.

Além disso também renomeei a primeira coluna, apenas substituindo o espaço no 'Start Time' por um underscore . E claro, verifiquei a existência de valores NaN.

df.drop(['Profile Name', 'Attributes', 'Supplemental Video Type', 'Device Type',
         'Bookmark', 'Latest Bookmark', 'Country'], axis=1, inplace=True)
df.head()

Convertendo tipo Object em Datetime e Timedelta

Os dados das colunas 'Start_Time' e 'Duration' parecem corretos, mas se você reparar bem eles não estão armazenados no formato correto. Podemos usar df.dtypes para obter uma lista dos tipos de dados de cada coluna do nosso dataframe:

df.dtypes

Todas as três colunas são armazenadas como object, o que significa que são strings. Isso não é bom para as duas colunas relacionadas ao tempo. Vamos converter essas duas colunas para trabalharmos com elas.

O objetivo é:

Converter Start_Time para Datetime (um formato de data e hora que o Pandas pode entender e realizar cálculos)
Converter Start_Time de UTC para nosso fuso horário local
Converter Duration para Timedelta (um formato de duração de tempo que o Pandas podem entender e realizar cálculos)

Começando com a conversão Start_Time para datetime usando pd.to_datetime()

Adicionamos o argumento opcional utc=True para que nossos dados de data e hora tenham o fuso horário UTC anexado a eles.
Agora que temos essa coluna no formato correto, é hora de alterar o fuso horário para o horário local.

Podemos converter data e hora para qualquer fuso horário usando o .tz_convert() e passando um argumento com a string para o fuso horário que queremos converter.

Obs: Precisamos realizar mais um passo. Só podemos usar .tz_convert() em um DatetimeIndex, portanto, precisamos definir a coluna Start_Time como o índice usando set_index().

Agora, vamos lidar com a coluna Duration. Em vez de convertê-lo em uma data e hora, precisamos convertê-lo em um Timedelta, que é uma medida de duração de tempo que o pandas entende.

Fazemos isso utilizando pd.to_timedelta()

Análise de Dados Gerais

Se notarmos bem, a coluna Title contém o nome da série(ou filme), temporada e título do episódio. Essas informações poderiam ser "quebradas" em novas colunas, concordam?

E foi exatamente isso que eu fiz no código abaixo utilizando str.split()

Além disso, decidi criar mais duas colunas a partir da coluna 'Start_Time'. Como temos data e hora, criei a coluna 'Weekday' que nos informa o dia da semana (Segunda=0, Domingo=6) e a coluna 'Hour' com o horário.

Podemos usar os métodos .dt.weekday e .dt.hour para fazer isso.

Quantas vezes foi dado play em cada série/filme?

Qual é o top 10 series/filmes mais assistidos?

Análise de Dados - Friends

Como dito anteriormente, irei fazer uma análise mais detalhada selecionando apenas registros relacionados à série Friends.

Para isso irei criar um outro DataFrame somente com registros onde 'Title_Name' é igual à Friends. Aqui você pode adaptar selecionando a sua série ou filme preferido.

Percebemos em nossa exploração de dados que, quando algo como uma prévia de um episódio é reproduzido automaticamente, ele conta como uma visualização em nossos dados.

Então, vamos filtrar nosso dataframe friends, limitando para apenas linhas onde o valor de Duration seja maior que dois minutos.

Respondendo mais algumas perguntas:

Quanto tempo passei assistindo Friends?

Confesso que esperava mais até haha.
Não sei vocês, mas eu tenho o costume dar play em alguma série enquanto faço outra coisa só para ter um "companhia" enquanto, por exemplo, lavo a louça, arrumo a casa, almoço, janto… Então na verdade, uma parte desse tempo nem foi assistindo ativamente.

Qual temporada de Friends eu mais assisti?

Caso você não saiba, a temporada 10 é a última temporada de Friends, está ai o porquê de ser a temporada que menos assisti, não gosto de ver os últimos episódios pois fico triste :(

Quais foram os episódios mais assistidos em Friends?

Mais um caso, apesar de simples, de como a análise de dados é incrível, eu não fazia ideia de que esse era o episódio que eu mais tinha assistido até então.

Qual dia da semana costumo assistir Friends?

print(friends.groupby('Weekday').agg({'Start_Time':'count'}))

# Monday=0, Sunday=6
plt.figure(figsize=(10,5))
ax = sns.countplot(x='Weekday', data=friends, color='blueviolet')
ax.set_title('Episódios de Friends assistidos por Dia da Semana', fontsize=17);

Sábado é o dia em que mais assisti episódio de Friends, mas veja como Quarta-Feira está bem próximo também.

Em que hora do dia eu assisto episódios de Friends com mais frequência?

print(friends.groupby('Hour').agg({'Start_Time':'count'}))

plt.figure(figsize=(10,5))
ax = sns.countplot(x='Hour', data=friends, color='blueviolet')
ax.set_title('Episódios de Friends assistidos por Hora', fontsize=17);

Por essa eu já esperava… Como eu disse, costumo assistir episódios enquanto estou almoçando, isso justifica o porque dessa barrinha tãao grande no horário de 12h.

Aqui você encontra a minha análise no GitHub: https://bit.ly/2Uo7JL5

Espero que vocês tenham gostado do post e da análise, foi algo simples, mas creio que consegui mostrar como conseguimos usar essas técnicas para saber mais sobre nossos gostos e hábitos.
Não esqueçam de conferir meus posts no LinkedIn e me seguir por lá ♥

Contatos:

[LinkedIn]: https://www.linkedin.com/in/beatrizmaiads/
[GitHub]: https://github.com/beatrizmaiads
[Instagram]: https://www.instagram.com/beatrizmaiads/
[Dev.to]: https://dev.to/beatrizmaiads

Analisando os dados do Airbnb - Rio de Janeiro #5

Beatriz Maia — Tue, 01 Sep 2020 20:15:50 +0000

Para o post de hoje resolvi trazer um projeto de análise de dados utilizando os dados do Airbnb - Rio de Janeiro. Nesse post, quero mostrar um pouco como é feita uma análise de dados. Espero que goste :)

Claro que como boa carioca escolhi os dados do meu RJ rs

Se você ainda não conhece o Airbnb, saiba que essa empresa só vem ganhando o coração dos viajantes, mas caso você não conheça trago uma breve explicação do que o Airbnb oferece.

Airbnb é um serviço online comunitário para as pessoas anunciarem, descobrirem e reservarem acomodações e meios de hospedagem.

O Airbnb permite aos indivíduos alugar todo ou parte de sua própria casa, assim os anfitriões conseguem transformar um cômodo extra ou uma casa extra em uma graninha. O site fornece uma plataforma de busca e reservas entre a pessoa que oferece a acomodação e a pessoa que busca pela locação.

Vamos para as análises?

Vamos começar pelo nosso clássico import de bibliotecas, aqui como vamos fazer apenas uma análise, acaba que não temos muitas bibliotecas para importar, mas espera só vir posts de projetos de Machine Learning para vocês verem o quão cheia essa célula vai ficar rs

!pip install missingno 

# importar os pacotes necessários
%matplotlib inline
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import missingno as msno  

# configurar as visualizações
sns.set_style('darkgrid')
sns.set_palette('Accent')

Ali em cima também fiz o !pip de uma biblioteca que iremos utilizar para visualizar, através de um gráfico, as colunas com dados faltantes do nosso dataset.

O próximo passo é carregador os nossos dados para dentro de um DataFrame.
Como temos um arquivo csv, vamos utilizar o pd.read_csv, como mostro abaixo:

# obtendo os dados
data_path = 'http://data.insideairbnb.com/brazil/rj/rio-de-janeiro/2020-04-20/visualisations/listings.csv'

df = pd.read_csv(data_path)
df.head()

Além disso, como a função .head() conseguimos mostras as 5 primeiras linhas do nosso DataFrame. Caso você queira mostrar mais que 5 linhas, basta colocar a quantidade de linhas dentro dos parênteses :) O default da função é mostrar apenas 5 linhas.

Algo que gosto de acrescentar nos projetos é o Dicionário de Variáveis. Ele nos diz o que é cada variável. Isso é ótimo para conhecermos melhor os nossos dados e com certeza vai nos ajudar nas análises.

Análise Exploratória de Dados

Nesse projeto eu fiz uma série de perguntas e fui respondendo com os códigos. Na época, eu estava iniciando os estudos e fazer isso me ajudou bastante a entender um pouco como uma análise deve ser feito, quais respostas eu devo trazer ao projeto.

Quantos atributos/variáveis/colunas e quantas entradas/linhas possui o nosso dataframe?

print('DIMENSÕES DO DATAFRAME:')
print(f'Linhas:  {df.shape[0]}')
print(f'Colunas:  {df.shape[1]}')

O .shape nos retorna uma tupla representando a dimensionalidade do DataFrame. (linhas, colunas)
Para acessar o primeiro elemento dessa tupla eu utilizei o [0] e para acessar o segundo elemento utilizei o [1] junto do .shape

Quais são os tipos de dados (dtypes) das nossas variáveis?

df.dtypes
df.dtypes.value_counts()

A propriedade .dtypes retorna uma série com o tipos de dado de cada coluna.

Se você quiser saber quantas colunas de cada tipo de dados esse dataframe possui e não quer ficar contando na mão, utilize o método .value_counts()

Nosso dataset possui valores ausentes?

df.isna().any()
df.isna().sum() 

# visualização das entradas de cada coluna
msno.bar (df, figsize = (10,5));

#eliminando a colunaneighbourhood_group
df.drop('neighbourhood_group', axis=1, inplace=True)

Para “perguntar” ao dataframe se existe alguma coluna com valor NaN, utilizamos o .isna().any(). Ele irá retornar True ou False para cada coluna.

E para saber quantos valores ausentes cada coluna possui, utilizamos .isna().sum()

Lembra da biblioteca missingno que importamos? Então, ela nos traz mais uma forma de visualizar os dados faltantes de cada coluna.

Como vimos anteriormente, nosso dataset possui 35.870 entradas. E analisando os valores ausentes no comando anterior notamos que a variável neighbourhood_group não tem dados. Sendo assim, ela não acrescentará em nada na nossa análise, com o .drop() eliminei essa variável do DataFrame.

Histograma das Variáveis

Você sabe o que é um histograma?
O histograma, também é conhecido como distribuição de frequências, é a representação gráfica em colunas ou em barras de um conjunto de dados. Se você quer entender melhor sobre, clique aqui.

# análise visual das variáveis númericas através de um gráfico de frequências (histogramas)
df.hist(bins=15, figsize=(15,10));

Notamos que há índicios da presença de outliers nos nossos dados, como vemos nas colunas price, minimum_nights e calculated_host_listings_count. Um dos indícios é o fato de não conseguirmos visualizar uma distribuição porque possivelmente os outliers, se presentes, estão distorcento a representação gráfica.

Detecção de Outliers

# visualizando um resumo estatístico das variáveis númericas
df[['price', 'minimum_nights', 'number_of_reviews',      'reviews_per_month', 'calculated_host_listings_count', 'availability_365']].describe().round(2)

Esse método traz muitas informaçãoes relevantes para a análise exploratória. Como média das colunas, o valor mínimo e máximo, seus quartis e também o valor do desvio padrão. Muitas vezes conseguimos visualizar possíveis outliers por aqui.

Pontos principais da análise feita através do método describe:

O valor mínimo da variável price é 0
O valor máximo da variável price é 131.727
O valor máximo da variável minimum_nights é 1.123
O valor máximo da variável calculated_host_listinings_count é 200

Boxplot das variáveis que possivelmente apresentam outliers

Em estatística descritiva, diagrama de caixa, diagrama de extremos e quartis, boxplot ou box plot é uma ferramenta gráfica para representar a variação de dados observados de uma variável numérica por meio de quartis. Wikipédia

Boxplot da variável minimum_nights

plt.figure(figsize=(15,3))
sns.boxplot(data=df, x='minimum_nights')
plt.title('Boxplot minimum_nights')
plt.show() 

# ver quantidade de valores acima de 30 dias para minimum_nights
print(f'[minimun_nights]\nValores acima de 30:{len(df[df.minimum_nights > 30])} entradas')

print('Porcentagem: {:.4f}%'.format(len(df[df.minimum_nights > 30])/ len(df.minimum_nights)* 100))

Temos 224 entradas com minimum_nights acima de 30, o que corresponde a 0.62% dos dados.

Boxplot da variável Price

plt.figure(figsize=(15,3))
sns.boxplot(data=df, x='price')
plt.title('Boxplot price')
plt.show() 

# ver quantidade de valores acima de 1500 para price
print(f'[price]\nValores acima de 1500: {len(df[df.price > 1500])} entradas')
print('Porcentagem: {:.4f}%'.format(len(df[df.price > 1500])/ len(df.price) * 100)

Temos 3.360 entradas com Price acima de 1.500, o que corresponde a 9.36% dos dados.

Histograma sem Outlier

Depois de identificar os outliers, vamos plotar novamente o histograma para visualizarmos os dados limpos.

# histogramas com valores de minimum_nights menor que 30 e price menor que 1500
df_clean = df.copy()
df_clean = df_clean.query('minimum_nights < 30 & price < 1500')
df_clean.hist(bins=15, figsize=(15,10));

Correlação existente entre as variáveis

Correlação é a relação estatística entre duas variáveis. Os coeficientes de correlação são métodos estatísticos para se medir as relações entre variáveis.

Calculamos o coeficiente de correlação com a função .corr()

Irei apresentar essa correlação através de uma matriz e de uma forma mais visual através de um heatmap (mapa de calor).

corr = df_clean[['price', 'minimum_nights', 'number_of_reviews', 'reviews_per_month',
'calculated_host_listings_count', 'availability_365']].corr() 

#plotando a matriz de correlação
sns.set_context("notebook", font_scale=1.0, rc={"lines.linewidth": 2.5})
plt.figure(figsize=(10,5))

#criando uma máscara para ver apenas os valores de correlação uma vez
mask = np.zeros_like(corr)
mask[np.triu_indices_from(mask, 1)] = True
a = sns.heatmap(corr, mask=mask, annot=True, fmt='.2f')
rotx = a.set_xticklabels(a.get_xticklabels(), rotation=90)
roty = a.set_yticklabels(a.get_yticklabels(), rotation=30)

Qual é o tipo de hospedagem mais alugado?

# a quantidade de cada tipo de imóvel disponível
df_clean['room_type'].value_counts() 

# porcentagem de cada tipo de imóvel disponível
df_clean['room_type'].value_counts() / len(df_clean)

Qual é a localidade mais cara?

# média de preço do top 10 localidades mais caras
df_clean.groupby('neighbourhood')['price'].mean().sort_values(ascending=False)[:10] 

# contagem de imóveis por localidade
df_clean['neighbourhood'].value_counts()

Observação: Como podemos ver existem bairros com mais imóveis alugados, o que pode influenciar diretamente na média de preços por localidade.

Plotando os imóveis pela latitude-longitude

df_clean.plot(kind='scatter', x='longitude', y='latitude',

alpha=0.4, c=df_clean['price'], s=8, cmap=plt.get_cmap('jet'),

figsize=(12,8));

Conclusões:

Aqui foi feita uma análise superficial sobre os dados disponíveis no arquivo citado anteriormente. Para uma análise mais completa recomendo que seja utilizado o dataset que contém mais variáveis/atributos.
Conseguimos identificar valores ausentes e outliers, fazer seu tratamento, plotamos alguns gráficos para análise e no final conseguimos responder algumas perguntas.
Link do projeto no GitHub: https://bit.ly/3fHgAzX
Link do projeto no Google Colab: https://bit.ly/3hQ18Da

Contatos:

[LinkedIn]: https://www.linkedin.com/in/beatrizmaiads/
[GitHub]: https://github.com/beatrizmaiads
[Instagram]: @beatrizmaiads
[Dev.to]: https://dev.to/beatrizmaiads
[Medium]: https://medium.com/@beatrizmaiads
[E-mail]: beatrizmaiads@outlook.com

O que é um Podcast? + Dicas de Podcasts sobre tecnologia #4

Beatriz Maia — Mon, 17 Aug 2020 20:20:36 +0000

Hoje eu vou falar um pouco sobre uma das formas que eu mais gosto de ficar atualizada sobre as notícias e também para estudar sobre a minha área.

Você provavelmente já deve ter ouvido falar sobre os podcasts, mas eu quero saber, você já escutou algum?
Se não, hoje eu te convido a entrar nesse mundo. E para isso eu vou listar alguns podcasts sobre tecnologia que podem ser a porta de entrada para você se apaixonar por esse mundo.

Primeiro, o que é um Podcast?

Acho que a forma mais fácil de explicar é: podcast é um conteúdo de mídia (áudio) que funciona como um programa de rádio, só que com algumas vantagens.

Você pode escutar podcasts a hora que você quiser. Além de poder dar pausas, voltar os minutos, avançar os minutos, acelerar a velocidade do áudio...
E além de tudo, você pode criar um podcast seu para compartilhar o que você quiser.
Existem podcasts de vários temas, como: tecnologia, esporte, notícias no geral, comédia e entretenimento, lifestyle, histórias, games, kids, relaxamento e outros...

Eu particularmente adoro escutar no trânsito, arrumando a casa, lavando a louça ou naquele tempinho que você consegue tirar só para relaxar e escutar o episódio de um tema que você gosta para se distrair.

Tá, mas onde eu escuto esse trem?

Aqui você não precisa sintonizar em nenhuma estação, você pode acessar seus podcasts favoritos de diversas formas.
Se você já utiliza o Spotify, você pode escutar por lá mesmo, tanto pelo aplicativo para celular quanto no seu navegador através do site open.spotify.com.
Existe uma aba somente para esse tipo de conteúdo na plataforma.

Agora, se você utiliza outro serviço de streaming de áudio(Google Podcasts, Deezer, Overcast e outros) não tem problema, você também irá encontrar uma seção dedicada a podcasts.

Agora vamos para as dicas?

Aqui eu vou listar as minhas humildes indicações de podcasts sobre tecnologia, sinta-se a vontade para indicar outros nos comentários ♥

Start Coding (nesse inclusive eu irei participar como host de alguns episódios, ele nasceu hoje e no primeiro episódio você pode conhecer um pouco mais sobre a nossa iniciativa)
Hipsters Ponto Tech
Bit de Prosa
Data Hackers
Pizza de Dados
TradingCast
PodProgramar
Coluna7
Ciência Pod
Loop Matinal
Mario Filho - Data Science/Machine Learning
Data Science Academy
Cabeça de Lab
Depois do Café
Carreira sem Fronteiras
MIT Technology Review Brasil

Espero que você escute e goste de pelo menos um (acho díficil gostar de só um rs) desses podcasts. Em posts futuros pretendo trazer indicações de outros temas também.

Contatos:

[LinkedIn]: https://www.linkedin.com/in/beatrizmaiads/
[GitHub]: https://github.com/beatrizmaiads
[Instagram]: @beatrizmaiads
[Dev.to]: https://dev.to/beatrizmaiads
[Medium]: https://medium.com/@beatrizmaiads
[E-mail]: beatrizmaiads@outlook.com

Tipos de Aprendizado de Máquina #3

Beatriz Maia — Fri, 14 Aug 2020 21:12:36 +0000

Fazendo um link (literalmente rs) com o post da semana passada, o post de hoje será destinado a explicar um pouco melhor sobre os tipos de Aprendizado de Máquina.
Sempre tentando trazer o conteúdo de maneira visual para facilitar o entendimento e claro, com a ajudinha de alguns gifs para deixar tudo mais divertido.

As máquinas podem aprender de formas diferentes e hoje você irá entender como isso é possível.

Aprendizado Supervisionado (Supervised Learning).

No Aprendizado Supervisionado, os dados são apresentados ao algoritmo com os dados de entrada e com os resultados que acompanha aquele conjunto de dados, isso tudo para auxiliar no aprendizado.

Se você pensar bem, de certa forma, o seu aprendizado também foi supersionado. Como assim?
Bom, quando você era jovem nesse mundo e não precisava pagar boletos e ter preocupações (saudades né?), muito provavelmente alguém chegou para você e disse "olha ali o au au" enquanto apontava para um cachorro ou cachorra. Então tinhamos ali alguém te ajudando a aprender que animal era aquele. E com o tempo você foi aprendendo as características de cada animalzinho e foi ficando mais fácil identificar cada um, mas para isso você teve que ter contato com uma quantidade de dados considerável para esse seu aprendizado ser eficiente.

Essa é uma analogia que você pode considerar até boba, mas é bem utilizada para explicar superficialmente como alguns algoritmos funcionam.

Agora vamos para um outro exemplo, dessa vez algo mais parecido com o que você pode encontrar por ai. Vamos supor que estamos trabalhando em cima de um conjunto de dados referente a imóveis de uma região do Rio de Janeiro e precisamos prever o valor de aluguel de imóveis dessa região.

Dentro desse conjunto de dados temos algumas características desses imóveis, como quantidade de quartos, quantidade de banheiros, se possui garagem, renda média de quem alugou aquele imóvel e etc… E além disso, também é fornecido o valor de aluguel daquele imóvel em questão.

Aqui nós temos algumas características dos imóveis, além do valor de aluguel representado na coluna Valor. Esse é um típico caso de Regressão, onde queremos prever um valor contínuo, como nesse caso, o valor do aluguel.

Outro exemplo, é o filtro de Spam, ele é treinado com muitos exemplos de emails junto a suas classes (spam ou não spam) e conforme novos dados são fornecido a este modelo, ele consegue fazer a Classificação pois já foi ensinado a reconhecer padrões dentro daquelas classes (spam ou não spam).
O Aprendizado Supervisionado aprende com os dados já rotulados.

Algoritmos comuns nesse tipo de Aprendizado:

K-NN (K-Nearest Neighbours).
Decision Tree e Random Forest (Árvores de Decisão e Florestas Aleatórias).
Regressão Linear.
Regressão Logística.
SVM — Máquinas de Vetores de Suporte.

Aprendizado Não Supervisionado (Unsupervised Learning).

No Aprendizado Não Supervisionado, os dados forncedidos para o treinamento do modelo não são rotulados. O modelo tenta aprender sem um supervisor.

Vamos supor que você tenha um e-commerce e que tenha um volume muito grande de dados sobre os visitantes do seu site. Como já foi dito, dados são informações, você pode fazer inferências em cima desses dados. Nesse caso, você pode querer aplicar um algoritmo de clustering para detectar grupos de visitantes semelhantes para tentar identificar comportamentos parecidos em relação as compras do seu site. Como esses dados não são rotulados, você não tem a informação de quais grupos existem e nem em qual grupo cada visitante pertence. O algoritmo tentará encontrar essas conexões sem a sua ajuda, sem a sua supervisão.

Alguns algoritmos desse tipo de Aprendizado:

Clustering:

Clustering Hierárquico(HCA)
k-Means Aprendizado da regra de associação:
Apriori
Eclat

Aprendizado Semi-Supervisionado (Semi-Supervised Learning).

O google fotos é um bom exemplo desse tipo de aprendizado e você já deve ter notado isso nas suas fotos em família ou amigos. O serviço carrega todas as suas fotos e automaticamente reconhece as pessoas que estão ali. Por exemplo, ele reconhce que a pessoa A aparece nas fotos 1, 3 e 5, enquanto a pessoa B aparece nas fotos 2, 4 e 6. O algoritmo faz um agrupamento, sendo assim a parte não supervisionada. Já a parte supervisionada é quando você precisa rotular aquelas pessoas, ou seja, dizer ao aplicativo quem são aquelas pessoas.

Aprendizado por Reforço (Reinforcement Learning).

Aqui o sistema de aprendizado é chamado de agente. Esse agente irá interagir com o ambiente externo para realizar uma ação e atingir um determinado objetivo. O ambiente irá recompensar ou punir o agente de acordo com suas ações. E assim, com base no feedback que ele recebeu por ter executado tal ação, ele aprenderá por si só qual é a melhor estratégia a seguir.

Você já deve ter ouvido falar da AlphaGo, uma inteligência artificial desenvolvida para jogar um jogo chamado Go e que durante uma disputa, venceu o campeão mundial Ke Jie no jogo. O AlphaGo analisou milhões de jogos e depois praticou muito contra si mesmo para atingir esse resultado. Leia mais sobre aqui..

Referências:

Livro Mãos à Obra: Aprendizado de Máquina com Scikit-Learn & TensorFlow
Livro Hands-On Deep Learning Algorithms with Python

Contatos:

[LinkedIn]: https://www.linkedin.com/in/beatrizmaiads/
[GitHub]: https://github.com/beatrizmaiads
[Instagram]: @beatrizmaiads
[Dev.to]: https://dev.to/beatrizmaiads
[Email]: beatrizmaiads@outlook.com

O que é Inteligência Artificial, Data Science, Machine Learning e Deep Learning? Primeiros Passos #2

Beatriz Maia — Sat, 08 Aug 2020 04:27:29 +0000

Acho que um bom começo, antes de chegar aqui postando projetos finalizados, seria apresentar os conceitos de Inteligência Artificial, Data Science, Machine Learning e Deep Learning.
Vejo que no início muitas pessoas acabam tendo um pouco de dificuldade de entender as diferenças de cada área. Espero que com esse post eu consiga ajudar a esclarecer as coisas para você.

Artificial Intelligence (Inteligência Artificial):

Para começar a falar sobre IA é necessário primeiro falarmos sobre o processo de transformação digital que vem acontecendo nos últimos tempos. Mas o que essa transformação digital provocou? O que ela transformou?

Bom… praticamente tudo. Quem aqui nunca pediu uma comidinha no final de semana pelo ifood? Quem nunca se pegou, enquanto planejava uma viagem, comparando os preços dos hoteis com os preços oferecido pelo airbnb? Ou se pegou pedindo um uber?
Essas e outras formas de agir vem sendo mudadas com o avanço da tecnologia e com as empresas ditas como disruptivas.

Junto com isso a produção de dados cresceu e MUITO. Só para ter uma noção, vou deixar aqui abaixo uma imagem que mostra a quantidade de dados gerados em 60 minutos, no ano de 2019, por alguns aplicativos bem conhecidos que com certeza você utiliza no seu dia a dia.

E ai, vocês tinham noção desse número? Pois eu fiquei bem surpresa.

Data Science (Ciência de Dados):

Você provavelmente já deve ter ouvido falar que Data Science é "o emprego mais sexy do século 21". Hey, não sou eu que tô falando…

Vou deixar o artigo aqui para você conferir.

Data Science é só computação? Não!!! Apenas formados em T.I trabalham nessa área? Não mesmo.

Data Science é a soma de algumas áreas como matemática, programação, estatística… Aqui precisamos ter (ou desenvolver) a capacidade de solucionar problemas e claro, ter um entendimento de negócio. Já deu pra perceber que estamos falando de um(a) profissional multidisciplinar, não é?

A pessoa Cientista de Dados é responsável por transformar dados em informações úteis que podem auxiliar as empresas no processo de tomada de decisão. Muitas vezes essa pessoa responde perguntas que antes nem mesmo tinham sido formuladas.

As funções de um/uma Cientista de Dados podem variar de acordo com a empresa em que trabalha e o seu nível. Mas a pessoa Cientista de Dados utiliza modelos estatísticos, algoritmos de Machine Learning e outras ferramentas e estratégias para obter e trabalhar em cima dos dados.
O que muita gente não sabe é que os dados não chegam prontos da sua fonte, um trabalho minucioso precisa ser feito. Eles precisam ser tratados e modelados para se chegar no resultado que se espera.

Machine Learning (Aprendizado de Máquina):

Vou utilizar a definição que encontrei em um livro de Machine Learning (Aprendizado de Máquina com Scikit-Learn & TensorFlow) que gosto muito:

*"Aprendizado de Máquina é a ciência (e a arte) da programação de computadores para que eles possam aprender com os dados.

Veja uma definição um pouco mais abrangente:

Aprendizado de Máquina é o campo de estudo que dá aos computadores a habilidade de aprender sem ser explicitamente programado. - Arthur Samuel, 1959"
Géron, Aurélien. Mãos à Obra: Aprendizado de Máquina com Scikit-Learn & TensorFlow.*

Como já foi dito anteriormente, milhões de dados são gerados a cada minuto e uma coisa que você precisa entender é que dado é informação e que além de ser informação por si só, ele pode te trazer ainda mais informações quando analisados de forma correta.

Os dados podem dizer muito sobre o gosto dos seus clientes. Por exemplo, o que eles gostam de consumir e até o que de acordo com o histórico de compras dele (ou de outras pessoas com gosto similar) iria ser interessante de ser apresentado a ele através de um anúncio.

Um exemplo muito utilizado para exemplificar o que pode ser feito através do Aprendizado de Máquina é a classificação de e-mails em spam e não spam. Isso mesmo, o filtro de spam do seu e-mail é um programa de A.M. Assim, com base nos e-mails já conhecidos e rotulados como spam e não spam, o nosso modelo consegue aprender com esses dados e classificar os novos e-mails de forma correta (bom, é isso que a gente espera né).

É claro que conseguimos fazer mais coisas com os algoritmos de A.M. Além de classificar, também podemos prever valores, como prever o valor do aluguel de um imóvel com base nas suas características (nº de quartos, banheiros, se possui garagem e etc) e também podemos fazer agrupamentos, para fazer uma segmentação de clientes por exemplo.

Para se chegar em um modelo que performa bem, um caminho com alguns passos precisa ser percorrido, precisamos entender o problema, obter os dados, conhecer melhor esses dados, tratar esses dados e etc… Além disso, existem tipos de Aprendizado de Máquina, como o Aprendizado Supervisionado e o Não Supervisionado (já dando um spoiler, esse será o assunto do próximo post rs).

Aqui estou citando alguns exemplos para tornar o seu entendimento mais claro, mas pretendo trazer conteúdos detalhados a certa dos modelos que podem ser criados e que soluções eles podem trazer.

Deep Learning (Aprendizado Profundo):

O Deep Learning vem sendo muito utilizado por grandes empresas como Amazon, Microsoft, Google e outras principalmente para classificação, reconhecimento de voz e reconhecimento de imagem.
Explicando de uma forma mais simples, o Deep Learning é um ramo dentro do Machine Learning voltado à análise mais aprofundada de dados e em um volume muito mais amplo de dados.

O principal objetivo é permitir que as máquinas aprendam a observar padrões e correlações em um grande volume de dados e tentar reproduzir com esse aprendizado, o funcionamento das redes neurais do cérebro humano.

Esse aprendizado é feito através de múltiplas camadas e envolve diversos neurônios que utilizam funções matemáticas no seu interior.

Um assunto tão lindo e amplo merece um post mais explicativo só para si, então em breve entraremos a fundo (olha a piadinha rs) dentro do Deep Learning.

Esse foi um post mais básico onde quis trazer os principais conceitos das áreas e tecnologias que você já deve ter ouvido falar por ai. Aqui damos inicio a nossa caminhada no mundo dos 🎲.

Abaixo vou deixar mais alguns link de conteúdos relacionados ao assunto para te auxiliar nos estudos: