DEV Community: Victor Vilela

Tipos de Análises de Dados

Victor Vilela — Tue, 20 Feb 2024 15:28:10 +0000

A análise de dados é um processo que utiliza técnicas estatísticas para transformar dados brutos em informações relevantes para a geração de insights na tomada de decisão.

Já o processo de modelagem tem como objetivo explicar ou compreender, matematicamente, os fenômenos de alguma natureza.

A análise de dados se divide em 5 tipos:

Descritiva
Diagnóstica
Preditiva
Prescritiva
Cognitiva

Análise Descritiva

É a análise que tem como objetivo entender o que está acontecendo, com base nos dados históricos, e ajuda a compreender e responder algumas perguntas do fenômeno analisado através de análises gráficas de indicadores estatísticos.

As KPIs (Indicadores Chave de Desempenho) criadas para auxiliarem na análise, são comumente utilizadas no acompanhamento das métricas de seus principais objetivos: ROI, faturamento, estoque, etc.

Análise Diagnóstica

A análise diagnóstica contribui em identificar por que esse fenômendo está acontecendo?

É um complemento da análise descritiva que aprofunda nas causas de uma determinada anomalia do fenômeno. Exemplo:
"Por que no mês anterior tivemos uma maior inadimplência dos clientes?"

A análise descritiva traria apenas o aumento da inadimplência, já a análise diagnóstica serve para aprofundar as causas dessa anomalia no fenômeno.

Normalmente são utilizadas técnicas de inferência estatística ou de testes de hipótese para provar a causa dessa anomalia.

Análise Preditiva

Essa análise busca responder o que vai acontecer no futuro, com base nas análises de dados históricos e técnicas de modelagem geralmente com uso de algoritmos de aprendizagem de máquina.

Essas técnicas possuem uma variedade de técnicas de estatística e aprendizado de máquina como redes neurais, árvores de decisão, regressão, clusterização, etc.

Análise Prescritiva

A Análise Prescritiva refere-se quais ações devem ser tomadas para otimizar a estratégia alinhada ao negócio?
Essas ações são tomadas de forma automática ou semiautomática, buscando otimizar as decisões e alcançar resultados no menor espaço de tempo.

Essa técnica permite tomar decisões em meio às incertezas e, ao utilizar os insights das análises preditivas e dos eventos anteriores, é possível construir uma árvore de ações para essa tomada de decisão e calcular a probabilidade de desfechos diferentes do fenômeno analisado.

Análise Cognitiva

Tem como objetivo tomar decisões de forma automatizada e de forma autônoma o que significa que a própria máquina encontraria uma forma de solucionar um problema "sem" ou "com poucas" intervenções humanas.

Essa inteligência chamada de "Inteligência Artificial Geral" ou "AGI", traduzindo do inglês, ainda não se encontra no mercado, porém a cada dia surgem esforços para alcançar essa tecnologia que se aproximaria da inteligência humana. A mais discutida ultimamente é a Q* ou Q-Star da OpenAI, criadora do ChatGPT.

Existe um forte debate atualmente em que técnicas de aprendizagem profunda (Deep Learning) como NLP (Processamento de Linguagem Natural), Visão Computacional e, um dos mais recentes, os LLMs (Large Language Model), que deu origem ao ChatGPT, sejam consideradas análises cognitivas devido ao seu poder de tomada de decisões complexas de forma automatizada.

Entretanto, essas técnicas não possuem uma capacidade cognitiva para executar tais atividades, o que ocorre é que essas técnicas possuem uma análise preditiva com um alto processamento computacional para resolver tarefas de forma avançada.

Overview Geral de uma Análise Descritiva

Victor Vilela — Tue, 20 Feb 2024 15:13:40 +0000

Classificação das Variáveis

Uma variável é uma característica observada entre os indivíduos de uma população ou amostra. As variáveis são classificadas em:

Qualitativa ou categórico (não numéricos)
- Nominal -> São dados rotulados sem uma ordenação natural que categorizam um agrupamento. Exemplo: cor, estado de origem, número de CPF, etc.
- Ordinal -> São dados que possuem uma ordenação na sua classificação. Exemplo: classe social (A, B, C, D e E), temperatura (quente e frio), altura (baixo, médio e alto), etc.
- Quantitativa (numéricos)
- Discreta -> Possui valores numéricos contáveis. Exemplo: número de quartos em uma casa, número de alunos em uma sala de aula, etc.
- Contínuo -> Possui valores infinitos dentro de um intervalo. Exemplo: peso, altura, distâncias, etc.

Medidas de Tendência Central

Em toda população ou amostra coletada para estudo, é levantado qual é o comportamento mais comum deste conjunto com base ginas medidas de tendência central. Isto é, se escolhessemos um registro aleatoriamente, quais seriam as características que melhor descreveriam todo nosso conjunto?

Para descrever cada medida, iremos adotar o seguinte conjunto de dados:

Renda Mensal = [2000, 50000, 2038, 2423, 1896, 1552, 1910, 2000, 1584, 2097]

Média Aritmética

A medida mais comum no nosso cotidiano, em que somamos cada elemento e dividimos pela quantidade de elementos somadas.

Essa medida, entretanto, é extremamente sensível na presença de outliers no conjunto analisado, podendo influenciar diretamente na sua resposta.
Exemplo: A média do nosso conjunto de dados sobre a Renda Mensal é de R$6770,50. Isso porque o valor de R$50000 é um valor muito discrepante dos demais elementos e influencia diretamente no seu cálculo.

Mediana

A mediana é uma medida que não é afetada por outliers. Seu cálculo consiste em organizar os dados em ordem crescente e selecionar qual é o valor no meio desse conjunto.

Exemplo: Utilizando o nosso conjunto de dados, a mediana da Renda Mensal é de R$1957,50. Diferente da média, a mediana é mais robusta contra outliers.

Moda

A moda é o valor mais frequente em um conjunto de dados.
Em um conjunto podemos obter apenas uma moda (unimodal) ou muitas modas (multimodal).

Exemplo: No nosso conjunto de Renda Mensal, temos o valor de R$1896,00 de modo que podemos defini-lo no nosso conjunto como unimodal.

Medidas de Dispersão

Além de identificar quais são as características em comum, através das medidas de tendência central, precisamos mapear também o quanto os valores dos nossos dados variam dentro da sua distribuição.

Para esse tópico, vamos adotar o seguinte conjunto de dados:

Altura (m) = [1.42, 1.59, 1.68, 1.74, 1.75, 1.72, 1.6, 1.7, 1.75, 1.8, 2.2 ]

Amplitude

O cálculo da amplitude é simples, captura o maior valor do conjunto e subtrai com o menor valor do conjunto.

Essa medida não gera muito valor quando analisada sozinha, pois como são calculadas apenas com os valores de suas extremidades, não temos visibilidade do seu intervalo como um todo.

Exemplo: No nosso conjunto de Altura a amplitude é de 0.78 metros.

Variância

A variância indica o afastamento que cada elemento do conjunto possui em relação a média aritmética. Isto é, quanto mais próximo os valores estão da média, menos variância nossos dados possuem.

Um ponto importante a ser observado é que podemos ter valores tanto acima, quanto abaixo da nossa média e, durante a somatória desses valores, pode ocorrer a anulação de valores no seu cálculo.
Exemplo: A média do nosso conjunto é de 1.72m
1.42 - 1.72 -> - 0.3
2.20 - 1.72 -> + 0.48

Para contornar essa anulação, elevamos ao quadrado conforme a fórmula apresenta.
Exemplo: A média do nosso conjunto é de 1.72m
(1.42 - 1.72)² -> + 0.09
(2.20 - 1.72)² -> + 0.23

Exemplo: Por fim, a variância do nosso conjunto de Altura é de 0.0329 metros.

Desvio Padrão

Para corrigirmos os valores ao quadrado no cálculo da variância, obtemos o desvio padrão, que não é nada mais que a raiz quadrada da variância.

Exemplo: Dessa forma, o desvio padrão do conjunto Altura é de 0.1814 metros.

Percentil

O percentil é outra forma de medir a dispersão dos dados do nosso conjunto.
Nesse cálculo também ordenamos a população para segmentar a posição do valor através de um determinado percentual. Se analisarmos bem, quando é dividido o meio do conjunto, obtemos novamente a mediana, conforme o Q2 abaixo apresenta.

Entretanto, o percentil permite que você delimite qualquer outro valor percentual, os mais utilizados são o 1º Quartil que representa a posição que nossos dados se encontram nos 25% do conjunto e o 3° Quartil que representa a posição nos 75%.

Distância Inter-Quartil

Após identificarmos os valores de Q1 e Q3, podemos obter qual o intervalo em que os dados estão mais concentrados no nosso conjunto.

Medidas de Forma

Assim que identificamos o quanto nossos dados estão dispersos na população, precisamos identificar como está o formato da distribuição desses dados.
Além do formato, saber qual o tipo de distribuição, permite qual teste e modelo será utilizado para o projeto.

Assimetria (Skewness)

Essa medida representa a distribuição dos valores em torno das medidas de tendências centrais.

No caso de obtermos o mesmo valor da média, mediana e moda, nossa assimetria obtém o valor de 0, apresentando uma distribuição simétrica perfeita.

No valores positivos de assimetria, a cauda da nossa distribuição está posicionada mais à direita, o que significa que nossos dados possuem altos valores que levam a média ser maior que a mediana.

No valores negativos de assimetria, a cauda da nossa distribuição está posicionada mais à esquerda, o que significa que nossos dados possuem baixos valores que levam a média ser menor que a mediana.

Curtose (Kurtosis)

A curtose é uma medida do quão achatada ou pontuda nossa distribuição representa.

Quanto maior o valor, significa que contém uma concentração da medida central com pouca variância, o que visualmente identificamos um pico no nosso gráfico, essa distribuição é denominada de leptocúrtica.

Quanto menor o valor, maior variabilidade nossos dados obteve, representando quase que uma linha reta na distribuição do gráfico, essa distribuição é denominada de platicúrtica.

Ao ponto de haver um equilíbrio entre o pico e a cauda do gráfico, temos a distribuição mesocúrtica, que se assemelha a uma distribuição normal.

Criação de Dataframes com Pandas

Victor Vilela — Tue, 20 Feb 2024 14:10:03 +0000

Antes de iniciar qualquer outra etapa em um projeto de dados, é necessário realizar primeiro o carregamento da base para o ambiente que estamos trabalhando. Portanto, neste artigo iremos destacar os principais métodos de importação da base com o pandas.

A sintaxe de leitura de arquivos no pandas é bastante intuitivo, sendo que o início de suas funções começam com "read_" e o complemento virá da extensão do arquivo a ser carregado.

CSV (comma separated values)

O arquivo ".csv" é um dos formatos mais comuns que se encontra na internet, para realizar essa importação, basta utilizar a função "read_csv", passar o caminho do arquivo e, para o contexto brasileiro, necessitamos nos atentar a 3 parâmetros em particular:

sep: O tipo de separador de colunas -> default = "," (apesar do padrão ser a vírgula, podemos encontrar outros tipos de separadores, como ";" ou "|" etc.)
decimal: O tipo de separador de casas decimais -> default = "." (nos EUA o padrão ".", enquanto no Brasil é a ",")
encoding: Codificação de caracteres (cada país possui uma lista de caracteres que podem não existir em outros países, como o "ç" que não existe na língua inglesa)

pd.read_csv(
    "https://raw.githubusercontent.com/owid/covid-19-data/master/public/data/latest/owid-covid-latest.csv",
    decimal=",",
    encoding="utf-8"
)

Excel

Outra forma de importarmos uma base é quando se encontra no formato de arquivos excel ".xlsx", nesse caso iremos usar a função "read_excel" do pandas.
Para esse tipo de formato, também devemos nos atentar aos seguintes parâmetros:

decimal: O tipo de separador de casas decimais -> default = "."- skiprows: Quantidade de linhas que devemos pular no arquivo excel (pode acontecer de as colunas iniciarem a partir da 5 linha no excel, nesse caso iremos configurar skiprows=4)
sheet_name: Especificar o nome de qual sheet o pandas deverá ler (em caso de mais de um sheet no arquivo excel)

pd.read_excel(
    "https://github.com/FBosler/Medium-Data-Extraction/blob/master/invoices.xlsx?raw=true",
    skiprows=2,
    sheet_name="Sheet 2"
)

Parquet

Este formato é comum de ser visto em cenários de Big Data, pois é uma extensão que consegue reduzir drásticamente o tamanho do arquivo original para que seja viável de se manipular no pandas.
Podemos acessar subdivisões da base original através de um filtro, por exemplo:

pd.read_parquet("file.parquet", filters=[("ANO", "=", 2020)])

Não irei aprofundar, pois em outro post irei trazer mais detalhes deste tipo de extensão.

ZIP

É bastante comum os arquivos originais estarem em pastas compactadas em formato ".zip" ou alguma outra extensão, nesse caso devemos utilizar outra biblioteca chamada ZipFile que irá nos ajudar a descompactar para poder aplicar os métodos do pandas para carregamento da base.

with zipfile.ZipFile(f"data/file.zip") as z:
    df = pd.read_csv(
        z.open("file.csv"),
        sep="|",
        encoding="latin-1",
        decimal="."
)

Outro caso comum é de acessar arquivos zipados diretamente da web sem precisar estar armazenado no seu HD, porém o pandas não vai conseguir lê-lo diretamente, para realizar essa importação, devemos utilizar mais 4 bibliotecas, sendo elas:

request: Realiza a requisição de conteúdos diretamente na web
io: Permite criar buffers para armazenar dados temporariamente na memória antes de serem escritos em um arquivo ou outra fonte de saída.
ZipFile: Realizar a descompactação do arquivo.
pandas: Para realizar o carregamento da base.

resposta = requests.get("https://download.inep.gov.br/dados_abertos/microdados_censo_escolar_2022.zip")
buffer = BytesIO(initial_bytes=resposta.content)
with zipfile.ZipFile(buffer) as z:
    df = pd.read_csv(
         z.open("/Microdados do Censo Escolar da Educação Básica 2022/dados/microdados_ed_basica_2022.csv"),
         sep="|", 
         encoding="latin-1",
         decimal=",")

Diretamente no pandas

Por fim, porém não menos importante, podemos criar dataframes diretamente do pandas, para isso podemos passar:

data: Os dados que irão compor o dataframe
columns: Os nomes das colunas
index: Se for preciso personalizar o índice do dataframe

pd.DataFrame(
    data=np.random.randint(low=0, high=10, size=(5, 5)),
    columns=["Matemática", "Português", "História", "Geografia", "Física"],
    index=["Pedro", "Maria", "João", "Mateus", "Lucas"]
)

Esses são os principais métodos que iremos encontrar no dia a dia ao carregar uma base para analisar, porém lembre-se de consultar a documentação do pandas sempre que estiver com dúvidas de alguma função.

O mais importante, a prática irá te levar a experiência com os diversos tipos de importação e seus respectivos métodos.