DEV Community: Letícia Oliveira

📖 Leitura Atual – Capítulo 1: Introdução à Ciência de Dados

Letícia Oliveira — Thu, 06 Feb 2025 20:49:41 +0000

"Dados! Dados! Dados!" — esbravejou impaciente. "Não posso fazer tijolos sem barro." — Arthur Conan Doyle

O primeiro capítulo do livro Data Science do Zero, de Joel Grus, começa com uma citação que, na minha visão, resume bem o trabalho de um cientista de dados. Como uma introdução ao universo dos dados, ele nos lembra da quantidade absurda de informações que geramos diariamente — através de celulares, relógios, carros, eletrodomésticos... Estamos imersos em dados. Afinal, sem eles, o que seria da internet?

O Papel do Cientista de Dados

Uma frase famosa (que provavelmente você já ouviu se está nesse meio) diz que o cientista de dados entende mais de estatística do que um cientista da computação, e mais de ciência da computação do que um estatístico. Joel cita essa frase, não discordando completamente, mas trazendo nuances interessantes.

De acordo com a realidade do mercado (ao meu ponto de vista) é que há cientistas de dados com formações bem distintas: alguns são excelentes estatísticos, outros são excelentes engenheiros de software. Enquanto alguns dominam machine learning profundamente, outros têm um foco mais analítico. Mas um ponto específico me chamou a atenção por ser um tópico bem pessoal pra mim: Joel menciona que alguns cientistas de dados são PhDs que escrevem artigos acadêmicos, enquanto outros nunca leram um artigo sequer — e ele deixa claro que isso é um erro.

Ao ler isso, fiquei pensativa. Apesar de nunca ter considerado seguir a carreira acadêmica, durante meus estudos em ciência de dados, precisei ler muito mais artigos do que imaginava. No meu primeiro estágio, por exemplo, trabalhei em um ambiente cercado por mestres e doutorandos, onde a pesquisa acadêmica era fundamental para o projeto. No início, fiquei insegura por não ter a mesma bagagem acadêmica que todos ao meu redor. Então, passei a consumir cada vez mais artigos científicos, não apenas sobre ciência de dados, mas também sobre tecnologia da informação como um todo, e percebi a imensidão de conteúdos científicos que auxiliam no processo de aprendizado. Isso me fez perceber que, mesmo que você não queira seguir esse caminho, entender trabalhos acadêmicos é essencial para aprofundar seus conhecimentos.

Data Science na Prática

Uma das mensagens principais desse capítulo é que a ciência de dados pode significar coisas diferentes para pessoas e empresas diferentes. Dependendo da necessidade, um cientista de dados pode trabalhar:

Identificando tendências de mercado e comportamento do consumidor
Criando sistemas de recomendação para plataformas de streaming
Desenvolvendo chatbots e assistentes virtuais
Até mesmo dando um up em suas campanhas eleitorais (como apresentado neste artigo da Wired

E com esse contexto, o livro nos apresenta a Motivação Hipotética: DataSciencester.

DataSciencester: Uma Experiência Imersiva

Essa parte me empolgou desde a primeira vez que vi o livro. Joel nos coloca em uma situação hipotética: acabamos de ser contratados para liderar o setor de ciência de dados de uma nova rede social para cientistas de dados, chamada DataSciencester.

A partir disso, ele propõe desafios práticos, nos fazendo pensar como verdadeiros cientistas de dados. Algumas das tarefas incluem:

Sugestão de conexões – Criar um sistema de "cientistas de dados que você talvez conheça" para fortalecer a rede.
Salários e experiência – Analisar salários com base nos anos de experiência dos usuários (e fazer nossa primeira visualização de dados!).
Contas pagas – Identificar quais usuários pagam suas contas e quais não.
Tópicos de interesse – Analisar as palavras mais usadas por cada usuário para definir estratégias de conteúdo.

E para isso, já começamos a implementar algumas funções em Python! Construímos um dicionário para armazenar os usuários (user_id → user_name) e um conjunto de tuplas para representar as conexões de amizade. Além disso, criamos diagramas para visualizar a rede e aplicamos conceitos essenciais de programação, como dicionários, tuplas, bibliotecas, loops e funções.

Ah! não deixa de conferir os códigos que implementei com base nos exercícios do livro. Eles estão disponíveis no meu repositório: https://github.com/leticia-oliv/current-reading/tree/main/01_Introducao

Conclusão

Foi só o primeiro capítulo, e já trabalhamos com tantas funcionalidades sem nem ter uma formação na área — como o próprio Joel brinca, "culpem o RH". O próximo capítulo será um Curso Intensivo de Python, e estou curiosa para ver como ele irá apresentar os fundamentos da linguagem dentro dessa narrativa interativa (spoiler da Letícia do futuro: ele consegue fazer isso muito bem!).

Se quiser trocar uma ideia, tirar dúvidas, fazer sugestões ou até apontar alguma besteira que eu tenha falado, fique à vontade! Só peço que seja gentil. Até a próxima! 💚

Leitura Atual: Começando 'Data Science do Zero'

Letícia Oliveira — Thu, 06 Feb 2025 18:18:11 +0000

O objetivo dessa série é registrar meu aprendizado com o livro Data Science do Zero – Noções Fundamentais com Python, de Joel Grus. Para contextualizar, recebi esse livro em 2023, quando consegui uma bolsa para estudar na Ada Tech, patrocinada pelo programa do iFood. Mas, entre projetos e preocupações pessoais, acabei não lendo na época. Mas sem desculpas! Agora estou mais motivada e confiante para extrair o máximo desse material.

Não sou iniciante em ciência de dados — já tive experiência como estagiária —, então não estou começando literalmente do zero. Mas conhecimento nunca é demais, certo?! Sinto que reforçar a base me vai me ajudar a ganhar mais confiança no meu desenvolvimento profissional e alcançar uma vaga de júnior, que é meu principal objetivo no momento. Essa série será uma forma de revisar conceitos fundamentais e aprender conceitos novos com exemplos práticos e uma abordagem diferente da que encontramos em vídeo aulas e cursos online.

Mas destaco que, além do livro, também estou estudando por fora, aproveitando bolsas que consegui recentemente em programas como o ONE (Oracle Next Education) e o Santander Tech+ (Ada Tech).

A proposta aqui é ser prática e direta. Vou compartilhar minhas anotações, insights e aplicações dos conceitos em projetos pessoais (juntando o útil ao agradável). Se você não tem o livro, não se preocupe! Vou respeitar os direitos do autor, mas vou me preocupar em fazer minhas anotações detalhadas o suficiente para que qualquer pessoa consiga acompanhar. Também vou disponibilizar um repositório no GitHub com os arquivos .md e códigos: https://github.com/leticia-oliv/current-reading/tree/main

Dito isso, será um prazer compartilhar essa nova fase da minha jornada de (re)aprendizado. Conto com seu apoio e sugestões! Fiquem à vontade para entrar em contato e trocar ideias comigo. 💚

Medidas de Posição

Letícia Oliveira — Wed, 24 Jul 2024 21:39:07 +0000

Medidas de posição são conceitos utilizados na estatística descritiva para entender um conjunto de dados sob diferentes aspectos e são amplamente aplicadas na análise de dados.

Para facilitar o entendimento e proporcionar uma visualização do que será explicado, usarei como exemplo um conjunto de dados de uma turma fictícia com 20 alunos.

import pandas as pd

turma = {
    'idade': [12, 7, 7, 9, 7, 7, 11, 9, 11, 12, 12, 11, 12, 9, 6, 11, 10, 10, 7, 12],
    'instrumento': ['Violão', 'Piano', 'Flauta', 'Bateria', 'Violino', 'Bateria', 'Bateria', 'Piano', 'Bateria', 'Flauta', 'Bateria', 'Piano', 'Flauta', 'Violão', 'Bateria', 'Piano', 'Violão', 'Violão', 'Violino', 'Flauta'],
    'nota': [8, 9, 8, 6, 8, 10, 10, 7, 8, 10, 9, 7, 9, 5, 8, 10, 8, 6, 8, 6]
}

df = pd.DataFrame(turma)

Fazendo uma análise introdutória, observamos que o aluno mais novo da turma tem 6 anos, enquanto o mais velho tem 12. No entanto, isso não nos dá uma visão completa sobre a turma como um todo. Vamos realizar algumas análises utilizando medidas de posição para entender melhor esse conceito.

print(df['idade'].min())
print(df['idade'].max())

# Output: 6, 12

Média

Tenho certeza que você já precisou calcular a sua média de notas na escola ou na faculdade. É exatamente assim que iremos utilizar a média no nosso conjunto de dados.

A escola de música deseja premiar a turma que obteve uma média de 8 no teste de leitura e escrita de partituras. Para descobrir se a turma analisada consegue o prêmio, precisamos somar todas as notas e dividir pelo número de alunos.

media = df['nota'].mean()
print(media)

# Output: 8.0

A média da turma é 8, então os alunos conseguem o prêmio da escola.

Vale destacar que o cálculo da média pode ser muito influenciado por valores extremos, o que pode distorcer a interpretação dos dados, dependendo do conjunto.

Mediana

A mediana é o valor central quando os dados estão ordenados. Se tivermos um número ímpar de dados, a mediana é o valor central. No entanto, como temos um número par de dados, a mediana é a média dos dois valores centrais (10º e 11º).

A mediana é útil para entender a tendência central de um conjunto de dados sem ser influenciada por valores extremos. Suponha que, dentre os alunos da turma, os dados das notas fossem:

'nota': [0, 9, 8, 6, 8, 10, 10, 7, 8, 10, 9, 7, 9, 5, 8, 10, 8, 6, 8, 6]

Um aluno faltou à prova e não conseguiu repor a nota, ficando com 0 na avaliação final. Assim, a média da turma cai de 8 para 7,6. Esse valor atípico é chamado de outlier, que ocorre quando um valor se desvia muito da série.

Embora a diferença possa parecer pequena, isso poderia afetar uma análise de desempenho acadêmico de toda a turma. Para obter uma visão mais realista do desempenho central dos alunos, calculamos a mediana.

mediana = df['nota'].median()
print(mediana)

# Output: 8.0

Concluímos que, mesmo com a nota zero de um único aluno, isso não reflete o desempenho geral da turma, que obteve 8 como resultado da mediana.

Moda

A moda é o valor que aparece com maior frequência em um conjunto de dados. É especialmente útil para analisar dados categóricos, onde a média e a mediana não são aplicáveis.

Por exemplo, baseado no nosso conjunto de dados, a escola deseja descobrir qual é o instrumento favorito dos alunos para decidir em quais aulas investir no próximo ano.

# utilizando o método 'mode'
moda = df['instrumento'].mode()
print(moda)

# contando a frequência de cada instrumento e verificando o que mais aparece:
frequencia_instrumentos = df['instrumento'].value_counts()
max_instrumentos = frequencia_instrumentos.max()
print(frequencia_instrumentos)
print(max_instrumentos)

# Output:
0    Bateria
Name: instrumento, dtype: object
instrumento
Bateria    6
Violão     4
Piano      4
Flauta     4
Violino    2
Name: count, dtype: int64
6

Agora, a escola sabe que deve investir mais em aulas de percussão, já que a bateria é o instrumento mais popular entre os alunos da turma.

A moda também pode ter mais de um valor. Se os alunos empatarem entre violão e bateria, por exemplo, a moda poderia ser ambos os instrumentos.

Em resumo:

Média: Oferece uma visão geral do desempenho médio, mas pode ser distorcida por valores extremos.
Mediana: Reflete o valor central dos dados, fornecendo uma visão mais robusta quando há outliers presentes.
Moda: Identifica o valor mais frequente, sendo útil para dados categóricos e para entender preferências ou padrões dominantes.

Compreender essas medidas ajuda a construir uma base sólida para a análise de dados e a tomar decisões informadas com base em nosso conjunto de dados.