DEV Community: Luiza Bizoni

SQL: comandos básicos

Luiza Bizoni — Wed, 16 Sep 2020 11:04:00 +0000

Nesse artigo veremos os comandos básicos da linguagem SQL mais utilizados no dia a dia de uma cientista de dados e como utilizá-los.

Se você quer entender como funciona um banco de dados relacional, te convido a ler este outro artigo, no qual expliquei sobre a terminologia utilizada, o conceito ACID, os grupos de comandos da linguagem SQL, as restrições de integridade e as três formas normais.

SELECT

A instrução "SELECT" é utilizada para fazer consultas no banco de dados. Seu resultado é uma cópia do banco de dados com as especificações indicadas. Não há alteração dos dados no banco.

A maior parte dos comandos SQL são instruções "SELECT" e normalmente é a primeira palavra da instrução SQL.

Ao executar a instrução, o SGBD irá procurar a tabela ou tabelas especificadas, selecionar as colunas escolhidas e as linhas que satisfazem os critérios especificados, classificando ou agrupando estas na ordem indicada.

A sintaxe mais básica da instrução "SELECT" é escrita da seguinte forma:

SELECT colunas FROM tabela

Caso você queira selecionar todas as colunas da tabela indicada, basta utilizar "*" no lugar de "colunas", deste jeito:

SELECT * FROM tabela

Exemplos

Imagine que temos uma tabela chamada "Funcionários" que possuí diversas informações sobre os funcionários de uma empresa.

Precisamos do nome e sobrenome de todos os funcionários da empresa em ordem alfabética. Para isso selecionaremos todas as linhas das colunas "Nome" e "Sobrenome" da tabela "Funcionários" e utilizaremos a cláusula "ORDER BY" para ordenar a consulta.

A sintaxe será:

A empresa decide que o reajuste salarial para o próximo ano será de 5% para todos os funcionários e precisamos atualizar a consulta acima incluindo o salário atual e o salário com reajuste para todos os funcionários.

Para isso selecionaremos todas as linhas das colunas "Nome" e "Sobrenome" da tabela "Funcionários", como fizemos anteriormente, e também as da coluna "Salário", que renomearemos como "Salário Atual". Para calcular o valor do salário com reajuste multiplicaremos os valores da coluna "Salário" por 1.05 e este campo será renomeado como "Salário Reajustado".

A sintaxe, portanto, passará a ser:

Por último, iremos fazer uma nova consulta na qual retorne os nomes dos cargos do departamento de tecnologia da empresa que tenham sido atribuídos a pelo menos 10 funcionários e a quantidade de funcionários com estes cargos.

Neste caso, selecionaremos a coluna "Cargo" e faremos a contagem de funcionários com aquele cargo utilizando a função "count" com o parâmetro "Cargo". Utilizamos a cláusula "where" para filtrar apenas os funcionários do departamento de tecnologia e "having" para filtrar apenas os cargos que tenham sido atribuídos a pelo menos 10 funcionários e agrupamos pelo nome do cargo utilizando a cláusula "group by" assim:

INSERT

A instrução "INSERT" é o comando para inclusão no banco de dados. Ele é utilizado para adicionar um ou vários registros a uma tabela.

A sintaxe mais básica da instrução "INSERT" é escrita da seguinte forma:

INSERT INTO tabela (coluna1, coluna2, coluna3)
VALUES (valor1, valor2, valor3)

--OU

INSERT INTO tabela VALUES (valor1, valor2, valor3)

Exemplos

Vamos inserir na tabela "Funcionários" a Maria Sousa, que terá o código identificador "741" e seu salário é R$2500,00.

Na primeira sintaxe informamos o nome das colunas que receberão os valores e os valores que serão inseridos na tabela. É importante lembrar que os valores devem estar na mesma ordem das suas respectivas colunas.

Na segunda forma não declaramos as colunas. Atente-se para este caso, pois é necessário informar valores para todas as colunas da tabela para que o comando funcione.

A sintaxe será:

UPDATE

A instrução "UPDATE" é o comando utilizado para atualização de registros no banco de dados.

A sintaxe mais básica da instrução "UPDATE" é escrita da seguinte forma:

UPDATE tabela
SET coluna = "novo_valor"
WHERE condição

Exemplos

Vamos atualizar na tabela "Funcionários" o sobrenome da Maria para "Souza" e seu salário para R$3500,00.

Informamos o nome da tabela que receberá as alterações, as colunas e seus respectivos valores a serem alterados na tabela e a cláusula que impõe a condição de execução do comando é que o "IDFuncionario" seja igual a "741", que é o código identificador da Maria.

A sintaxe será:

DELETE

A instrução "DELETE" é o comando utilizado para apagar registros no banco de dados.

A sintaxe mais básica da instrução "DELETE" é escrita da seguinte forma:

DELETE FROM tabela
WHERE condição

Exemplo

Vamos excluir da tabela "Funcionários" aquele que possuí o código identificador igual a "3084".

Para isso informamos que a tabela de onde desejamos deletar o registro é a "Funcionários" e a cláusula que impõe a condição de execução do comando é que o "IDFuncionario" seja igual a "3084".

A sintaxe será:

REFERÊNCIA:
ELMASRI, Ramez e NAVATHE, Shamkant B. Sistemas de Banco de Dados. Pearson Addison Wesley. 6a Edição, 2011.

Este post é um resumo do que aprendi na Unidade 1 da disciplina "Banco de Dados Relacionais e não Relacionais". Esta é ministrada pelo Prof. Henrique Batista da Silva no curso de especialização em Ciência de Dados e Big Data da PUC Minas Virtual.

Banco de dados relacional - Introdução

Luiza Bizoni — Sun, 09 Aug 2020 22:08:00 +0000

O modelo relacional foi introduzido na década de 1970 e é uma linguagem unificada para definição e manipulação de dados.

Para auxiliar no gerenciamento de bancos de dados relacionais são usados sistemas conhecidos como SGBDs (Sistemas de Gerenciamento de Bancos de Dados). Alguns exemplos são: MySQL, Oracle e SQL Server.

Terminologias:

Dados: fatos com significado implícito.
Tuplas: linhas de uma tabela.
Atributo: Nome da coluna de uma tabela.
Domínio: Conjunto de valores que um atributo pode ter.
Relação: tabela (no modelo relacional também são chamadas de entidade).

Modelo de dados

Modelo de dados é um conjunto de conceitos que descrevem o banco de dados e as restrições que este deve garantir. Pode-se organizar por nível de abstração do mais para o menos abstrato da seguinte forma:

Modelo conceitual: conceitos que descrevem os dados como são percebidos pelo usuário. Baseia-se em entidades, atributos e relacionamentos. São alto nível e não dependem de SGBDs.
Modelo Lógico: intermediário entre o modelo conceitual e o modelo físico. São representativos ou de implementação. Um exemplo é o modelo relacional.
Modelo físico: conceitos que descrevem como os dados estão armazenados no computador (tipo e tamanho de registros). São baixo nível.

Conceitos

Para que um banco de dados relacional funcione de maneira correta é necessário atender a 4 conceitos:

Atomicidade: a transação é executada inteiramente ou não é executada e volta ao estado inicial.
Consistência: apenas dados válidos são salvos.
Isolamento: uma transação não sofre interferência de outra transação corrente.
Durabilidade: o que é salvo não será perdido.

Linguagem

A SQL é a linguagem de pesquisa declarativa padrão para banco de dados relacional e se divide em 5 grupos de comandos:

DDL: Data Definition Language - para definir os esquemas.
DML: Data Manipulation Language - para manipular os esquemas.
DCL: Data Control Language - para conceder ou remover privilégios de usuários de bancos de dados em objetos destes.
DQL: Data Query Language - para fazer consultas no banco de dados.
TCL: Transaction Control Language - para lidar com transações no banco de dados.

Chaves

Uma chave primária (primary key ou pk) é formada de um ou mais campos que serão utilizados como referência para criar relacionamentos com as demais entidades do banco de dados. Seus valores nunca se repetem nem podem ser nulos.
Já uma chave estrangeira (foreign key ou fk) é o campo que estabelece o relacionamento entre duas entidades. Portanto, um atributo corresponde ao mesmo atributo que é a chave primária de outra entidade.

Restrições de integridade

A integridade dos dados é garantida pelo próprio SGBD por meio das restrições de integridade, que são utilizadas para garantir que os dados representem de forma assertiva a realidade modelada em um banco de dados relacional.

Restrição de entidade: a chave primária de uma relação não pode ter valor nulo.
Restrição de chave: a chave primária não pode se repetir. É também chamada de restrição de unicidade.
Restrição de domínio: define o conjunto de valores possíveis ou permitidos que um campo pode ter.
Restrição referencial: todo valor de chave estrangeira de uma entidade deve corresponder a um valor de chave primária a que a chave estrangeira se refere ou ser nulo.

Normalização

Uma entidade está normalizada se todos seus atributos são dependentes exclusivamente de suas chaves.

Formas normais:

1FN: eliminação de atributos compostos e/ou multivalorados. Impede "entidades dentro de entidades".
2FN: todo atributo de uma relação não pertencente a uma de suas chaves deve ser totalmente dependente da chave primária.
3FN: eliminar dependência transitiva de atributo não-chave.

REFERÊNCIA:
ELMASRI, Ramez e NAVATHE, Shamkant B. Sistemas de Banco de Dados. Pearson Addison Wesley. 6a Edição, 2011.

Este post é um resumo do que aprendi na primeira parte da Unidade 1 da disciplina "Banco de Dados Relacionais e não Relacionais". Esta é ministrada pelo Prof. Henrique Batista da Silva no curso de especialização em Ciência de Dados e Big Data da PUC Minas Virtual.

S&P 100 - Estudo de Caso

Luiza Bizoni — Mon, 18 May 2020 23:32:13 +0000

Neste estudo de caso aplico o que aprendemos no post de introdução ao uso de Python para análises financeiras. Estes artigos fazem parte da série "Ciência de Dados aplicada a Finanças".

O que é o S&P 100

O S&P 100 é um índice ponderado de valor de mercado composto por 100 ativos do mercado de ações dos Estados Unidos mantido pela Standard & Poor's, uma empresa de consultoria financeira.

Os ativos são qualificados devido ao seu tamanho de mercado, sua liquidez e sua representação de grupo industrial e são selecionados por um comitê de acordo com critérios de seleção.

Primeiras análises

Nosso ponto de partida são quatro matrizes unidimensionais com os dados de cada uma das cem empresas do índice S&P 100 de 2017. Temos as seguintes matrizes: names, com o nome das empresas; prices, com o preço por ação; earnings, com o lucro por ação e sectors, com os setores.

Vamos visualizar os primeiros três itens de cada matriz para entendermos os dados que estamos trabalhando.:

print(names[:3]) #Retorna: ['Apple Inc', 'Abbvie Inc', 'Abbott Laboratories']
print(prices[:3]) #Retorna: [170.12, 93.29, 55.28, 145.3]
print(earnings[:3]) #Retorna: [9.2, 5.31, 2.41, 5.91]
print(sectors[:3]) #Retorna: ['Information Technology', 'Health Care', 'Health Care']

Perceba que temos duas matrizes com elementos do tipo string, com os nomes e setores das empresas e duas com elementos do tipo float, com os preços por ação e os lucros por ação das empresas.

Análise da expectativa de crescimento das empresas

Podemos fazer a análise da expectativa de crescimento das empresas calculando o índice preço/lucro, que é um índice usado para medir o quanto os preços das ações estão baratos ou caros em determinado período de tempo de comparação. Para isso, vamos dividir a matriz "prices" pela "earnings":

import numpy as np

# Calcular índice P/L
pe = prices/earnings

O índice preço/lucro equivale a quantos dólares espera-se investir em uma empresa a fim de receber um dólar de proventos. Quanto mais alto o valor do índice, maior é a expectativa de crescimento daquela empresa.

Vamos visualizar os nomes e setores das 10 empresas com maior expectativa de crescimento para verificar se existe algum padrão:

# Visualizar o índices P/L de corte das top 10
pe_ordenado = np.sort(pe)
top_10 = x = np.percentile(pe_ordenado, 90)
print(top_10) # Retorna: 34.13901640570927

# Criar matriz de booleanos para filtragem
boolean_array = (pe >= top_10)

# Selecionar os nomes e setores das top 10
top_nomes = names[boolean_array]
top_setores = sectors[boolean_array]

# Visualizar
print(top_nomes)
print(top_setores)

Ao filtrar as top 10 empresas, podemos verificar que existe um padrão nos setores nos quais estas fazem parte. Apenas três dos 11 setores do S&P 100 de 2017, aparecem no top 10 empresas com maior expectativa de crescimento, que são os de energia, tecnologia da informação e bens não-essenciais.

Ao plotar um gráfico de dispersão dos índices preço/lucro dessas dez empresas é possível verificar um ponto com grande afastamento dos demais, que é da empresa do setor de energia Conocophillips.

Visualizando tendências

Para fins de análise, voltaremos a verificar todo o grupo de empresas em busca de setores que possuam distribuições com menos outliers.

Após analisar as médias e desvios padrão de cada um dos setores vamos seguir com os três com as maiores médias, mas que não possuem valores muito aberrantes. São eles: Bens Essenciais, Industrial e Tecnologia da Informação.

Para visualizar e entender a distribuição dos índices preço/lucro desses setores, iremos plotar um histograma onde CS (Consumer Staples) são as empresas de Bens de Consumo, IN (Industrials) as do setor Industrial e IT (Information Technology) as do setor de Tecnologia da Informação:

Veja que existe no setor de tecnologia da informação uma empresa com índice preço/lucro que ficou muito acima dos demais. Vamos identificar qual é essa empresa e qual foi seu índice preço/lucro no ano de 2017:

# Identificar o índice P/L em it_pe que foi > 50
outlier_price = it_pe[it_pe >  50]

# Identificar a empresa com o índice P/L > 50
it_names = names[it_boolean_array]
outlier_name = it_names[it_pe >  50]

# Mostrar resultado
print("Em 2017, o índice P/L da empresa " + str(outlier_name[0]) + " foi de " + str(round(outlier_price[0], 2)) + ".")

A empresa que apresentou índice preço/lucro bem acima da média entre as empresas do setor de Tecnologia da Informação foi a Paypal Holdings e seu índice foi de 54.68.

Este post foi escrito baseado em meu aprendizado com o curso "Introduction to Python for Finance" ministrado por Adina Howe disponível neste link.

Explorando dados financeiros com Python - introdução

Luiza Bizoni — Mon, 18 May 2020 09:45:40 +0000

Este é o primeiro post da série "Ciência de Dados aplicada a Finanças" e é uma introdução de como usar Python para análises financeiras.

Por que usar Python para análises financeiras?

Python é uma linguagem fácil de aprender, se integra bem com outras linguagens e é open source, o que a torna acessível para quem quiser utilizá-la.

No setor financeiro é usada em análises quantitativas para:

Compilar relatórios de vendas mensais;
Otimizar performances de estratégias de investimento;
Visualizar dados de tendências de ações.

Se você quer aprender a programar em Python, sugiro que veja esta playlist do professor Guanabara. São mais de 10h de curso em vídeo gratuito e em português. Aqui irei apresentar apenas alguns conceitos básicos para serem aplicados em análises de dados financeiros.

Conhecendo a linguagem

Podemos utilizar Python para realizar operações matemáticas comuns como adição, subtração, multiplicação, divisão, resto da divisão e potenciação.

#Adição:
print(10 + 5)

#Subtração:
print(10 - 5)

#Multiplicação:
print(10 * 5)

#Divisão:
print(10 / 5)

#Módulo:
print(10 % 5)

#Potenciação:
print(10 ** 5)

Variáveis

As variáveis são compostas de duas partes: o nome e o valor, e guardam informações que podem ser utilizadas posteriormente no código.

O nome da variável pode conter letras maiúsculas e minúsculas, números e sublinhados, porém não pode iniciar com um número. Existem palavras que não devem ser usadas como nome de uma variável, pois definem as regras de sintaxe e estrutura da linguagem, estas são chamadas palavras reservadas.

Para atribuir um valor a uma variável digite o nome da variável, o sinal de igual (=) e então atribua o valor da variável.

nome = "Luíza"
idade = 27
ama_chocolate_branco = True

Tipos

É possível atribuir tipos de dados às variáveis. São eles:

String: dado do tipo texto. Deve ser escrito entre aspas;
Integer: dado do tipo número inteiro;
Float: dado do tipo número real;
Boolean: dado do tipo booleano. Pode receber True (verdadeiro) ou False (falso). Normalmente são o resultado de um teste condicional envolvendo operadores de comparação ou operadores lógicos.

Para identificar o tipo da variável use:

type(nome_da_variavel)

Listas

Uma lista em python pode ser identificada quando vemos elementos separados por vírgula dentro de colchetes. Cada elemento em uma lista assume uma posição ordenada chamada index que inicia em zero.

Para acessar um elemento usamos um número inteiro que representa o index deste entre colchetes. Por exemplo, para acessar o segundo elemento de uma lista usamos [1], já que a contagem se inicia em zero:

#Acessar o elemento "vermelho":

lista_cores = ["azul", "vermelho", "roxo", "amarelo", "verde"]
lista_cores[1]

Para acessar múltiplos elementos em uma lista, usamos o fatiamento. Para isso, dentro do colchete passamos o index inicial e o index final separados por ":", sendo que este não será exibido. Na lista do exemplo acima, para acessarmos os três elementos do meio fazemos:

#Acessar "vermelho", "roxo", "amarelo":
lista_cores[1:4]

Podemos usar também o fatiamento estendido. Se precisamos acessar todos os elementos da posição x até o final da lista ou do início da lista até a posição x fazemos, respectivamente:

#Acessar "roxo", "amarelo", "verde":
lista_cores[2:]

#Acessar "azul", "vermelho", "roxo", "amarelo":
lista_cores[:4]

Se for preciso saltar elementos, basta incluir um step na sintaxe. O step é um número inteiro que determina o incremento entre cada index. Usando ainda a lista de cores como exemplo:

# Acessar "azul", "roxo", "verde"
lista_cores[::2]

Métodos e Funções

Em Python, todo método é uma função, mas nem toda função é um método. A diferença entre eles é que uma função recebe um objeto, enquanto um método age sobre um objeto. Alguns exemplos de métodos são:

.append(): adiciona um único elemento a uma lista;
.extend(): adiciona mais de um elemento a uma lista;
.index(): retorna o índice do elemento. Se o elemento aparece mais de uma vez na lista, o retorno é o menor índice onde o elemento aparece;
.min(): retorna o menor elemento de uma lista;
.max(): retorna o maior elemento de uma lista.

Pacote

É uma coleção de vários scripts ou módulos em python que introduzem novas funções, métodos e tipos de dados. Para instalar um pacote use "pip install nome_do_pacote" e para importar o pacote para usar no código use "import nome_do_pacote".

Matriz

No pacote NumPy podemos criar novos tipos de dados chamados matrizes. Para criar uma matriz basta chamar a função "array()" que recebe uma lista como entrada. Para acessar a função usamos numpy.array().

Podemos usar alias para tornar o código menos verboso. O alias possibilita a substituição de uma palavra por outra cadeia de caracteres e com isso é possível resumir o nome dos pacotes importados. Para isso fazemos, por exemplo:

import numpy as np

Matrizes são mais compactas que uma lista, portanto são mais eficientes para lidar com conjuntos de dados muito grandes. Além de serem mais compactas, só guardam um tipo de dado, por isso, se forem atribuídos mais de um tipo de dado, o próprio NumPy irá converter automaticamente todos os elementos para o tipo mais compatível.

No caso das matrizes, ao usar o sinal de "+" a operação funciona diferente de quando usado em listas. Se fizermos lista_a + lista_b, as listas serão concatenadas, mas se fizermos matriz_a + matriz_b os elementos da matriz são somados de acordo com seus index.

Para acessar os elementos ou fazer fatiamento, a sintaxe é a mesma da utilizada em listas.

Matriz 2D

É uma lista de listas onde cada linha é representada por uma lista e cada coluna é representa pelos elementos.

Métodos aplicados a matrizes 2D

.shape: retorna as dimensões da matriz dentro de uma tupla com dois elementos, onde o primeiro número é o número de listas e o segundo o número de elementos em cada lista;
.size: retorna a quantidade de elementos existentes na matriz.

Funções aplicadas a matrizes 2D

np.mean(nome_da_matriz): calcula a média da matriz;
np.std(nome_da_matriz): calcula o desvio padrão da matriz;
np.arrange(): cria uma matriz com início, fim e incremento;
np.transpose(): inverte linhas e colunas da matriz NumPy.

Acessando index

Usamos a mesma sintaxe da usada para acessar elementos em uma lista, mas precisamos passar o index da linha e o index da coluna onde está o elemento.

matriz_alunos = [['Ana', 'Beto'],[26, 23],[1.63,1.79]]

#Acessar o segundo elemento da segunda lista da matriz
matriz_alunos[1,1]

Fatiamento

Assim como para acessar os elementos pelo index, usamos a mesma sintaxe da usada para listas, mas precisamos passar o index da linha e o index da coluna.

#Selecionar todas as linhas da terceira coluna:
matriz_alunos[:,2]

Visualizando dados com Python

Quanto melhor estiver a visualização dos dados, maior será a possibilidade de obter informações valiosas deles. Além disso, visualizações são importantes para comunicar suas descobertas a outras pessoas.

Veremos aqui a interface PyPlot da biblioteca de visualização de dados Matplotlib. Para importá-la usamos:

import matplotlib.pyplot as plt

Funções

plt.plot(): recebe argumentos que descrevem os dados a serem plotados e cria um gráfico de linha;
plt.scatter(): cria um gráfico de dispersão;
plt.show(): exibe o gráfico na tela;

Podemos fornecer mais argumentos à função plot() para personalizar o gráfico. Uma boa prática é fornecer o argumento "label" para dar nome aos eixos dos gráficos.

plt.xlable(): adiciona um título para o eixo x;
plt.ylabel(): adiciona um título para o eixo y;
plt.title(): adiciona um título para o seu gráfico.

Um exemplo seria:

import matplotlib.pyplot as plt

# Plotar preço em função do tempo
plt.plot(days, prices, clor='red', linestyle='--')

# Adicionar títulos dos eixos
plt.xlabel('Days')
plt.ylabel('Prices, $')

# Adicionar título do gráfico e plotar
plt.title('Company Stock Prices Over Time')
plt.show()

Histogramas:

Ao plotar um histograma podemos visualizar com facilidade a distribuição dos dados. Em finanças, os histogramas são utilizados para visualizar indicadores econômicos, retornos de ações e preços de commodities, por exemplo. Para plotar usamos:

plt.hist()

Vantagens:

Visualizar o formato e distribuição dos dados (a distribuição é simétrica?);
Visualizar se existe muita variabilidade nos dados (os dados estão centrados em torno da média?);
Identificar pontos com grande afastamento dos demais (existem outliers?).

Para saber a frequência relativa ou o percentual da observação ao invés da contagem de frequências, usamos o argumento "normed = 1".

Para adicionar legendas ao histograma usamos o argumento labels na função hist() e para plotar as legendas usamos plt.legend(). Veja o exemplo abaixo:

# Plotar os histogramas de stock_A e stock_B:
plt.hist(stock_A, bins=100, alpha=0.4, label='Stock A')
plt.hist(stock_B, bins=100, alpha=0.4, label='Stock B')

# Adicionar a legenda
plt.legend()

# Mostrar o gráfico
plt.show()

Com isso já conseguimos fazer nossas primeiras análises de dados financeiros. Veja aqui o estudo de caso do S&P 100 Stock onde aplico o que aprendemos nesta leitura.

Este post foi escrito baseado em meu aprendizado com o curso "Introduction to Python for Finance" ministrado por Adina Howe disponível neste link.

COVID-19: Mantendo a produtividade e a sanidade em tempos de quarentena

Luiza Bizoni — Sun, 17 May 2020 13:31:28 +0000

Estamos enfrentando "mares nunca dantes navegados" com a chegada do Coronavírus ao Brasil (tenho usado este canal para me manter informada). Como a experiência é nova para muitas de nós, vim trazer algumas dicas para sermos mais produtivas e mantermos a saúde física e mental em dia enquanto estivermos em isolamento.

Crie uma rotina

Home office

Tenha seu próprio "ritual" matinal: acorde mais cedo, se exercite, medite, leia ou ouça noticias (eu ouço o "Primeiras Notícias" da CBN e o "Café da Manhã" da Folha de São Paulo, ambos disponíveis no Spotify), durma um pouco mais, tome um bom banho. Veja o que funciona melhor para você, teste e adapte.

Se alimente durante todo o dia: não pule as refeições porque está "muito ocupada agora" ou porque "só falta terminar uma coisa". Tome um bom café da manhã antes de começar a trabalhar, almoce, tome lanches nos intervalos. Ah, e nada de comer na frente do computador. Esse é um momento para você descansar.

Organize-se antes de começar a trabalhar: limpe a mesa, use uma cadeira confortável e com boa ergonomia, deixe todo o material que irá precisar à mão e veja quais tarefas você tem programadas para o dia. Recomendo usar o Asana para planejar e organizar suas tarefas. Além de ser gratuito e intuitivo de usar, ele tem um unicórnio que voa pela sua tela quando você concluí uma tarefa!

Evite distrações: Deixe o celular com a tela virada para baixo, no computador mantenha aberto apenas o que precisa para fazer a atividade, coloque uma musica tranquila para tocar e volte sua atenção unicamente para realizar a tarefa.

Existem diversos métodos de gestão de tempo que você pode usar para ajudar a se concentrar, eu uso a técnica Pomodoro, porém com adaptações. O que tem funcionado para mim é fazer ciclos 50–10, ou seja, durante 50 minutos eu trabalho 100% focada e quando acaba este tempo me desconecto por 10 minutos. Para cronometrar o tempo uso o app Tide que tem uma interface própria para esse método.

Faça pequenas pausas de tempos em tempos: Nas suas pausas, levante-se, beba água, vá ao banheiro, estique o corpo, veja suas redes sociais, tome um sol, vá até a janela tomar um ar e reparar na sua vizinhança. Esse tempo para se desligar do trabalho é muito importante também para sua sanidade.

Acabou o horário de trabalho, mas o dia ainda não.

Quebre a rotina

Depois de finalizar sua jornada de trabalho, divirta-se.

Faça chamadas de vídeo: isolamento não é solidão. Converse com sua família e amigos, não só por texto, mas por vídeo também. É importante manter esse contato visual.

Viaje: Não, não é pra ir passear na Itália. Leia um livro, ouça podcasts e audiobooks. Eles podem te levar para lugares que você jamais imaginou poder ir, lugares que nem existem na vida real!

Aprenda algo novo: sabe as horas que você gastava para ir e voltar para o trabalho? Use para fazer aquele curso que está adiando há tempos. Você pode aprender idiomas com o Duolingo, fazer receitas, programar, tocar um instrumento no CifraClub, e mais uma infinidade de coisas. As girls da GSG Community indicaram diversas coisas para fazer aqui neste link.

Por fim, cuide-se. Além de se alimentar bem, se hidratar e se exercitar, faça aquele spa caseiro com máscara de argila, creme no cabelo, esfoliação nos pezinhos, hidratante no corpo. Se ame, aproveite e tire esse tempo para você!

Cientista vs. Engenheira de Dados, qual carreira escolher?

Luiza Bizoni — Sun, 17 May 2020 12:56:37 +0000

Você começou a ler sobre Data Science e a área tem feito seus olhinhos brilharem, mas ainda não sabe qual profissão seguir?

Vem cá que eu te ajudo a entender a diferença entre o que faz uma Cientista e uma Engenheira de Dados. Assim fica mais fácil escolher um caminho para focar nos estudos na área que mais gostar! Bora?!

Dados, dados e mais dados

A última década que vivemos trouxe uma explosão de dados. Quase tudo o que fazemos no dia-a-dia se converte em dados: desde o nosso comportamento em um e-commerce às maratonas no Netflix, passando pelos tweets, transações usando Nubank e os passeios de Uber.

E junto a essa quantidade gigantesca de informações, que cresce exponencialmente, vem a necessidade de profissionais que sejam capazes de extrair, organizar, analisar e entregar valor a partir desses dados. Isso, junto às tecnologias que surgiram recentemente, tem levado à atualização de carreiras existentes e à criação de outras.

Data Science Team

Um time de Data Science normalmente é composto por profissionais das áreas de ciência de dados, engenharia de dados, estatística e engenharia de software. Mas vamos focar nas duas primeiras.

Frequentemente você vai se deparar com descrições de vagas de emprego que misturam ou confundem as funções e habilidades de cientistas de dados e engenheiras de dados. Apesar de as profissões estarem intimamente ligadas a dados, há diferenças entre o trabalho que desempenham e é isso que vamos ver a seguir.

Engenheira de dados

Uma engenheira de dados é uma engenheira hardcore que ama brincar com bases de dados e sistemas de processamento em larga escala. É responsável por criar o pipeline dos dados, desde a coleta até a entrega destes de forma organizada e limpa para serem utilizados pelas cientistas de dados.

As engenheiras de dados desenvolvem, constroem, testam e dão manutenção em arquiteturas, como os sistemas de processamento de dados em larga escala citados acima.

É necessário que você tenha conhecimentos sólidos de SQL (“Structured Query Language”, ou “Linguagem de Consulta Estruturada”, em pt-br. É uma linguagem de programação para trabalhar com banco de dados estruturados.) e NoSQL (banco de dados não relacionais.), técnicas de modelagem de dados e ETL ("extract, transform, load": extrair os dados "crus", transforma-los em conjuntos de dados organizados e carregar esses dados em um repositório tendo certeza de que o processo será o mais eficiente possível.).

Além disso, é preciso se manter atualizada nas ferramentas, bibliotecas, plataformas e outros recursos disponíveis, para que possa tomar a melhor decisão sobre quais tecnologias usar e como entregar o melhor com aquilo que se tem acesso e dominar arquiteturas de microsserviços e segurança de dados.

Cientista de Dados

As cientistas de dados são fadas que transformam os dados extraídos pelas maravilhosas engenheiras em soluções para os mais diversos desafios. Para isso precisam limpar, tratar, organizar os dados e aplicar suas capacidades analíticas para criar modelos preditivos.

Uma cientista de dados utiliza seus conhecimentos em matemática, estatística, programação, computação distribuída e inteligência artificial para levantar insights e suas habilidades em apresentar visualmente os dados para relatar esses insights às partes interessadas.

Se o trabalho das engenheiras de dados é baseado em ETL, o das cientistas é baseado em DAP ("discover, access, predict", ou "descobrir, acessar e predizer" em pt-br), que seria explorar e identificar fontes de dados e suas métricas, acessar e investigar esses dados e com base em análises estatísticas, apresentar insights com ações a serem tomadas em forma de gráficos e tabelas para melhor visualização.

Uma analogia interessante usada por Vik Paruchuri no seu artigo "What is a Data Engineer?" (em tradução livre) é comparar uma engenheira de automóvel e uma pilota de carros de corrida: a pilota sente a emoção da alta velocidade e a vibração do público que foi assistir à corrida, já a engenheira que projetou aquele carro sente o prazer de ajustar os motores, experimentar diferentes escapamentos, e criar máquinas fodas.

Então, se você gosta de projetar e construir algo de valor para ser usado pelo time, o caminho da engenharia de dados é o ideal para você, mas se você prefere investigar e apresentar algo de valor para ser usado pela ponta, o caminho é o da ciência de dados.

Se você está começando agora, minha dica é: inicie os estudos por python e SQL, pois serão úteis para ambas carreiras e você poderá amadurecer sua decisão e seguir pelo caminho que mais te agradar!