DEV Community: Fernanda Scovino

BigQuery 101

Fernanda Scovino — Wed, 26 May 2021 22:31:28 +0000

TL;DR

Neste artigo vamos demonstrar como consultar os conjuntos de dados disponíveis no nosso datalake público online através do Google BigQuery. Você irá aprender a avaliar os dados, cruzar tabelas de diferentes conjuntos de dados disponíveis e para isso iremos explicar algumas funções básicas de SQL e BigQuery - ao final do artigo temos inclusive uma super indicação de curso gratuito de SQL.

O texto tem como base o workshop feito por João Carabetta disponível em nosso canal no Youtube.

Introdução

As bases disponíveis para download e análise no nosso site possuem o ícone BD+. Isto significa que a base está disponível no nosso datalake público, ou seja, estes dados já foram tratados pela nossa equipe técnica e são atualizados frequentemente.

Ao longo do texto iremos explorar os dados da RAIS (Relação Anual de Informações Sociais) mas o processo é o mesmo para qualquer base que você desejar acessar. A RAIS é um relatório de informações socioeconômicas solicitado pela Secretaria de Trabalho do Ministério da Economia brasileiro às pessoas jurídicas e outros empregadores anualmente.

Através do site, após escolher o conjunto de dados de interesse, você pode visualizar Tabelas disponíveis neste conjunto. No caso da RAIS, temos disponíveis toda a série histórica de microdados de vínculos empregatícios no Brasil, e tabelas de agregações destes dados.

Para explorar uma tabela em específico, você deve clicar em Explorar dados. Em seguida, ao clicar no botão somos redirecionados ao Editor de consultas dentro do Google Cloud - essa é a ferramenta que iremos explorar hoje.

Antes de começar:

Se já tiver um projeto no Google Cloud, siga em frente. Caso contrário, após clicar no botão você verá a página abaixo - basta clicar em Criar um projeto (é gratuito) e já terá acesso às nossas bases.

Navegando pelo BigQuery

Abaixo vamos entender melhor como funciona a interface do BigQuery. Após criar o projeto ele vai aparecer para você no canto superior esquerdo (1). Logo abaixo terá uma lista de Projeto fixos do BigQuery, dentre esses o basedosdados (2) - o ícone de pino azul indica que o projeto está fixado e poderá ser acessado sempre que você abrir o BigQuery. A seta à esquerda do nome basedosdados nos permite expandir a lista de todas as bases disponíveis na BD+ logo abaixo.

Neste exemplo acessamos a página dos dados da RAIS. Sempre que abrirmos uma tabela no BigQuery teremos alguns itens que ficarão à mostra: a aba referente à tabela que selecionamos (3) que contém informações sobre a estrutura e descrição das colunas em Esquema (4) e também metadados da tabela em Detalhes (5).

Por fim, para visualizar os dados da tabela criamos uma nova Consulta (6) que irá abrir um novo Editor com a estrutura em SQL já com as informações da nossa tabela.

Explorando os metadados da RAIS

Na RAIS podemos ver entre as colunas disponíveis a sigla_uf, id_município (código IBGE), tipo de vínculo empregatício, tipo de admissão, mês de admissão, mês de desligamento, motivo de desligamento etc.
Todos os dados podem ser filtrados por região, período, nacionalidade, raça, salários etc.

Utilizando o Editor de consultas em SQL

Após selecionarmos em Consulta na página anterior, o BigQuery irá nos fornecer uma nova interface para escrita das instruções em SQL. A estrutura básica criada segue abaixo:

SELECT FROM 'basedosdados.br_me_rais.microdados_vinculos' LIMIT 1000

Essa estrutura mínima indica que iremos selecionar (SELECT) alguma(s) coluna(s) ou agregações (temos que indicar aqui quais serão) da tabela de microdados (FROM 'basedosdados.br_me_rais.microdados_vinculos') e queremos só visualizar as 1000 primeiras linhas (LIMIT 1000).

Atenção: Esse limite é importante para não processarmos a tabela inteira caso contrário seriam 250GB de dados! Conforme tornamos a query mais refinada, adicionando filtros para anos e locais específicos, por exemplo, esse tamanho de processamento se reduz bastante.

Para selecionar todas as colunas da tabela podemos usar o "*" ao invés de escrever uma por uma após o SELECT. Ao clicar em Executar (1) obtemos logo abaixo a tabela de resultado da nossa consulta. Acima da tabela irá aparecer o tamanho do processamento realizado (2) e você pode também salvar a tabela gerada em CSV no Drive ou no seu computador no botão de Salvar resultados (3) ou Explorar dados (4) para criar gráficos com o Google Data Studio - veja o exemplo com os dados da RAIS abaixo.

Vamos usar como exemplo mais completo uma consulta de vínculos empregatícios do estado do Acre e cruzar com os dados de população do IBGE de 1985 até 2019. Essa é uma consulta mais complexa, mas basta sabermos quais são as colunas de pareamento (neste caso, id_municipio e ano que fazem o JOIN) entre as tabelas para realizar o cruzamento. Abaixo em vermelho segue a explicação de cada linha da query, você pode acessar o código em SQL também em nosso Github.

Importante ressaltar:

Nossas bases sempre terão todos os nomes de colunas chave de identificação padronizados, por exemplo sigla_uf é sigla_uf em todas as tabelas, o mesmo para ano e id_municipio - isso facilita bastante os cruzamentos!

Esta consulta processou 571 MB de dados em apenas 4 segundos. A tabela completa da RAIS tem mais de 250 GB. Já imaginou executar no Excel?

Para visualizar o resultado ao longo do tempo podemos criar um gráfico através do botão Explorar dados que irá nos redirecionar para uma aba do Google Data Studio, uma ferramenta gratuita de BI do Google. Para saber mais sobre o Data Studio veja aqui.

Por que usar SQL?

SQL é uma das linguagens de programação mais simples e poderosas para quem quer mexer com dados. Saber criar consultas eficientes com filtros, agregações e cruzamentos em SQL salva bastante tempo que você gastaria no Python ou R, por exemplo - e acredite, nós também amamos essas linguagens.

Usar o SQL para pré-processamento de dados é uma ótima saída para quem trabalha com grandes volumes de dados, e construir estatísticas descritivas também é bastante simples. Uma vez com os dados prontos, você pode carregar os dados no Python ou R para rodar modelos e algoritmos mais robustos, usando inclusive nosso pacote já disponível em ambas as linguagens.

Quer aprender mais sobre SQL? Temos uma sugestão de um curso gratuito no Coursera em que você pode aprender praticando, e tem duração média de 8 horas.

Nosso projeto já te ajudou de alguma forma? Saiba como nos ajudar:

Apoie o projeto
Seja um(a) colaborador(a) de dados na BD
Colabore com nossos pacotes
Compartilhe nas redes sociais!

Texto produzido por Paolo e Fernanda, da Base dos Dados 💚

Base dos Dados Python 101

Fernanda Scovino — Fri, 16 Apr 2021 15:30:39 +0000

TL;DR

Neste artigo vamos demonstrar como usar o pacote da Base dos Dados em Python para acessar e usar os dados disponíveis em nosso repositório público, com o conteúdo do Workshop "Brincando com dados da BD+ em Python".

O pacote tem diversas funções que permitem listar os conjuntos de dados disponíveis, obter informações sobre as tabelas, carregar os dados direto no pandas, dentre muitas outras. Como exemplo, exploramos os dados da tabela de nomes brasileiros do IBGE (2010) e mostramos como criar uma visualização de nuvem de palavras dos nomes mais frequentes.

Como acessar a BD+ em Python?

A Base dos Dados Mais (BD+) é o nosso datalake de dados públicos limpos, integrados e atualizados pela nossa equipe de dados - dados prontos para análise.

O datalake é mantido no Google BigQuery e tem custo praticamente zero para todos os usuários - você tem 1 TB disponível por mês para fazer consulta aos dados. Para facilitar ainda mais a vida de Pythonistas, criamos um pacote de acesso direto ao repositório via Python: basedosdados

!pip install basedosdados
import basedosdados as bd

Atenção! É necessário criar um projeto no Google Cloud e autenticar seu projeto para fazer consultas aos dados do repositório. Caso você rode qualquer função do pacote pela primeira vez, as instruções para essa configuração irão aparecer para você e basta seguir o passo a passo apresentado.

Existem diversas funções no pacote, tanto para acesso quanto para publicação de dados no nosso ou em qualquer projeto do Google Cloud - você pode usar o pacote para construir seu próprio repositório de dados também.

A lista completa dos módulos do pacote está na nossa documentação, e veja também como colaborar subindo dados no repositório.

Explorando as funções do pacote

Para ilustrar, podemos verificar todos os conjuntos de dados disponíveis no repositório usando a função list_datasets. Essa função retorna todos os conjuntos de dados no repositório e que podem ser filtrados por algum termo específico, com o parâmetro filter_by, como fazemos abaixo buscando dados do IBGE. O parâmetro with_description indica se queremos visualizar também a descrição de cada conjunto.

bd.list_datasets(filter_by='ibge', with_description=True)

Da mesma forma, podemos listar as tabelas de um conjunto de dados específico com a função list_dataset_tables. Além disso, podemos ter também uma visão completa das colunas e seus tipos com a função get_table_columns - tudo isso sem carregar ainda os dados no ambiente!

bd.list_dataset_tables(dataset_id='br_ibge_nomes_brasil', with_description=True)
bd.get_table_columns(
    dataset_id='br_ibge_nomes_brasil',
    table_id='quantidade_municipio_nome_2010'
)

Antes de carregar os dados, pode-se verificar inclusive seu tamanho total - existem tabelas muito grandes no repositório, então recomendamos fortemente fazer esse passo.

bd.get_table_size(
    dataset_id='br_ibge_nomes_brasil',
    table_id='quantidade_municipio_nome_2010',
    billing_project_id='basedosdados42'
)

Por fim, a função read_table faz o carregamento dos dados no ambiente Python. Caso a base em questão seja muito grande, você pode optar também em usar a função read_sql, que permite fazer uma query SQL e carregar no ambiente somente os dados requisitados. Para ambos é necessário que você explicite o seu billing_project_id, o projeto que foi habilitado lá no início e que será cobrado caso você exceda o limite.

df = bd.read_table(
    dataset_id='br_ibge_nomes_brasil',
    table_id='quantidade_municipio_nome_2010',
    billing_project_id='basedosdados42'
)

Neste exemplo vamos trabalhar com os dados de nomes brasileiros do Censo Demográfico 2010 do IBGE. De acordo com o Censo, existem ao todo cerca de 200 milhões de habitantes com mais de 130 mil nomes diferentes espalhados pelo Brasil. Curioso? Nós também!

Quais são os nomes mais famosos no Brasil?

Quem você diria que é mais famoso: Maria ou João? É isso o que queremos descobrir primeiro com os nossos dados.

Para respondermos a essa pergunta, nós vamos contar a frequência de cada nome no país e ordená-los, e em seguida criar uma nuvem de palavras para visualização dessas informações.

Criamos então a função generate_list_sorted_by_freq que faz a agregação dos nomes contando quantas vezes cada um aparece na nossa base, e ordena essa lista de acordo com os nomes mais frequentes. A função pode ser lida abaixo.

def generate_list_sorted_by_freq(df):
    name_freq = df.groupby('name').freq.sum() # agrupamento de nomes iguais
    name_freq = name_freq.sort_values(ascending=False) # ordenação dos nomes por frequência
    name_freq = name_freq.reset_index() # inicializa o index de um dataframe criando um se necessário
    return name_freq

df = df.rename(columns={'qtde_nascimentos_ate_2010': 'freq', 'nome': 'name'})
name_freq = generate_list_sorted_by_freq(df)

Para criar uma nuvem de palavras, vamos usar a biblioteca wordcloud junto ao matplotlib disponíveis para instalação via pip. A wordcloud nos possibilita gerar uma imagem com as palavras mais frequentes e o tamanho de cada palavra é determinado pela sua frequência, gerando um belo efeito visual para nosso ranking.

!pip install wordcloud # caso não tenha a biblioteca já instalada
!pip install matplotlib # caso não tenha a biblioteca já instalada

from wordcloud import WordCloud
import matplotlib.pyplot as plt

Abaixo você pode ver a nuvem gerada com a wordcloud, o código completo de como geramos a nuvem está no notebook ao final do texto.

E como resultado: Maria é a vencedora! O que achou dessa descoberta? No próximo texto vamos trazer uma análise regional construída pelo Fred também no Workshop, para acessar todo o conteúdo apresentado basta acessar a Base dos Dados no Youtube.

Confira o notebook com a análise completa no nosso repositório:

basedosdados / analises

📊 Repositório de códigos simples e replicáveis das análises publicadas.

Texto produzido por Vinicius e Fernanda, da Base dos Dados 💚