<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:dc="http://purl.org/dc/elements/1.1/">
  <channel>
    <title>DEV Community: Fernanda Scovino</title>
    <description>The latest articles on DEV Community by Fernanda Scovino (@fernandascovino).</description>
    <link>https://dev.to/fernandascovino</link>
    <image>
      <url>https://media2.dev.to/dynamic/image/width=90,height=90,fit=cover,gravity=auto,format=auto/https:%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Fuser%2Fprofile_image%2F603105%2F57d914a8-7ef0-40dc-a7db-3f9befd62f22.jpeg</url>
      <title>DEV Community: Fernanda Scovino</title>
      <link>https://dev.to/fernandascovino</link>
    </image>
    <atom:link rel="self" type="application/rss+xml" href="https://dev.to/feed/fernandascovino"/>
    <language>en</language>
    <item>
      <title>BigQuery 101</title>
      <dc:creator>Fernanda Scovino</dc:creator>
      <pubDate>Wed, 26 May 2021 22:31:28 +0000</pubDate>
      <link>https://dev.to/basedosdados/bigquery-101-45pk</link>
      <guid>https://dev.to/basedosdados/bigquery-101-45pk</guid>
      <description>&lt;h1&gt;
  
  
  TL;DR
&lt;/h1&gt;

&lt;p&gt;Neste artigo vamos demonstrar como consultar os conjuntos de dados disponíveis no nosso datalake público online através do Google BigQuery. Você irá aprender a avaliar os dados, cruzar tabelas de diferentes conjuntos de dados disponíveis e para isso iremos explicar algumas funções básicas de SQL e BigQuery - ao final do artigo temos inclusive uma super indicação de curso gratuito de SQL. &lt;/p&gt;

&lt;p&gt;O texto tem como base o workshop feito por João Carabetta disponível em &lt;a href="https://www.youtube.com/basedosdados" rel="noopener noreferrer"&gt;nosso canal no Youtube&lt;/a&gt;.&lt;/p&gt;

&lt;h1&gt;
  
  
  Introdução
&lt;/h1&gt;

&lt;p&gt;As bases disponíveis para download e análise no nosso site possuem o ícone &lt;strong&gt;BD+&lt;/strong&gt;. Isto significa que a base está disponível no nosso datalake público, ou seja, estes dados já foram tratados pela nossa equipe técnica e são atualizados frequentemente.&lt;/p&gt;

&lt;p&gt;Ao longo do texto iremos explorar os dados da &lt;a href="https://basedosdados.org/dataset/br-me-rais" rel="noopener noreferrer"&gt;RAIS (Relação Anual de Informações Sociais)&lt;/a&gt; mas o processo é o mesmo para qualquer base que você desejar acessar. A RAIS é um relatório de informações socioeconômicas solicitado pela Secretaria de Trabalho do Ministério da Economia brasileiro às pessoas jurídicas e outros empregadores anualmente.&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fhnsvl3nufl431ntvznuq.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fhnsvl3nufl431ntvznuq.png" alt="image"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;Através do site, após escolher o conjunto de dados de interesse, você pode visualizar &lt;strong&gt;Tabelas disponíveis&lt;/strong&gt; neste conjunto. No caso da RAIS, temos disponíveis toda a série histórica de microdados de vínculos empregatícios no Brasil, e tabelas de agregações destes dados.&lt;/p&gt;

&lt;p&gt;Para explorar uma tabela em específico, você deve clicar em Explorar dados. Em seguida, ao clicar no botão  somos redirecionados ao Editor de consultas dentro do Google Cloud - essa é a ferramenta que iremos explorar hoje.&lt;/p&gt;

&lt;h3&gt;
  
  
  Antes de começar:
&lt;/h3&gt;

&lt;blockquote&gt;
&lt;p&gt;&lt;em&gt;Se já tiver um projeto no Google Cloud, siga em frente. Caso contrário, após clicar no botão você verá a página abaixo - basta clicar em Criar um projeto (é gratuito) e já terá acesso às nossas bases.&lt;/em&gt;&lt;/p&gt;
&lt;/blockquote&gt;

&lt;p&gt;&lt;a href="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fmi5iwvjvhs9wc3577b0w.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fmi5iwvjvhs9wc3577b0w.png" alt="image"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;h1&gt;
  
  
  Navegando pelo BigQuery
&lt;/h1&gt;

&lt;p&gt;Abaixo vamos entender melhor como funciona a interface do BigQuery. Após criar o projeto ele vai aparecer para você no canto superior esquerdo &lt;strong&gt;(1)&lt;/strong&gt;. Logo abaixo terá uma lista de Projeto fixos do BigQuery, dentre esses o &lt;strong&gt;&lt;code&gt;basedosdados&lt;/code&gt; (2)&lt;/strong&gt; -  o ícone de pino azul indica que o projeto está fixado e poderá ser acessado sempre que você abrir o BigQuery. A seta à esquerda do nome &lt;code&gt;basedosdados&lt;/code&gt; nos permite expandir a lista de todas as bases disponíveis na BD+ logo abaixo. &lt;/p&gt;

&lt;p&gt;&lt;a href="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F45dala9jmuxp5nzwtzmy.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F45dala9jmuxp5nzwtzmy.png" alt="image"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;Neste exemplo acessamos a página dos dados da RAIS. Sempre que abrirmos uma tabela no BigQuery teremos alguns itens que ficarão à mostra: a aba referente à tabela que selecionamos &lt;strong&gt;(3)&lt;/strong&gt; que contém informações sobre a estrutura e descrição das colunas em &lt;strong&gt;Esquema (4)&lt;/strong&gt; e também metadados da tabela em &lt;strong&gt;Detalhes (5)&lt;/strong&gt;. &lt;/p&gt;

&lt;p&gt;Por fim, para visualizar os dados da tabela criamos uma nova &lt;strong&gt;Consulta (6)&lt;/strong&gt; que irá abrir um novo Editor com a estrutura em SQL já com as informações da nossa tabela.&lt;/p&gt;

&lt;h3&gt;
  
  
  Explorando os metadados da RAIS
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;Na RAIS podemos ver entre as colunas disponíveis a &lt;code&gt;sigla_uf&lt;/code&gt;, &lt;code&gt;id_município&lt;/code&gt; (código IBGE), tipo de vínculo empregatício, tipo de admissão, mês de admissão, mês de desligamento, motivo de desligamento etc. &lt;/li&gt;
&lt;li&gt;Todos os dados podem ser filtrados por região, período, nacionalidade, raça, salários etc.&lt;/li&gt;
&lt;/ul&gt;

&lt;h1&gt;
  
  
  Utilizando o Editor de consultas em SQL
&lt;/h1&gt;

&lt;p&gt;Após selecionarmos em Consulta na página anterior, o BigQuery irá nos fornecer uma nova interface para escrita das instruções em SQL. A estrutura básica criada segue abaixo:&lt;/p&gt;

&lt;p&gt;&lt;code&gt;SELECT  FROM 'basedosdados.br_me_rais.microdados_vinculos' LIMIT 1000&lt;/code&gt;&lt;/p&gt;

&lt;p&gt;Essa estrutura mínima indica que iremos selecionar (&lt;code&gt;SELECT&lt;/code&gt;) alguma(s) coluna(s) ou agregações (&lt;em&gt;temos que indicar aqui quais serão&lt;/em&gt;) da tabela de microdados (&lt;code&gt;FROM 'basedosdados.br_me_rais.microdados_vinculos'&lt;/code&gt;) e queremos só visualizar as 1000 primeiras linhas (&lt;code&gt;LIMIT 1000&lt;/code&gt;). &lt;/p&gt;

&lt;blockquote&gt;
&lt;p&gt;&lt;em&gt;Atenção: Esse limite é importante para não processarmos a tabela inteira caso contrário seriam 250GB de dados! Conforme tornamos a query mais refinada, adicionando filtros para anos e locais específicos, por exemplo, esse tamanho de processamento se reduz bastante.&lt;/em&gt;&lt;/p&gt;
&lt;/blockquote&gt;

&lt;p&gt;&lt;a href="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Flw25h4gsbnjjxoto2q65.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Flw25h4gsbnjjxoto2q65.png" alt="image"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;Para selecionar todas as colunas da tabela podemos usar o "*" ao invés de escrever uma por uma após o &lt;code&gt;SELECT&lt;/code&gt;. Ao clicar em &lt;strong&gt;Executar (1)&lt;/strong&gt; obtemos logo abaixo a tabela de resultado da nossa consulta. Acima da tabela irá aparecer o tamanho do processamento realizado &lt;strong&gt;(2)&lt;/strong&gt; e você pode também salvar a tabela gerada em CSV no Drive ou no seu computador no botão de &lt;strong&gt;Salvar resultados (3)&lt;/strong&gt; ou &lt;strong&gt;Explorar dados (4)&lt;/strong&gt; para criar gráficos com o Google Data Studio - veja o exemplo com os dados da RAIS abaixo.&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F1awmdq2tj878xqm4iq84.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F1awmdq2tj878xqm4iq84.png" alt="image"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;Vamos usar como exemplo mais completo uma consulta de vínculos empregatícios do estado do Acre e cruzar com os dados de população do IBGE de 1985 até 2019. Essa é uma consulta mais complexa, mas basta sabermos quais são as colunas de pareamento (neste caso, &lt;code&gt;id_municipio&lt;/code&gt; e ano que fazem o JOIN) entre as tabelas para realizar o cruzamento. Abaixo em vermelho segue a explicação de cada linha da query, você pode acessar o código em SQL também em &lt;a href="https://github.com/basedosdados/analises/blob/main/workshops/br_me_rais_microdados_vinculos_20210526.sql" rel="noopener noreferrer"&gt;nosso Github&lt;/a&gt;.&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F1w3lxjmap48eo313w55l.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F1w3lxjmap48eo313w55l.png" alt="image"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;h3&gt;
  
  
  Importante ressaltar:
&lt;/h3&gt;

&lt;blockquote&gt;
&lt;p&gt;&lt;em&gt;Nossas bases sempre terão todos os nomes de colunas chave de identificação padronizados, por exemplo &lt;code&gt;sigla_uf&lt;/code&gt; é &lt;code&gt;sigla_uf&lt;/code&gt; em todas as tabelas, o mesmo para ano e &lt;code&gt;id_municipio&lt;/code&gt; - isso facilita bastante os cruzamentos!&lt;/em&gt;&lt;/p&gt;
&lt;/blockquote&gt;

&lt;p&gt;&lt;strong&gt;Esta consulta processou 571 MB de dados em apenas 4 segundos.&lt;/strong&gt; A tabela completa da RAIS tem mais de 250 GB. Já imaginou executar no Excel? &lt;/p&gt;

&lt;p&gt;Para visualizar o resultado ao longo do tempo podemos criar um gráfico através do botão &lt;strong&gt;Explorar dados&lt;/strong&gt; que irá nos redirecionar para uma aba do Google Data Studio, uma ferramenta gratuita de BI do Google. Para saber mais sobre o Data Studio &lt;a href="https://support.google.com/datastudio/answer/6283323?hl=pt-BR" rel="noopener noreferrer"&gt;veja aqui&lt;/a&gt;.&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F4kocw93bsnoa8zbjpsss.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F4kocw93bsnoa8zbjpsss.png" alt="image"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;h2&gt;
  
  
  Por que usar SQL?
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;SQL é uma das linguagens de programação mais simples e poderosas para quem quer mexer com dados.&lt;/strong&gt; Saber criar consultas eficientes com filtros, agregações e cruzamentos em SQL salva bastante tempo que você gastaria no Python ou R, por exemplo - e acredite, nós também amamos essas linguagens. &lt;/p&gt;

&lt;p&gt;Usar o SQL para pré-processamento de dados é uma ótima saída para quem trabalha com grandes volumes de dados, e construir estatísticas descritivas também é bastante simples. Uma vez com os dados prontos, você pode carregar os dados no Python ou R para rodar modelos e algoritmos mais robustos, &lt;a href="https://github.com/basedosdados/mais" rel="noopener noreferrer"&gt;usando inclusive nosso pacote já disponível em ambas as linguagens&lt;/a&gt;.&lt;/p&gt;

&lt;blockquote&gt;
&lt;p&gt;&lt;em&gt;Quer aprender mais sobre SQL? Temos uma sugestão de um &lt;a href="https://www.codecademy.com/learn/learn-sql" rel="noopener noreferrer"&gt;curso gratuito no Coursera&lt;/a&gt; em que você pode aprender praticando, e tem duração média de 8 horas.&lt;/em&gt;&lt;/p&gt;
&lt;/blockquote&gt;




&lt;p&gt;&lt;strong&gt;Nosso projeto já te ajudou de alguma forma?&lt;/strong&gt; Saiba como nos ajudar:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;&lt;a href="https://apoia.se/basedosdados" rel="noopener noreferrer"&gt;Apoie o projeto&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href="https://basedosdados.github.io/mais/colab_data/" rel="noopener noreferrer"&gt;Seja um(a) colaborador(a) de dados na BD&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href="https://github.com/basedosdados/mais" rel="noopener noreferrer"&gt;Colabore com nossos pacotes&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;Compartilhe nas redes sociais!&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;em&gt;Texto produzido por &lt;a href="https://dev.to/paolofullone"&gt;Paolo&lt;/a&gt; e &lt;a href="http://github.com/fernandascovino" rel="noopener noreferrer"&gt;Fernanda&lt;/a&gt;, da Base dos Dados 💚&lt;/em&gt;&lt;/p&gt;

</description>
      <category>googlecloud</category>
      <category>database</category>
      <category>datascience</category>
    </item>
    <item>
      <title>Base dos Dados Python 101</title>
      <dc:creator>Fernanda Scovino</dc:creator>
      <pubDate>Fri, 16 Apr 2021 15:30:39 +0000</pubDate>
      <link>https://dev.to/basedosdados/base-dos-dados-python-101-44lc</link>
      <guid>https://dev.to/basedosdados/base-dos-dados-python-101-44lc</guid>
      <description>&lt;h2&gt;
  
  
  TL;DR
&lt;/h2&gt;

&lt;p&gt;Neste artigo vamos demonstrar &lt;strong&gt;como usar o pacote da Base dos Dados em Python&lt;/strong&gt; para acessar e usar os dados disponíveis em nosso repositório público, com o conteúdo do &lt;a href="https://www.youtube.com/watch?v=wI2xEioDPgM" rel="noopener noreferrer"&gt;Workshop "Brincando com dados da BD+ em Python"&lt;/a&gt;. &lt;/p&gt;

&lt;p&gt;O pacote tem diversas funções que permitem listar os conjuntos de dados disponíveis, obter informações sobre as tabelas, carregar os dados direto no pandas, dentre muitas outras. Como exemplo, &lt;strong&gt;exploramos os dados da tabela de nomes brasileiros do IBGE (2010)&lt;/strong&gt; e mostramos como criar uma visualização de nuvem de palavras dos nomes mais frequentes.&lt;/p&gt;

&lt;h2&gt;
  
  
  Como acessar a BD+ em Python?
&lt;/h2&gt;

&lt;p&gt;A Base dos Dados Mais (BD+) é o nosso &lt;em&gt;datalake&lt;/em&gt; de dados públicos &lt;strong&gt;limpos, integrados e atualizados&lt;/strong&gt; pela nossa equipe de dados - dados prontos para análise.&lt;/p&gt;

&lt;p&gt;O datalake é mantido no Google BigQuery e tem custo praticamente zero para todos os usuários - você tem 1 TB disponível por mês para fazer consulta aos dados. Para facilitar ainda mais a vida de Pythonistas, criamos um pacote de acesso direto ao repositório via Python: &lt;code&gt;basedosdados&lt;/code&gt;&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight python"&gt;&lt;code&gt;&lt;span class="err"&gt;!&lt;/span&gt;&lt;span class="n"&gt;pip&lt;/span&gt; &lt;span class="n"&gt;install&lt;/span&gt; &lt;span class="n"&gt;basedosdados&lt;/span&gt;
&lt;span class="kn"&gt;import&lt;/span&gt; &lt;span class="n"&gt;basedosdados&lt;/span&gt; &lt;span class="k"&gt;as&lt;/span&gt; &lt;span class="n"&gt;bd&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;


&lt;p&gt;&lt;strong&gt;Atenção!&lt;/strong&gt; É necessário criar um projeto no Google Cloud e autenticar seu projeto para fazer consultas aos dados do repositório. Caso você rode qualquer função do pacote pela primeira vez, as instruções para essa configuração irão aparecer para você e basta seguir o passo a passo apresentado.&lt;/p&gt;

&lt;p&gt;Existem diversas funções no pacote, tanto para acesso quanto para publicação de dados no nosso ou em qualquer projeto do Google Cloud - você pode usar o pacote para construir seu próprio repositório de dados também. &lt;/p&gt;

&lt;blockquote&gt;
&lt;p&gt;A lista completa dos módulos do pacote está na &lt;a href="https://basedosdados.github.io/mais/py_reference_api/" rel="noopener noreferrer"&gt;nossa documentação&lt;/a&gt;, e veja também como colaborar &lt;a href="https://basedosdados.github.io/mais/colab_data/" rel="noopener noreferrer"&gt;subindo dados no repositório&lt;/a&gt;.&lt;/p&gt;
&lt;/blockquote&gt;
&lt;h2&gt;
  
  
  Explorando as funções do pacote
&lt;/h2&gt;

&lt;p&gt;Para ilustrar, podemos verificar todos os conjuntos de dados disponíveis no repositório usando a função &lt;code&gt;list_datasets&lt;/code&gt;. Essa função retorna todos os conjuntos de dados no repositório e que podem ser filtrados por algum termo específico, com o parâmetro &lt;code&gt;filter_by&lt;/code&gt;, como fazemos abaixo buscando dados do IBGE. O parâmetro &lt;code&gt;with_description&lt;/code&gt; indica se queremos visualizar também a descrição de cada conjunto.&lt;br&gt;
&lt;/p&gt;
&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight python"&gt;&lt;code&gt;&lt;span class="n"&gt;bd&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;list_datasets&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;filter_by&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;ibge&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="n"&gt;with_description&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="bp"&gt;True&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;


&lt;p&gt;Da mesma forma, podemos listar as tabelas de um conjunto de dados específico com a função &lt;code&gt;list_dataset_tables&lt;/code&gt;. Além disso, podemos ter também uma visão completa das colunas e seus tipos com a função &lt;code&gt;get_table_columns&lt;/code&gt; - tudo isso sem carregar ainda os dados no ambiente!&lt;br&gt;
&lt;/p&gt;
&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight python"&gt;&lt;code&gt;&lt;span class="n"&gt;bd&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;list_dataset_tables&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;dataset_id&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;br_ibge_nomes_brasil&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="n"&gt;with_description&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="bp"&gt;True&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;
&lt;span class="n"&gt;bd&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;get_table_columns&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;
    &lt;span class="n"&gt;dataset_id&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;br_ibge_nomes_brasil&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
    &lt;span class="n"&gt;table_id&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;quantidade_municipio_nome_2010&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;
&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;


&lt;p&gt;Antes de carregar os dados, pode-se verificar inclusive seu tamanho total - existem tabelas muito grandes no repositório, então recomendamos fortemente fazer esse passo.&lt;br&gt;
&lt;/p&gt;
&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight python"&gt;&lt;code&gt;&lt;span class="n"&gt;bd&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;get_table_size&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;
    &lt;span class="n"&gt;dataset_id&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;br_ibge_nomes_brasil&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
    &lt;span class="n"&gt;table_id&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;quantidade_municipio_nome_2010&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
    &lt;span class="n"&gt;billing_project_id&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;basedosdados42&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;
&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;


&lt;p&gt;Por fim, a função &lt;code&gt;read_table&lt;/code&gt; faz o carregamento dos dados no ambiente Python. Caso a base em questão seja muito grande, você pode optar também em usar a função &lt;code&gt;read_sql&lt;/code&gt;,  que permite fazer uma query SQL e carregar no ambiente somente os dados requisitados. Para ambos é necessário que você explicite o seu &lt;code&gt;billing_project_id&lt;/code&gt;, o projeto que foi habilitado lá no início e que será cobrado caso você exceda o limite.&lt;br&gt;
&lt;/p&gt;
&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight python"&gt;&lt;code&gt;&lt;span class="n"&gt;df&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;bd&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;read_table&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;
    &lt;span class="n"&gt;dataset_id&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;br_ibge_nomes_brasil&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
    &lt;span class="n"&gt;table_id&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;quantidade_municipio_nome_2010&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
    &lt;span class="n"&gt;billing_project_id&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;basedosdados42&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;
&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;


&lt;p&gt;Neste exemplo vamos trabalhar com os dados de &lt;a href="https://basedosdados.org/dataset/br-ibge-nomes-brasil" rel="noopener noreferrer"&gt;nomes brasileiros do Censo Demográfico 2010 do IBGE&lt;/a&gt;. De acordo com o Censo, existem ao todo cerca de 200 milhões de habitantes com mais de 130 mil nomes diferentes espalhados pelo Brasil. Curioso? Nós também!&lt;/p&gt;
&lt;h2&gt;
  
  
  Quais são os nomes mais famosos no Brasil?
&lt;/h2&gt;

&lt;p&gt;Quem você diria que é mais famoso: Maria ou João? É isso o que queremos descobrir primeiro com os nossos dados. &lt;/p&gt;

&lt;p&gt;Para respondermos a essa pergunta, nós vamos contar a frequência de cada nome no país e ordená-los, e em seguida criar uma nuvem de palavras para visualização dessas informações.&lt;/p&gt;

&lt;p&gt;Criamos então a função &lt;code&gt;generate_list_sorted_by_freq&lt;/code&gt; que faz a agregação dos nomes contando quantas vezes cada um aparece na nossa base, e ordena essa lista de acordo com os nomes mais frequentes. A função pode ser lida abaixo.&lt;br&gt;
&lt;/p&gt;
&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight python"&gt;&lt;code&gt;&lt;span class="k"&gt;def&lt;/span&gt; &lt;span class="nf"&gt;generate_list_sorted_by_freq&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;df&lt;/span&gt;&lt;span class="p"&gt;):&lt;/span&gt;
    &lt;span class="n"&gt;name_freq&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;df&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;groupby&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;name&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;).&lt;/span&gt;&lt;span class="n"&gt;freq&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;sum&lt;/span&gt;&lt;span class="p"&gt;()&lt;/span&gt; &lt;span class="c1"&gt;# agrupamento de nomes iguais
&lt;/span&gt;    &lt;span class="n"&gt;name_freq&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;name_freq&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;sort_values&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;ascending&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="bp"&gt;False&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt; &lt;span class="c1"&gt;# ordenação dos nomes por frequência
&lt;/span&gt;    &lt;span class="n"&gt;name_freq&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;name_freq&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;reset_index&lt;/span&gt;&lt;span class="p"&gt;()&lt;/span&gt; &lt;span class="c1"&gt;# inicializa o index de um dataframe criando um se necessário
&lt;/span&gt;    &lt;span class="k"&gt;return&lt;/span&gt; &lt;span class="n"&gt;name_freq&lt;/span&gt;

&lt;span class="n"&gt;df&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;df&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;rename&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;columns&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="p"&gt;{&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;qtde_nascimentos_ate_2010&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;freq&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;nome&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;name&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;})&lt;/span&gt;
&lt;span class="n"&gt;name_freq&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="nf"&gt;generate_list_sorted_by_freq&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;df&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;


&lt;p&gt;Para criar uma nuvem de palavras, vamos usar a biblioteca &lt;code&gt;wordcloud&lt;/code&gt; junto ao &lt;code&gt;matplotlib&lt;/code&gt; disponíveis para instalação via pip. A &lt;code&gt;wordcloud&lt;/code&gt; nos possibilita gerar uma imagem com as palavras mais frequentes e o tamanho de cada palavra é determinado pela sua frequência, gerando um belo efeito visual para nosso ranking.&lt;br&gt;
&lt;/p&gt;
&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight python"&gt;&lt;code&gt;&lt;span class="err"&gt;!&lt;/span&gt;&lt;span class="n"&gt;pip&lt;/span&gt; &lt;span class="n"&gt;install&lt;/span&gt; &lt;span class="n"&gt;wordcloud&lt;/span&gt; &lt;span class="c1"&gt;# caso não tenha a biblioteca já instalada
&lt;/span&gt;&lt;span class="err"&gt;!&lt;/span&gt;&lt;span class="n"&gt;pip&lt;/span&gt; &lt;span class="n"&gt;install&lt;/span&gt; &lt;span class="n"&gt;matplotlib&lt;/span&gt; &lt;span class="c1"&gt;# caso não tenha a biblioteca já instalada
&lt;/span&gt;
&lt;span class="kn"&gt;from&lt;/span&gt; &lt;span class="n"&gt;wordcloud&lt;/span&gt; &lt;span class="kn"&gt;import&lt;/span&gt; &lt;span class="n"&gt;WordCloud&lt;/span&gt;
&lt;span class="kn"&gt;import&lt;/span&gt; &lt;span class="n"&gt;matplotlib.pyplot&lt;/span&gt; &lt;span class="k"&gt;as&lt;/span&gt; &lt;span class="n"&gt;plt&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;


&lt;p&gt;Abaixo você pode ver a nuvem gerada com a &lt;code&gt;wordcloud&lt;/code&gt;, o código completo de como geramos a nuvem está no notebook ao final do texto.&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F2jrhznshjj7a8jat5lyu.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F2jrhznshjj7a8jat5lyu.png" alt="image"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;E como resultado: Maria é a vencedora!&lt;/strong&gt; O que achou dessa descoberta? No próximo texto vamos trazer uma análise regional construída pelo Fred também no Workshop, para acessar todo o conteúdo apresentado basta acessar a Base dos Dados no Youtube.&lt;/p&gt;


&lt;h4&gt;
  
  
  Confira o notebook com a análise completa no nosso repositório:
&lt;/h4&gt;


&lt;div class="ltag-github-readme-tag"&gt;
  &lt;div class="readme-overview"&gt;
    &lt;h2&gt;
      &lt;img src="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev.to%2Fassets%2Fgithub-logo-5a155e1f9a670af7944dd5e12375bc76ed542ea80224905ecaf878b9157cdefc.svg" alt="GitHub logo"&gt;
      &lt;a href="https://github.com/basedosdados" rel="noopener noreferrer"&gt;
        basedosdados
      &lt;/a&gt; / &lt;a href="https://github.com/basedosdados/analises" rel="noopener noreferrer"&gt;
        analises
      &lt;/a&gt;
    &lt;/h2&gt;
    &lt;h3&gt;
      📊 Repositório de códigos simples e replicáveis das análises publicadas. 
    &lt;/h3&gt;
  &lt;/div&gt;
&lt;/div&gt;



&lt;p&gt;Texto produzido por &lt;a href="https://github.com/vncsna" rel="noopener noreferrer"&gt;Vinicius&lt;/a&gt; e &lt;a href="https://github.com/fernandascovino" rel="noopener noreferrer"&gt;Fernanda&lt;/a&gt;, da Base dos Dados 💚&lt;/p&gt;

</description>
      <category>python</category>
      <category>programming</category>
      <category>beginners</category>
      <category>datascience</category>
    </item>
  </channel>
</rss>
