<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:dc="http://purl.org/dc/elements/1.1/">
  <channel>
    <title>DEV Community: Base dos Dados</title>
    <description>The latest articles on DEV Community by Base dos Dados (@basedosdados).</description>
    <link>https://dev.to/basedosdados</link>
    <image>
      <url>https://media2.dev.to/dynamic/image/width=90,height=90,fit=cover,gravity=auto,format=auto/https:%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Forganization%2Fprofile_image%2F3915%2F2fd3fc80-a90d-4728-95fc-61806aba1cf3.png</url>
      <title>DEV Community: Base dos Dados</title>
      <link>https://dev.to/basedosdados</link>
    </image>
    <atom:link rel="self" type="application/rss+xml" href="https://dev.to/feed/basedosdados"/>
    <language>en</language>
    <item>
      <title>Entenda como nossa base de Diretórios Brasileiros facilita sua vida</title>
      <dc:creator>Crislane A. Souza</dc:creator>
      <pubDate>Mon, 16 Aug 2021 14:14:34 +0000</pubDate>
      <link>https://dev.to/basedosdados/entenda-como-nossa-base-de-diretorios-brasileiros-facilita-sua-vida-27ji</link>
      <guid>https://dev.to/basedosdados/entenda-como-nossa-base-de-diretorios-brasileiros-facilita-sua-vida-27ji</guid>
      <description>&lt;h2&gt;
  
  
  TL;DR
&lt;/h2&gt;

&lt;p&gt;Neste artigo vamos apresentar nossa base de &lt;a href="https://basedosdados.org/dataset/br-bd-diretorios-brasil"&gt;Diretórios Brasileiros&lt;/a&gt;, que está disponível no nosso datalake público (a BD+), onde disponibilizamos diversas bases de dados públicas já tratadas, organizadas e integradas para análise. Também vamos demonstrar como essa base facilita o cruzamento entre tabelas de diferentes conjuntos de dados e como você pode aplicá-la em sua análise. &lt;/p&gt;

&lt;h1&gt;
  
  
  A Base de Diretórios Brasileiros
&lt;/h1&gt;

&lt;p&gt;Essa base é uma referência de centralização de informações de unidades básicas para análises e funciona como um perfil completo de entidades como município, escola, UF, setores censitários e mais. São tabelas que ligam diversos códigos institucionais e informações de diferentes entidades brasileiras. &lt;/p&gt;

&lt;p&gt;Isso é importante porque resolve o problema de não existir um identificador único para municípios entre as instituições brasileiras, resolve a mudança de IDs e nomes com typos entre anos e instituições, além de IDs novos de municípios que são criados ao longo do tempo. &lt;/p&gt;

&lt;p&gt;Por exemplo, para municípios, essa base liga conjuntos de organizações como IBGE, Receita Federal, Tribunal Superior Eleitoral (TSE), Banco Central do Brasil, comarcas, região de saúde, etc. &lt;/p&gt;

&lt;p&gt;Cada tabela dessa base representa uma entidade do nosso datalake público, como &lt;code&gt;UF&lt;/code&gt;, &lt;code&gt;municipio&lt;/code&gt;, &lt;code&gt;escola&lt;/code&gt;, &lt;code&gt;distrito&lt;/code&gt;, &lt;code&gt;setor_censitario&lt;/code&gt;, categorias &lt;code&gt;CID-10&lt;/code&gt; e &lt;code&gt;CID-9&lt;/code&gt;, &lt;code&gt;CBO-2002&lt;/code&gt; e &lt;code&gt;CBO-1992&lt;/code&gt;, dentre outras.&lt;/p&gt;

&lt;p&gt;Os diretórios criam naturalmente relações entre as diferentes entidades. Por exemplo, a tabela município possui uma coluna &lt;code&gt;sigla_uf&lt;/code&gt;, ou seja, nela identificamos a qual &lt;code&gt;UF&lt;/code&gt; o município pertence. O mesmo vale para &lt;code&gt;escola&lt;/code&gt;, podemos identificar em qual município determinada escola está localizada. &lt;/p&gt;

&lt;p&gt;Para exemplificar como a base de Diretórios Brasileiros facilita o cruzamento de diferentes conjuntos, preparamos os seguintes exemplos de aplicações que demonstram como você pode lançar mão dessa ferramenta em suas análises, apenas com uma query de SQL no BigQuery. &lt;/p&gt;

&lt;h1&gt;
  
  
  Exemplo de aplicação
&lt;/h1&gt;

&lt;ul&gt;
&lt;li&gt;Indicadores de Mobilidade e Transportes&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;No primeiro exemplo, cruzamos a tabela &lt;code&gt;municipio&lt;/code&gt; da base de Diretórios Brasileiros com a tabela  &lt;code&gt;tempo_deslocamento_casa_trabalho&lt;/code&gt;, da base de &lt;a href="https://basedosdados.org/dataset/br-mobilidados-indicadores"&gt;Indicadores de Mobilidade e Transporte&lt;/a&gt; da &lt;a href="https://mobilidados.org.br/"&gt;Mobilidados&lt;/a&gt;, que contém dados sobre tempo médio de deslocamento casa-trabalho, assim como de percentual de pessoas que gastam mais de uma hora neste deslocamento no ano de 2010. &lt;/p&gt;

&lt;p&gt;Para isso, usamos como chave primária a coluna &lt;code&gt;id_municipio&lt;/code&gt;. O objetivo é adicionar as colunas &lt;strong&gt;regiao&lt;/strong&gt; e &lt;strong&gt;municipio&lt;/strong&gt; no novo conjunto de dados. Assim, além de saber o nome dos municípios, também é possível fazer o agrupamento por cidade, grande região ou por estado e ver qual destes têm o tempo médio de deslocamento maior ou menor. &lt;/p&gt;

&lt;p&gt;Confira abaixo a Query utilizada:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;WITH deslocamento_casa_trabalho as
(SELECT ano, id_municipio, tempo_medio_deslocamento
FROM `basedosdados.br_mobilidados_indicadores.tempo_deslocamento_casa_trabalho`)
SELECT t1.id_municipio, regiao, nome as municipio, sigla_uf, tempo_medio_deslocamento
FROM deslocamento_casa_trabalho t1
JOIN `basedosdados.br_bd_diretorios_brasil.municipio` t2
ON t1.id_municipio = t2.id_municipio
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;ul&gt;
&lt;li&gt;Dados de importações e exportações brasileiras&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;No segundo exemplo, usamos a tabela &lt;code&gt;pais&lt;/code&gt; da base de Diretórios, com a tabela  &lt;code&gt;municipio_importacao&lt;/code&gt; da base &lt;a href="https://basedosdados.org/dataset/br-me-comex-stat"&gt;Comex Stat&lt;/a&gt;, que contém dados detalhados das exportações e importações brasileiras, extraídas do &lt;a href="http://www.siscomex.gov.br/"&gt;SISCOMEX&lt;/a&gt;. Esta tabela específica aborda dados de importação, detalhados por município e empresa importadora.  &lt;/p&gt;

&lt;p&gt;Neste exemplo, usamos como chave primária a coluna &lt;code&gt;id_pais&lt;/code&gt; para extrair da base de Diretórios o &lt;strong&gt;nome&lt;/strong&gt; do país. &lt;br&gt;
Ao rodar query, teremos como resultado, além do &lt;strong&gt;ID do País&lt;/strong&gt; e &lt;strong&gt;Valor da Importação&lt;/strong&gt;,  o &lt;strong&gt;nome do país&lt;/strong&gt;, ou seja, os destinos das importações do Brasil no ano de 2020.&lt;/p&gt;

&lt;p&gt;Você pode utilizar a query abaixo para acessar o destino das importações do Brasil no ano de 2020:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;WITH importacao as 
(SELECT ano, id_pais, sigla_uf, SUM(valor_fob_dolar) AS importacao
FROM `basedosdados-dev.br_me_comex_stat.municipio_importacao` 
WHERE ano = 2020
GROUP BY ano, sigla_uf, id_pais
ORDER BY importacao DESC)
SELECT t1.ano, t1.id_pais, nome, importacao, sigla_uf
FROM importacao t1
JOIN `basedosdados-dev.br_bd_diretorios_brasil.pais` t2 
ON t1.id_pais = t2.id_pais
GROUP BY ano, sigla_uf, nome, id_pais, importacao
ORDER BY importacao DESC

```



Vale lembrar que o cruzamento entre bases não é realizável apenas porque a base de Diretórios funciona como uma espécie de dicionário. Além deste fator, existe o **padrão de qualidade da Base dos Dados**, ou seja, nós compatibilizamos todos os dados para que possam ser cruzados entre tabelas. A limpeza das bases disponíveis em nosso datalake público envolve um rigoroso processo de padronização e compatibilização de dados. 

Ficou com alguma dúvida sobre nossa base de Diretórios Brasileiros, ou como aplicá-la? Deixe seu comentário ou procure algum de nossos assistentes de dados no canal *#dados* em nossa [comunidade do Discord](https://discord.com/invite/huKWpsVYx4). 

A Base dos Dados é uma iniciativa sem fins lucrativos e nossa equipe trabalha sempre para facilitar seu trabalho ou pesquisa. Nós criamos nosso datalake público e padrão de dados para que *a distância entre você e sua análise seja apenas uma boa pergunta*. Que tal nos ajudar nessa empreitada? Você pode apoiar a BD mensalmente por [aqui](https://apoia.se/basedosdados) ou via PIX com nossa chave CNPJ 42494318000116. Seu apoio nos ajuda a chegar mais perto da nossa missão de universalizar o acesso a dados de qualidade no Brasil!
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;

</description>
      <category>database</category>
      <category>datascience</category>
      <category>sql</category>
      <category>braziliandevs</category>
    </item>
    <item>
      <title>Tutorial Power BI</title>
      <dc:creator>Victor Viana</dc:creator>
      <pubDate>Fri, 30 Jul 2021 00:14:45 +0000</pubDate>
      <link>https://dev.to/basedosdados/tutorial-power-bi-j6d</link>
      <guid>https://dev.to/basedosdados/tutorial-power-bi-j6d</guid>
      <description>&lt;h2&gt;
  
  
  TL;DR
&lt;/h2&gt;

&lt;p&gt;O Power BI é uma das tecnologias mais populares para o desenvolvimento de dashboards com dados relacionais, e a &lt;a href="https://www.google.com/url?q=https://basedosdados.org/&amp;amp;sa=D&amp;amp;source=editors&amp;amp;ust=1626396149894000&amp;amp;usg=AOvVaw2fSCNOCKXtr8yiXoj-Hw3Z" rel="noopener noreferrer"&gt;Base dos Dados&lt;/a&gt; é um dos maiores data lakes públicos do Brasil. Essa combinação é o ambiente perfeito para sua análise e a visualização de dados. Neste artigo, vou te mostrar como é fácil ter acesso às bases de dados da BD para uso no PBI, além de explicar o passo a passo. &lt;br&gt;
&lt;a href="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F6spbquzxidyn88iwfwq2.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F6spbquzxidyn88iwfwq2.png" alt="Alt Text"&gt;&lt;/a&gt;&lt;/p&gt;
&lt;h2&gt;
  
  
  Conectar ao Google BigQuery
&lt;/h2&gt;

&lt;p&gt;O &lt;a href="https://www.google.com/url?q=https://cloud.google.com/bigquery&amp;amp;sa=D&amp;amp;source=editors&amp;amp;ust=1626396176093000&amp;amp;usg=AOvVaw0Tv_wR9xWDsunWNof6mJbF" rel="noopener noreferrer"&gt;Google Bigquery&lt;/a&gt; é um serviço de banco de dados em nuvem do Google, onde os conjuntos de dados da Base dos Dados estão armazenados dentro de um datalake público - chamado &lt;code&gt;basedosdados&lt;/code&gt;. Para acessar os dados,  necessário criar um projeto (gratuito) no BigQuery caso já tenha um projeto siga para o próximo passo, caso contrário, elaboramos dois tutoriais para te ajudar de forma simples e rápida:&lt;/p&gt;

&lt;ol&gt;
&lt;li&gt;&lt;a href="https://dev.to/basedosdados/bigquery-101-45pk"&gt;Artigo&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href="https://www.youtube.com/watch?v=nGM2OwTUY_M" rel="noopener noreferrer"&gt;Video&lt;/a&gt;&lt;/li&gt;
&lt;/ol&gt;
&lt;h2&gt;
  
  
  Conectar dados no PowerBI (PBI)
&lt;/h2&gt;

&lt;p&gt;Nesse projeto vamos mostrar como conectar os dados da evolução do PIB dos municípios (base fato) e as informações sobre os municípios (base dimensão) no &lt;a href="https://powerbi.microsoft.com/pt-br/downloads/" rel="noopener noreferrer"&gt;Power BI&lt;/a&gt; para elaboração de análises. Essa base é usada de exemplo, mas o tutorial serve para qualquer outra base de interesse que esteja no &lt;em&gt;datalake&lt;/em&gt;.  &lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Buscando os dados no site&lt;/strong&gt;&lt;/p&gt;

&lt;p&gt;Para acessar os dados na interface do BigQuery utilizamos queries (consultas) em SQL, uma das linguagens de programação mais básicas e úteis para quem trabalha com dados. No site da Base dos Dados você pode procurar por qualquer base e copiar direto o código SQL, disponível na página da tabela selecionada em "Acesse os dados via BigQuery", para usar no editor de SQL do Google BigQuery, como mostra no exemplo abaixo. Para aprender mais sobre como usar a linguagem, recomendo o curso gratuito da &lt;a href="https://www.udacity.com/course/sql-for-data-analysis--ud198" rel="noopener noreferrer"&gt;Udacity&lt;/a&gt;, ou o próprio tutorial do &lt;a href="https://cloud.google.com/bigquery/docs/tutorials" rel="noopener noreferrer"&gt;BigQuery&lt;/a&gt;.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Selecionando os dados no BigQuery&lt;/strong&gt;&lt;br&gt;
Ainda no site, você pode clicar no botão "Consultar no BigQuery" para ser redirecionado ao &lt;a href="https://console.cloud.google.com/bigquery?p=basedosdados&amp;amp;page=project" rel="noopener noreferrer"&gt;&lt;em&gt;datalake&lt;/em&gt;&lt;/a&gt;. A interface do BigQuery é diferente do site pois é um serviço mantido pelo próprio Google, explicamos mais sobre cada elemento dessa interface neste artigo. &lt;/p&gt;

&lt;p&gt;Clicamos então em "Criar nova consulta" e no editor que aparece na tela basta colar o código copiado e rodar. Note que no código explicitamos &lt;code&gt;LIMIT 100&lt;/code&gt; para puxar somente as 100 primeiras linhas do dado, mas você pode mudar esse parâmetro (ou removê-lo) para puxar mais linhas - pedimos somente que tome cuidado com bases muito grandes (RAIS, Censo Populacional), pois puxar todos os dados de uma vez não só é demorado como também gasta bastante processamento, o que pode acarretar em custos.&lt;br&gt;
&lt;a href="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Ft9nq4ez019isv30gpbj6.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Ft9nq4ez019isv30gpbj6.png" alt="Alt Text"&gt;&lt;/a&gt;&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight sql"&gt;&lt;code&gt;&lt;span class="k"&gt;SELECT&lt;/span&gt; 
    &lt;span class="n"&gt;pib&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;id_municipio&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="c1"&gt;--selecionar id do municipio&lt;/span&gt;
    &lt;span class="n"&gt;pop&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;ano&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="c1"&gt;-- população do muunicipio&lt;/span&gt;
    &lt;span class="n"&gt;pib&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;PIB&lt;/span&gt; &lt;span class="o"&gt;/&lt;/span&gt; &lt;span class="n"&gt;pop&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;populacao&lt;/span&gt; &lt;span class="k"&gt;AS&lt;/span&gt; &lt;span class="n"&gt;pib_per_capita&lt;/span&gt; &lt;span class="c1"&gt;-- calculo do PIB per capita&lt;/span&gt;
&lt;span class="k"&gt;FROM&lt;/span&gt; &lt;span class="nv"&gt;`basedosdados.br_ibge_pib.municipio`&lt;/span&gt; &lt;span class="k"&gt;AS&lt;/span&gt; &lt;span class="n"&gt;pib&lt;/span&gt; &lt;span class="c1"&gt;-- selecionar base de pib dos municipios&lt;/span&gt;
&lt;span class="k"&gt;JOIN&lt;/span&gt; &lt;span class="nv"&gt;`basedosdados.br_ibge_populacao.municipio`&lt;/span&gt; &lt;span class="k"&gt;AS&lt;/span&gt; &lt;span class="n"&gt;pop&lt;/span&gt; &lt;span class="c1"&gt;-- join com a base de população&lt;/span&gt;
&lt;span class="k"&gt;ON&lt;/span&gt; &lt;span class="n"&gt;pib&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;id_municipio&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;pop&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;id_municipio&lt;/span&gt; &lt;span class="k"&gt;AND&lt;/span&gt; &lt;span class="n"&gt;pib&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;ano&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;pop&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;ano&lt;/span&gt;
&lt;span class="k"&gt;LIMIT&lt;/span&gt; &lt;span class="mi"&gt;100&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;&lt;a href="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fr03podam032gvplhijxg.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fr03podam032gvplhijxg.png" alt="Alt Text"&gt;&lt;/a&gt;&lt;br&gt;
&lt;strong&gt;Salvando os dados num projeto privado&lt;/strong&gt;&lt;br&gt;
Salve a tabela obtida clicando em "Salvar". &lt;br&gt;
Você pode salvar a consulta ou a visualização&lt;br&gt;
&lt;a href="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F9okzju0sqoo2e77uz7ay.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F9okzju0sqoo2e77uz7ay.png" alt="Alt Text"&gt;&lt;/a&gt;&lt;br&gt;
O BigQuery irá te pedir para criar um conjunto de dados onde você pode salvar essa tabela (caso não tenha um). Se já tem maior familiaridade com o PBI, é algo muito similar aos conjuntos de dados do PBI. Dê um nome intuitivo ao seu conjunto No caso da Base dos Dados, organizamos os nomes de conjuntos por abrangência geográfica, instituição e tema do dado, você pode ver mais sobre nossas regras de nomenclatura &lt;a href="https://basedosdados.github.io/mais/style_data/#nomea%C3%A7%C3%A3o-de-bases-e-tabelas" rel="noopener noreferrer"&gt;aqui&lt;/a&gt;. Esse conjunto é essencialmente uma "pasta"onde ficarão todas as tabelas do seu projeto. Neste exemplo, escolhemos o nome "tutorial" de forma mais genérica.&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F96s27rjihxvezc8i3c2z.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F96s27rjihxvezc8i3c2z.png" alt="Alt Text"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;Em seguida, selecione o conjunto criado para salvar a base e escolha um nome para sua tabela e clique em Salvar. Simples assim 😊. &lt;/p&gt;

&lt;p&gt;&lt;a href="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Ff9q1d3d0aspdi5q87kri.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Ff9q1d3d0aspdi5q87kri.png" alt="Alt Text"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;Agora seu projeto irá aparecer na barra lateral esquerda. Clique na setinha do lado do nome do seu projeto, lá vai aparecer seu conjunto de dados com a tabela que você salvou. Se não aparecer, atualize a página. &lt;/p&gt;

&lt;p&gt;&lt;a href="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fjojgq2mm1sad7gi6ehst.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fjojgq2mm1sad7gi6ehst.png" alt="Alt Text"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;Para salvar outra tabela com as informações de municípios (nome, UF, etc), faça o mesmo processo com a query abaixo. Vamos chamar essa tabela de &lt;code&gt;dMunicipio&lt;/code&gt;, que será salva no mesmo conjunto chamado &lt;code&gt;tutorial&lt;/code&gt;.&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight sql"&gt;&lt;code&gt;&lt;span class="k"&gt;SELECT&lt;/span&gt; 
    &lt;span class="n"&gt;id_municipio&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
    &lt;span class="n"&gt;municipio&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
    &lt;span class="n"&gt;id_uf&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
    &lt;span class="n"&gt;uf&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
    &lt;span class="n"&gt;regiao&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
&lt;span class="k"&gt;FROM&lt;/span&gt; &lt;span class="nv"&gt;`basedosdados.br_bd_diretorios_brasil.municipio`&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;&lt;strong&gt;Importando os dados para o PBI&lt;/strong&gt;&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;&lt;p&gt;Abra o PBI&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;Vá em Obter Dados -&amp;gt; Mais&lt;/p&gt;&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;a href="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fl0zq1z721hazwy10sc3l.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fl0zq1z721hazwy10sc3l.png" alt="Alt Text"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;&lt;p&gt;Procure pelo &lt;code&gt;Google BigQuery&lt;/code&gt; -&amp;gt; Conectar&lt;br&gt;
&lt;a href="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fa3tu8w62lh8bxsrttrvz.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fa3tu8w62lh8bxsrttrvz.png" alt="Alt Text"&gt;&lt;/a&gt;&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;Entre com sua conta do Google&lt;br&gt;
A mesma que fez as consultas no BigQuery. Caso você entre com outra conta não será possível conectar.&lt;/p&gt;&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;a href="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fo19by7w84yrsn5lbtsc3.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fo19by7w84yrsn5lbtsc3.png" alt="Alt Text"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;&lt;p&gt;Permita o acesso ao seu PBI&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;Volte ao PBI e clique em conectar&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;Selecione a pasta com o nome do seu conjunto de dados&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;Selecione as tabelas&lt;br&gt;
&lt;a href="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fy4d1cnld4n8ddk4dhboj.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fy4d1cnld4n8ddk4dhboj.png" alt="Alt Text"&gt;&lt;/a&gt;&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;Clique em carregar&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;Selecione Importar&lt;br&gt;
Para maioria dos casos não é necessário estar conectado diretamente, além disso não você não fica dependente da conexão com o banco.&lt;/p&gt;&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Pronto, agora você tem acesso às suas bases da BD para criar seu dashboard. :)&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fx7ie1sauoz9910ord379.gif" class="article-body-image-wrapper"&gt;&lt;img src="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fx7ie1sauoz9910ord379.gif" alt="Alt Text"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;Para  qualquer sugestão ou dúvidas, fique a vontade para comentar, me procurar pelas redes ou na comunidade da Base dos Dados no &lt;a href="https://discord.com/invite/huKWpsVYx4" rel="noopener noreferrer"&gt;Discord&lt;/a&gt;.&lt;/p&gt;

</description>
    </item>
    <item>
      <title>O Brasil nas Olimpíadas</title>
      <dc:creator>lucasnascm</dc:creator>
      <pubDate>Fri, 23 Jul 2021 16:42:53 +0000</pubDate>
      <link>https://dev.to/basedosdados/o-brasil-nas-olimpiadas-2g6n</link>
      <guid>https://dev.to/basedosdados/o-brasil-nas-olimpiadas-2g6n</guid>
      <description>&lt;h2&gt;
  
  
  TL;DR
&lt;/h2&gt;

&lt;p&gt;Hoje começa mais uma edição das Olimpíadas, mas você sabia que os jogos da Era Moderna tiveram sua primeira edição em 1896? Nesse texto vamos apresentar dados históricos dos Jogos Olímpicos, que já estão limpos, tratados e disponíveis no datalake público da Base dos Dados. Os &lt;a href="https://basedosdados.org/dataset/mundo-kaggle-olimpiadas"&gt;microdados das Olimpíadas&lt;/a&gt; trazem informações sobre os jogos, cidade sede, as delegações, atletas e suas características, além dos esportes, suas diferentes modalidades e medalhistas também.&lt;/p&gt;

&lt;p&gt;O script de análise foi executado em R usando nosso pacote de dados. A ideia aqui é mostrar um panorama da performance brasileira nas edições em que a delegação brasileira esteve presente. Vale lembrar que, com a BD+,  você também pode acessar esses dados em Python ou diretamente pelo BigQuery.&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight r"&gt;&lt;code&gt;&lt;span class="n"&gt;library&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="s2"&gt;"basedosdados"&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;&lt;span class="w"&gt;
&lt;/span&gt;&lt;span class="n"&gt;library&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="s2"&gt;"tidyverse"&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;&lt;span class="w"&gt;
&lt;/span&gt;&lt;span class="n"&gt;library&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="s2"&gt;"gridExtra"&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;&lt;span class="w"&gt;
&lt;/span&gt;&lt;span class="n"&gt;library&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="s2"&gt;"dplyr"&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;&lt;span class="w"&gt;

&lt;/span&gt;&lt;span class="n"&gt;olimpiadas&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;&amp;lt;-&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="n"&gt;basedosdados&lt;/span&gt;&lt;span class="o"&gt;::&lt;/span&gt;&lt;span class="n"&gt;read_sql&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="s2"&gt;"SELECT * 
                                      FROM `basedosdados.mundo_kaggle_olimpiadas.microdados` 
                                      WHERE delegacao = 'BRA'"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="n"&gt;billing_project_id&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="s1"&gt;'input-dados'&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;&lt;span class="w"&gt;

&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;h2&gt;
  
  
  Presença confirmada
&lt;/h2&gt;

&lt;p&gt;O Brasil teve sua primeira participação em uma edição dos Jogos Olímpicos em 1900, na cidade de Paris. O único atleta da delegação era Adolphe Klingelhoeffer, que competia nas provas de atletismo.  A próxima edição com representantes brasileiros foi  em 1920 e, desde então, temos marcado  presença em diferentes provas. Abaixo você pode conferir o panorama da participação brasileira ao longo das edições dos jogos, com número de atletas e modalidades, e veja também o código utilizado para produzir essa visualização.&lt;/p&gt;

&lt;p&gt;&lt;a href="https://res.cloudinary.com/practicaldev/image/fetch/s--cTpTQBAf--/c_limit%2Cf_auto%2Cfl_progressive%2Cq_auto%2Cw_880/https://media.discordapp.net/attachments/867536135222853683/868163097301491752/grafico_participacao_olimpiadas.png%3Fwidth%3D480%26height%3D480" class="article-body-image-wrapper"&gt;&lt;img src="https://res.cloudinary.com/practicaldev/image/fetch/s--cTpTQBAf--/c_limit%2Cf_auto%2Cfl_progressive%2Cq_auto%2Cw_880/https://media.discordapp.net/attachments/867536135222853683/868163097301491752/grafico_participacao_olimpiadas.png%3Fwidth%3D480%26height%3D480" alt="participação_br"&gt;&lt;/a&gt;&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight r"&gt;&lt;code&gt;&lt;span class="n"&gt;counts&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;&amp;lt;-&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="n"&gt;olimpiadas&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;%&amp;gt;%&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="n"&gt;filter&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;edicao&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;==&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="s2"&gt;"Summer"&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;%&amp;gt;%&lt;/span&gt;&lt;span class="w"&gt; 
  &lt;/span&gt;&lt;span class="n"&gt;group_by&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;ano&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;%&amp;gt;%&lt;/span&gt;&lt;span class="w"&gt;
  &lt;/span&gt;&lt;span class="n"&gt;summarize&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="w"&gt;
    &lt;/span&gt;&lt;span class="n"&gt;atletas&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="nf"&gt;length&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;unique&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;id_atleta&lt;/span&gt;&lt;span class="p"&gt;)),&lt;/span&gt;&lt;span class="w"&gt;
    &lt;/span&gt;&lt;span class="n"&gt;eventos&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="nf"&gt;length&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;unique&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;evento&lt;/span&gt;&lt;span class="p"&gt;))&lt;/span&gt;&lt;span class="w"&gt;
  &lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;&lt;span class="w"&gt;

&lt;/span&gt;&lt;span class="n"&gt;p1&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;&amp;lt;-&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="n"&gt;ggplot&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;counts&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="n"&gt;aes&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;x&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="nf"&gt;as.numeric&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;ano&lt;/span&gt;&lt;span class="p"&gt;),&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="n"&gt;y&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="nf"&gt;as.numeric&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;atletas&lt;/span&gt;&lt;span class="p"&gt;)))&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;+&lt;/span&gt;&lt;span class="w"&gt;
  &lt;/span&gt;&lt;span class="n"&gt;geom_point&lt;/span&gt;&lt;span class="p"&gt;()&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;+&lt;/span&gt;&lt;span class="w"&gt;
  &lt;/span&gt;&lt;span class="n"&gt;scale_y_continuous&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;limits&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="nf"&gt;c&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="m"&gt;0&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;&lt;span class="m"&gt;470&lt;/span&gt;&lt;span class="p"&gt;))&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;+&lt;/span&gt;&lt;span class="w"&gt;
  &lt;/span&gt;&lt;span class="n"&gt;labs&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;title&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="s2"&gt;"Participação brasileira nos Jogos Olímpicos"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="n"&gt;y&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="s2"&gt;"Total de atletas"&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;+&lt;/span&gt;&lt;span class="w"&gt;
  &lt;/span&gt;&lt;span class="n"&gt;theme&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;plot.title&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="n"&gt;element_text&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;hjust&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="m"&gt;0.5&lt;/span&gt;&lt;span class="p"&gt;))&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;+&lt;/span&gt;&lt;span class="w"&gt;
  &lt;/span&gt;&lt;span class="n"&gt;geom_line&lt;/span&gt;&lt;span class="p"&gt;()&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;+&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="n"&gt;xlab&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="s2"&gt;""&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;&lt;span class="w"&gt;
&lt;/span&gt;&lt;span class="n"&gt;p2&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;&amp;lt;-&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="n"&gt;ggplot&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;counts&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="n"&gt;aes&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;x&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="nf"&gt;as.numeric&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;ano&lt;/span&gt;&lt;span class="p"&gt;),&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="n"&gt;y&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="nf"&gt;as.numeric&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;eventos&lt;/span&gt;&lt;span class="p"&gt;)))&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;+&lt;/span&gt;&lt;span class="w"&gt;
  &lt;/span&gt;&lt;span class="n"&gt;geom_point&lt;/span&gt;&lt;span class="p"&gt;()&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;+&lt;/span&gt;&lt;span class="w"&gt;
  &lt;/span&gt;&lt;span class="n"&gt;scale_y_continuous&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;limits&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="nf"&gt;c&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="m"&gt;0&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;&lt;span class="m"&gt;250&lt;/span&gt;&lt;span class="p"&gt;))&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;+&lt;/span&gt;&lt;span class="w"&gt;
  &lt;/span&gt;&lt;span class="n"&gt;labs&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;x&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="s2"&gt;"Anos"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="n"&gt;y&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="s2"&gt;"Modalidades"&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;+&lt;/span&gt;&lt;span class="w"&gt;
  &lt;/span&gt;&lt;span class="n"&gt;geom_line&lt;/span&gt;&lt;span class="p"&gt;()&lt;/span&gt;&lt;span class="w"&gt;
&lt;/span&gt;&lt;span class="n"&gt;grid.arrange&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;p1&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="n"&gt;p2&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="n"&gt;ncol&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="m"&gt;1&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;&lt;span class="w"&gt;
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;O recorde de participação brasileira foi em 2016, competindo em casa, com 462 atletas disputando em 222 provas distintas. As edições passadas foram bem diferentes, a média de participação das 5 edições anteriores a 2016 foi de 236 atletas. Esse ano contamos com 302 atletas em Tokyo, segundo dados do Comitê Olímpico Brasileiro. &lt;/p&gt;

&lt;h2&gt;
  
  
  Quadro de Medalhas
&lt;/h2&gt;

&lt;p&gt;Nas próximas duas semanas, todos os jornais e canais esportivos se concentrarão nos melhores momentos da nossa delegação e o quadro geral de medalhas será um destaque nos noticiários. Analisando o desempenho dos atletas nos jogos em que participou, o Brasil acumula 30 medalhas de ouro, 36 de prata e 63 bronzes. O gráfico abaixo mostra os esportes, nas modalidades masculina e feminina somados, em que o Brasil divide suas conquistas.&lt;/p&gt;

&lt;p&gt;&lt;a href="https://res.cloudinary.com/practicaldev/image/fetch/s--pj3Y_qH2--/c_limit%2Cf_auto%2Cfl_progressive%2Cq_auto%2Cw_880/https://media.discordapp.net/attachments/867536135222853683/868154313124478996/grafico_medalhas_olimpiadas.png%3Fwidth%3D480%26height%3D480" class="article-body-image-wrapper"&gt;&lt;img src="https://res.cloudinary.com/practicaldev/image/fetch/s--pj3Y_qH2--/c_limit%2Cf_auto%2Cfl_progressive%2Cq_auto%2Cw_880/https://media.discordapp.net/attachments/867536135222853683/868154313124478996/grafico_medalhas_olimpiadas.png%3Fwidth%3D480%26height%3D480" alt="medalhas"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;No nosso podium, Judô, Vela e Atletismo são os recordistas no total de medalhas com 22, 18 e 16, respectivamente. Os dados permitem identificar quem são os atletas campeões e os eventos em que eles garantiram a vitória. Nas modalidades do Judô 🥋, as mulheres ganharam 3 medalhas de bronze e 2 de ouro, enquanto os homens trouxeram para casa 12 bronzes, 3 pratas e 2 ouros. Será que na edição Tokyo 2020 esse resultado se altera? O script para desenvolver o gráfico é:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight r"&gt;&lt;code&gt;&lt;span class="n"&gt;medalha_counts&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;&amp;lt;-&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="n"&gt;olimpiadas&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;%&amp;gt;%&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="n"&gt;filter&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="o"&gt;!&lt;/span&gt;&lt;span class="nf"&gt;is.na&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;medalha&lt;/span&gt;&lt;span class="p"&gt;))&lt;/span&gt;&lt;span class="o"&gt;%&amp;gt;%&lt;/span&gt;&lt;span class="w"&gt;
  &lt;/span&gt;&lt;span class="n"&gt;group_by&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;ano&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="n"&gt;esporte&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="n"&gt;evento&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="n"&gt;medalha&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;%&amp;gt;%&lt;/span&gt;&lt;span class="w"&gt; 
  &lt;/span&gt;&lt;span class="n"&gt;summarize&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;Count&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="nf"&gt;length&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;unique&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;medalha&lt;/span&gt;&lt;span class="p"&gt;)))&lt;/span&gt;&lt;span class="w"&gt;
&lt;/span&gt;&lt;span class="c1"&gt;#ordena a tabela&lt;/span&gt;&lt;span class="w"&gt;
&lt;/span&gt;&lt;span class="n"&gt;medalha_counts&lt;/span&gt;&lt;span class="o"&gt;$&lt;/span&gt;&lt;span class="n"&gt;medalha&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;&amp;lt;-&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="n"&gt;factor&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;medalha_counts&lt;/span&gt;&lt;span class="o"&gt;$&lt;/span&gt;&lt;span class="n"&gt;medalha&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="n"&gt;levels&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="nf"&gt;c&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="s2"&gt;"Gold"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="s2"&gt;"Silver"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="s2"&gt;"Bronze"&lt;/span&gt;&lt;span class="p"&gt;))&lt;/span&gt;&lt;span class="w"&gt;

&lt;/span&gt;&lt;span class="c1"&gt;#total de medalhas por modalidade esportiva ao longo dos anos&lt;/span&gt;&lt;span class="w"&gt;
&lt;/span&gt;&lt;span class="n"&gt;lev&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;&amp;lt;-&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="n"&gt;medalha_counts&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;%&amp;gt;%&lt;/span&gt;&lt;span class="w"&gt;
  &lt;/span&gt;&lt;span class="n"&gt;group_by&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;esporte&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;%&amp;gt;%&lt;/span&gt;&lt;span class="w"&gt;
  &lt;/span&gt;&lt;span class="n"&gt;summarize&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;Total&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="nf"&gt;sum&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;Count&lt;/span&gt;&lt;span class="p"&gt;))&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;%&amp;gt;%&lt;/span&gt;&lt;span class="w"&gt;
  &lt;/span&gt;&lt;span class="n"&gt;arrange&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;Total&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;%&amp;gt;%&lt;/span&gt;&lt;span class="w"&gt;
  &lt;/span&gt;&lt;span class="n"&gt;select&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;esporte&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;&lt;span class="w"&gt;
&lt;/span&gt;&lt;span class="n"&gt;medalha_counts&lt;/span&gt;&lt;span class="o"&gt;$&lt;/span&gt;&lt;span class="n"&gt;esporte&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;&amp;lt;-&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="n"&gt;factor&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;medalha_counts&lt;/span&gt;&lt;span class="o"&gt;$&lt;/span&gt;&lt;span class="n"&gt;esporte&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="n"&gt;levels&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="n"&gt;lev&lt;/span&gt;&lt;span class="o"&gt;$&lt;/span&gt;&lt;span class="n"&gt;esporte&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;&lt;span class="w"&gt;

&lt;/span&gt;&lt;span class="c1"&gt;#criação do gráfico&lt;/span&gt;&lt;span class="w"&gt;
&lt;/span&gt;&lt;span class="n"&gt;ggplot&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;medalha_counts&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="n"&gt;aes&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;x&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="n"&gt;esporte&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="n"&gt;y&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="n"&gt;Count&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="n"&gt;fill&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="n"&gt;medalha&lt;/span&gt;&lt;span class="p"&gt;))&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;+&lt;/span&gt;&lt;span class="w"&gt;
  &lt;/span&gt;&lt;span class="n"&gt;geom_col&lt;/span&gt;&lt;span class="p"&gt;()&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;+&lt;/span&gt;&lt;span class="w"&gt;
  &lt;/span&gt;&lt;span class="n"&gt;coord_flip&lt;/span&gt;&lt;span class="p"&gt;()&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;+&lt;/span&gt;&lt;span class="w"&gt;
  &lt;/span&gt;&lt;span class="n"&gt;scale_fill_manual&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;values&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="nf"&gt;c&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="s2"&gt;"gold1"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="s2"&gt;"gray70"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="s2"&gt;"gold4"&lt;/span&gt;&lt;span class="p"&gt;))&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;+&lt;/span&gt;&lt;span class="w"&gt;
  &lt;/span&gt;&lt;span class="n"&gt;ggtitle&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="s2"&gt;"Total de medalhas brasileiras por esporte nos Jogos Olímpicos"&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;+&lt;/span&gt;&lt;span class="w"&gt;
  &lt;/span&gt;&lt;span class="n"&gt;theme&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;plot.title&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="n"&gt;element_text&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;hjust&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="m"&gt;0.5&lt;/span&gt;&lt;span class="p"&gt;))&lt;/span&gt;&lt;span class="w"&gt;
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;h2&gt;
  
  
  Mulheres nas Olimpíadas
&lt;/h2&gt;

&lt;p&gt;A participação feminina brasileira nos jogos acontece pela primeira vez somente em 1932 - 36 anos após a primeira edição - e  a lacuna entre homens e mulheres é notória. Antes dos anos 2000, a razão de homens para mulheres nos jogos era de 20% em média: ou seja, para cada mulher competindo na delegação, existiam outros 5 homens. Somente no novo milênio que essa desigualdade quase se anula, a nível Brasil. Em 2016, foram 207 mulheres e 255 homens competindo em 31 esportes diferentes. &lt;/p&gt;

&lt;p&gt;&lt;a href="https://res.cloudinary.com/practicaldev/image/fetch/s--vIrZtN9v--/c_limit%2Cf_auto%2Cfl_progressive%2Cq_auto%2Cw_880/https://media.discordapp.net/attachments/867536135222853683/868154348235001907/grafico_sexo_olimpiadas.png%3Fwidth%3D480%26height%3D480" class="article-body-image-wrapper"&gt;&lt;img src="https://res.cloudinary.com/practicaldev/image/fetch/s--vIrZtN9v--/c_limit%2Cf_auto%2Cfl_progressive%2Cq_auto%2Cw_880/https://media.discordapp.net/attachments/867536135222853683/868154348235001907/grafico_sexo_olimpiadas.png%3Fwidth%3D480%26height%3D480" alt="sexo"&gt;&lt;/a&gt; &lt;/p&gt;

&lt;p&gt;O código de análise do total de participação por sexo ao longo dos anos é fácil.&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight r"&gt;&lt;code&gt;&lt;span class="c1"&gt;#filtrando para edição de verão dos Jogos&lt;/span&gt;&lt;span class="w"&gt;
&lt;/span&gt;&lt;span class="n"&gt;sexo&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;&amp;lt;-&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="n"&gt;olimpiadas&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;%&amp;gt;%&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="n"&gt;filter&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;edicao&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;==&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="s2"&gt;"Summer"&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;&lt;span class="w"&gt;

&lt;/span&gt;&lt;span class="c1"&gt;#série do total de atletas por sexo&lt;/span&gt;&lt;span class="w"&gt;
&lt;/span&gt;&lt;span class="n"&gt;counts_sex&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;&amp;lt;-&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="n"&gt;sexo&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;%&amp;gt;%&lt;/span&gt;&lt;span class="w"&gt; 
  &lt;/span&gt;&lt;span class="n"&gt;group_by&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;ano&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="n"&gt;sexo&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;%&amp;gt;%&lt;/span&gt;&lt;span class="w"&gt;
  &lt;/span&gt;&lt;span class="n"&gt;summarize&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;atletas&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="nf"&gt;length&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;unique&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;id_atleta&lt;/span&gt;&lt;span class="p"&gt;)))&lt;/span&gt;&lt;span class="w"&gt;
&lt;/span&gt;&lt;span class="n"&gt;counts_sex&lt;/span&gt;&lt;span class="o"&gt;$&lt;/span&gt;&lt;span class="n"&gt;ano&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;&amp;lt;-&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="nf"&gt;as.integer&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;counts_sex&lt;/span&gt;&lt;span class="o"&gt;$&lt;/span&gt;&lt;span class="n"&gt;ano&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;&lt;span class="w"&gt;

&lt;/span&gt;&lt;span class="c1"&gt;#criação do gráfico&lt;/span&gt;&lt;span class="w"&gt;
&lt;/span&gt;&lt;span class="n"&gt;ggplot&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;counts_sex&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="n"&gt;aes&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;x&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="n"&gt;ano&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="n"&gt;y&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="n"&gt;atletas&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="n"&gt;group&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="n"&gt;sexo&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="n"&gt;color&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="n"&gt;sexo&lt;/span&gt;&lt;span class="p"&gt;))&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;+&lt;/span&gt;&lt;span class="w"&gt;
  &lt;/span&gt;&lt;span class="n"&gt;geom_point&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;size&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="m"&gt;2&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;+&lt;/span&gt;&lt;span class="w"&gt;
  &lt;/span&gt;&lt;span class="n"&gt;geom_line&lt;/span&gt;&lt;span class="p"&gt;()&lt;/span&gt;&lt;span class="w"&gt;  &lt;/span&gt;&lt;span class="o"&gt;+&lt;/span&gt;&lt;span class="w"&gt;
  &lt;/span&gt;&lt;span class="n"&gt;scale_color_manual&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;values&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="nf"&gt;c&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="s2"&gt;"orange"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;&lt;span class="s2"&gt;"darkgreen"&lt;/span&gt;&lt;span class="p"&gt;))&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;+&lt;/span&gt;&lt;span class="w"&gt;
  &lt;/span&gt;&lt;span class="n"&gt;labs&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;title&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="s2"&gt;"Participação masculina e feminina nas Olimpíadas"&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;+&lt;/span&gt;&lt;span class="w"&gt;
  &lt;/span&gt;&lt;span class="n"&gt;theme&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;plot.title&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="n"&gt;element_text&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;hjust&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="m"&gt;0.5&lt;/span&gt;&lt;span class="p"&gt;))&lt;/span&gt;&lt;span class="w"&gt;
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;A &lt;a href="https://basedosdados.org/"&gt;Base dos Dados&lt;/a&gt; é uma iniciativa sem fins lucrativos, open source e que busca facilitar e fomentar a produção de conhecimento no Brasil. Nosso intuito aqui foi instigar a você analisar mais. Muitas perguntas podem ser respondidas (e outras tantas serem feitas) analisando essa  história. Podemos continuar conversando sobre dados em nossa comunidade no Discord: &lt;a href="https://discord.com/invite/huKWpsVYx4"&gt;https://discord.com/invite/huKWpsVYx4&lt;/a&gt;.&lt;/p&gt;

&lt;p&gt;Que a força esteja com nossos atletas! Vai Brasil! &lt;/p&gt;

</description>
      <category>olimpiadas</category>
      <category>datascience</category>
      <category>beginners</category>
      <category>programming</category>
    </item>
    <item>
      <title>Queremos saber #OndeEstãoDadosLGBTQIA</title>
      <dc:creator>Giovane Caruso</dc:creator>
      <pubDate>Fri, 25 Jun 2021 15:24:27 +0000</pubDate>
      <link>https://dev.to/basedosdados/queremos-saber-ondeestaodadoslgbtqia-2mmp</link>
      <guid>https://dev.to/basedosdados/queremos-saber-ondeestaodadoslgbtqia-2mmp</guid>
      <description>&lt;h2&gt;
  
  
  TL;DR
&lt;/h2&gt;

&lt;p&gt;Nesse texto, vamos apresentar nossa campanha em busca de dados com informações sobre a comunidade LGBTQIA+ e explicar como é possível participar e nos ajudar a disponibilizá-los em nosso datalake público. Também vamos apresentar bases de dados que já mapeamos e que entrarão para o datalake, além de demonstrar como acessá-las.&lt;/p&gt;

&lt;h2&gt;
  
  
  Queremos saber #OndeEstãoDadosLGBTQIA
&lt;/h2&gt;

&lt;p&gt;Sabemos que a riqueza de dados é fundamental para a elaboração de políticas públicas que ajudem a combater a violência e o preconceito contra a comunidade LGBTQIA+. No intuito de identificar e trazer acessibilidade para esses dados, a Base dos Dados está lançando esta campanha para encorajar todos que trabalham ou utilizam dados a nos ajudar a encontrar e catalogar essas informações.&lt;/p&gt;

&lt;p&gt;Nosso objetivo é mapear o máximo possível de bases, para que nossa equipe trate, limpe e disponibilize esses dados em nosso datalake público, facilitando o acesso e análise dessas informações.&lt;/p&gt;

&lt;p&gt;Até então, tivemos muito mais facilidade de encontrar bases estrangeiras, geralmente a nível de país, do que bases de níveis nacionais. Nossa equipe já entrou em contato com o Grupo Gay da Bahia, principal ONG que contabiliza mortes LGBTQIA+ no país; com a Ditch The Label, ONG estrangeira que contabiliza mortes, ofensas e abusos sofridos por pessoas trans; e com a própria Transrespect x Transphobia, ONG estrangeira que contabiliza assassinatos trans ao redor do mundo.&lt;/p&gt;

&lt;p&gt;Infelizmente, só obtivemos uma resposta negativa da Ditch The Label quando requisitamos dados brutos para disponibilização. É importante ressaltar que é urgente a melhor disponibilização de dados da temática LGBTQIA+ e isso pode começar por você!&lt;/p&gt;

&lt;h2&gt;
  
  
  Como você pode ajudar?
&lt;/h2&gt;

&lt;p&gt;Se você já conhece ou encontrou alguma base de dados interessante que aborda esse tema, você pode acessar nossa &lt;a href="https://docs.google.com/spreadsheets/d/1jnmmG4V6Ugh_-lhVSMIVu_EaL05y1dX9Y0YW8G8e_Wo/edit#gid=0" rel="noopener noreferrer"&gt;planilha de prioridade de bases&lt;/a&gt;, incluir uma linha por tabela do conjunto de dados e preencher os campos cuidadosamente, caso ela não esteja já listada.&lt;/p&gt;

&lt;p&gt;Uma outra maneira de ajudar é divulgando esses dados em suas redes sociais e marcar a @basedosdados com a hashtag &lt;em&gt;#OndeEstãoDadosLGBTQIA&lt;/em&gt;, para aumentar ainda mais o alcance da campanha.&lt;/p&gt;

&lt;h2&gt;
  
  
  Conjuntos de dados já mapeados pela Base dos Dados
&lt;/h2&gt;

&lt;p&gt;Nossa iniciativa mapeou três bases de dados que serão disponibilizadas já limpas e tratadas em nosso data lake público.  Você já pode acessar as tabelas através da biblioteca &lt;code&gt;basedosdados&lt;/code&gt; no R , em Python ou diretamente pelo GoogleCloud, utilizando os códigos descritos neste texto. Confira a seguir os conjuntos de dados já tratados:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Relatório Transrespect versus Transphobia Worldwide&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;O relatório relata os números totais de homicídios de pessoas trans no mundo inteiro e contém tabelas a diferentes níveis de agregação, demonstrando mortes totais a nível de país, de local da ocorrência do crime e de como o crime ocorreu, a causa mortis do homicídio. O recorte aborda dados de 2008 até 2018, em países de todos os continentes.&lt;/p&gt;

&lt;p&gt;Utilize as queries de SQL a seguir para acessar as tabelas:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight sql"&gt;&lt;code&gt;&lt;span class="o"&gt;#&lt;/span&gt;&lt;span class="n"&gt;Assassinatos&lt;/span&gt; &lt;span class="n"&gt;por&lt;/span&gt; &lt;span class="n"&gt;pa&lt;/span&gt;&lt;span class="err"&gt;í&lt;/span&gt;&lt;span class="n"&gt;s&lt;/span&gt;
&lt;span class="k"&gt;SELECT&lt;/span&gt; &lt;span class="o"&gt;*&lt;/span&gt; &lt;span class="k"&gt;FROM&lt;/span&gt; &lt;span class="nv"&gt;`basedosdados.mundo_transrespect_transphobia.pais`&lt;/span&gt;

&lt;span class="o"&gt;#&lt;/span&gt;&lt;span class="n"&gt;Causa&lt;/span&gt; &lt;span class="k"&gt;do&lt;/span&gt; &lt;span class="err"&gt;ó&lt;/span&gt;&lt;span class="n"&gt;bito&lt;/span&gt;
&lt;span class="k"&gt;SELECT&lt;/span&gt; &lt;span class="o"&gt;*&lt;/span&gt; &lt;span class="k"&gt;FROM&lt;/span&gt; &lt;span class="nv"&gt;`basedosdados.mundo_transrespect_transphobia.obito`&lt;/span&gt;

&lt;span class="o"&gt;#&lt;/span&gt;&lt;span class="k"&gt;Local&lt;/span&gt; &lt;span class="n"&gt;de&lt;/span&gt; &lt;span class="n"&gt;assassinato&lt;/span&gt;
&lt;span class="k"&gt;SELECT&lt;/span&gt; &lt;span class="o"&gt;*&lt;/span&gt; &lt;span class="k"&gt;FROM&lt;/span&gt; &lt;span class="nv"&gt;`basedosdados.mundo_transrespect_transphobia.local`&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;Caso prefira pegar direto pelo Python:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight python"&gt;&lt;code&gt;&lt;span class="kn"&gt;import&lt;/span&gt; &lt;span class="n"&gt;basedosdados&lt;/span&gt; &lt;span class="k"&gt;as&lt;/span&gt; &lt;span class="n"&gt;bd&lt;/span&gt;
&lt;span class="n"&gt;bd&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;read_sql&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;query&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;SELECT *
FROM `basedosdados.mundo_transrespect_transphobia.pais`&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
&lt;span class="n"&gt;billing&lt;/span&gt;&lt;span class="o"&gt;-&lt;/span&gt;&lt;span class="n"&gt;project&lt;/span&gt;&lt;span class="o"&gt;-&lt;/span&gt;&lt;span class="nb"&gt;id&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;seu-project-id&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;Com esses dados criamos a seguinte visualização que compara o número de homicídios de pessoas trans em diferentes países ao longo dos anos:&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fo00t4kfqvg302n4metkl.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fo00t4kfqvg302n4metkl.png" alt="Alt Text"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Pesquisa Online da Agência dos Direitos Fundamentais da União Europeia (FRA):&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;A pesquisa foi realizada com pessoas LGBTQIA+, em 2012, na maioria dos países do bloco político-econômico. A pesquisa é dividida em um conjunto de tópicos que dão origem a diferentes tabelas. Os tópicos levam a perguntas sobre violência, sobre o cotidiano LGBTQIA+, direitos da comunidade, entre outras. Os tópicos são agrupados a nível de cada país e grupo LGBTQIA+.&lt;/p&gt;

&lt;p&gt;Utilize as &lt;strong&gt;queries de SQL&lt;/strong&gt; a seguir para acessar as tabelas da pesquisa:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight sql"&gt;&lt;code&gt; &lt;span class="k"&gt;SELECT&lt;/span&gt; &lt;span class="o"&gt;*&lt;/span&gt; &lt;span class="k"&gt;FROM&lt;/span&gt; &lt;span class="nv"&gt;`basedosdados.eu_fra_lgbt.consciencia_direitos`&lt;/span&gt;
 &lt;span class="k"&gt;SELECT&lt;/span&gt; &lt;span class="o"&gt;*&lt;/span&gt; &lt;span class="k"&gt;FROM&lt;/span&gt; &lt;span class="nv"&gt;`basedosdados.eu_fra_lgbt.cotidiano`&lt;/span&gt;
 &lt;span class="k"&gt;SELECT&lt;/span&gt; &lt;span class="o"&gt;*&lt;/span&gt; &lt;span class="k"&gt;FROM&lt;/span&gt; &lt;span class="nv"&gt;`basedosdados.eu_fra_lgbt.discriminacao`&lt;/span&gt;
 &lt;span class="k"&gt;SELECT&lt;/span&gt; &lt;span class="o"&gt;*&lt;/span&gt; &lt;span class="k"&gt;FROM&lt;/span&gt; &lt;span class="nv"&gt;`basedosdados.eu_fra_lgbt.transgenero_especifico`&lt;/span&gt;
 &lt;span class="k"&gt;SELECT&lt;/span&gt; &lt;span class="o"&gt;*&lt;/span&gt; &lt;span class="k"&gt;FROM&lt;/span&gt; &lt;span class="nv"&gt;`basedosdados.eu_fra_lgbt.violencia_abuso`&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;Caso não queira nem sair do R, você pode sempre acessá-las direto do software:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight r"&gt;&lt;code&gt;&lt;span class="n"&gt;library&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;basedosdados&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;&lt;span class="w"&gt;
&lt;/span&gt;&lt;span class="n"&gt;basedosdados&lt;/span&gt;&lt;span class="o"&gt;::&lt;/span&gt;&lt;span class="n"&gt;read_sql&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="s1"&gt;'SELECT *
FROM `basedosdados.eu_fra_lgbt.consciencia_direitos'&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;&lt;span class="w"&gt;
&lt;/span&gt;&lt;span class="n"&gt;billing&lt;/span&gt;&lt;span class="o"&gt;-&lt;/span&gt;&lt;span class="n"&gt;project&lt;/span&gt;&lt;span class="o"&gt;-&lt;/span&gt;&lt;span class="n"&gt;id&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="s1"&gt;'seu-project-id'&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;&lt;span class="w"&gt;

&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;ul&gt;
&lt;li&gt;Relatórios anuais de mortes LGBTI+ no Brasil, pelo Grupo Gay da Bahia&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Relatórios que informam o total de mortes da comunidade no Brasil, agregados por ano, por grupo LGBTQIA+, por estado de ocorrência do homicídio, entre outros tópicos. Os dados foram coletados, em sua maioria, manualmente. Caso você tenha contato de alguém da iniciativa, nos informe, pois estamos procurando os dados em formato tabular para agilizar e automatizar a disponibilização dessas bases.&lt;/p&gt;

&lt;p&gt;Utilize &lt;strong&gt;as queries em SQL&lt;/strong&gt; a seguir para acessar as tabelas:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight sql"&gt;&lt;code&gt;&lt;span class="o"&gt;#&lt;/span&gt;&lt;span class="n"&gt;Uma&lt;/span&gt; &lt;span class="n"&gt;s&lt;/span&gt;&lt;span class="err"&gt;é&lt;/span&gt;&lt;span class="n"&gt;rie&lt;/span&gt; &lt;span class="n"&gt;por&lt;/span&gt; &lt;span class="n"&gt;ano&lt;/span&gt; &lt;span class="n"&gt;de&lt;/span&gt; &lt;span class="n"&gt;todo&lt;/span&gt; &lt;span class="n"&gt;o&lt;/span&gt; &lt;span class="n"&gt;Brasil&lt;/span&gt;
&lt;span class="k"&gt;SELECT&lt;/span&gt; &lt;span class="o"&gt;*&lt;/span&gt; &lt;span class="k"&gt;FROM&lt;/span&gt; &lt;span class="nv"&gt;`basedosdados.br_ggb_relatorio_lgbtqi.brasil`&lt;/span&gt;

&lt;span class="o"&gt;#&lt;/span&gt;&lt;span class="n"&gt;Por&lt;/span&gt; &lt;span class="n"&gt;ra&lt;/span&gt;&lt;span class="err"&gt;ç&lt;/span&gt;&lt;span class="n"&gt;a&lt;/span&gt;&lt;span class="o"&gt;/&lt;/span&gt;&lt;span class="n"&gt;cor&lt;/span&gt;
&lt;span class="k"&gt;SELECT&lt;/span&gt; &lt;span class="o"&gt;*&lt;/span&gt; &lt;span class="k"&gt;FROM&lt;/span&gt; &lt;span class="nv"&gt;`basedosdados.br_ggb_relatorio_lgbtqi.raca_cor`&lt;/span&gt;

&lt;span class="o"&gt;#&lt;/span&gt;&lt;span class="n"&gt;Por&lt;/span&gt; &lt;span class="n"&gt;grupo&lt;/span&gt; &lt;span class="n"&gt;LGBTQIA&lt;/span&gt;&lt;span class="o"&gt;+&lt;/span&gt;
&lt;span class="k"&gt;SELECT&lt;/span&gt; &lt;span class="o"&gt;*&lt;/span&gt; &lt;span class="k"&gt;FROM&lt;/span&gt; &lt;span class="nv"&gt;`basedosdados.br_ggb_relatorio_lgbtqi.grupo_lgbtqia`&lt;/span&gt;

&lt;span class="o"&gt;#&lt;/span&gt;&lt;span class="n"&gt;Por&lt;/span&gt; &lt;span class="n"&gt;causa&lt;/span&gt; &lt;span class="k"&gt;do&lt;/span&gt; &lt;span class="err"&gt;ó&lt;/span&gt;&lt;span class="n"&gt;bito&lt;/span&gt;
&lt;span class="k"&gt;SELECT&lt;/span&gt; &lt;span class="o"&gt;*&lt;/span&gt; &lt;span class="k"&gt;FROM&lt;/span&gt; &lt;span class="nv"&gt;`basedosdados.br_ggb_relatorio_lgbtqi.brasil`&lt;/span&gt;

&lt;span class="o"&gt;#&lt;/span&gt;&lt;span class="n"&gt;Por&lt;/span&gt; &lt;span class="k"&gt;local&lt;/span&gt; &lt;span class="k"&gt;do&lt;/span&gt; &lt;span class="n"&gt;assassinato&lt;/span&gt;
&lt;span class="k"&gt;SELECT&lt;/span&gt; &lt;span class="o"&gt;*&lt;/span&gt; &lt;span class="k"&gt;FROM&lt;/span&gt; &lt;span class="nv"&gt;`basedosdados.br_ggb_relatorio_lgbtqi.local`&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;Como sempre, você pode acessar os dados direto do seu console de R. Para analisar os assassinatos a nível de raça/cor, você pode rodar:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight r"&gt;&lt;code&gt;&lt;span class="n"&gt;basedosdados&lt;/span&gt;&lt;span class="o"&gt;::&lt;/span&gt;&lt;span class="n"&gt;read_sql&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="s1"&gt;'SELECT *
FROM `basedosdados.br_ggb_relatorio_lgbtqi.raca_cor`'&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;&lt;span class="w"&gt;
&lt;/span&gt;&lt;span class="n"&gt;billing_project_id&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="s2"&gt;"seu-project-id"&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;&lt;span class="w"&gt;
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;Com esses dados, criamos também este gráfico que demonstra o número de homicídios de pessoas LGBTQIA+ ao longo dos anos, separado por raça. &lt;/p&gt;

&lt;p&gt;&lt;a href="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fo10ixhqh47aft0r8b97w.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fo10ixhqh47aft0r8b97w.png" alt="Alt Text"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;A &lt;a href="https://basedosdados.org/" rel="noopener noreferrer"&gt;Base dos Dados&lt;/a&gt; é uma iniciativa sem fins lucrativos, open source e que busca facilitar e fomentar a produção de conhecimento no Brasil. Acreditamos que dados públicos devem ser transparentes e acessíveis a toda a sociedade civil. &lt;/p&gt;

&lt;p&gt;Se você tiver alguma dúvida sobre a campanha ou sobre como adicionar dados que você encontrou na planilha de prioridade de bases, entre em nossa comunidade no Discord e fale conosco: &lt;a href="https://discord.com/invite/huKWpsVYx4" rel="noopener noreferrer"&gt;https://discord.com/invite/huKWpsVYx4&lt;/a&gt;&lt;/p&gt;




&lt;p&gt;Esse texto foi produzido com ajuda do Matheus Valentim, da equipe de dados da BD, e da Fernanda Scovino, coordenadora de comunicação. 💚&lt;/p&gt;

</description>
      <category>datascience</category>
      <category>lgbtq</category>
      <category>database</category>
    </item>
    <item>
      <title>Explorando o Censo Escolar com a Base dos Dados</title>
      <dc:creator>Matheus Valentim</dc:creator>
      <pubDate>Fri, 04 Jun 2021 03:46:07 +0000</pubDate>
      <link>https://dev.to/basedosdados/explorando-o-censo-escolar-com-a-base-dos-dados-1a89</link>
      <guid>https://dev.to/basedosdados/explorando-o-censo-escolar-com-a-base-dos-dados-1a89</guid>
      <description>&lt;h2&gt;
  
  
  TL;DR
&lt;/h2&gt;

&lt;p&gt;Nesse texto, vamos dissecar o &lt;strong&gt;novo&lt;/strong&gt; conjunto de dados da Base dos Dados: o &lt;strong&gt;Censo Escolar&lt;/strong&gt;. Primeiro, vamos introduzir as &lt;strong&gt;quatro&lt;/strong&gt; diferentes tabelas da base, apresentando algumas de suas variáveis. Depois, vamos mostrar alguns pontos de contato interessantes com outras tabelas disponíveis em nosso datalake público e perguntas que podem surgir dessas interações. &lt;/p&gt;

&lt;h2&gt;
  
  
  O Censo - e suas dificuldades
&lt;/h2&gt;

&lt;p&gt;O Censo Escolar é uma pesquisa &lt;strong&gt;anual&lt;/strong&gt;, onde cada escola do país responde a diversas perguntas sobre a própria escola, sobre as turmas, os professores e os alunos que ali frequentam. O Censo tem microdados desde 1995 e em 2007 assumiu um novo formato digital. Há indícios de que a pesquisa ocorre desde a década de 30. Aqui na Base dos Dados, optamos por disponibilizar, inicialmente, valores &lt;strong&gt;desde 2009 até 2020&lt;/strong&gt;. O período é o mais uniforme da pesquisa, e foi quando ela manteve o mesmo formato, o que facilita e corrobora com a compatibilização entre diferentes anos.&lt;/p&gt;

&lt;p&gt;A disponibilização dos dados do Censo, assim como de outras bases de educação, vêm do &lt;a href="http://inep.gov.br/dados"&gt;Plano Inep Dados Abertos&lt;/a&gt;. Porém, utilizar as bases originais do Censo tem vários obstáculos:&lt;/p&gt;

&lt;p&gt;-Você terá que baixar &lt;strong&gt;cada ano individualmente&lt;/strong&gt; em um arquivo compactado, cada um com aproximadamente &lt;strong&gt;10gb&lt;/strong&gt;&lt;br&gt;
-Cada base tem seu próprio conjunto de variáveis e você terá que consultar os vários dicionários, já que uma &lt;strong&gt;mesma&lt;/strong&gt; variável recebe &lt;strong&gt;vários nomes diferentes&lt;/strong&gt; ao longo do período.&lt;br&gt;
-Os dicionários &lt;strong&gt;não&lt;/strong&gt; são muito claros sobre a constância das variáveis: em muitos casos &lt;strong&gt;é necessário abrir a base para verificar a existência&lt;/strong&gt; de uma dada variável.&lt;br&gt;
-O período de 2009 até 2020 soma mais de 100gb se for aberto inteiro no seu computador.&lt;/p&gt;

&lt;p&gt;Ao invés de enfrentar tudo isso, você pode usar nossa versão já limpa e harmonizada, baixando via BigQuery ou abrindo as tabelas &lt;a href="https://dev.to/basedosdados/como-usar-a-biblioteca-basedosdados-no-r-capitulo-1-46kb"&gt;direto no R&lt;/a&gt; ou &lt;a href="https://dev.to/basedosdados/base-dos-dados-python-101-44lc"&gt;no Python&lt;/a&gt;.&lt;/p&gt;
&lt;h2&gt;
  
  
  O Censo Escolar pela Base dos Dados
&lt;/h2&gt;

&lt;p&gt;Com as suas 4 tabelas, o nosso dataset do Censo Escolar replica a arquitetura da base original, disponibilizando diferentes tabelas para diferentes níveis de agregação. Temos uma base a nível de &lt;strong&gt;escola&lt;/strong&gt;, uma a nível de &lt;strong&gt;turma&lt;/strong&gt;, e duas no nível individual: uma para &lt;strong&gt;docentes&lt;/strong&gt; e outra para os &lt;strong&gt;alunos&lt;/strong&gt;.&lt;/p&gt;

&lt;p&gt;É importante ressaltar que &lt;strong&gt;todas&lt;/strong&gt; as tabelas do dataset, além de terem identificação de suas observações, &lt;strong&gt;identificam sempre a escola&lt;/strong&gt; a qual pertencem, sempre tendo a variável &lt;code&gt;id_escola&lt;/code&gt;. Optamos por deixar essas variáveis para manter o paralelismo da base original e para que possíveis agregações e junções de tabelas fossem mais fáceis. &lt;/p&gt;

&lt;p&gt;Além disso, cabe reforçar que não disponibilizamos todas as variáveis que aparecem no Censo. Selecionamos a maioria das variáveis, as que aparecem mais vezes. Pegamos as variáveis que aparecem 8 ou mais vezes ao longo dos 12 anos, além de outras variáveis que julgamos serem cruciais por serem identificadoras importantes. Isso significa que, se a variável só aparece em 2 anos, por exemplo, ela não foi incluída nas nossas tabelas.&lt;/p&gt;
&lt;h3&gt;
  
  
  A tabela &lt;code&gt;escola&lt;/code&gt;
&lt;/h3&gt;

&lt;p&gt;A tabela &lt;code&gt;escola&lt;/code&gt; tem a granularidade de cada escola por cada ano. A identificação básica de cada unidade é feita pelas variáveis &lt;code&gt;id_escola&lt;/code&gt; e &lt;code&gt;ano&lt;/code&gt;. &lt;/p&gt;

&lt;p&gt;Na tabela, temos &lt;strong&gt;três&lt;/strong&gt; grandes grupos de variáveis: variáveis com &lt;strong&gt;características gerais&lt;/strong&gt; da escola, variáveis que qualificam a &lt;strong&gt;infraestrutura&lt;/strong&gt; de cada instituição e variáveis que identificam quais &lt;strong&gt;tipos de aulas ocorrem&lt;/strong&gt;. &lt;/p&gt;

&lt;p&gt;Entre as características gerais, temos a &lt;strong&gt;rede&lt;/strong&gt; a qual a escola está vinculada, o &lt;strong&gt;tipo de localização&lt;/strong&gt; da escola, a &lt;strong&gt;dependência administrativa&lt;/strong&gt; mantida com o poder público, a &lt;strong&gt;instituição mantenedora&lt;/strong&gt; da escola e o seu &lt;strong&gt;local de funcionamento&lt;/strong&gt;.&lt;/p&gt;

&lt;p&gt;Nas variáveis de infraestrutura, temos uma ampla caracterização do &lt;strong&gt;acesso&lt;/strong&gt; de cada instituição a serviços básicos, como &lt;strong&gt;água&lt;/strong&gt;, &lt;strong&gt;energia&lt;/strong&gt; e &lt;strong&gt;coleta&lt;/strong&gt;/&lt;strong&gt;tratamento de lixo e esgoto&lt;/strong&gt;. A infraestrutura de ensino também é avaliada: temos variáveis que medem a &lt;strong&gt;quantidade de equipamentos&lt;/strong&gt;, desde equipamentos de som ou DVD até computadores e conexão com a internet, além das variáveis que informam o &lt;strong&gt;número de salas&lt;/strong&gt;, de &lt;strong&gt;banheiros&lt;/strong&gt;, de &lt;strong&gt;quadras&lt;/strong&gt;, de &lt;strong&gt;laboratórios&lt;/strong&gt;, &lt;strong&gt;áreas verdes&lt;/strong&gt; e até de &lt;strong&gt;berçários&lt;/strong&gt;.&lt;/p&gt;

&lt;p&gt;Por fim, nas variáveis que identificam o ensino, temos em sua maioria variáveis binárias que identificam se a escola tem aulas  para &lt;strong&gt;ensino regular&lt;/strong&gt;, para &lt;strong&gt;EJA&lt;/strong&gt;, em formato EaD, entre outras. &lt;/p&gt;

&lt;p&gt;Com uma única entrada no R usando a &lt;a href="https://dev.to/basedosdados/como-usar-a-biblioteca-basedosdados-no-r-capitulo-1-46kb"&gt;biblioteca basedosdados&lt;/a&gt;, podemos descobrir, por exemplo, quais escolas não têm água potável em Minas Gerais no ano de 2020:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight r"&gt;&lt;code&gt;&lt;span class="n"&gt;basedosdados&lt;/span&gt;&lt;span class="o"&gt;::&lt;/span&gt;&lt;span class="n"&gt;read_sql&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="s1"&gt;'SELECT ano,id_escola,agua_potavel 
FROM `basedosdados-dev.br_inep_censo_escolar.escola` 
WHERE agua_potavel = 0 and ano = 2020 and sigla_uf = "MG"'&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;&lt;span class="w"&gt;
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;Ou quais escolas funcionavam em unidades prisionais em 2009:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight r"&gt;&lt;code&gt;&lt;span class="n"&gt;basedosdados&lt;/span&gt;&lt;span class="o"&gt;::&lt;/span&gt;&lt;span class="n"&gt;read_sql&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="s1"&gt;'SELECT id_escola,ano,local_func_unid_prisional 
FROM `basedosdados-dev.br_inep_censo_escolar.escola` 
WHERE ano = 2009 and local_func_unid_prisional = 1'&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;&lt;span class="w"&gt;
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;h3&gt;
  
  
  A tabela &lt;code&gt;turma&lt;/code&gt;
&lt;/h3&gt;

&lt;p&gt;A tabela turma tem a granularidade de &lt;strong&gt;cada turma&lt;/strong&gt; por &lt;strong&gt;cada ano&lt;/strong&gt;, isto é, cada observação é identificada por seu &lt;code&gt;id_turma&lt;/code&gt;e pelo seu &lt;code&gt;ano&lt;/code&gt;.&lt;/p&gt;

&lt;p&gt;Na tabela, encontramos principalmente variáveis relacionadas a &lt;strong&gt;quais dias&lt;/strong&gt; a turma tem aulas e &lt;strong&gt;de quais disciplinas&lt;/strong&gt; são essas aulas. Em cada um dos casos, tem-se variáveis binárias identificando cada dia da semana e cada matéria. &lt;/p&gt;

&lt;p&gt;Temos também variáveis que identificam &lt;strong&gt;atividades extracurriculares&lt;/strong&gt; e &lt;strong&gt;quando elas são feitas por cada turma&lt;/strong&gt;, além das já mencionadas identificações da escola a qual a turma está inserida.&lt;/p&gt;

&lt;p&gt;Se quisermos abrir as turmas de 2010 para o estado da Bahia por exemplo, no &lt;a href="https://dev.to/basedosdados/base-dos-dados-python-101-44lc"&gt;Python&lt;/a&gt;:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight python"&gt;&lt;code&gt;&lt;span class="kn"&gt;import&lt;/span&gt; &lt;span class="nn"&gt;basedosdados&lt;/span&gt; &lt;span class="k"&gt;as&lt;/span&gt; &lt;span class="n"&gt;bd&lt;/span&gt; 
&lt;span class="n"&gt;bd&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;read_sql&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;query&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="s"&gt;" SELECT * FROM `basedosdados.br_inep_censo_escolar.turma` 
WHERE ano = 2010 and sigla_uf = BA "&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; 
&lt;span class="n"&gt;billing_project_id&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="s"&gt;"bd_projeto"&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;h3&gt;
  
  
  A tabela &lt;code&gt;docente&lt;/code&gt;
&lt;/h3&gt;

&lt;p&gt;A tabela &lt;code&gt;docente&lt;/code&gt; tem a granularidade a nível dos profissionais escolares em sala de aula: professores, auxiliares, tradutores/intérpretes entre outros que atuam pedagogicamente na escola. Cada linha da tabela corresponde a &lt;strong&gt;um profissional, por cada ano&lt;/strong&gt;. Cada um desses profissionais é identificado com um &lt;code&gt;id_docente&lt;/code&gt;.&lt;/p&gt;

&lt;p&gt;Na tabela temos as mais diversas características de cada docente, representadas por mais de 80 variáveis. Tem-se características &lt;strong&gt;pessoais&lt;/strong&gt; de cada docente, como sua &lt;strong&gt;raça/cor&lt;/strong&gt;, seu &lt;strong&gt;sexo&lt;/strong&gt;, sua &lt;strong&gt;idade&lt;/strong&gt;, sua &lt;strong&gt;nacionalidade&lt;/strong&gt; e até o &lt;strong&gt;município de nascimento&lt;/strong&gt; e o &lt;strong&gt;município onde o docente reside&lt;/strong&gt;. Também temos variáveis que identificam a &lt;strong&gt;formação&lt;/strong&gt; do docente, desde as &lt;strong&gt;disciplinas&lt;/strong&gt; pelo qual ele é responsável, até a sua &lt;strong&gt;formação específica&lt;/strong&gt; como professor.&lt;/p&gt;

&lt;p&gt;Se quisermos só os docentes pretos da cidade de Rio Branco por exemplo, poderíamos rodar em &lt;a href="https://dev.to/basedosdados/base-dos-dados-python-101-44lc"&gt;Python&lt;/a&gt;:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight python"&gt;&lt;code&gt;&lt;span class="kn"&gt;import&lt;/span&gt; &lt;span class="nn"&gt;basedosdados&lt;/span&gt; &lt;span class="k"&gt;as&lt;/span&gt; &lt;span class="n"&gt;bd&lt;/span&gt; 
&lt;span class="n"&gt;bd&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;read_sql&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;query&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="s"&gt;"SELECT * FROM `basedosdados.br_inep_censo_escolar.docente`
WHERE id_municipio = 1200401 and raca_cor = 2"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="n"&gt;billing_project_id&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="s"&gt;"bd_projeto"&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;h3&gt;
  
  
  A tabela &lt;code&gt;matricula&lt;/code&gt;
&lt;/h3&gt;

&lt;p&gt;Sem dúvida uma das maiores tabelas de todo nosso datalake, a tabela &lt;code&gt;matricula&lt;/code&gt; identifica cada aluno brasileiro através da &lt;code&gt;id_aluno&lt;/code&gt;. As observações estão no nível de cada &lt;strong&gt;aluno&lt;/strong&gt; e de cada &lt;strong&gt;ano&lt;/strong&gt;.&lt;/p&gt;

&lt;p&gt;Entre as variáveis, temos as que caracterizam dados pessoais de cada aluno, paralelo ao feito com cada docente: temos &lt;code&gt;sexo&lt;/code&gt;, &lt;code&gt;cor_raca&lt;/code&gt;, &lt;code&gt;id_municipio_nascimento&lt;/code&gt;, &lt;code&gt;id_municipio_endereco&lt;/code&gt;, que, assim como na tabela de docentes, identificam sexo, cor/raça e o município onde nasceu e onde reside o aluno. Temos também variáveis que caracterizam deficiências dos alunos, físicas e intelectuais.&lt;/p&gt;

&lt;p&gt;Para além desses casos, temos também um conjunto de dados que identificam relações do aluno com a escola: variáveis que identificam &lt;strong&gt;como os alunos se deslocam até a escola&lt;/strong&gt; e variáveis que identificam &lt;strong&gt;como os alunos ingressaram na instituição&lt;/strong&gt;.&lt;/p&gt;

&lt;p&gt;A tabela &lt;code&gt;matricula&lt;/code&gt;, especificamente, é muito grande (chega a mais de 90gb), por isso &lt;strong&gt;não recomendamos&lt;/strong&gt; tentar baixá-la ou utilizá-la &lt;strong&gt;inteira&lt;/strong&gt;: a tabela é particionada por &lt;strong&gt;ano&lt;/strong&gt; e por &lt;strong&gt;uf&lt;/strong&gt; de maneira que, ao filtrar por essas variáveis, o resultado é obtido mais rápido e o gasto é bem menor.&lt;/p&gt;

&lt;p&gt;Como exemplo, podemos recortá-la para pegar somente os estudantes que vão à escola de transporte público em 2019, no estado de Roraima. &lt;a href="https://dev.to/basedosdados/como-usar-a-biblioteca-basedosdados-no-r-capitulo-1-46kb"&gt;No R&lt;/a&gt; ficaria assim:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight r"&gt;&lt;code&gt;&lt;span class="n"&gt;basedosdados&lt;/span&gt;&lt;span class="o"&gt;::&lt;/span&gt;&lt;span class="n"&gt;read_sql&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="s2"&gt;"SELECT * FROM `basedosdados.br_inep_censo_escolar.matricula
WHERE sigla_uf = RR and transporte_publico = 1 
and ano = 2019"&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;&lt;span class="w"&gt;
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;h2&gt;
  
  
  Pontos de contato com outras bases
&lt;/h2&gt;

&lt;p&gt;O censo escolar por si só já disponibiliza uma grande variedade de variáveis. Caso você queira obter ainda mais, com a &lt;a href="https://basedosdados.github.io/mais/access_data_bq/"&gt;BD+&lt;/a&gt; é fácil: como as bases têm os mesmos nomes de variável, podemos rapidamente juntar diferentes informações. A seguir separamos algumas bases já disponíveis na BD+ que podem complementar bem as tabelas do Censo Escolar:&lt;/p&gt;

&lt;p&gt;&lt;a href="https://basedosdados.org/dataset/br-inep-indicadores-educacionais"&gt;&lt;strong&gt;Os indicadores escolares do INEP&lt;/strong&gt;&lt;/a&gt;: O dataset &lt;code&gt;br_inep_indicadores_educacionais&lt;/code&gt; apresenta uma série de medições sobre a qualidade de ensino, em diferentes níveis de agregação. Usando a tabela &lt;code&gt;escola&lt;/code&gt; como ponte, podemos juntar &lt;strong&gt;média de alunos por turma da escola&lt;/strong&gt; (proveniente dessa tabela) com &lt;strong&gt;número de computadores da escola&lt;/strong&gt; (vindo do Censo) e &lt;strong&gt;construir um mais amplo cenário socioeconômico da escola&lt;/strong&gt;.&lt;/p&gt;

&lt;p&gt;&lt;a href="https://basedosdados.org/dataset/br-inep-ideb"&gt;&lt;strong&gt;As notas do IDEB&lt;/strong&gt;&lt;/a&gt;: O dataset &lt;code&gt;br_inep_ideb&lt;/code&gt;nos disponibiliza tabelas de diferentes que identificam as notas dos alunos em avaliações da qualidade do ensino (as provas do SAEB), as taxas de rendimento (aprovação, reprovação, abandono) e o desempenho no IDEB. Junto com as  tabelas do Censo, pode-se avaliar, por exemplo, &lt;strong&gt;como escolas com mais professores com mestrado vão nessas provas em relação a escolas com professores que não tem pós graduação&lt;/strong&gt;.&lt;/p&gt;

&lt;p&gt;&lt;a href="https://basedosdados.org/dataset/?q=seduc"&gt;&lt;strong&gt;Diferentes tabelas da SEDUC&lt;/strong&gt;&lt;/a&gt;: As tabelas da SEDUC disponibilizam informações sobre o nível educacional e socioeconômico das escolas estaduais de São Paulo. Com elas somadas ao censo, pode se avaliar por exemplo &lt;strong&gt;se escolas com melhor infraestrutura tem maior evasão no ensino médio.&lt;/strong&gt;&lt;/p&gt;

&lt;p&gt;As tabelas do Censo também tem identificação do município de cada uma das escolas, das turmas, dos docentes e dos alunos, permitindo vinculá-las com quase todas as tabelas a nível de município disponível no nosso datalake. &lt;/p&gt;

&lt;p&gt;Chegamos ao fim da nossa breve apresentação! Os dados da mais importante pesquisa estatística educacional brasileira, o Censo Escolar (e todas suas nuances) agora fazem parte da &lt;a href="https://basedosdados.org/"&gt;Base dos Dados&lt;/a&gt;! &lt;/p&gt;

&lt;p&gt;Nosso projeto já te ajudou de alguma forma? Saiba como nos ajudar:&lt;br&gt;
-&lt;a href="https://apoia.se/basedosdados"&gt;Apoie o projeto&lt;/a&gt;&lt;br&gt;
-&lt;a href="https://basedosdados.github.io/mais/colab_data/"&gt;Seja um(a) colaborador(a) de dados na BD&lt;/a&gt;&lt;br&gt;
-&lt;a href="https://github.com/basedosdados/mais"&gt;Colabore com nossos pacotes&lt;/a&gt;&lt;br&gt;
-&lt;a href="https://twitter.com/basedosdados"&gt;Compartilhe nas redes sociais!&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;Texto produzido por &lt;a href="https://github.com/mavalentim"&gt;Matheus&lt;/a&gt; da equipe de Dados, com enorme apoio do pesquisador Adriano Senkevics, um dos especialistas em educação da nossa comunidade 💚&lt;/p&gt;

</description>
      <category>beginners</category>
      <category>datascience</category>
      <category>programming</category>
    </item>
    <item>
      <title>Como funciona o sistema de inserção de dados na BD</title>
      <dc:creator>Vinicius Aguiar</dc:creator>
      <pubDate>Fri, 28 May 2021 15:32:31 +0000</pubDate>
      <link>https://dev.to/basedosdados/como-funciona-o-sistema-de-insercao-de-dados-na-bd-25dk</link>
      <guid>https://dev.to/basedosdados/como-funciona-o-sistema-de-insercao-de-dados-na-bd-25dk</guid>
      <description>&lt;p&gt;&lt;strong&gt;TL;DR:&lt;/strong&gt; Vamos conhecer um pouquinho sobre como funciona a infraestrutura de inserção de dados da Base dos Dados e como você pode melhorar seu portfólio de cientista de dados e/ou desenvolvedor contribuindo com a nossa missão de universalizar o acesso a dados.&lt;/p&gt;

&lt;h2&gt;
  
  
  A Infraestrutura
&lt;/h2&gt;

&lt;p&gt;&lt;a href="https://res.cloudinary.com/practicaldev/image/fetch/s--Pwd9BZ1m--/c_limit%2Cf_auto%2Cfl_progressive%2Cq_auto%2Cw_880/https://dev-to-uploads.s3.amazonaws.com/uploads/articles/g5v7q6ubopmziloojgft.png" class="article-body-image-wrapper"&gt;&lt;img src="https://res.cloudinary.com/practicaldev/image/fetch/s--Pwd9BZ1m--/c_limit%2Cf_auto%2Cfl_progressive%2Cq_auto%2Cw_880/https://dev-to-uploads.s3.amazonaws.com/uploads/articles/g5v7q6ubopmziloojgft.png" alt="Alt Text"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;O time de infraestrutura da Base dos Dados é responsável pelas ferramentas de ingestão de dados, que englobam desde o upload de dados até a disponibilização de dados no ambiente de produção; pelo acesso de dados através de pacotes em Python e R; e pelo website. Neste cenário o time é atualmente dividido em várias frentes, tratando da renovação do site e da implementação de pesos e contrapesos automatizados.&lt;/p&gt;

&lt;p&gt;Procuramos simplificar e automatizar todos os processos, começando com o &lt;a href="https://basedosdados.github.io/mais/colab_data/"&gt;upload de dados&lt;/a&gt; e inserção dos mesmos no &lt;strong&gt;Ambiente de Experimentação&lt;/strong&gt;. Neste ponto o colaborador pode adicionar dados em sua nuvem do Google, limpar e tratar os dados, e então criar as tabelas locais com a interface de linha de comando desenvolvida pela infra. Por fim, o colaborador pode submeter a base de dados para revisão, criando um pull request no &lt;a href="https://github.com/basedosdados/mais/pulls"&gt;Github&lt;/a&gt;.&lt;/p&gt;

&lt;p&gt;Após o pull request de revisão entra em ação o sistema de &lt;strong&gt;Pesos e Contrapesos&lt;/strong&gt;, com o time de dados checando a qualidade dos dados e metadados. Esse ponto é crucial para manter a qualidade dos dados, um diferencial da BD. O time de infra atua procurando automatizar o máximo possível o processo de revisão dos dados, realizando a validação de metadados como descrições e nomes de colunas; e tipos de dados, como dados chaves primárias.&lt;/p&gt;

&lt;p&gt;Após a checagem dos dados, o pull request de inserção de dados é aprovado e os dados entram no &lt;strong&gt;Ambiente de Produção&lt;/strong&gt;. Logo podem ser acessados por uma de nossas ferramentas, como os pacotes em Python e R, ou diretamente pelo BigQuery.&lt;/p&gt;

&lt;p&gt;Paralelamente ao processo de inserção de dados, o time de Infra também trabalha com a renovação do portal, visando oferecer uma interface moderna.&lt;/p&gt;

&lt;h2&gt;
  
  
  Contribuindo com dados
&lt;/h2&gt;

&lt;p&gt;No caminho para se tornar um analista de dados ou desenvolvedor nos encontramos com certas dificuldades de entrada no mercado de trabalho. Por vezes não existe balanço entre estudo e aplicação prática, ou somente a análise de dados de brincadeirinha. Levante a mão quem não passou uma época paralisado em bases de dados como o Titanic ou Iris. E apesar dessas bases de dados serem uma boa alternativa para aprender novos métodos ou ferramentas, o conhecimento obtido trabalhando com as mesmas não é transferível para o mundo real.&lt;/p&gt;

&lt;p&gt;Uma boa alternativa para lidar com dados reais e melhorar seu portfólio é ajudar a Base dos Dados com a sua ingestão de dados.  No mínimo você irá lidar com a captura de dados, preferencialmente de forma automatizada, a arquitetura de dados, e a limpeza dos mesmos. Também vai interagir com ferramentas do dia a dia de um cientista de dados, como interfaces de linha de comando, YAML e BigQuery. A experiência conquistada pode ser crucial na entrada no mercado de trabalho.&lt;/p&gt;

&lt;p&gt;Descrevemos em detalhes esse processo em &lt;a href="https://basedosdados.github.io/mais/colab_data/"&gt;Colaborando com dados na BD+&lt;/a&gt;. Em resumo o processo é dividido em quatro partes. Inicialmente você informa seu interesse para a BD. Então limpa e trata os dados. Em seguida realiza upload dos dados em seu BigQuery pessoal. E por fim envia os dados para revisão.&lt;/p&gt;

&lt;h2&gt;
  
  
  Contribuindo com a infra
&lt;/h2&gt;

&lt;p&gt;Aliás, outra forma de contribuir e melhorar seu portfólio, mas agora de desenvolvedor, é colaborando com a infraestrutura da BD.&lt;/p&gt;

&lt;p&gt;A colaboração começa conversando conosco, no bate papo da infra ou nas reuniões às 19h da segunda-feira, ambas nos canais da infra no &lt;a href="https://discord.gg/huKWpsVYx4"&gt;Discord&lt;/a&gt;. Após este passo podemos escolher uma feature ou problema para desenvolvimento, isto é, caso ainda não tenha escolhido algum problema contido nas &lt;a href="https://github.com/basedosdados/mais/issues"&gt;issues&lt;/a&gt;.&lt;/p&gt;

&lt;p&gt;Como você pode colaborar? Aqui estão algumas ideias:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Adicionando novos conjuntos de dados &lt;/li&gt;
&lt;li&gt;Fazendo a revisão de submissões de dados&lt;/li&gt;
&lt;li&gt;Aprimorando e criando novas funcionalidades do pacote em Python&lt;/li&gt;
&lt;li&gt;Aprimorando e criando novas funcionalidades do pacote em R&lt;/li&gt;
&lt;li&gt;Criando um pacote em Stata&lt;/li&gt;
&lt;li&gt;Adicionando checagens automáticas de dados&lt;/li&gt;
&lt;li&gt;Adicionando checagens automáticas de metadados&lt;/li&gt;
&lt;li&gt;Desenvolvendo novas features para o site&lt;/li&gt;
&lt;/ul&gt;




&lt;p&gt;&lt;strong&gt;Nosso projeto já te ajudou de alguma forma?&lt;/strong&gt; Saiba como nos ajudar:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;&lt;a href="https://apoia.se/basedosdados"&gt;Apoie o projeto&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href="https://basedosdados.github.io/mais/colab_data/"&gt;Seja um(a) colaborador(a) de dados na BD&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href="https://github.com/basedosdados/mais"&gt;Colabore com nossos pacotes&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;Compartilhe nas redes sociais!&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Texto produzido por &lt;a href="https://github.com/vncsna"&gt;Vinicius&lt;/a&gt; e &lt;a href="https://github.com/fernandascovino"&gt;Fernanda&lt;/a&gt;, com apoio de &lt;a href="https://github.com/d116626"&gt;Diego&lt;/a&gt;, &lt;a href="https://github.com/JoaoCarabetta"&gt;João&lt;/a&gt; e &lt;a href="https://github.com/Hellcassius"&gt;Caio&lt;/a&gt; do time de Infra da Base dos Dados 💚&lt;/p&gt;

</description>
      <category>database</category>
      <category>systems</category>
      <category>python</category>
      <category>programming</category>
    </item>
    <item>
      <title>BigQuery 101</title>
      <dc:creator>Fernanda Scovino</dc:creator>
      <pubDate>Wed, 26 May 2021 22:31:28 +0000</pubDate>
      <link>https://dev.to/basedosdados/bigquery-101-45pk</link>
      <guid>https://dev.to/basedosdados/bigquery-101-45pk</guid>
      <description>&lt;h1&gt;
  
  
  TL;DR
&lt;/h1&gt;

&lt;p&gt;Neste artigo vamos demonstrar como consultar os conjuntos de dados disponíveis no nosso datalake público online através do Google BigQuery. Você irá aprender a avaliar os dados, cruzar tabelas de diferentes conjuntos de dados disponíveis e para isso iremos explicar algumas funções básicas de SQL e BigQuery - ao final do artigo temos inclusive uma super indicação de curso gratuito de SQL. &lt;/p&gt;

&lt;p&gt;O texto tem como base o workshop feito por João Carabetta disponível em &lt;a href="https://www.youtube.com/basedosdados" rel="noopener noreferrer"&gt;nosso canal no Youtube&lt;/a&gt;.&lt;/p&gt;

&lt;h1&gt;
  
  
  Introdução
&lt;/h1&gt;

&lt;p&gt;As bases disponíveis para download e análise no nosso site possuem o ícone &lt;strong&gt;BD+&lt;/strong&gt;. Isto significa que a base está disponível no nosso datalake público, ou seja, estes dados já foram tratados pela nossa equipe técnica e são atualizados frequentemente.&lt;/p&gt;

&lt;p&gt;Ao longo do texto iremos explorar os dados da &lt;a href="https://basedosdados.org/dataset/br-me-rais" rel="noopener noreferrer"&gt;RAIS (Relação Anual de Informações Sociais)&lt;/a&gt; mas o processo é o mesmo para qualquer base que você desejar acessar. A RAIS é um relatório de informações socioeconômicas solicitado pela Secretaria de Trabalho do Ministério da Economia brasileiro às pessoas jurídicas e outros empregadores anualmente.&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fhnsvl3nufl431ntvznuq.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fhnsvl3nufl431ntvznuq.png" alt="image"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;Através do site, após escolher o conjunto de dados de interesse, você pode visualizar &lt;strong&gt;Tabelas disponíveis&lt;/strong&gt; neste conjunto. No caso da RAIS, temos disponíveis toda a série histórica de microdados de vínculos empregatícios no Brasil, e tabelas de agregações destes dados.&lt;/p&gt;

&lt;p&gt;Para explorar uma tabela em específico, você deve clicar em Explorar dados. Em seguida, ao clicar no botão  somos redirecionados ao Editor de consultas dentro do Google Cloud - essa é a ferramenta que iremos explorar hoje.&lt;/p&gt;

&lt;h3&gt;
  
  
  Antes de começar:
&lt;/h3&gt;

&lt;blockquote&gt;
&lt;p&gt;&lt;em&gt;Se já tiver um projeto no Google Cloud, siga em frente. Caso contrário, após clicar no botão você verá a página abaixo - basta clicar em Criar um projeto (é gratuito) e já terá acesso às nossas bases.&lt;/em&gt;&lt;/p&gt;
&lt;/blockquote&gt;

&lt;p&gt;&lt;a href="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fmi5iwvjvhs9wc3577b0w.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fmi5iwvjvhs9wc3577b0w.png" alt="image"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;h1&gt;
  
  
  Navegando pelo BigQuery
&lt;/h1&gt;

&lt;p&gt;Abaixo vamos entender melhor como funciona a interface do BigQuery. Após criar o projeto ele vai aparecer para você no canto superior esquerdo &lt;strong&gt;(1)&lt;/strong&gt;. Logo abaixo terá uma lista de Projeto fixos do BigQuery, dentre esses o &lt;strong&gt;&lt;code&gt;basedosdados&lt;/code&gt; (2)&lt;/strong&gt; -  o ícone de pino azul indica que o projeto está fixado e poderá ser acessado sempre que você abrir o BigQuery. A seta à esquerda do nome &lt;code&gt;basedosdados&lt;/code&gt; nos permite expandir a lista de todas as bases disponíveis na BD+ logo abaixo. &lt;/p&gt;

&lt;p&gt;&lt;a href="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F45dala9jmuxp5nzwtzmy.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F45dala9jmuxp5nzwtzmy.png" alt="image"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;Neste exemplo acessamos a página dos dados da RAIS. Sempre que abrirmos uma tabela no BigQuery teremos alguns itens que ficarão à mostra: a aba referente à tabela que selecionamos &lt;strong&gt;(3)&lt;/strong&gt; que contém informações sobre a estrutura e descrição das colunas em &lt;strong&gt;Esquema (4)&lt;/strong&gt; e também metadados da tabela em &lt;strong&gt;Detalhes (5)&lt;/strong&gt;. &lt;/p&gt;

&lt;p&gt;Por fim, para visualizar os dados da tabela criamos uma nova &lt;strong&gt;Consulta (6)&lt;/strong&gt; que irá abrir um novo Editor com a estrutura em SQL já com as informações da nossa tabela.&lt;/p&gt;

&lt;h3&gt;
  
  
  Explorando os metadados da RAIS
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;Na RAIS podemos ver entre as colunas disponíveis a &lt;code&gt;sigla_uf&lt;/code&gt;, &lt;code&gt;id_município&lt;/code&gt; (código IBGE), tipo de vínculo empregatício, tipo de admissão, mês de admissão, mês de desligamento, motivo de desligamento etc. &lt;/li&gt;
&lt;li&gt;Todos os dados podem ser filtrados por região, período, nacionalidade, raça, salários etc.&lt;/li&gt;
&lt;/ul&gt;

&lt;h1&gt;
  
  
  Utilizando o Editor de consultas em SQL
&lt;/h1&gt;

&lt;p&gt;Após selecionarmos em Consulta na página anterior, o BigQuery irá nos fornecer uma nova interface para escrita das instruções em SQL. A estrutura básica criada segue abaixo:&lt;/p&gt;

&lt;p&gt;&lt;code&gt;SELECT  FROM 'basedosdados.br_me_rais.microdados_vinculos' LIMIT 1000&lt;/code&gt;&lt;/p&gt;

&lt;p&gt;Essa estrutura mínima indica que iremos selecionar (&lt;code&gt;SELECT&lt;/code&gt;) alguma(s) coluna(s) ou agregações (&lt;em&gt;temos que indicar aqui quais serão&lt;/em&gt;) da tabela de microdados (&lt;code&gt;FROM 'basedosdados.br_me_rais.microdados_vinculos'&lt;/code&gt;) e queremos só visualizar as 1000 primeiras linhas (&lt;code&gt;LIMIT 1000&lt;/code&gt;). &lt;/p&gt;

&lt;blockquote&gt;
&lt;p&gt;&lt;em&gt;Atenção: Esse limite é importante para não processarmos a tabela inteira caso contrário seriam 250GB de dados! Conforme tornamos a query mais refinada, adicionando filtros para anos e locais específicos, por exemplo, esse tamanho de processamento se reduz bastante.&lt;/em&gt;&lt;/p&gt;
&lt;/blockquote&gt;

&lt;p&gt;&lt;a href="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Flw25h4gsbnjjxoto2q65.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Flw25h4gsbnjjxoto2q65.png" alt="image"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;Para selecionar todas as colunas da tabela podemos usar o "*" ao invés de escrever uma por uma após o &lt;code&gt;SELECT&lt;/code&gt;. Ao clicar em &lt;strong&gt;Executar (1)&lt;/strong&gt; obtemos logo abaixo a tabela de resultado da nossa consulta. Acima da tabela irá aparecer o tamanho do processamento realizado &lt;strong&gt;(2)&lt;/strong&gt; e você pode também salvar a tabela gerada em CSV no Drive ou no seu computador no botão de &lt;strong&gt;Salvar resultados (3)&lt;/strong&gt; ou &lt;strong&gt;Explorar dados (4)&lt;/strong&gt; para criar gráficos com o Google Data Studio - veja o exemplo com os dados da RAIS abaixo.&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F1awmdq2tj878xqm4iq84.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F1awmdq2tj878xqm4iq84.png" alt="image"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;Vamos usar como exemplo mais completo uma consulta de vínculos empregatícios do estado do Acre e cruzar com os dados de população do IBGE de 1985 até 2019. Essa é uma consulta mais complexa, mas basta sabermos quais são as colunas de pareamento (neste caso, &lt;code&gt;id_municipio&lt;/code&gt; e ano que fazem o JOIN) entre as tabelas para realizar o cruzamento. Abaixo em vermelho segue a explicação de cada linha da query, você pode acessar o código em SQL também em &lt;a href="https://github.com/basedosdados/analises/blob/main/workshops/br_me_rais_microdados_vinculos_20210526.sql" rel="noopener noreferrer"&gt;nosso Github&lt;/a&gt;.&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F1w3lxjmap48eo313w55l.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F1w3lxjmap48eo313w55l.png" alt="image"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;h3&gt;
  
  
  Importante ressaltar:
&lt;/h3&gt;

&lt;blockquote&gt;
&lt;p&gt;&lt;em&gt;Nossas bases sempre terão todos os nomes de colunas chave de identificação padronizados, por exemplo &lt;code&gt;sigla_uf&lt;/code&gt; é &lt;code&gt;sigla_uf&lt;/code&gt; em todas as tabelas, o mesmo para ano e &lt;code&gt;id_municipio&lt;/code&gt; - isso facilita bastante os cruzamentos!&lt;/em&gt;&lt;/p&gt;
&lt;/blockquote&gt;

&lt;p&gt;&lt;strong&gt;Esta consulta processou 571 MB de dados em apenas 4 segundos.&lt;/strong&gt; A tabela completa da RAIS tem mais de 250 GB. Já imaginou executar no Excel? &lt;/p&gt;

&lt;p&gt;Para visualizar o resultado ao longo do tempo podemos criar um gráfico através do botão &lt;strong&gt;Explorar dados&lt;/strong&gt; que irá nos redirecionar para uma aba do Google Data Studio, uma ferramenta gratuita de BI do Google. Para saber mais sobre o Data Studio &lt;a href="https://support.google.com/datastudio/answer/6283323?hl=pt-BR" rel="noopener noreferrer"&gt;veja aqui&lt;/a&gt;.&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F4kocw93bsnoa8zbjpsss.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F4kocw93bsnoa8zbjpsss.png" alt="image"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;h2&gt;
  
  
  Por que usar SQL?
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;SQL é uma das linguagens de programação mais simples e poderosas para quem quer mexer com dados.&lt;/strong&gt; Saber criar consultas eficientes com filtros, agregações e cruzamentos em SQL salva bastante tempo que você gastaria no Python ou R, por exemplo - e acredite, nós também amamos essas linguagens. &lt;/p&gt;

&lt;p&gt;Usar o SQL para pré-processamento de dados é uma ótima saída para quem trabalha com grandes volumes de dados, e construir estatísticas descritivas também é bastante simples. Uma vez com os dados prontos, você pode carregar os dados no Python ou R para rodar modelos e algoritmos mais robustos, &lt;a href="https://github.com/basedosdados/mais" rel="noopener noreferrer"&gt;usando inclusive nosso pacote já disponível em ambas as linguagens&lt;/a&gt;.&lt;/p&gt;

&lt;blockquote&gt;
&lt;p&gt;&lt;em&gt;Quer aprender mais sobre SQL? Temos uma sugestão de um &lt;a href="https://www.codecademy.com/learn/learn-sql" rel="noopener noreferrer"&gt;curso gratuito no Coursera&lt;/a&gt; em que você pode aprender praticando, e tem duração média de 8 horas.&lt;/em&gt;&lt;/p&gt;
&lt;/blockquote&gt;




&lt;p&gt;&lt;strong&gt;Nosso projeto já te ajudou de alguma forma?&lt;/strong&gt; Saiba como nos ajudar:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;&lt;a href="https://apoia.se/basedosdados" rel="noopener noreferrer"&gt;Apoie o projeto&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href="https://basedosdados.github.io/mais/colab_data/" rel="noopener noreferrer"&gt;Seja um(a) colaborador(a) de dados na BD&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href="https://github.com/basedosdados/mais" rel="noopener noreferrer"&gt;Colabore com nossos pacotes&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;Compartilhe nas redes sociais!&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;em&gt;Texto produzido por &lt;a href="https://dev.to/paolofullone"&gt;Paolo&lt;/a&gt; e &lt;a href="http://github.com/fernandascovino" rel="noopener noreferrer"&gt;Fernanda&lt;/a&gt;, da Base dos Dados 💚&lt;/em&gt;&lt;/p&gt;

</description>
      <category>googlecloud</category>
      <category>database</category>
      <category>datascience</category>
    </item>
    <item>
      <title>Como usar a biblioteca basedosdados no R - capítulo 1</title>
      <dc:creator>Matheus Valentim</dc:creator>
      <pubDate>Wed, 12 May 2021 17:56:00 +0000</pubDate>
      <link>https://dev.to/basedosdados/como-usar-a-biblioteca-basedosdados-no-r-capitulo-1-46kb</link>
      <guid>https://dev.to/basedosdados/como-usar-a-biblioteca-basedosdados-no-r-capitulo-1-46kb</guid>
      <description>&lt;h1&gt;
  
  
  TL;DR
&lt;/h1&gt;

&lt;p&gt;Neste texto vamos explicar &lt;strong&gt;como usar a biblioteca &lt;code&gt;basedosdados&lt;/code&gt; no R&lt;/strong&gt; e como exemplo iremos explorar a &lt;strong&gt;relação entre cobertura da coleta e tratamento de esgoto, e incidência de doenças causadas pela falta de saneamento básico&lt;/strong&gt;. A biblioteca permite acessar, baixar e carregar centenas de bases do nosso datalake público direto na sua máquina. Serão apresentadas as funções presentes do pacote e como utilizá-las para realizar análises.&lt;/p&gt;

&lt;h1&gt;
  
  
  Como acessar nosso datalake público (BD+)
&lt;/h1&gt;

&lt;p&gt;Organizamos neste datalake as principais bases públicas já tratadas e compatibilizadas, prontas para análise. O datalake é mantido no ambiente da Google (BigQuery) e o acesso às bases é gratuito, com um limite mensal de 1TB - acredite, nem a gente chega a tanto.&lt;/p&gt;

&lt;p&gt;O pacote &lt;em&gt;basedosdados&lt;/em&gt; te permite acessar esse banco através do R de um jeito rápido e fácil. Para isso, é necessário somente que você possua um projeto no Google Cloud, o que é gratuito. Veja aqui os &lt;a href="https://basedosdados.github.io/mais/access_data_local/#criando-um-projeto-no-google-cloud" rel="noopener noreferrer"&gt;5 passos para criar seu projeto&lt;/a&gt;. Caso não tenha o projeto, ao utilizar a biblioteca pela primeira vez, esse mesmo passo a passo para criação é printado no seu console.&lt;/p&gt;

&lt;h1&gt;
  
  
  Conhecendo a biblioteca &lt;code&gt;basedosdados&lt;/code&gt;
&lt;/h1&gt;

&lt;p&gt;Como qualquer outra biblioteca no R, você deve instalá-la e carregar no seu ambiente:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight r"&gt;&lt;code&gt;&lt;span class="c1"&gt;# instalando a biblioteca&lt;/span&gt;&lt;span class="w"&gt;
&lt;/span&gt;&lt;span class="n"&gt;install.packages&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="s1"&gt;'basedosdados'&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;&lt;span class="w"&gt;

&lt;/span&gt;&lt;span class="c1"&gt;# carregando a biblioteca na sessão&lt;/span&gt;&lt;span class="w"&gt;
&lt;/span&gt;&lt;span class="n"&gt;library&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;basedosdados&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;&lt;span class="w"&gt;
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;


&lt;p&gt;A biblioteca contém duas funções principais: &lt;code&gt;read_sql()&lt;/code&gt; e a &lt;code&gt;download()&lt;/code&gt;, descritas abaixo.&lt;/p&gt;
&lt;h3&gt;
  
  
  Função &lt;code&gt;download()&lt;/code&gt;
&lt;/h3&gt;

&lt;p&gt;A &lt;code&gt;donwload()&lt;/code&gt; te permite baixar bases direto do nosso repositório em sua máquina, como um arquivo .CSV. Seus argumentos são:&lt;/p&gt;

&lt;p&gt;&lt;code&gt;query&lt;/code&gt;: query &lt;strong&gt;em SQL&lt;/strong&gt; com qual tabela se quer baixar, com quais colunas e com qual agregação&lt;br&gt;
&lt;code&gt;path&lt;/code&gt;: um caminho para onde salvar o arquivo .csv. Um truque importante é usar &lt;a href="https://support.rstudio.com/hc/en-us/articles/200526207-Using-Projects" rel="noopener noreferrer"&gt;projetos do R&lt;/a&gt;. Com eles, você não precisa especificar todo o caminho onde quer salvar as bases e o código pode ser mais facilmente reutilizado por outros usuários. Ao longo do texto vamos usar o caminho "/bases" como sendo uma pasta em um dado projeto R. Note que depois de "/bases" acrescentamos o nome do arquivo e o formato .csv.&lt;/p&gt;

&lt;p&gt;Caso você queira baixar o Atlas Esgotos da ANA, base que vamos usar nas aplicações, rodaria:&lt;br&gt;
&lt;/p&gt;
&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight r"&gt;&lt;code&gt;&lt;span class="n"&gt;download&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;query&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="s1"&gt;'SELECT * FROM `basedosdados.br_ana_atlas_esgotos.municipios` '&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="n"&gt;path&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="s1"&gt;'/bases/base_ana.csv'&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;&lt;span class="w"&gt; 
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;

&lt;h3&gt;
  
  
  Função &lt;code&gt;read_sql()&lt;/code&gt;
&lt;/h3&gt;

&lt;p&gt;A &lt;code&gt;read_sql()&lt;/code&gt; usa uma API para acessar o datalake e &lt;strong&gt;abrir uma base em formato tibble na sua sessão de R&lt;/strong&gt;. O R se encarrega de entrar na nuvem, escolher a tabela e rodar a query para acessá-la, conforme os parâmetros passados na função:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;&lt;p&gt;&lt;code&gt;query&lt;/code&gt; (string) : é a consulta que será feita ao banco em SQL. Aqui você pode especificar filtros, agrupamentos, e outras transformações usando SQL. &lt;a href="https://www.w3schools.com/sql/" rel="noopener noreferrer"&gt;Veja mais sobre a sintaxe aqui.&lt;/a&gt;&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;&lt;code&gt;billing-project-id&lt;/code&gt;: é o identificador do seu projeto do Google. Ele é necessário para que o Google saiba quem está acessando a nuvem, e contabilizar o tamanho da requisição que você está fazendo. Não precisa ser especificado caso a set_billing_id seja usada.&lt;/p&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;h3&gt;
  
  
  Funções &lt;code&gt;set_billing_id()&lt;/code&gt; e &lt;code&gt;get_billing_id()&lt;/code&gt;
&lt;/h3&gt;

&lt;p&gt;A &lt;code&gt;set_billing_id()&lt;/code&gt; guarda o seu &lt;code&gt;billing-project-id&lt;/code&gt; usado na função &lt;code&gt;read_sql()&lt;/code&gt;. Em outras palavras, você pode definir uma única vez na sessão o seu identificador de projeto do Google, e ele não precisa mais ser um argumento para acessar tabelas. Para os mais &lt;strong&gt;experientes&lt;/strong&gt;, um outro truque possível é guardar o seu id em algum &lt;code&gt;objeto&lt;/code&gt; de um arquivo &lt;code&gt;.env&lt;/code&gt; e depois usar a função &lt;a href="https://www.rdocumentation.org/packages/base/versions/3.6.2/topics/Sys.getenv" rel="noopener noreferrer"&gt;&lt;code&gt;Sys.getenv(&lt;/code&gt;objeto&lt;code&gt;)&lt;/code&gt;&lt;/a&gt; para acessá-lo. Um arquivo &lt;code&gt;.env&lt;/code&gt; pode ser gerado com a biblioteca &lt;a href="https://www.rdocumentation.org/packages/dotenv/versions/1.0.3" rel="noopener noreferrer"&gt;dotenv&lt;/a&gt;.&lt;/p&gt;

&lt;p&gt;A &lt;code&gt;get_billing_id()&lt;/code&gt; printa o valor guardado em set_billing_id. Essa função não é diretamente usada: a função &lt;code&gt;read_sql()&lt;/code&gt; automaticamente pega o identificador definido &lt;strong&gt;através&lt;/strong&gt; da &lt;code&gt;get_billing_id()&lt;/code&gt;.&lt;/p&gt;

&lt;p&gt;Dito isso, uma vez que definimos nosso &lt;code&gt;billing-project-id&lt;/code&gt;:&lt;br&gt;
&lt;/p&gt;
&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight r"&gt;&lt;code&gt;&lt;span class="n"&gt;set_billing_id&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="s2"&gt;"meu-projeto-3058"&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;&lt;span class="w"&gt;
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;


&lt;p&gt;Não precisamos mais usar a função &lt;code&gt;read_sql()&lt;/code&gt; com dois argumentos:&lt;br&gt;
&lt;/p&gt;
&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight r"&gt;&lt;code&gt;&lt;span class="n"&gt;read_sql&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;query&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="s1"&gt;'SELECT * FROM `basedosdados.br_ana_atlas_esgotos.municipios` '&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;&lt;span class="w"&gt;
&lt;/span&gt;&lt;span class="n"&gt;billing_project_id&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="s2"&gt;"meu-projetoid-3058"&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;&lt;span class="w"&gt;
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;


&lt;p&gt;Podemos usá-la &lt;strong&gt;sem&lt;/strong&gt; o segundo argumento (que é o que será feito ao longo do texto):&lt;br&gt;
&lt;/p&gt;
&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight r"&gt;&lt;code&gt;&lt;span class="n"&gt;read_sql&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;query&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="s1"&gt;'SELECT * FROM `basedosdados.br_ana_atlas_esgotos.municipios` '&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;&lt;span class="w"&gt;
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;

&lt;h1&gt;
  
  
  Aplicações
&lt;/h1&gt;
&lt;h2&gt;
  
  
  Antes: Como descobrir os nomes de tabelas
&lt;/h2&gt;

&lt;p&gt;Para exemplificar o uso da biblioteca, vamos estudar duas variáveis &lt;strong&gt;de bases diferentes&lt;/strong&gt; que acreditamos estar correlacionadas: &lt;strong&gt;investimento em coleta de esgoto&lt;/strong&gt; e &lt;strong&gt;mortes por doenças que se propagam na falta de saneamento básico&lt;/strong&gt;. &lt;/p&gt;

&lt;p&gt;Para começar essa análise, iremos acessar os dados do &lt;a href="https://basedosdados.org/dataset/br-ana-atlas-esgotos" rel="noopener noreferrer"&gt;Atlas Esgotos da Agência Nacional das Águas&lt;/a&gt;. Ao acessar o link do conjunto de dados no nosso site (acima), você verá listado as "Tabelas disponíveis na BD+" - isso indica quais tabelas estão disponíveis no banco.&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fh6gywo7b5sz041aiyxal.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fh6gywo7b5sz041aiyxal.png" alt="image"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;Neste caso temos somente a tabela &lt;code&gt;municipios&lt;/code&gt;. Ao clicar na mesma, você irá para uma página que mostra como acessar essa tabela no próprio banco (via editor do BigQuery), em Python e em R (figura abaixo). &lt;/p&gt;

&lt;p&gt;&lt;a href="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fkubsvvcrz3ahp7zblfsm.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fkubsvvcrz3ahp7zblfsm.png" alt="Alt Text"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;No código, vem descrito já o nome do conjunto e da tabela no banco - neste caso, &lt;code&gt;basedodados&lt;/code&gt; é o banco, &lt;code&gt;br_ana_atlas_esgotos&lt;/code&gt; o conjunto e &lt;code&gt;municipios&lt;/code&gt; a tabela. Você pode copiar este código direto para o RStudio.&lt;/p&gt;
&lt;h2&gt;
  
  
  Diferentes maneiras de consultar uma tabela no R
&lt;/h2&gt;

&lt;p&gt;Utilizando a função &lt;code&gt;read_sql()&lt;/code&gt;, iremos carregar os dados do &lt;a href="https://basedosdados.org/dataset/br-ana-atlas-esgotos" rel="noopener noreferrer"&gt;Atlas Esgostos da ANA&lt;/a&gt; no R e salvar esse tibble em um objeto chamado &lt;code&gt;base&lt;/code&gt;.&lt;br&gt;
&lt;/p&gt;
&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight r"&gt;&lt;code&gt;&lt;span class="n"&gt;base&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;&amp;lt;-&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="n"&gt;basedosdados&lt;/span&gt;&lt;span class="o"&gt;::&lt;/span&gt;&lt;span class="n"&gt;read_sql&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;query&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="s1"&gt;'SELECT * FROM `basedosdados.br_ana_atlas_esgotos.municipios` '&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;&lt;span class="w"&gt;
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;


&lt;p&gt;Caso você clique para ver a base, vai se deparar com algo assim:&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fc66elmo3iikoqp16osb1.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fc66elmo3iikoqp16osb1.png" alt="Alt Text"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;O Atlas contém mais de 30 variáveis sobre a condição da coleta e do tratamento de esgoto para cada município brasileiro. Entre elas, temos, por exemplo, a porcentagem de habitantes do município sem acesso a esgoto tratado, o nome do prestador do serviço do saneamento e o investimento feito pelo município em coleta e em tratamento de esgoto.&lt;/p&gt;

&lt;p&gt;A query usada contém um * para indicar que estamos selecionando &lt;strong&gt;todas&lt;/strong&gt; as colunas da tabela. Caso quiséssemos baixar &lt;strong&gt;só&lt;/strong&gt; duas colunas, como o identificador do municipio (&lt;code&gt;id_municipio&lt;/code&gt;) e o índice de pessoas que não recebe atendimento de tratamento de esgoto (&lt;code&gt;indice_sem_atend&lt;/code&gt;) bastaria rodar algo como:&lt;br&gt;
&lt;/p&gt;
&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight r"&gt;&lt;code&gt;&lt;span class="n"&gt;base_cobertura&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;&amp;lt;-&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="n"&gt;basedosdados&lt;/span&gt;&lt;span class="o"&gt;::&lt;/span&gt;&lt;span class="n"&gt;read_sql&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;query&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="w"&gt; 
&lt;/span&gt;&lt;span class="s1"&gt;'SELECT id_municipio, indice_sem_atend 
FROM `basedosdados.br_ana_atlas_esgotos.municipios` '&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;&lt;span class="w"&gt;
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;


&lt;p&gt;Outra maneira de selecionar uma "sub-base" é filtrando as observações por alguma característica: se estivermos interessados somente no saneamento básico da região norte, não faz sentido pegarmos todas as 5570 linhas da base original. Podemos rodar uma query adicionando o verbo WHERE e indicar que só queremos estados do Norte:&lt;br&gt;
&lt;/p&gt;
&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight r"&gt;&lt;code&gt;&lt;span class="n"&gt;base_norte&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;&amp;lt;-&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="n"&gt;read_sql&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="s1"&gt;'SELECT * 
FROM `basedosdados.br_ana_atlas_esgotos.municipios` 
WHERE sigla_uf in ("AM","AP","RO","RR","AC", "PA") '&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;&lt;span class="w"&gt;
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;


&lt;p&gt;Além dessas possibilidades de seleção, podemos &lt;strong&gt;agregar&lt;/strong&gt; essas tabela para o nível de estado, ao invés do nível de município, utilizando um agrupamento por &lt;code&gt;sigla_uf&lt;/code&gt;. Ao agregarmos, precisamos também agregar as colunas, somando ou tirando uma média, por exemplo. Nesse exemplo, vamos pegar uma média da cobertura de esgoto por UF. O código fica assim:&lt;br&gt;
&lt;/p&gt;
&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight r"&gt;&lt;code&gt;&lt;span class="n"&gt;base_uf&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;&amp;lt;-&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="n"&gt;basedosdados&lt;/span&gt;&lt;span class="o"&gt;::&lt;/span&gt;&lt;span class="n"&gt;read_sql&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;query&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="w"&gt; 
&lt;/span&gt;&lt;span class="s1"&gt;'SELECT sigla_uf, AVG(indice_sem_atend) as sem_esgoto
FROM `basedosdados.br_ana_atlas_esgotos.municipios` 
GROUP BY sigla_uf '&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;&lt;span class="w"&gt;
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;

&lt;h2&gt;
  
  
  Visualizando o acesso a tratamento nos estados
&lt;/h2&gt;

&lt;p&gt;Para finalizar,  vamos construir um gráfico com essa última base criada para visualizar &lt;strong&gt;quais estados tem maior e a menor média de acesso a tratamento de esgoto&lt;/strong&gt; nos seus municipios:&lt;br&gt;
&lt;/p&gt;
&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight r"&gt;&lt;code&gt;&lt;span class="n"&gt;base_uf&lt;/span&gt;&lt;span class="o"&gt;%&amp;gt;%&lt;/span&gt;&lt;span class="w"&gt;
  &lt;/span&gt;&lt;span class="n"&gt;ggplot&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;aes&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;y&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="n"&gt;sem_esgoto&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="n"&gt;x&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="n"&gt;reorder&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;sigla_uf&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;-&lt;/span&gt;&lt;span class="n"&gt;sem_esgoto&lt;/span&gt;&lt;span class="p"&gt;)))&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;+&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="n"&gt;geom_col&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;fill&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="s1"&gt;'#7cb342'&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;+&lt;/span&gt;&lt;span class="w"&gt;
  &lt;/span&gt;&lt;span class="n"&gt;labs&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;x&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="s2"&gt;"Estado"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="n"&gt;y&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="s2"&gt;"Porcentagem média sem saneamento"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;&lt;span class="w"&gt; 
       &lt;/span&gt;&lt;span class="n"&gt;title&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="s2"&gt;"População sem saneamento básico"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;&lt;span class="w"&gt;
       &lt;/span&gt;&lt;span class="n"&gt;subtitle&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="s2"&gt;"Média da porcentagem da população municipal sem saneamento, por UF"&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;+&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="n"&gt;theme_classic&lt;/span&gt;&lt;span class="p"&gt;()&lt;/span&gt;&lt;span class="w"&gt;
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;


&lt;p&gt;&lt;a href="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fee0c4zqeg2rl0h33srri.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fee0c4zqeg2rl0h33srri.png" alt="Alt Text"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;Parabéns! Concluímos a nossa primeira aplicação da basedosdados! Com ela, descobrimos que o estado que tem, em média, o pior acesso a tratamento e coleta de esgoto nas suas cidades é Rondônia, e o estado que tem a melhor é São Paulo.&lt;/p&gt;

&lt;p&gt;Para usar esta mesma base em um outro software, pode-se usar a função &lt;code&gt;download()&lt;/code&gt; para baixá-la em CSV direto na sua máquina:&lt;br&gt;
&lt;/p&gt;
&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight r"&gt;&lt;code&gt;&lt;span class="n"&gt;download&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;query&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="w"&gt; 
&lt;/span&gt;&lt;span class="s1"&gt;'SELECT sigla_uf, AVG(indice_sem_atend) as sem_esgoto
FROM `basedosdados.br_ana_atlas_esgotos.municipios` 
GROUP BY sigla_uf '&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="n"&gt;path&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="s1"&gt;'/bases/base_ana_uf.csv'&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;&lt;span class="w"&gt;
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;

&lt;h2&gt;
  
  
  Cruzando diferentes bases
&lt;/h2&gt;

&lt;p&gt;Outra aplicação importante do pacote é a possibilidade de &lt;strong&gt;juntar diferentes bases sem ter que abrí-las individualmente&lt;/strong&gt;.&lt;/p&gt;

&lt;p&gt;Para exemplificar, vamos comparar os dados que obtemos de saneamento com o &lt;strong&gt;nível de mortalidade por doenças relacionadas à falta de saneamento&lt;/strong&gt;. Para explorar mortalidade precisamos de &lt;em&gt;número de óbitos&lt;/em&gt;, que estão na tabela do &lt;a href="https://basedosdados.org/dataset/br-ms-sim" rel="noopener noreferrer"&gt;Sistema de Mortalidade do Ministério da Saúde (SIM)&lt;/a&gt;, e da &lt;em&gt;população&lt;/em&gt;, na &lt;a href="https://basedosdados.org/dataset/br-ibge-populacao" rel="noopener noreferrer"&gt;tabela de população do IBGE&lt;/a&gt;. Ambas as tabelas estão disponíveis na BD+ nos links acima!&lt;/p&gt;

&lt;p&gt;Para cruzar as tabelas vamos filtrar ambas para o ano de 2013, referente ao Atlas Esgotos (tabela anterior), pela coluna &lt;code&gt;ano&lt;/code&gt; presente em todas as tabelas. Além disso, vamos também escolher somente a mortalidade de &lt;code&gt;causa_basica&lt;/code&gt; referente a &lt;strong&gt;doenças diarréicas&lt;/strong&gt;, relacionadas à falta de saneamento básico. Os códigos de referência da coluna &lt;code&gt;causa_basica&lt;/code&gt; na tabela SIM podem ser &lt;a href="https://github.com/basedosdados/mais/blob/master/bases/br_ms_sim/dictionaries/CID10/CID-10-CATEGORIAS.CSV" rel="noopener noreferrer"&gt;consultados aqui&lt;/a&gt;. A query abaixo faz esses filtros e seleciona as colunas tanto da base de população e quanto de mortalidade:&lt;br&gt;
&lt;/p&gt;
&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight r"&gt;&lt;code&gt;&lt;span class="n"&gt;base_mortalidade&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;&amp;lt;-&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="n"&gt;read_sql&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="s1"&gt;'
SELECT sim.id_municipio, sim.numero_obitos , pop.populacao 
FROM `basedosdados.br_ms_sim.municipio_causa` as sim
FULL JOIN `basedosdados.br_ibge_populacao.municipios` as pop ON sim.id_municipio = pop.id_municipio
WHERE sim.ano = 2013 and pop.ano = 2013 and sim.causa_basica in ("A00", "A01", "A02", "A03", "A04", "A05", "A06","A07", "A08", "A09")'&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;&lt;span class="o"&gt;%&amp;gt;%&lt;/span&gt;&lt;span class="w"&gt;
  &lt;/span&gt;&lt;span class="n"&gt;mutate&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;mortalidade&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;numero_obitos&lt;/span&gt;&lt;span class="o"&gt;/&lt;/span&gt;&lt;span class="n"&gt;populacao&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;&lt;span class="o"&gt;*&lt;/span&gt;&lt;span class="m"&gt;10000&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;&lt;span class="o"&gt;%&amp;gt;%&lt;/span&gt;&lt;span class="w"&gt;
  &lt;/span&gt;&lt;span class="n"&gt;select&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;id_municipio&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;&lt;span class="n"&gt;mortalidade&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;&lt;span class="w"&gt;
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;


&lt;p&gt;Vamos então juntar essa base com a tabela de cobertura de saneamento e ver as possíveis correlações. Para isso, podemos juntar as bases abertas no R, a &lt;code&gt;base_cobertura&lt;/code&gt; e a &lt;code&gt;base_mortalidade&lt;/code&gt;, ou podemos rodar uma nova QUERY:&lt;br&gt;
&lt;/p&gt;
&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight r"&gt;&lt;code&gt;&lt;span class="n"&gt;base_final&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;&amp;lt;-&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="n"&gt;read_sql&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="w"&gt;
&lt;/span&gt;&lt;span class="s1"&gt;'SELECT  sim.id_municipio, sim.numero_obitos , pop.populacao, ana.indice_sem_atend
FROM `basedosdados.br_ms_sim.municipio_causa` as sim
FULL JOIN `basedosdados.br_ibge_populacao.municipios` as pop ON sim.id_municipio = pop.id_municipio
FULL JOIN `basedosdados.br_ana_atlas_esgotos.municipios` as
ana ON sim.id_municipio = ana.id_municipio 
WHERE sim.ano = 2013 and pop.ano = 2013 and sim.causa_basica in ("A00", "A01", "A02", "A03", "A04", "A05", "A06","A07", "A08", "A09")'&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;&lt;span class="w"&gt;
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;


&lt;p&gt;Com a base em mãos, criamos um gráfico que relaciona a mortalidade por doenças diarreicas e a cobertura de saneamento básico:&lt;br&gt;
&lt;/p&gt;
&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight r"&gt;&lt;code&gt;&lt;span class="n"&gt;base_final&lt;/span&gt;&lt;span class="o"&gt;%&amp;gt;%&lt;/span&gt;&lt;span class="w"&gt;
  &lt;/span&gt;&lt;span class="n"&gt;mutate&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;mortalidade&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;numero_obitos&lt;/span&gt;&lt;span class="o"&gt;/&lt;/span&gt;&lt;span class="n"&gt;populacao&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;&lt;span class="o"&gt;*&lt;/span&gt;&lt;span class="m"&gt;10000&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;&lt;span class="o"&gt;%&amp;gt;%&lt;/span&gt;&lt;span class="w"&gt;
  &lt;/span&gt;&lt;span class="n"&gt;ggplot&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;aes&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;y&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="n"&gt;mortalidade&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="n"&gt;x&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="n"&gt;indice_sem_atend&lt;/span&gt;&lt;span class="p"&gt;))&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;+&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="n"&gt;geom_point&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;color&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="s1"&gt;'#7cb342'&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;+&lt;/span&gt;&lt;span class="w"&gt;
  &lt;/span&gt;&lt;span class="n"&gt;labs&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;x&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="s2"&gt;"Porcentagem sem saneamento"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="n"&gt;y&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="s2"&gt;"Mortalidade"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;&lt;span class="w"&gt; 
       &lt;/span&gt;&lt;span class="n"&gt;title&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="s2"&gt;"Saneamento x Mortalidade"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;&lt;span class="w"&gt;
       &lt;/span&gt;&lt;span class="n"&gt;subtitle&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="s2"&gt;"Os municípios que tem pior cobertura também tem mais mortes?"&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="o"&gt;+&lt;/span&gt;&lt;span class="w"&gt; &lt;/span&gt;&lt;span class="n"&gt;theme_classic&lt;/span&gt;&lt;span class="p"&gt;()&lt;/span&gt;&lt;span class="w"&gt;
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;


&lt;p&gt;&lt;a href="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fomq4icuf8249hqi6hdls.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fomq4icuf8249hqi6hdls.png" alt="Alt Text"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;E com isso descobrimos que aparentemente não há uma forte correlação entre cobertura de saneamento e mortalidade por doenças quando analisamos todos municípios brasileiros que tiveram mortes por diarreia... Mas, conseguimos facilmente juntar 3 bases de diferentes organizações numa única entrada!&lt;/p&gt;

&lt;p&gt;Muito obrigado por ler até aqui!&lt;/p&gt;



&lt;p&gt;Confira o notebook com a análise completa no nosso repositório:&lt;/p&gt;


&lt;div class="ltag-github-readme-tag"&gt;
  &lt;div class="readme-overview"&gt;
    &lt;h2&gt;
      &lt;img src="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev.to%2Fassets%2Fgithub-logo-5a155e1f9a670af7944dd5e12375bc76ed542ea80224905ecaf878b9157cdefc.svg" alt="GitHub logo"&gt;
      &lt;a href="https://github.com/basedosdados" rel="noopener noreferrer"&gt;
        basedosdados
      &lt;/a&gt; / &lt;a href="https://github.com/basedosdados/analises" rel="noopener noreferrer"&gt;
        analises
      &lt;/a&gt;
    &lt;/h2&gt;
    &lt;h3&gt;
      📊 Repositório de códigos simples e replicáveis das análises publicadas. 
    &lt;/h3&gt;
  &lt;/div&gt;
&lt;/div&gt;



&lt;p&gt;A &lt;a href="https://basedosdados.org/" rel="noopener noreferrer"&gt;Base dos Dados&lt;/a&gt; é uma ONG com intuito de disponibilizar dados tratados e limpos para qualquer um acessar de um jeito rápido e fácil. &lt;a href="https://apoia.se/basedosdados" rel="noopener noreferrer"&gt;Apoie a nossa iniciativa 💚&lt;/a&gt;.&lt;/p&gt;

</description>
      <category>datascience</category>
      <category>beginners</category>
    </item>
    <item>
      <title>Base dos Dados Python 102</title>
      <dc:creator>Vinicius Aguiar</dc:creator>
      <pubDate>Sat, 08 May 2021 15:51:41 +0000</pubDate>
      <link>https://dev.to/basedosdados/base-dos-dados-python-102-50k0</link>
      <guid>https://dev.to/basedosdados/base-dos-dados-python-102-50k0</guid>
      <description>&lt;p&gt;&lt;strong&gt;TL;DR:&lt;/strong&gt; Neste artigo vamos demonstrar como acessar os dados do BD+ via consulta SQL pelo pacote da Base Dos Dados em Python. Em seguida vamos continuar as análises do post &lt;a href="https://dev.to/basedosdados/base-dos-dados-python-101-3l6-temp-slug-495353"&gt;Base Dos Dados Python 101&lt;/a&gt;, sobre a popularidade de nomes nos estados brasileiros, com o conteúdo adaptado do &lt;a href="https://www.youtube.com/watch?v=wI2xEioDPgM" rel="noopener noreferrer"&gt;Workshop "Brincando com dados da BD+ em Python"&lt;/a&gt;.&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight python"&gt;&lt;code&gt;&lt;span class="kn"&gt;import&lt;/span&gt; &lt;span class="n"&gt;pandas&lt;/span&gt; &lt;span class="k"&gt;as&lt;/span&gt; &lt;span class="n"&gt;pd&lt;/span&gt;
&lt;span class="kn"&gt;import&lt;/span&gt; &lt;span class="n"&gt;geopandas&lt;/span&gt; &lt;span class="k"&gt;as&lt;/span&gt; &lt;span class="n"&gt;gpd&lt;/span&gt;
&lt;span class="kn"&gt;import&lt;/span&gt; &lt;span class="n"&gt;basedosdados&lt;/span&gt; &lt;span class="k"&gt;as&lt;/span&gt; &lt;span class="n"&gt;bd&lt;/span&gt;
&lt;span class="kn"&gt;import&lt;/span&gt; &lt;span class="n"&gt;matplotlib.pyplot&lt;/span&gt; &lt;span class="k"&gt;as&lt;/span&gt; &lt;span class="n"&gt;plt&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;

&lt;h2&gt;
  
  
  Consultas SQL na BD+
&lt;/h2&gt;

&lt;p&gt;Já vimos em um artigo anterior que podemos acessar a BD+ pela função &lt;code&gt;read_table&lt;/code&gt;, capaz de carregar uma tabela por vez. Hoje vamos acessar a BD+ por meio de consultas SQL, com a função &lt;code&gt;read_sql&lt;/code&gt;. Recomendamos essa opção, por contar com toda a capacidade da linguagem SQL, acesso amplo ao acervo da BD+ e retorno em formato de dataframe. Além do mais, sua sintaxe é análoga a &lt;code&gt;read_table&lt;/code&gt;. Isto é, precisamos apenas fornecer uma consulta válida e um id de projeto do Google Cloud.&lt;/p&gt;

&lt;p&gt;A seguir ilustramos uma consulta de dados da tabela de nomes brasileiros do IBGE (2010) cruzada com diretórios brasileiros, com fim de obter o nome mais popular de cada estado. Observe que precisamos fornecer o nome do datalake (basedosdados), dataset (br_bd_diretorios_brasil) e tabela (municipio).&lt;br&gt;
&lt;/p&gt;
&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight python"&gt;&lt;code&gt;&lt;span class="n"&gt;df&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;bd&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;read_sql&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;
    &lt;span class="sh"&gt;'''&lt;/span&gt;&lt;span class="s"&gt;
    SELECT estado.uf AS state, estado.municipio AS town, nomes.nome AS name, nomes.qtde_nascimentos_ate_2010 AS freq
    FROM  basedosdados.br_ibge_nomes_brasil.quantidade_municipio_nome_2010 AS nomes
    INNER JOIN basedosdados.br_bd_diretorios_brasil.municipio AS estado ON nomes.id_municipio = estado.id_municipio
    &lt;/span&gt;&lt;span class="sh"&gt;'''&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
    &lt;span class="n"&gt;billing_project_id&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;basedosdados42&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;
&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;


&lt;p&gt;Após lermos os dados realizamos um pré-processamento. Neste processo, eliminamos nomes únicos ou erros em municípios, como: Awo, Yorane e Zilneide. Por fim, também calculamos a frequência dos nomes nos estados por 100.000 pessoas.&lt;br&gt;
&lt;/p&gt;
&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight python"&gt;&lt;code&gt;&lt;span class="n"&gt;df&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;df&lt;/span&gt;&lt;span class="p"&gt;[&lt;/span&gt;&lt;span class="n"&gt;df&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;duplicated&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;name&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="n"&gt;keep&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="bp"&gt;False&lt;/span&gt;&lt;span class="p"&gt;)]&lt;/span&gt; &lt;span class="c1"&gt;# seleciona nomes que aparecem mais de uma vez
&lt;/span&gt;
&lt;span class="n"&gt;total_by_state&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;df&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;groupby&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;state&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;).&lt;/span&gt;&lt;span class="n"&gt;freq&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;sum&lt;/span&gt;&lt;span class="p"&gt;()&lt;/span&gt; &lt;span class="c1"&gt;# agrupa o total por estado
&lt;/span&gt;&lt;span class="n"&gt;df&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;df&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;merge&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;total_by_state&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="n"&gt;on&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;state&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="n"&gt;suffixes&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="sh"&gt;''&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;_total_by_state&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;))&lt;/span&gt; &lt;span class="c1"&gt;# une os dados com total por estado
&lt;/span&gt;
&lt;span class="n"&gt;df&lt;/span&gt;&lt;span class="p"&gt;[&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;freq_per_100k&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;]&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="mi"&gt;100_000&lt;/span&gt; &lt;span class="o"&gt;*&lt;/span&gt; &lt;span class="n"&gt;df&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;freq&lt;/span&gt; &lt;span class="o"&gt;/&lt;/span&gt; &lt;span class="n"&gt;df&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;freq_total_by_state&lt;/span&gt; &lt;span class="c1"&gt;# cria o total por estado por 100k pessoas
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;

&lt;h2&gt;
  
  
  Em que estado Fred é mais famoso?
&lt;/h2&gt;

&lt;p&gt;Nossa primeira questão de análise é descobrir como está distribuída a frequência de um nome nos estados brasileiros. Em particular gostaríamos de saber em qual estado Fred, nome de um de nossos desenvolvedores, é o nome mais famoso. Então vamos contar a frequência do nome Fred por 100.000 pessoas em cada estado, e em seguida representar este dado com um mapa com gradiente de cores (coroplético). &lt;/p&gt;

&lt;p&gt;Para isso, previamente instalamos a biblioteca &lt;code&gt;geopandas&lt;/code&gt; para auxiliar o desenho do mapa e manualmente criamos um mapeamento entre o nome de um estado e sua abreviação nos dados geográficos &lt;code&gt;state2abbr&lt;/code&gt;.&lt;br&gt;
&lt;/p&gt;
&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight python"&gt;&lt;code&gt;&lt;span class="n"&gt;state2abbr&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="p"&gt;{&lt;/span&gt;
    &lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;Acre&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;BR.AC&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;Alagoas&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;BR.AL&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;Amapá&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;BR.AP&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
    &lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;Amazonas&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;BR.AM&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;Bahia&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;BR.BA&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;Ceará&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;BR.CE&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
    &lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;Distrito Federal&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;BR.DF&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;Espírito Santo&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;BR.ES&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
    &lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;Goiás&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;BR.GO&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;Maranhão&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;BR.MA&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;Mato Grosso&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;BR.MT&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
    &lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;Mato Grosso do Sul&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;BR.MS&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;Minas Gerais&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;BR.MG&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
    &lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;Pará&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;BR.PA&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;Paraíba&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;BR.PB&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;Paraná&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;BR.PR&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
    &lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;Pernambuco&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;BR.PE&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;Piauí&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;BR.PI&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;Rio de Janeiro&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;BR.RJ&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
    &lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;Rio Grande do Norte&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;BR.RN&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;Rio Grande do Sul&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;BR.RS&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
    &lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;Rondônia&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;BR.RO&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;Roraima&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;BR.RR&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;Santa Catarina&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;BR.SC&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
    &lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;São Paulo&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;BR.SP&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;Sergipe&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;BR.SE&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;Tocantins&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;BR.TO&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
&lt;span class="p"&gt;}&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;


&lt;p&gt;Em seguida criamos a função &lt;code&gt;visualize_name&lt;/code&gt; que filtra os dados do nome, agrupa a frequência por estados e desenha o mapa.&lt;br&gt;
&lt;/p&gt;
&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight python"&gt;&lt;code&gt;&lt;span class="k"&gt;def&lt;/span&gt; &lt;span class="nf"&gt;visualize_name&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;df&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="n"&gt;name&lt;/span&gt;&lt;span class="p"&gt;):&lt;/span&gt;
    &lt;span class="n"&gt;name_df&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;df&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;query&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="sa"&gt;f&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;name == &lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="si"&gt;{&lt;/span&gt;&lt;span class="n"&gt;name&lt;/span&gt;&lt;span class="si"&gt;}&lt;/span&gt;&lt;span class="sh"&gt;"'&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt; &lt;span class="c1"&gt;# filtra o nome escolhido
&lt;/span&gt;    &lt;span class="n"&gt;name_df&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;name_df&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;groupby&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;state&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="n"&gt;as_index&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="bp"&gt;False&lt;/span&gt;&lt;span class="p"&gt;).&lt;/span&gt;&lt;span class="nf"&gt;sum&lt;/span&gt;&lt;span class="p"&gt;()&lt;/span&gt; &lt;span class="c1"&gt;# agrupa pelos estados
&lt;/span&gt;    &lt;span class="n"&gt;name_df&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;state&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;name_df&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;state&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;apply&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="k"&gt;lambda&lt;/span&gt; &lt;span class="n"&gt;x&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="n"&gt;state2abbr&lt;/span&gt;&lt;span class="p"&gt;[&lt;/span&gt;&lt;span class="n"&gt;x&lt;/span&gt;&lt;span class="p"&gt;])&lt;/span&gt; &lt;span class="c1"&gt;# abrevia os estados
&lt;/span&gt;    &lt;span class="n"&gt;name_df&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;name_df&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;rename&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;columns&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="p"&gt;{&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;state&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;HASC_1&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;})&lt;/span&gt; &lt;span class="c1"&gt;# renomeia a coluna
&lt;/span&gt;
    &lt;span class="n"&gt;fig&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="n"&gt;ax&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;plt&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;subplots&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="mi"&gt;1&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="mi"&gt;1&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;
    &lt;span class="n"&gt;br_map&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;gpd&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;read_file&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;./shapes/gadm36_BRA_1.shp&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt; &lt;span class="c1"&gt;# lê o mapa
&lt;/span&gt;    &lt;span class="n"&gt;br_map&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;br_map&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;merge&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;name_df&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="n"&gt;on&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;HASC_1&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="n"&gt;how&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;outer&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt; &lt;span class="c1"&gt;# une o mapa com os dados
&lt;/span&gt;    &lt;span class="n"&gt;br_map&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;plot&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;column&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;freq_per_100k&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="n"&gt;ax&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="n"&gt;ax&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="n"&gt;legend&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="bp"&gt;True&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt; &lt;span class="c1"&gt;# desenha o gráfico
&lt;/span&gt;
&lt;span class="nf"&gt;visualize_name&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;df&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;Fred&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;


&lt;p&gt;&lt;a href="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Ftsj44r5wocg1kbeqcs3o.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Ftsj44r5wocg1kbeqcs3o.png" alt="Alt Text"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;Interessante notar como Fred parece um nome comum em estados como Amazonas e Roraima, devido a população nestes estados ser menor quando comparada com São Paulo.&lt;/p&gt;
&lt;h2&gt;
  
  
  Quais são os nomes mais regionais?
&lt;/h2&gt;

&lt;p&gt;Essa é uma boa pergunta a se fazer: qual nome é mais exclusivo de uma região? Ou seja, é mais provável de ser encontrado numa determinada região e não em outros estados.&lt;/p&gt;

&lt;p&gt;Vamos solucionar esta dúvida agrupando a frequência de nomes dos municípios em estados. Em seguida excluímos os nomes que aparecem apenas em um estado. Para então calcular a mediana e desvio padrão das frequências de cada nome distinto, e por fim normalizamos as frequências de nomes.&lt;br&gt;
&lt;/p&gt;
&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight python"&gt;&lt;code&gt;&lt;span class="n"&gt;state_df&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;df&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;groupby&lt;/span&gt;&lt;span class="p"&gt;([&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;name&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;state&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;],&lt;/span&gt; &lt;span class="n"&gt;as_index&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="bp"&gt;False&lt;/span&gt;&lt;span class="p"&gt;).&lt;/span&gt;&lt;span class="nf"&gt;sum&lt;/span&gt;&lt;span class="p"&gt;()&lt;/span&gt; &lt;span class="c1"&gt;# soma as frequências de municípios
&lt;/span&gt;&lt;span class="n"&gt;state_df&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;state_df&lt;/span&gt;&lt;span class="p"&gt;[&lt;/span&gt;&lt;span class="n"&gt;state_df&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;duplicated&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;name&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="n"&gt;keep&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="bp"&gt;False&lt;/span&gt;&lt;span class="p"&gt;)]&lt;/span&gt; &lt;span class="c1"&gt;# elimina nomes não duplicados
&lt;/span&gt;
&lt;span class="n"&gt;median&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;state_df&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;groupby&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;name&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="n"&gt;as_index&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="bp"&gt;False&lt;/span&gt;&lt;span class="p"&gt;).&lt;/span&gt;&lt;span class="n"&gt;freq_per_100k&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;median&lt;/span&gt;&lt;span class="p"&gt;()&lt;/span&gt;
&lt;span class="n"&gt;state_df&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;state_df&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;merge&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;median&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="n"&gt;on&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;name&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="n"&gt;suffixes&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="sh"&gt;''&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;_median&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;))&lt;/span&gt;

&lt;span class="n"&gt;std&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;state_df&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;groupby&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;name&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="n"&gt;as_index&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="bp"&gt;False&lt;/span&gt;&lt;span class="p"&gt;).&lt;/span&gt;&lt;span class="n"&gt;freq_per_100k&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;std&lt;/span&gt;&lt;span class="p"&gt;()&lt;/span&gt;
&lt;span class="n"&gt;state_df&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;state_df&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;merge&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;std&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="n"&gt;on&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;name&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="n"&gt;suffixes&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="sh"&gt;''&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;_std&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;))&lt;/span&gt;

&lt;span class="n"&gt;state_df&lt;/span&gt;&lt;span class="p"&gt;[&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;freq_per_100k_zscore&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;]&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;state_df&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;freq_per_100k&lt;/span&gt;
&lt;span class="n"&gt;state_df&lt;/span&gt;&lt;span class="p"&gt;[&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;freq_per_100k_zscore&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;]&lt;/span&gt; &lt;span class="o"&gt;-=&lt;/span&gt; &lt;span class="n"&gt;state_df&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;freq_per_100k_median&lt;/span&gt;
&lt;span class="n"&gt;state_df&lt;/span&gt;&lt;span class="p"&gt;[&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;freq_per_100k_zscore&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;]&lt;/span&gt; &lt;span class="o"&gt;/=&lt;/span&gt; &lt;span class="n"&gt;state_df&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;freq_per_100k_std&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;


&lt;p&gt;Podemos então visualizar quais são os nomes mais regionais, procurando pela máxima frequência normalizada de cada estado.&lt;br&gt;
&lt;/p&gt;
&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight python"&gt;&lt;code&gt;&lt;span class="n"&gt;idxmax&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;state_df&lt;/span&gt;&lt;span class="p"&gt;[[&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;state&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;freq_per_100k_zscore&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;]].&lt;/span&gt;&lt;span class="nf"&gt;groupby&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;state&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;).&lt;/span&gt;&lt;span class="nf"&gt;idxmax&lt;/span&gt;&lt;span class="p"&gt;()&lt;/span&gt;
&lt;span class="n"&gt;idxmax&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;idxmax&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;values&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;ravel&lt;/span&gt;&lt;span class="p"&gt;()&lt;/span&gt;

&lt;span class="n"&gt;max_name_by_state&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;state_df&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;loc&lt;/span&gt;&lt;span class="p"&gt;[&lt;/span&gt;&lt;span class="n"&gt;idxmax&lt;/span&gt;&lt;span class="p"&gt;][[&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;state&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;name&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;freq_per_100k_zscore&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;]]&lt;/span&gt;
&lt;span class="n"&gt;max_name_by_state&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;max_name_by_state&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;sort_values&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;by&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;state&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;).&lt;/span&gt;&lt;span class="nf"&gt;set_index&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;state&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;


&lt;p&gt;&lt;a href="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fhkm1mbxkqo90jo3z3556.PNG" class="article-body-image-wrapper"&gt;&lt;img src="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fhkm1mbxkqo90jo3z3556.PNG" alt="Alt Text"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;Para aprender como funciona, nada melhor que brincar com o código. Agora é com você!! Como ficou seu nome no ranking? Em qual estado aparece com maior frequência? Fez uma análise da sua família e descobriu alguma coisa legal? Conta pra gente no twitter!&lt;/p&gt;



&lt;p&gt;&lt;strong&gt;Confira o notebook com a análise completa no nosso repositório:&lt;/strong&gt;&lt;/p&gt;


&lt;div class="ltag-github-readme-tag"&gt;
  &lt;div class="readme-overview"&gt;
    &lt;h2&gt;
      &lt;img src="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev.to%2Fassets%2Fgithub-logo-5a155e1f9a670af7944dd5e12375bc76ed542ea80224905ecaf878b9157cdefc.svg" alt="GitHub logo"&gt;
      &lt;a href="https://github.com/basedosdados" rel="noopener noreferrer"&gt;
        basedosdados
      &lt;/a&gt; / &lt;a href="https://github.com/basedosdados/analises" rel="noopener noreferrer"&gt;
        analises
      &lt;/a&gt;
    &lt;/h2&gt;
    &lt;h3&gt;
      📊 Repositório de códigos simples e replicáveis das análises publicadas. 
    &lt;/h3&gt;
  &lt;/div&gt;
&lt;/div&gt;



&lt;p&gt;Texto produzido por &lt;a href="https://github.com/vncsna" rel="noopener noreferrer"&gt;Vinicius&lt;/a&gt;, &lt;a href="https://github.com/fernandascovino" rel="noopener noreferrer"&gt;Fernanda&lt;/a&gt; e Paolo, da Base dos Dados 💚&lt;/p&gt;

</description>
      <category>python</category>
      <category>programming</category>
      <category>beginners</category>
      <category>datascience</category>
    </item>
    <item>
      <title>Base dos Dados Python 101</title>
      <dc:creator>Fernanda Scovino</dc:creator>
      <pubDate>Fri, 16 Apr 2021 15:30:39 +0000</pubDate>
      <link>https://dev.to/basedosdados/base-dos-dados-python-101-44lc</link>
      <guid>https://dev.to/basedosdados/base-dos-dados-python-101-44lc</guid>
      <description>&lt;h2&gt;
  
  
  TL;DR
&lt;/h2&gt;

&lt;p&gt;Neste artigo vamos demonstrar &lt;strong&gt;como usar o pacote da Base dos Dados em Python&lt;/strong&gt; para acessar e usar os dados disponíveis em nosso repositório público, com o conteúdo do &lt;a href="https://www.youtube.com/watch?v=wI2xEioDPgM" rel="noopener noreferrer"&gt;Workshop "Brincando com dados da BD+ em Python"&lt;/a&gt;. &lt;/p&gt;

&lt;p&gt;O pacote tem diversas funções que permitem listar os conjuntos de dados disponíveis, obter informações sobre as tabelas, carregar os dados direto no pandas, dentre muitas outras. Como exemplo, &lt;strong&gt;exploramos os dados da tabela de nomes brasileiros do IBGE (2010)&lt;/strong&gt; e mostramos como criar uma visualização de nuvem de palavras dos nomes mais frequentes.&lt;/p&gt;

&lt;h2&gt;
  
  
  Como acessar a BD+ em Python?
&lt;/h2&gt;

&lt;p&gt;A Base dos Dados Mais (BD+) é o nosso &lt;em&gt;datalake&lt;/em&gt; de dados públicos &lt;strong&gt;limpos, integrados e atualizados&lt;/strong&gt; pela nossa equipe de dados - dados prontos para análise.&lt;/p&gt;

&lt;p&gt;O datalake é mantido no Google BigQuery e tem custo praticamente zero para todos os usuários - você tem 1 TB disponível por mês para fazer consulta aos dados. Para facilitar ainda mais a vida de Pythonistas, criamos um pacote de acesso direto ao repositório via Python: &lt;code&gt;basedosdados&lt;/code&gt;&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight python"&gt;&lt;code&gt;&lt;span class="err"&gt;!&lt;/span&gt;&lt;span class="n"&gt;pip&lt;/span&gt; &lt;span class="n"&gt;install&lt;/span&gt; &lt;span class="n"&gt;basedosdados&lt;/span&gt;
&lt;span class="kn"&gt;import&lt;/span&gt; &lt;span class="n"&gt;basedosdados&lt;/span&gt; &lt;span class="k"&gt;as&lt;/span&gt; &lt;span class="n"&gt;bd&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;


&lt;p&gt;&lt;strong&gt;Atenção!&lt;/strong&gt; É necessário criar um projeto no Google Cloud e autenticar seu projeto para fazer consultas aos dados do repositório. Caso você rode qualquer função do pacote pela primeira vez, as instruções para essa configuração irão aparecer para você e basta seguir o passo a passo apresentado.&lt;/p&gt;

&lt;p&gt;Existem diversas funções no pacote, tanto para acesso quanto para publicação de dados no nosso ou em qualquer projeto do Google Cloud - você pode usar o pacote para construir seu próprio repositório de dados também. &lt;/p&gt;

&lt;blockquote&gt;
&lt;p&gt;A lista completa dos módulos do pacote está na &lt;a href="https://basedosdados.github.io/mais/py_reference_api/" rel="noopener noreferrer"&gt;nossa documentação&lt;/a&gt;, e veja também como colaborar &lt;a href="https://basedosdados.github.io/mais/colab_data/" rel="noopener noreferrer"&gt;subindo dados no repositório&lt;/a&gt;.&lt;/p&gt;
&lt;/blockquote&gt;
&lt;h2&gt;
  
  
  Explorando as funções do pacote
&lt;/h2&gt;

&lt;p&gt;Para ilustrar, podemos verificar todos os conjuntos de dados disponíveis no repositório usando a função &lt;code&gt;list_datasets&lt;/code&gt;. Essa função retorna todos os conjuntos de dados no repositório e que podem ser filtrados por algum termo específico, com o parâmetro &lt;code&gt;filter_by&lt;/code&gt;, como fazemos abaixo buscando dados do IBGE. O parâmetro &lt;code&gt;with_description&lt;/code&gt; indica se queremos visualizar também a descrição de cada conjunto.&lt;br&gt;
&lt;/p&gt;
&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight python"&gt;&lt;code&gt;&lt;span class="n"&gt;bd&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;list_datasets&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;filter_by&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;ibge&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="n"&gt;with_description&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="bp"&gt;True&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;


&lt;p&gt;Da mesma forma, podemos listar as tabelas de um conjunto de dados específico com a função &lt;code&gt;list_dataset_tables&lt;/code&gt;. Além disso, podemos ter também uma visão completa das colunas e seus tipos com a função &lt;code&gt;get_table_columns&lt;/code&gt; - tudo isso sem carregar ainda os dados no ambiente!&lt;br&gt;
&lt;/p&gt;
&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight python"&gt;&lt;code&gt;&lt;span class="n"&gt;bd&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;list_dataset_tables&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;dataset_id&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;br_ibge_nomes_brasil&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="n"&gt;with_description&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="bp"&gt;True&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;
&lt;span class="n"&gt;bd&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;get_table_columns&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;
    &lt;span class="n"&gt;dataset_id&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;br_ibge_nomes_brasil&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
    &lt;span class="n"&gt;table_id&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;quantidade_municipio_nome_2010&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;
&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;


&lt;p&gt;Antes de carregar os dados, pode-se verificar inclusive seu tamanho total - existem tabelas muito grandes no repositório, então recomendamos fortemente fazer esse passo.&lt;br&gt;
&lt;/p&gt;
&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight python"&gt;&lt;code&gt;&lt;span class="n"&gt;bd&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;get_table_size&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;
    &lt;span class="n"&gt;dataset_id&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;br_ibge_nomes_brasil&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
    &lt;span class="n"&gt;table_id&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;quantidade_municipio_nome_2010&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
    &lt;span class="n"&gt;billing_project_id&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;basedosdados42&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;
&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;


&lt;p&gt;Por fim, a função &lt;code&gt;read_table&lt;/code&gt; faz o carregamento dos dados no ambiente Python. Caso a base em questão seja muito grande, você pode optar também em usar a função &lt;code&gt;read_sql&lt;/code&gt;,  que permite fazer uma query SQL e carregar no ambiente somente os dados requisitados. Para ambos é necessário que você explicite o seu &lt;code&gt;billing_project_id&lt;/code&gt;, o projeto que foi habilitado lá no início e que será cobrado caso você exceda o limite.&lt;br&gt;
&lt;/p&gt;
&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight python"&gt;&lt;code&gt;&lt;span class="n"&gt;df&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;bd&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;read_table&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;
    &lt;span class="n"&gt;dataset_id&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;br_ibge_nomes_brasil&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
    &lt;span class="n"&gt;table_id&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;quantidade_municipio_nome_2010&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
    &lt;span class="n"&gt;billing_project_id&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;basedosdados42&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;
&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;


&lt;p&gt;Neste exemplo vamos trabalhar com os dados de &lt;a href="https://basedosdados.org/dataset/br-ibge-nomes-brasil" rel="noopener noreferrer"&gt;nomes brasileiros do Censo Demográfico 2010 do IBGE&lt;/a&gt;. De acordo com o Censo, existem ao todo cerca de 200 milhões de habitantes com mais de 130 mil nomes diferentes espalhados pelo Brasil. Curioso? Nós também!&lt;/p&gt;
&lt;h2&gt;
  
  
  Quais são os nomes mais famosos no Brasil?
&lt;/h2&gt;

&lt;p&gt;Quem você diria que é mais famoso: Maria ou João? É isso o que queremos descobrir primeiro com os nossos dados. &lt;/p&gt;

&lt;p&gt;Para respondermos a essa pergunta, nós vamos contar a frequência de cada nome no país e ordená-los, e em seguida criar uma nuvem de palavras para visualização dessas informações.&lt;/p&gt;

&lt;p&gt;Criamos então a função &lt;code&gt;generate_list_sorted_by_freq&lt;/code&gt; que faz a agregação dos nomes contando quantas vezes cada um aparece na nossa base, e ordena essa lista de acordo com os nomes mais frequentes. A função pode ser lida abaixo.&lt;br&gt;
&lt;/p&gt;
&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight python"&gt;&lt;code&gt;&lt;span class="k"&gt;def&lt;/span&gt; &lt;span class="nf"&gt;generate_list_sorted_by_freq&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;df&lt;/span&gt;&lt;span class="p"&gt;):&lt;/span&gt;
    &lt;span class="n"&gt;name_freq&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;df&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;groupby&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;name&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;).&lt;/span&gt;&lt;span class="n"&gt;freq&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;sum&lt;/span&gt;&lt;span class="p"&gt;()&lt;/span&gt; &lt;span class="c1"&gt;# agrupamento de nomes iguais
&lt;/span&gt;    &lt;span class="n"&gt;name_freq&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;name_freq&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;sort_values&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;ascending&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="bp"&gt;False&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt; &lt;span class="c1"&gt;# ordenação dos nomes por frequência
&lt;/span&gt;    &lt;span class="n"&gt;name_freq&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;name_freq&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;reset_index&lt;/span&gt;&lt;span class="p"&gt;()&lt;/span&gt; &lt;span class="c1"&gt;# inicializa o index de um dataframe criando um se necessário
&lt;/span&gt;    &lt;span class="k"&gt;return&lt;/span&gt; &lt;span class="n"&gt;name_freq&lt;/span&gt;

&lt;span class="n"&gt;df&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;df&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;rename&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;columns&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="p"&gt;{&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;qtde_nascimentos_ate_2010&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;freq&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;nome&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;name&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;})&lt;/span&gt;
&lt;span class="n"&gt;name_freq&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="nf"&gt;generate_list_sorted_by_freq&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;df&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;


&lt;p&gt;Para criar uma nuvem de palavras, vamos usar a biblioteca &lt;code&gt;wordcloud&lt;/code&gt; junto ao &lt;code&gt;matplotlib&lt;/code&gt; disponíveis para instalação via pip. A &lt;code&gt;wordcloud&lt;/code&gt; nos possibilita gerar uma imagem com as palavras mais frequentes e o tamanho de cada palavra é determinado pela sua frequência, gerando um belo efeito visual para nosso ranking.&lt;br&gt;
&lt;/p&gt;
&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight python"&gt;&lt;code&gt;&lt;span class="err"&gt;!&lt;/span&gt;&lt;span class="n"&gt;pip&lt;/span&gt; &lt;span class="n"&gt;install&lt;/span&gt; &lt;span class="n"&gt;wordcloud&lt;/span&gt; &lt;span class="c1"&gt;# caso não tenha a biblioteca já instalada
&lt;/span&gt;&lt;span class="err"&gt;!&lt;/span&gt;&lt;span class="n"&gt;pip&lt;/span&gt; &lt;span class="n"&gt;install&lt;/span&gt; &lt;span class="n"&gt;matplotlib&lt;/span&gt; &lt;span class="c1"&gt;# caso não tenha a biblioteca já instalada
&lt;/span&gt;
&lt;span class="kn"&gt;from&lt;/span&gt; &lt;span class="n"&gt;wordcloud&lt;/span&gt; &lt;span class="kn"&gt;import&lt;/span&gt; &lt;span class="n"&gt;WordCloud&lt;/span&gt;
&lt;span class="kn"&gt;import&lt;/span&gt; &lt;span class="n"&gt;matplotlib.pyplot&lt;/span&gt; &lt;span class="k"&gt;as&lt;/span&gt; &lt;span class="n"&gt;plt&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;


&lt;p&gt;Abaixo você pode ver a nuvem gerada com a &lt;code&gt;wordcloud&lt;/code&gt;, o código completo de como geramos a nuvem está no notebook ao final do texto.&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F2jrhznshjj7a8jat5lyu.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F2jrhznshjj7a8jat5lyu.png" alt="image"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;E como resultado: Maria é a vencedora!&lt;/strong&gt; O que achou dessa descoberta? No próximo texto vamos trazer uma análise regional construída pelo Fred também no Workshop, para acessar todo o conteúdo apresentado basta acessar a Base dos Dados no Youtube.&lt;/p&gt;


&lt;h4&gt;
  
  
  Confira o notebook com a análise completa no nosso repositório:
&lt;/h4&gt;


&lt;div class="ltag-github-readme-tag"&gt;
  &lt;div class="readme-overview"&gt;
    &lt;h2&gt;
      &lt;img src="https://media.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev.to%2Fassets%2Fgithub-logo-5a155e1f9a670af7944dd5e12375bc76ed542ea80224905ecaf878b9157cdefc.svg" alt="GitHub logo"&gt;
      &lt;a href="https://github.com/basedosdados" rel="noopener noreferrer"&gt;
        basedosdados
      &lt;/a&gt; / &lt;a href="https://github.com/basedosdados/analises" rel="noopener noreferrer"&gt;
        analises
      &lt;/a&gt;
    &lt;/h2&gt;
    &lt;h3&gt;
      📊 Repositório de códigos simples e replicáveis das análises publicadas. 
    &lt;/h3&gt;
  &lt;/div&gt;
&lt;/div&gt;



&lt;p&gt;Texto produzido por &lt;a href="https://github.com/vncsna" rel="noopener noreferrer"&gt;Vinicius&lt;/a&gt; e &lt;a href="https://github.com/fernandascovino" rel="noopener noreferrer"&gt;Fernanda&lt;/a&gt;, da Base dos Dados 💚&lt;/p&gt;

</description>
      <category>python</category>
      <category>programming</category>
      <category>beginners</category>
      <category>datascience</category>
    </item>
  </channel>
</rss>
