DEV Community: Sthefany Spina

SQL Statement

Sthefany Spina — Sat, 22 Mar 2025 10:20:58 +0000

Most of the actions you need to perform on a database are done with SQL statements.

CREATE DATABASE: statement is used to create a new SQL database.

CREATE DATABASE databasename;

DROP: The DROP DATABASE statement is used to drop an existing SQL database.

DROP DATABASE databasename;

BACKUP: The BACKUP DATABASE statement is used in SQL Server to create a full back up of an existing SQL database.

BACKUP DATABASE databasename
TO DISK = 'filepath';

CREATE TABLE: The CREATE TABLE statement is used to create a new table in a database.

CREATE TABLE table_name (
    column1 datatype,
    column2 datatype,
    column3 datatype,
   ....
);

DROP TABLE: The DROP TABLE statement is used to drop an existing table in a database.

DROP TABLE table_name;

ALTER TABLE: is used to add, delete, or modify columns in an existing table.Is also used to add and drop various constraints on an existing table.
ALTER TABLE - ADD Column: To add a column in a table, use the following syntax:

ALTER TABLE table_name
ADD column_name datatype;

ALTER TABLE - DROP COLUMN: To delete a column in a table, use the following syntax (notice that some database systems don't allow deleting a column):

ALTER TABLE table_name
DROP COLUMN column_name;

ALTER TABLE - RENAME COLUMN: To rename a column in a table, use the following syntax:

ALTER TABLE table_name
RENAME COLUMN old_name to new_name;

ALTER TABLE - ALTER/MODIFY DATATYPE: To change the data type of a column in a table, use the following syntax:

ALTER TABLE table_name
ALTER COLUMN column_name datatype;

NOT NULL: The NOT NULL constraint enforces a column to NOT accept NULL values.

CREATE TABLE Persons (
    ID int NOT NULL,
    LastName varchar(255) NOT NULL,
    FirstName varchar(255) NOT NULL,
    Age int
);

SQL NOT NULL on ALTER TABLE: To create a NOT NULL constraint on the "Age" column when the "Persons" table is already created, use the following SQL:

ALTER TABLE Persons
ALTER COLUMN Age int NOT NULL;

UNIQUE: The UNIQUE constraint ensures that all values in a column are different.

CREATE TABLE Persons (
    ID int NOT NULL UNIQUE,
    LastName varchar(255) NOT NULL,
    FirstName varchar(255),
    Age int
);

SQL UNIQUE Constraint on ALTER TABLE: To create a UNIQUE constraint on the "ID" column when the table is already created, use the following SQL:

ALTER TABLE Persons
ADD UNIQUE (ID);

PRIMER KEY: must contain UNIQUE values, and cannot contain NULL values. A table can have only ONE primary key; and in the table, this primary key can consist of single or multiple columns (fields).

CREATE TABLE Persons (
    ID int NOT NULL,
    LastName varchar(255) NOT NULL,
    FirstName varchar(255),
    Age int,
    PRIMARY KEY (ID)
);

FOREIGN KEY: The FOREIGN KEY constraint is used to prevent actions that would destroy links between tables. Is a field (or collection of fields) in one table, that refers to the PRIMARY KEY in another table.

CREATE TABLE Orders (
    OrderID int NOT NULL,
    OrderNumber int NOT NULL,
    PersonID int,
    PRIMARY KEY (OrderID),
    FOREIGN KEY (PersonID) REFERENCES Persons(PersonID)
);

CHECK: The CHECK constraint is used to limit the value range that can be placed in a column.

CREATE TABLE Persons (
    ID int NOT NULL,
    LastName varchar(255) NOT NULL,
    FirstName varchar(255),
    Age int,
    CHECK (Age>=18)
);

DEFAULT: is used to set a default value for a column, will be added to all new records, if no other value is specified.

CREATE TABLE Persons (
    ID int NOT NULL,
    LastName varchar(255) NOT NULL,
    FirstName varchar(255),
    Age int,
    City varchar(255) DEFAULT 'Sandnes'
);

INDEX: is used to create indexes in tables.

CREATE INDEX index_name
ON table_name (column1, column2, ...);
OR
CREATE UNIQUE INDEX index_name
ON table_name (column1, column2, ...);

AUTO INCREMENT: allows a unique number to be generated automatically when a new record is inserted into a table. Often this is the primary key field that we would like to be created automatically every time a new record is inserted.

CREATE TABLE Persons (
    Personid int NOT NULL AUTO_INCREMENT,
    LastName varchar(255) NOT NULL,
    FirstName varchar(255),
    Age int,
    PRIMARY KEY (Personid)
);

DATES: MySQL comes with the following data types for storing a date or a date/time value in the database:

DATE - format YYYY-MM-DD
DATETIME - format: YYYY-MM-DD HH:MI:SS
TIMESTAMP - format: YYYY-MM-DD HH:MI:SS
YEAR - format YYYY or YY

SELECT * FROM Orders WHERE OrderDate='2008-11-11'

VIEWS: a view is a virtual table based on the result-set of an SQL statement. Contains rows and columns, just like a real table. The fields in a view are fields from one or more real tables in the database.

CREATE VIEW Syntax
CREATE VIEW view_name AS
SELECT column1, column2, ...
FROM table_name
WHERE condition;

Updating a View: can be updated with the CREATE OR REPLACE VIEW statement.

CREATE OR REPLACE VIEW view_name AS
SELECT column1, column2, ...
FROM table_name
WHERE condition;

Dropping a View: is deleted with the DROP VIEW statement.

DROP VIEW view_name;

SELECT: is used to select data from a database.

SELECT CustomerName, City FROM Customers;

SELECT DISTINCT: is used to return only distinct (different) values.

SELECT DISTINCT Country FROM Customers;

WHERE: It is used to extract only those records that fulfill a specified condition.

SELECT column1, FROM table_name WHERE condition;

ORDER BY: is used to sort the result-set in ascending or descending order.

SELECT * FROM Products
ORDER BY Price;

AND: The AND operator is used to filter records based on more than one condition, like if you want to return all customers from Spain that starts with the letter 'G':

SELECT column1, column2, ...
FROM table_name
WHERE condition1 AND condition2 AND condition3 ...;

OR: The OR operator is used to filter records based on more than one condition, like if you want to return all customers from Germany but also those from Spain:

SELECT column1, column2, ...
FROM table_name
WHERE condition1 OR condition2 OR condition3 ...;

NOT: The NOT operator is used in combination with other operators to give the opposite result, also called the negative result.

SELECT column1, column2, ...
FROM table_name
WHERE NOT condition;

INSERT INTO: is used to insert new records in a table.
It is possible to write the INSERT INTO statement in two ways:
1. Specify both the column names and the values to be inserted:

INSERT INTO table_name (column1, column2, column3, ...)
VALUES (value1, value2, value3, ...);

2. If you are adding values for all the columns of the table, you do not need to specify the column names in the SQL query. However, make sure the order of the values is in the same order as the columns in the table. Here, the INSERT INTO syntax would be as follows:

INSERT INTO table_name
VALUES (value1, value2, value3, ...);

NULL VALUES: It is not possible to test for NULL values with comparison operators, such as =, <, or <>.

IS NULL Syntax

SELECT column_names
FROM table_name
WHERE column_name IS NULL;

IS NOT NULL Syntax

SELECT column_names
FROM table_name
WHERE column_name IS NOT NULL;

UPDATE: is used to modify the existing records in a table.

UPDATE table_name
SET column1 = value1, column2 = value2, ...
WHERE condition;

DELETE: is used to delete existing records in a table.

DELETE FROM table_name WHERE condition;

MIN: returns the smallest value of the selected column.

SELECT MIN(column_name)
FROM table_name
WHERE condition;

MAX: returns the largest value of the selected column.

SELECT MAX(column_name)
FROM table_name
WHERE condition;

COUNT: returns the number of rows that matches a specified criterion.

SELECT COUNT(column_name)
FROM table_name
WHERE condition;

SUM: returns the total sum of a numeric column.

SELECT SUM(column_name)
FROM table_name
WHERE condition;

AVG: returns the average value of a numeric column.

SELECT AVG(column_name)
FROM table_name
WHERE condition;

LIKE: The LIKE operator is used in a WHERE clause to search for a specified pattern in a column.There are two wildcards often used in conjunction with the LIKE operator

SELECT column1, column2, ...
FROM table_name
WHERE columnN LIKE pattern;

IN: The IN operator allows you to specify multiple values in a WHERE clause.

SELECT column_name(s)
FROM table_name
WHERE column_name IN (value1, value2, ...);

BETWEEN: The BETWEEN operator selects values within a given range. The values can be numbers, text, or dates.

SELECT column_name(s)
FROM table_name
WHERE column_name BETWEEN value1 AND value2;

ALIASES (AS): SQL aliases are used to give a table, or a column in a table, a temporary name.
Aliases are often used to make column names more readable.
An alias only exists for the duration of that query.
An alias is created with the AS keyword.

SELECT column_name AS alias_name
FROM table_name;
SELECT column_name(s)
FROM table_name AS alias_name;

INNER JOIN: The INNER JOIN keyword selects records that have matching values in both tables.
SELECT column_name(s)

FROM table1
INNER JOIN table2
ON table1.column_name = table2.column_name;

LEFT JOIN: The LEFT JOIN keyword returns all records from the left table (table1), and the matching records from the right table (table2). The result is 0 records from the right side, if there is no match.

SELECT column_name(s)
FROM table1
LEFT JOIN table2
ON table1.column_name = table2.column_name;

RIGHT JOIN: The RIGHT JOIN keyword returns all records from the right table (table2), and the matching records from the left table (table1). The result is 0 records from the left side, if there is no match.

SELECT column_name(s)
FROM table1
RIGHT JOIN table2
ON table1.column_name = table2.column_name;

FULL JOIN: The FULL OUTER JOIN keyword returns all records when there is a match in left (table1) or right (table2) table records.

SELECT column_name(s)
FROM table1
FULL OUTER JOIN table2
ON table1.column_name = table2.column_name
WHERE condition;

SELF JOIN: A self join is a regular join, but the table is joined with itself.

SELECT column_name(s)
FROM table1 T1, table1 T2
WHERE condition;

UNION: The UNION operator is used to combine the result-set of two or more SELECT statements.
Every SELECT statement within UNION must have the same number of columns
The columns must also have similar data types
The columns in every SELECT statement must also be in the same order

SELECT column_name(s) FROM table1
UNION
SELECT column_name(s) FROM table2;

UNION ALL: The UNION operator selects only distinct values by default. To allow duplicate values, use UNION ALL:

SELECT column_name(s) FROM table1
UNION ALL
SELECT column_name(s) FROM table2;

GROUP BY: The GROUP BY statement groups rows that have the same values into summary rows, like "find the number of customers in each country".

SELECT column_name(s)
FROM table_name
WHERE condition
GROUP BY column_name(s)
ORDER BY column_name(s);

HAVING: The HAVING clause was added to SQL because the WHERE keyword cannot be used with aggregate functions.

SELECT column_name(s)
FROM table_name
WHERE condition
GROUP BY column_name(s)
HAVING condition
ORDER BY column_name(s);

EXISTS: The EXISTS operator is used to test for the existence of any record in a subquery.
The EXISTS operator returns TRUE if the subquery returns one or more records.

SELECT column_name(s)
FROM table_name
WHERE EXISTS
(SELECT column_name FROM table_name WHERE condition);

ANY: returns a boolean value as a result and returns TRUE if ANY of the subquery values meet the condition.
ANY means that the condition will be true if the operation is true for any of the values in the range.

SELECT column_name(s)
FROM table_name
WHERE column_name operator ANY
  (SELECT column_name
  FROM table_name
  WHERE condition);

ALL: The ALL operator:

returns a boolean value as a result
returns TRUE if ALL of the subquery values meet the condition
is used with SELECT, WHERE and HAVING statements
ALL means that the condition will be true only if the operation is true for all values in the range.

SELECT ALL column_name(s)
FROM table_name
WHERE condition;

SELECT INTO: The SELECT INTO statement copies data from one table into a new table.

SELECT *
INTO newtable [IN externaldb]
FROM oldtable
WHERE condition;
Copy only some columns into a new table:
SELECT column1, column2, column3, ...
INTO newtable [IN externaldb]
FROM oldtable
WHERE condition;

INSERT INTO SELECT: The INSERT INTO SELECT statement copies data from one table and inserts it into another table.
The INSERT INTO SELECT statement requires that the data types in source and target tables match.
Note: The existing records in the target table are unaffected.
Copy all columns from one table to another table:

INSERT INTO table2
SELECT * FROM table1
WHERE condition;
Copy only some columns from one table into another table:
INSERT INTO table2 (column1, column2, column3, ...)
SELECT column1, column2, column3, ...
FROM table1
WHERE condition;

CASE: The CASE expression goes through conditions and returns a value when the first condition is met (like an if-then-else statement). So, once a condition is true, it will stop reading and return the result. If no conditions are true, it returns the value in the ELSE clause.
If there is no ELSE part and no conditions are true, it returns NULL.

CASE
    WHEN condition1 THEN result1
    WHEN condition2 THEN result2
    WHEN conditionN THEN resultN
    ELSE result
END;

STORED PROCEDURE: A stored procedure is a prepared SQL code that you can save, so the code can be reused over and over again.
So if you have an SQL query that you write over and over again, save it as a stored procedure, and then just call it to execute it.
You can also pass parameters to a stored procedure, so that the stored procedure can act based on the parameter value(s) that is passed.

CREATE PROCEDURE procedure_name
AS
sql_statement
GO;
Execute a Stored Procedure
EXEC procedure_name;

COMMENTS: Single line comments start with --.
Any text between -- and the end of the line will be ignored (will not be executed).

-- Select all:
SELECT * FROM Customers;

Visualização de Dados

Sthefany Spina — Sat, 15 Mar 2025 16:24:39 +0000

Visualização de dados é o processo de usar elementos visuais, como diagramas, gráficos ou mapas para representar dados. Ela traduz dados complexos, de alto volume ou numéricos em uma representação visual que é mais fácil de processar.

Quais são os componentes da visualização de dados?

Os cientistas de dados combinam três componentes principais para visualizar dados.

História: representa o propósito por detrás das visualizações de dados.
Dados: identificam os conjuntos de dados apropriados que os ajudarão a narrar a história dos dados. Eles modificam formatos de dados existentes, limpam os dados, removem valores atípicos e fazem análises adicionais. Após a preparação dos dados, eles planejam os diferentes métodos de exploração visual.
Elementos visuais: selecionam os métodos de visualização mais adequados para compartilhar novos insights. Eles criam diagramas e gráficos destacando os principais pontos de dados e simplificando conjuntos de dados complexos.

Quais são as etapas do processo de visualização de dados?

Há cinco etapas para uma visualização eficaz dos dados.
Definir a meta

É possível definir uma meta de visualização de dados identificando perguntas às quais possivelmente o conjunto de dados existente é capaz de responder. Uma meta clara ajuda a determinar o tipo de:

Dados que você usará
Análise que você fará
Recursos visuais que você usará para comunicar suas descobertas de modo eficaz
Coletar os dados: envolve identificar fontes de dados internas e externas.
Limpar os dados: implica remover dados redundantes, executar operações matemáticas para análise posterior ou filtrar e converter dados para atender aos critérios da pergunta.
Selecionar os elementos visuais de dados: É possível escolher entre vários tipos de gráficos diferentes para obter uma descoberta visual eficiente. As relações entre os pontos de dados e os insights que você deseja comunicar determinarão as melhores representações gráficas.

Visualização estática: fornece apenas uma visão única de uma história de dados específica.
Visualização interativa: permite que os usuários interajam com diagramas e gráficos.
Criar os elementos visuais de dados: use as ferramentas de visualização de dados para criar os visuais de dados necessários. 5.Chame a atenção do público para detalhes importantes usando tamanhos, cores, fontes e gráficos

Use pistas visuais para fornecer o contexto dos dados
Escolha as combinações de cores certas
Use títulos explicativos para fornecer insights importantes ao público e ajudá-lo a se concentrar nas perguntas certas
Adicione rótulos e números precisos

Quais são os diferentes tipos de técnicas de visualização de dados?

Visualização de dados temporais: são usadas para representar objetos lineares unidimensionais, como um gráfico de linhas, um grafo de linhas ou uma linha do tempo.
Visualização de dados hierárquica: refere-se a um grupo ou conjunto de itens que têm vínculos comuns com um item pai. É possível usar essas árvores de dados para exibir clusters de informações.
Visualização de dados de rede: é útil para representar a relação complexa entre diferentes tipos de dados correlacionados. Por exemplo:

Gráficos de dispersão que representam dados como pontos em um grafo
Gráficos de bolhas que adicionam um terceiro fator de dados ao gráfico de dispersão
Nuvens de palavras que representam a frequência das palavras com o uso de palavras de diferentes tamanhos

Visualização de dados multidimensional: representa duas ou mais variáveis de dados como uma única imagem 2D ou 3D.
Visualização de dados geoespacial: apresenta dados em relação a locais do mundo real.

O que são práticas recomendadas de visualização de dados?

Práticas recomendadas de visualização de dados adicionam clareza, integridade e precisão aos seus relatórios de dados.

Elementos de projeto: pode tornar sua visualização de dados mais envolvente. Você pode usar cores, tons e formas para acrescentar mais detalhes ao elemento visual.
Evidência abrangente: usar um grande volume de dados na sua análise pode melhorar a precisão da visualização dos dados.
Comparações relevantes: dão contexto aos dados e reforçam o ponto de vista que você está expondo. Elas também tornam os dados mais acionáveis.

Quais são os desafios na visualização de dados?

A visualização de dados apresenta alguns desafios que podem levar à deturpação das informações ou ao exagero de certos fatos.

Simplificação excessiva dos dados: devem encontrar um equilíbrio entre compreensão e comunicação dos dados. Simplificá-los pode resultar na perda de informações importantes.
Exagero: pode-se visualizar dados não relacionados para criar correlações inexistentes.

ETL e ELT

Sthefany Spina — Sat, 15 Mar 2025 16:15:03 +0000

ETL

Extração, transformação e carregamento (ETL) correspondem ao processo de combinação de dados de várias fontes em um grande repositório central, chamado de data warehouse.
O processo de ETL usa um conjunto de regras de negócios para limpar e organizar dados brutos e prepará-los para armazenamento, data analytics e machine learning (ML).

Como funciona o processo de ETL?

O processo de extração, transformação e carregamento (ETL) se dá pela movimentação de dados do sistema de origem para o sistema de destino em intervalos periódicos. O processo de ETL funciona em três etapas:

Extração dos dados relevantes do banco de dados de origem
Transformação dos dados para que sejam mais adequados a análises
Carregamento dos dados no banco de dados de destino

O que é ELT?

Extração, carregamento e transformação (ELT) é uma extensão de extração, transformação e carregamento (ETL) que inverte a ordem das operações.
Você pode fazer o carregamento de dados diretamente no sistema de destino antes de processá-los.
A área de preparação intermediária não é necessária porque o data warehouse de destino possui recursos de mapeamento de dados.

O que é Extração de Dados?

Na extração de dados, as ferramentas de ETL extraem ou copiam dados brutos de diversas fontes e os armazenam em uma área de preparação.
Uma área de preparação (ou zona de pouso) é uma área de armazenamento intermediária para armazenamento temporário dos dados extraídos.
As áreas de preparação de dados geralmente são temporárias, o que significa que seu conteúdo é apagado após a conclusão da extração de dados.
A frequência com que o sistema envia dados da fonte de dados para o armazenamento de dados de destino depende do mecanismo de captura de dados de alterações subjacente. Normalmente, a extração de dados acontece de uma das três maneiras apresentadas a seguir.

Notificação de atualização: o sistema de origem notifica você quando um registro de dados é alterado.
Extração gradual: Algumas fontes de dados não podem fornecer notificações de atualização, mas podem identificar e extrair dados que foram modificados em um determinado período.
Extração completa: alguns sistemas não conseguem identificar alterações de dados ou fornecer notificações, portanto, realizar novamente o carregamento de todos os dados é a única opção.

O que é transformação de dados?

As ferramentas de ETL transformam e consolidam os dados brutos na área de preparação a fim de prepará-los para o data warehouse de destino. A fase de transformação de dados pode envolver os seguintes tipos de alterações de dados.

Transformação de dados básica: melhoram a qualidade dos dados ao remover erros, esvaziar campos de dados ou simplificar os dados. Veja exemplos dessas transformações a seguir.

Limpeza de dados: A limpeza de dados remove erros e mapeia os dados de origem para o formato de dados de destino
Eliminação de duplicação de dados: identifica e remove registros duplicados
Revisão de formato de dados: converte dados, como conjuntos de caracteres, unidades de medida e valores de data e horário, para um formato consistente.

Transformação de dados avançada: utilizam regras de negócios para otimizar os dados a fim de facilitar a análise. Veja exemplos dessas transformações a seguir.

Derivação: aplica regras de negócios aos seus dados para calcular novos valores com base em valores existentes.
Junção: vincula dados semelhantes de diferentes fontes de dados.
Separação: você pode dividir uma coluna ou um atributo de dados em diversas colunas no sistema de destino.
Resumo: melhora a qualidade dos dados ao reduzir um grande número de valores de dados em um conjunto de dados menor.
Encriptação: Você pode proteger dados confidenciais para cumprir as leis de dados ou a privacidade de dados adicionando encriptação antes que os dados sejam transmitidos para o banco de dados de destino.

O que é carregamento de dados?

No carregamento de dados, as ferramentas de extração, transformação e carregamento (ETL) movem os dados transformados da área de preparação para o data warehouse de destino.
Veja abaixo métodos para carregamento de dados.

Carregamento completo: todos os dados da origem são transformados e movidos para o data warehouse.
Carregamento incremental: a ferramenta de ETL realiza o carregamento do delta (ou diferença) entre os sistemas de destino e de origem em intervalos regulares.
Carregamento incremental por transmissão: se você tiver pequenos volumes de dados, poderá transmitir alterações de forma contínua através de pipelines de dados para o data warehouse de destino.
Carregamento incremental em lotes: se você tiver grandes volumes de dados, poderá coletar alterações de dados de carregamento em lotes periodicamente.

ETL e ELT

O processo de ELT funciona bem para conjuntos de dados não estruturados e de alto volume que exigem carregamento frequente. Também é ideal para big data, pois o planejamento de análises pode ser realizado após a extração e o armazenamento dos dados.
O processo de ETL requer maior definição no início. A análise precisa estar envolvida desde o início para que haja definição dos tipos de dados de destino, estruturas e relações.

Diferença entre pipeline de dados e de ETL

Um pipeline de extração, transformação e carregamento (ETL) é um tipo especial de pipeline de dados. As ferramentas ETL extraem ou copiam dados brutos de várias fontes e os armazenam em um local temporário chamado de área de preparação.
Elas transformam os dados na área de preparação e os carregam em data lakes ou armazéns.
Nem todos os pipelines de dados seguem a sequência ETL.
Alguns podem extrair os dados de uma fonte e carregá-los em outro lugar sem transformações. Outros pipelines de dados seguem uma sequência de extração, carregamento e transformação (ELT), onde extraem e carregam dados não estruturados diretamente em um data lake.
Eles realizam alterações depois de mover as informações para data warehouses na nuvem.

Pipeline de Dados

Sthefany Spina — Fri, 07 Mar 2025 19:46:40 +0000

Pipeline de Dados

Um pipeline de dados é um método no qual dados brutos são ingeridos de várias fontes de dados, transformados e, em seguida, transferidos para um armazenamento de dados, como um data lake ou data warehouse, para análise.

Como funciona um pipeline de dados?

Um pipeline de dados extrai dados de uma fonte, faz alterações e os salva em um destino específico. Segue os componentes críticos da arquitetura de pipeline de dados:

• Fontes de dados: pode ser uma aplicação, um dispositivo ou outro banco de dados. Fontes diferentes podem enviar dados para o pipeline. O pipeline também pode extrair pontos de dados usando uma chamada de API, webhook ou processo de duplicação de dados.

• Transformações: são operações (como classificação, reformatação, desduplicação, verificação e validação) que alteram dados. Seu pipeline pode filtrar, resumir ou processar dados para atender aos seus requisitos de análise.

• Dependências: podem existir dependências específicas que reduzem a velocidade de movimentação de dados no pipeline. Existem dois tipos principais de dependências - técnicas e de negócios

• Destinos: O endpoint de seu pipeline de dados pode ser um data warehouse, data lake ou outra aplicação de análise de dados ou business intelligence. Às vezes, o destino também é chamado de coletor de dados.

Tipos de Pipelines

Existem vários tipos principais de pipelines de dados, cada um apropriado para tarefas específicas em plataformas específicas.

• Processamento em lote: carrega "lotes" de dados em um repositório durante intervalos de tempo definidos, que normalmente são programados fora do horário de pico comercial. Dessa forma, outras cargas de trabalho não são afetadas, uma vez que os trabalhos de processamento em lote tendem a trabalhar com grandes volumes de dados.

• Dados de streaming: processam continuamente os eventos gerados por várias fontes, como sensores ou interações do usuário em um aplicativo. Os eventos são processados e analisados e, em seguida, armazenados em bancos de dados ou enviados para uma análise mais aprofundada.

• Pipelines de integração de dados: se concentram na mesclagem de dados de várias fontes em uma única exibição unificada. Esses pipelines geralmente envolvem processos de extração, transformação e carregamento (ETL) que limpam, enriquecem ou modificam dados brutos antes de armazená-los em um repositório centralizado, como um data warehouse ou data lake.

• Pipelines de dados nativos da nuvem: inclui um pacote de produtos de software nativos da nuvem que permitem a coleta, limpeza, transformação e análise dos dados de uma organização para ajudar a melhorar a tomada de decisões.

Arquitetura de pipeline de dados

Ingestão de dados: Os dados são coletados de várias fontes, incluindo plataformas de software como serviço (SaaS), dispositivos de internet das coisas (IoT) e dispositivos móveis, e várias estruturas de dados, tanto de dados estruturados quanto não estruturados.
Transformação de dados: Durante esta etapa, uma série de trabalhos são executados para processar os dados no formato exigido pelo repositório de dados de destino.
Armazenamento de dados: Os dados transformados são então armazenados em um repositório de dados, onde podem ser expostos a diversos stakeholders.

Modelagem de Dados

Sthefany Spina — Fri, 07 Mar 2025 16:54:26 +0000

Modelagem de dados

A modelagem de dados é o processo de criação de uma representação visual de um sistema de informação inteiro ou de partes dele para comunicar conexões entre pontos de dados e estruturas.
O objetivo é ilustrar os tipos de dados usados e armazenados no sistema, os relacionamentos entre eles, as formas como os dados podem ser agrupados e organizados e os respectivos formatos e atributos.

Etapas da Modelagem de Dados

A modelagem de dados segue algumas etapas para chegar de fato em um sistema de banco de dados coerente com as necessidades da empresa.
O processo tem quatro etapas, são elas:

Análise de requisitos;
Modelagem conceitual;
Modelagem lógica;
Modelagem física.

Etapa 1 - Análise de Requisitos

A etapa de análise de requisitos é imprescindível para definir as regras de negócio do projeto. Isto é, o que o cliente busca com a criação do sistema (software, plataforma, aplicativo, etc.).

Essa etapa é fundamental para entender as necessidades do cliente e os requisitos do projeto, e especificá-los, analisá-los e validá-los antes de partir para a criação do modelo de banco de dados.

Etapa 2 - Modelagem Conceitual

A fase de modelagem conceitual de dados visa capturar os requisitos apresentados pelos stakeholders na fase precedente e organizá-los com uma visão de negócios.
O diagrama criado a partir da modelagem conceitual, deve conter todas as regras de negócio estabelecidas na etapa de análise de requisitos. Ou seja, as funcionalidades desse sistema.
Essa etapa geralmente é feita com o cliente e contém alguns elementos essenciais para o funcionamento do sistema.

O diagrama de modelagem conceitual precisa ter quatro elementos, são eles:

Entidades: Entidades são conceitos do negócio que precisamos armazenar informações
Relacionamento;
Cardinalidade;
Atributos: Atributos são as informações de cada Entidade (campos) Esses elementos vão estabelecer o que o sistema de banco de dados vai conter (entidades), como elas se relacionam dentro desse sistema, qual o tipo/qualidade do relacionamento entre elas (cardinalidade) e os atributos (características) dessas entidades. As tabelas do banco de dados poderão relacionar entre si dos seguintes modos:
1 pra 1
1 pra Muitos
Muitos pra Muitos

Etapa 3 - Modelo Lógico

Normalização Tabelas
Detalhamento Atributos e Relacionamentos
Construir Modelo Lógico Final

Processo 1 - Normalização
Normalização é a otimização que realizamos nas tabelas para reduzir redundâncias, duplicações e inconsistência dos dados.
Assim conseguimos ter um modelo de dados mais consistente, organizado e com maior performance.

NF1 - A tabela deve possuir apenas atributos únicos, não podem existir atributos multivalorados.

NF2 - Os atributos (não chave) dependem apenas da chave primária

NF3 - Os atributos (não chave) devem ser independentes entre si

Diagrama de Entidade Relacionamento

Etapa 4 - Modelagem Física de Dados (MFDS)

Escolha da Tecnologia SGBD
Criar banco com SQL
Gestão e manutenção Banco

Essa etapa envolve a criação do banco de dados em si, respeitando as regras de negócios definidas nas etapas anteriores e seguindo os requisitos dos outros modelos criados previamente.
Um modelo físico de dados precisa ser lido por um SGBD (Sistema de Gerenciamento de Banco de Dados).
Para tornar isso possível, utiliza-se uma linguagem de desenvolvimento (como por exemplo, SQL) que vai criar a estrutura necessária para a leitura do modelo de dados pelo SGBD.

Quais são os tipos de modelagem de dados?

Existem dois tipos de modelagem de dados: modelagem relacional e modelagem dimensional.

Tipo 1 - Modelagem relacional

Em um sistema de modelagem relacional, a principal característica é a capacidade de estabelecer uma relação entre as entidades do banco de dados.
Esse modelo é feito a partir de tabelas que contém entidades e campos de atributos diversos.
A ideia é que o modelo projetado possa estabelecer a relação entre essas entidades.
Utiliza-se o modelo relacional para armazenar dados em sistemas transacionais da organização, ou seja, aqueles usados no dia a dia de um negócio e que sofrem mudanças, como inserções, alterações, e remoções de dados.
Assim, o principal objetivo da modelagem relacional é armazenar as informações transacionais do negócio no banco de dados e torná-las acessíveis nessas atividades operacionais.
Esse tipo de modelagem geralmente utiliza SGBDs relacionais, que são adequados para sistemas transacionais como mencionado acima.

Tipo 2 - Modelagem Dimensional

Já a modelagem dimensional é mais utilizada para processos de Data Warehouse (DW) e Business Intelligence (BI).
Sendo assim, o objetivo principal desse modelo é simplificar a análise de dados multidimensionais.
O modelo dimensional utiliza uma tabela fato, que contém informações de medidas e tabelas de dimensão, onde estão as entidades, que se relacionam com a tabela fato.
Utiliza-se esse modelo mais frequentemente para a extração, agregação e análise de dados.
Com ele, é possível gerar relatórios, dashboards e insights a partir desses bancos de dados, que ajudarão na tomada de decisão estratégica de um negócio.

Tipos de Técnicas

Modelagem de dados hierárquica: você pode representar as relações entre os vários elementos de dados em um formato semelhante a uma árvore. Modelos de dados hierárquicos representam relações de um para muitos, com pais ou classes de dados raiz mapeados para vários filhos.
Modelagem de dados de grafos: representam relações de dados que tratam entidades igualmente. As entidades podem se vincular entre si em relações de um para muitos ou de muitos para muitos sem qualquer conceito de pai ou filho.
Modelagem de dados relacional: é uma abordagem de modelagem popular que visualiza classes de dados como tabelas. Diferentes tabelas de dados se unem ou se vinculam usando chaves que representam a relação de entidades do mundo real. Você pode usar a tecnologia de banco de dados relacional para armazenar dados estruturados, e um modelo de dados relacional é um método útil para representar sua estrutura de banco de dados relacional.
Modelagem de dados de relações entre entidades: usa diagramas formais para representar as relações entre entidades em um banco de dados.
Modelagem de dados orientada a objetos: esses objetos de dados são abstrações de software de entidades do mundo real.
Modelagem de dados dimensional: A computação empresarial moderna usa a tecnologia de data warehouse para armazenar grandes quantidades de dados para análise. Você pode usar projetos de modelagem de dados dimensionais para armazenamento e recuperação de dados em alta velocidade a partir de um data warehouse. Modelos dimensionais usam dados duplicados ou redundantes e priorizam a performance ao uso de menos espaço para o armazenamento de dados.