DEV Community: Rodrigo Trindade

A Ciência de Dados como é hoje

Rodrigo Trindade — Wed, 27 Sep 2023 10:57:28 +0000

A Ciência de Dados tem ganhado notoriedade nos últimos anos e não à toa foi Considerada a Profissão mais sexy do Século XXI, pela Harvard Business Review. Se trata de
uma área multidisciplinar, que envolve conhecimentos em Estatística, Probabilidade, Programação e Tecnologia da Informação. Hoje em dia é considerada uma área fundamental na tomada de decisão em diversas áreas corporativas como varejo, indústria e finanças.

Foto de Desola Lanre-Ologun na Unsplash

Atualmente, ter uma equipe de dados tornou-se obrigatório em diversos ramos e muitas empresas têm adotado cada vez mais uma estrutura Data Driven. Isso, pois cada vez mais as empresas buscam gerar valor através dos dados e, de fato, há uma grande demanda no setor. Os dados estão espalhados em enorme quantidade, provenientes de diversas fontes, e divididos/classificados das mais variadas formas. Estes dados, por si só, podem não ser tão relevantes na maneira "crua" a qual são coletados, mas podem se tornar algo valioso se tratados e explorados. Esse é o papel da Ciência de Dados nos dias de hoje. Isso pode explicar a alta demanda por este profissional e os altos salários, também. Porém, é preciso ressaltar que existem diversos profissionais que trabalham nesta área.

O Cientista de Dados como é hoje, nem sempre foi idealizado desta maneira, porém, é assim que é conhecido um profissional que busca valor nos dados. Isso se deve pelo fato deste profissional ter sido idealizado como o "Canivete Suíço" das empresas e corporações. À época, acreditou-se que apenas um único profissional fosse capaz de lidar com a demanda por gerar valor através dos dados e desenvolver projetos Data Driven em larga escala.

Logo notou-se que a realidade estava longe de ser a idealizada e outros profissionais foram surgindo com o aumento exponencial de dados produzidos, minuto a minuto, na Era Digital. O objetivo foi consolidar uma cultura Data Driven de maneira eficaz e escalável. Deste modo, surgiram alguns profissionais como Engenheiro de dados, Analista de dados, Engenheiro de Machine Learning, Arquiteto de dados, entre outros.

Para atuar na área de Ciência de Dados, é essencial ter um conhecimento profundo e estratégico do negócio, mesmo que sem muito conhecimento sobre a implementação de determinado algoritmo ou fundamentação estatística. O estudo nessa área é contínuo e tornar-se um Cientista de Dados é um desafio constante. Em analogia, os médicos passam uma vida estudando sobre determinada área de especialização. Na Ciência de Dados não é diferente.

Dito isto, para se tornar um bom Cientista de Dados, precisamos entender quais os pontos fundamentais desta área tão extensa e multidisciplinar. Aqui listo 4 dos principais requisitos que considero fundamentais:

Fundamentos Matemáticos: Deter fundamentos Matemáticos e estar seguro em relação a eles é fundamental para que possamos entender o que cada modelo de Machine Learning faz, como faz e o porquê faz. Não necessariamente você precisa ser um Matemático de carreira antes de se tornar um Cientista de Dados. No entanto, pode ser essencial conhecer Estatística e Álgebra Linear a fim de que se tenha um bom entendimento do processo de desenvolvimento de um algorítmico de Machine Learning e saber determinar qual o melhor modelo se aplica ao seu projeto, bem como entender o comportamento de seu modelo durante o seu ciclo de vida e poder "Debugá-lo" de maneira eficiente, em caso de comportamentos adversos.
Conhecimento de negócio: os conhecimentos técnicos podem parecer triviais para qualquer profissional de dados, porém, se um profissional de dados não entende minimamente sobre a área de negócios a ser estudada, seu conhecimento técnico não será útil. Por isso é comum ver em empresas Data Driven o trabalho conjunto entre a área de negócios e a equipe de dados. Para isso, além de obter apoio da área de negócios, o profissional de dados deve estar sempre atualizado sobre a sua área de atuação. Isso pode incluir a leitura de periódicos, revistas especializadas, participar de workshops ou até mesmo se graduar em um curso relacionado a sua área de interesse/atuação.
Programação: não é de hoje que a programação tem modificado a maneira de atuar de muitos profissionais e, em partes, acredito que ela foi responsável pelo surgimento do Cientista de Dados como é hoje, principalmente por ter a capacidade de acelerar o processo de desenvolvimento de modelos de Machine Learning. Aqui a regra é clara, não se apegue a uma linguagem de programação específica, pois isso pode atrapalhar a sua evolução como Cientista de Dados. Tenha em mente que a tecnologia é apenas uma ferramenta a qual você usa para aplicar os seus conhecimentos em Ciência de Dados. Dito isso, talvez a primeira tecnologia que você deva investir como profissional de dados seja uma linguagem de programação. Lembrando, nada de se apegar a ela, mas não há mal nenhum em se especializar em uma. Para Ciência de Dados, Python e R são as mais populares, seguidas de Java e Scala. Para atuar como Cientista de Dados, alguns conceitos básicos da linguagem são o suficiente para poder desenvolver um bom trabalho. Conceitos como paradigmas de programação, Padrões de Projetos, entre outros não são triviais aqui, mas podem ser úteis no futuro. Opte por aprender o necessário para aplicar seus conhecimentos e foque em lógica de programação de início.
Tecnologia da Informação: aqui o balaio é maior. Não é difícil ter uma indigestão com a sopa de letrinhas que se encontra no ramo da Tecnologia. TDD, DDD, SaaS, PaaS, Cloud, Cluster, SGDB, SQL, NoSQL, Data Lake, DataWarehouse entre outros. Calma! Não se desespere. Aqui o foco é entender os conceitos principais. São eles, Banco de Dados e Cloud. Banco de dados nada mais é do que um software responsável por armazenar os dados de maneira estruturada ou não. Eles podem se subdividir entre vários tipos. Os mais comuns são os Relacionais e os Não Relacionais. Não vou me aprofundar em suas características. Basta entender que eles existem. É a forma mais comum de armazenamento de dados. Entender seus conceitos é fundamental até mesmo para entender como lidar com os dados de sua organização. Principalmente porque é nele que todo o Ouro se encontra, esperando para ser minerado. Já na área Cloud, entender sua estrutura básica e os tipos de implementações já é o suficiente. Até porque, boa parte do gerenciamento de toda a infraestrutura Cloud será realizado por outros profissionais como Engenheiro de dados e Arquiteto de dados.

Em resumo, a Ciência de Dados é uma área em constante evolução, e a necessidade de profissionais capacitados e atualizados para lidar com a quantidade crescente de dados é cada vez mais evidente. É uma área multidisciplinar que envolve muitos profissionais e que precisa ser levada em consideração em todas as esferas da organização. Com o conhecimento destes 4 tópicos citados anteriormente, é possível contribuir de forma efetiva com a tomada de decisão em qualquer empresa ou instituição e se consolidar ainda mais como um Cientista de Dados qualificado.

Capa por Boitumelo na Unsplash

Step by step guide to becoming a Data Scientist in 2023

Rodrigo Trindade — Mon, 28 Aug 2023 22:14:41 +0000

AI and Data Science Roadmap

I have noticed a consistent demand from our dear learners for some sort of roadmap that can assist them in their learning journey. In response to this, i recognize the importance of providing a clear and comprehensive guide to aid learners in achieving their educational goals.

The Learning Sea

Navigating the path of learning can often be a daunting task, especially in today's fast-paced world where information is abundant and diverse. With so many options available, it's understandable that learners seek a structured approach to their learning process. I think that a roadmap serves as a valuable tool, offering a step-by-step plan that outlines the key milestones and resources needed to progress efficiently.

Keep going

Furthermore, a roadmap serves as a source of accountability. As learners check off milestones and achievements, they experience a sense of accomplishment that propels them forward. In moments of uncertainty, the roadmap acts as a guiding light, reminding learners of their purpose and encouraging them to persevere.

A testimony

At the beginning of my learning journey I felt very lost, and I didn't know how to organize my studies in order to feel some progress in my learning, that's when I found a roadmap platform. Today they released a roadmap dedicated to data science and strongly recommending DeepLearning.AI

Keep in mind that it is a tool just like the other one, so, do not take this platform as a dogma in your learning, instead keep yourself updated and exploring new horizons

Data Science Roadmap

I Hope this roadmap help you in your journey.

Best regards

Image Cover by Claudio Schwarz at Unsplash
Photo by Sam Balye on Unsplash

The Pitfalls of Arbitrary Weighting on Categorical Data Analysis

Rodrigo Trindade — Mon, 28 Aug 2023 22:08:16 +0000

Intro

Today i wanna talk about a common mistake that happens a lot in business or academical field: arbitrary weighting.

Context

Categorical data analysis plays a crucial role in various research disciplines, providing valuable insights into relationships and patterns among non-numeric variables. However, researchers may be tempted to convert categorical variables into numerical weights, assuming this simplification will enhance their analyses or enable integration into regression models. This article explores the potential dangers associated with such practices, emphasizing the loss of information, ambiguous interpretations, and biases that may arise. It further underscores the importance of preserving the unique characteristics of categorical data and recommends alternative approaches for conducting more meaningful analyses.

Categorical data analysis is an indispensable tool in scientific research, enabling the examination of relationships among non-numeric variables. Despite its significance, researchers may be enticed to transform categorical variables into numerical weights, potentially compromising the integrity of their analyses. This article investigates the perils of this practice and advocates for the preservation of categorical data's inherent nature.

Categorical Data Analysis

Before exploring the pitfalls of transforming categorical data, understanding the importance of categorical data analysis is essential. Unlike numerical data, categorical data consists of non-ordered categories or groups, necessitating specialized statistical methods for meaningful interpretation.

Researchers may find it tempting to convert categorical data into numerical weights for various reasons, such as simplifying analyses or incorporating them into regression models. However, it is crucial to recognize that such transformations may not always be appropriate and can lead to misleading outcomes.

The risks of Arbitrarily Assigning Numerical Weights

The transformation of categories into numerical weights poses significant risks that can impact the validity and accuracy of analyses:

Loss of Information: Categorical data holds meaningful distinctions between categories, such as labels or groupings. Transforming them into numerical weights can result in a loss of this crucial information, making it challenging to interpret findings accurately.
Ambiguous Interpretation: Numerical weights derived from categorical data lack clear interpretations. Consequently, findings based on such transformed data may be difficult to explain or communicate to a broader audience.
Bias Introduction: Arbitrarily assigning numerical weights to categorical variables can introduce biases into analyses, potentially skewing results and undermining the research's reliability.

The Issue of Ordinality in Numerical Weights

A critical concern associated with transforming categorical data into numerical weights lies in the assumption of ordinality. This transformation presumes a linear relationship between categories, which may not always be valid or appropriate. Consequently, the resulting analyses may produce misleading conclusions.

Alternative Approaches for Categorical Data Analysis

To preserve the categorical nature of the data and avoid the pitfalls of transforming categorical data into numerical weights, researchers should explore alternative methods, including:

Dummy Variables: Using dummy variables to represent different categories in regression models allows researchers to retain the categorical structure and avoids imposing ordinality assumptions.
Non-parametric Tests: Applying non-parametric tests, such as the Kruskal-Wallis test or Mann-Whitney U test, specifically designed for categorical data analysis, does not require numerical transformations.

Best Practices for Categorical Data Analysis

In conducting categorical data analysis, researchers should adhere to best practices to ensure robust and accurate results:

Choose Appropriate Statistical Tests: Select statistical methods tailored to categorical data to ensure meaningful and valid analyses.
Choose a better suitable model: here a few models available for categorical data as Logistic Regression; Multinomial Logistic Regression; Correspondence Analysis and so on.
Interpret Results Cautiously: When interpreting findings, remain aware of the categorical nature of the data and avoid generalizations based on numerical weightings.

Conclusion

Transforming categorical data into numerical weights may initially appear advantageous, but researchers must be cautious of the associated pitfalls. Preserving the unique characteristics of categorical data is vital for accurate, reliable, and meaningful analyses. By adopting alternative approaches specifically designed for categorical data analysis, researchers can ensure the integrity of their research and contribute to more robust scientific knowledge.

Image Cover by Thomas T at Unsplash

Step by step guide to becoming a Data Scientist in 2023

Rodrigo Trindade — Fri, 18 Aug 2023 21:09:36 +0000

AI and Data Science Roadmap

The Learning Sea

Keep going

A testimony

Keep in mind that it is a tool just like the other one, so, do not take this platform as a dogma in your learning, instead keep yourself updated and exploring new horizons

Data Science Roadmap

Photo by Sam Balye on Unsplash

I Hope this roadmap help you in your journey.

Best regards

The Pitfalls of Arbitrary Weighting on Categorical Data Analysis

Rodrigo Trindade — Thu, 27 Jul 2023 19:22:38 +0000

Intro

Today i wanna talk about a common mistake that happens a lot in business or academical field: arbitrary weighting.

Context

Categorical Data Analysis

The risks of Arbitrarily Assigning Numerical Weights

The transformation of categories into numerical weights poses significant risks that can impact the validity and accuracy of analyses:

Loss of Information: Categorical data holds meaningful distinctions between categories, such as labels or groupings. Transforming them into numerical weights can result in a loss of this crucial information, making it challenging to interpret findings accurately.
Ambiguous Interpretation: Numerical weights derived from categorical data lack clear interpretations. Consequently, findings based on such transformed data may be difficult to explain or communicate to a broader audience.
Bias Introduction: Arbitrarily assigning numerical weights to categorical variables can introduce biases into analyses, potentially skewing results and undermining the research's reliability.

The Issue of Ordinality in Numerical Weights

Alternative Approaches for Categorical Data Analysis

To preserve the categorical nature of the data and avoid the pitfalls of transforming categorical data into numerical weights, researchers should explore alternative methods, including:

Dummy Variables: Using dummy variables to represent different categories in regression models allows researchers to retain the categorical structure and avoids imposing ordinality assumptions.
Non-parametric Tests: Applying non-parametric tests, such as the Kruskal-Wallis test or Mann-Whitney U test, specifically designed for categorical data analysis, does not require numerical transformations.

Best Practices for Categorical Data Analysis

In conducting categorical data analysis, researchers should adhere to best practices to ensure robust and accurate results:

Choose Appropriate Statistical Tests: Select statistical methods tailored to categorical data to ensure meaningful and valid analyses.
Choose a better suitable model: here a few models available for categorical data as Logistic Regression; Multinomial Logistic Regression; Correspondence Analysis and so on.
Interpret Results Cautiously: When interpreting findings, remain aware of the categorical nature of the data and avoid generalizations based on numerical weightings.

Conclusion

Tipos de Aprendizados de Machine Learning

Rodrigo Trindade — Tue, 11 Apr 2023 02:11:23 +0000

O leque de opções quando se trata de modelos de Machine Learning é gigantesco. Podendo até o levar o Cientista de Dados Iniciante a se perder facilmente ao tentar definir qual o modelo adequado para aplicar em seus projetos. Nesse contexto, conhecer os principais modelos e suas características pode ser de grande ajuda durante os estudos ou aplicações reais durante as suas análises.

Abaixo, listo alguns dos modelos supervisionados e Não supervisionados mais populares e suas características:

Aprendizado Supervisionado

O aprendizado supervisionado é uma abordagem de aprendizado de máquina em que o algoritmo é treinado a partir de dados rotulados, ou seja, dados que já possuem as respostas corretas (rótulos) para uma determinada tarefa. O objetivo é aprender a função que mapeia as entradas para as saídas com base nos dados rotulados fornecidos.

Em outras palavras, no aprendizado supervisionado, o algoritmo é fornecido com um conjunto de exemplos de entrada e a saída esperada para cada exemplo, e o objetivo é aprender uma função que possa generalizar esse conhecimento para novos exemplos não vistos. Por exemplo, um algoritmo de aprendizado supervisionado pode ser treinado para identificar se uma imagem contém um gato ou um cachorro com base em um conjunto de imagens previamente rotuladas.

Estes modelos podem ser divididos entre modelos de Regressão e Classificação

Modelos de Regressão

Modelo	Descrição
Regressão Linear Simples	um modelo em que a relação entre a variável dependente e a variável independente é linear e pode ser representada por uma equação de uma linha reta. Um exemplo de aplicação da regressão linear simples pode ser na previsão do preço de um imóvel com base em sua área. Nesse caso, a variável dependente seria o preço do imóvel e a variável independente seria a área do imóvel.
Regressão Linear Múltipla	um modelo em que a relação entre a variável dependente e duas ou mais variáveis independentes é linear e pode ser representada por uma equação de um hiperplano. Um exemplo de aplicação da regressão linear múltipla é na previsão do salário de um funcionário com base em várias variáveis independentes, como experiência, nível de educação e cargo.

Modelos de Classificação

Modelo	Descrição
Regressão Logística	um modelo usado para prever uma variável categórica binária (por exemplo, sim ou não) com base em uma ou mais variáveis independentes. Um exemplo de aplicação da regressão logística é na previsão da probabilidade de um cliente de um banco adquirir um novo produto financeiro, como um cartão de crédito, com base em variáveis como idade, renda, histórico de crédito e histórico de compras anteriores.
Árvores de Decisão	são modelos que dividem os dados de entrada em segmentos menores com base em regras de decisão que são determinadas por um algoritmo de aprendizado. As árvores de decisão são fáceis de interpretar e podem lidar com dados categóricos e numéricos. As árvores de decisão podem ser usadas em medicina para ajudar a diagnosticar uma doença com base nos sintomas do paciente. O modelo pode ser treinado usando informações como idade, sintomas, histórico médico e outros fatores para sugerir um diagnóstico.

Modelo

Descrição

Regressão Logística

um modelo usado para prever uma variável categórica binária (por exemplo, sim ou não) com base em uma ou mais variáveis independentes.

Um exemplo de aplicação da regressão logística é na previsão da probabilidade de um cliente de um banco adquirir um novo produto financeiro, como um cartão de crédito, com base em variáveis como idade, renda, histórico de crédito e histórico de compras anteriores.

Árvores de Decisão

são modelos que dividem os dados de entrada em segmentos menores com base em regras de decisão que são determinadas por um algoritmo de aprendizado. As árvores de decisão são fáceis de interpretar e podem lidar com dados categóricos e numéricos.

As árvores de decisão podem ser usadas em medicina para ajudar a diagnosticar uma doença com base nos sintomas do paciente. O modelo pode ser treinado usando informações como idade, sintomas, histórico médico e outros fatores para sugerir um diagnóstico.

Aprendizado Não Supervisionado

O aprendizado não supervisionado é uma subárea do aprendizado de máquina em que não há dados rotulados disponíveis para treinamento. Em outras palavras, não há um conjunto de dados de entrada e saída para o modelo aprender a prever. Em vez disso, o modelo é alimentado com dados brutos e deve encontrar padrões ou estruturas neles por conta própria. Algumas das técnicas aplicadas são Clustering, Redução de dimensionalidade e detecção de anomalias.

Clustering

Modelo	Descrição
Modelo Hierárquico	É uma técnica de análise multivariada usada para entender a estrutura subjacente dos dados e agrupá-los em clusters ou segmentos. O modelo hierárquico é construído usando uma abordagem passo a passo, onde os dados são agrupados em subgrupos menores e, em seguida, esses subgrupos são combinados em grupos maiores, até que todos os dados estejam agrupados em um único grupo. Os modelos hierárquicos são frequentemente usados em ciência de dados para agrupar clientes, produtos ou outras entidades em segmentos com base em suas características ou comportamentos. Esses segmentos podem ser usados para personalizar campanhas de marketing, recomendar produtos ou serviços e entender melhor o comportamento do cliente.
K-means	É um algoritmo de aprendizado não supervisionado de clustering que agrupa dados em k clusters, onde k é um número pré-definido pelo usuário. Inicialmente, o algoritmo seleciona aleatoriamente k pontos no conjunto de dados como os centróides iniciais dos clusters, depois atribui cada ponto de dados ao centróide mais próximo, por fim, o algoritmo recalcula o centróide de cada cluster com base nos pontos de dados atribuídos a ele e repete o processo até que todos os clusters sejam formados O modelo K-means tem várias aplicações em ciência de dados, como a segmentação de clientes em grupos com base em suas características, agrupamento de documentos em tópicos e detecção de anomalias em dados

Modelo

Descrição

Modelo Hierárquico

É uma técnica de análise multivariada usada para entender a estrutura subjacente dos dados e agrupá-los em clusters ou segmentos. O modelo hierárquico é construído usando uma abordagem passo a passo, onde os dados são agrupados em subgrupos menores e, em seguida, esses subgrupos são combinados em grupos maiores, até que todos os dados estejam agrupados em um único grupo.

Os modelos hierárquicos são frequentemente usados em ciência de dados para agrupar clientes, produtos ou outras entidades em segmentos com base em suas características ou comportamentos. Esses segmentos podem ser usados para personalizar campanhas de marketing, recomendar produtos ou serviços e entender melhor o comportamento do cliente.

K-means

É um algoritmo de aprendizado não supervisionado de clustering que agrupa dados em k clusters, onde k é um número pré-definido pelo usuário. Inicialmente, o algoritmo seleciona aleatoriamente k pontos no conjunto de dados como os centróides iniciais dos clusters, depois atribui cada ponto de dados ao centróide mais próximo, por fim, o algoritmo recalcula o centróide de cada cluster com base nos pontos de dados atribuídos a ele e repete o processo até que todos os clusters sejam formados

O modelo K-means tem várias aplicações em ciência de dados, como a segmentação de clientes em grupos com base em suas características, agrupamento de documentos em tópicos e detecção de anomalias em dados

Em resumo, Cada modelo tem suas próprias aplicações e limitações, e a escolha do modelo mais adequado depende dos objetivos do projeto, dos dados disponíveis e do tipo de problema a ser resolvido. É importante lembrar que o sucesso do modelo depende da qualidade dos dados e do processo de treinamento, bem como da capacidade do modelo de gerar outputs confiáveis para novos dados.

A Ciência de Dados como é hoje

Rodrigo Trindade — Fri, 07 Apr 2023 14:47:19 +0000

Fundamentos Matemáticos: Deter fundamentos Matemáticos e estar seguro em relação a eles é fundamental para que possamos entender o que cada modelo de Machine Learning faz, como faz e o porquê faz. Não necessariamente você precisa ser um Matemático de carreira antes de se tornar um Cientista de Dados. No entanto, pode ser essencial conhecer Estatística e Álgebra Linear a fim de que se tenha um bom entendimento do processo de desenvolvimento de um algorítmico de Machine Learning e saber determinar qual o melhor modelo se aplica ao seu projeto, bem como entender o comportamento de seu modelo durante o seu ciclo de vida e poder "Debugá-lo" de maneira eficiente, em caso de comportamentos adversos.
Conhecimento de negócio: os conhecimentos técnicos podem parecer triviais para qualquer profissional de dados, porém, se um profissional de dados não entende minimamente sobre a área de negócios a ser estudada, seu conhecimento técnico não será útil. Por isso é comum ver em empresas Data Driven o trabalho conjunto entre a área de negócios e a equipe de dados. Para isso, além de obter apoio da área de negócios, o profissional de dados deve estar sempre atualizado sobre a sua área de atuação. Isso pode incluir a leitura de periódicos, revistas especializadas, participar de workshops ou até mesmo se graduar em um curso relacionado a sua área de interesse/atuação.
Programação: não é de hoje que a programação tem modificado a maneira de atuar de muitos profissionais e, em partes, acredito que ela foi responsável pelo surgimento do Cientista de Dados como é hoje, principalmente por ter a capacidade de acelerar o processo de desenvolvimento de modelos de Machine Learning. Aqui a regra é clara, não se apegue a uma linguagem de programação específica, pois isso pode atrapalhar a sua evolução como Cientista de Dados. Tenha em mente que a tecnologia é apenas uma ferramenta a qual você usa para aplicar os seus conhecimentos em Ciência de Dados. Dito isso, talvez a primeira tecnologia que você deva investir como profissional de dados seja uma linguagem de programação. Lembrando, nada de se apegar a ela, mas não há mal nenhum em se especializar em uma. Para Ciência de Dados, Python e R são as mais populares, seguidas de Java e Scala. Para atuar como Cientista de Dados, alguns conceitos básicos da linguagem são o suficiente para poder desenvolver um bom trabalho. Conceitos como paradigmas de programação, Padrões de Projetos, entre outros não são triviais aqui, mas podem ser úteis no futuro. Opte por aprender o necessário para aplicar seus conhecimentos e foque em lógica de programação de início.
Tecnologia da Informação: aqui o balaio é maior. Não é difícil ter uma indigestão com a sopa de letrinhas que se encontra no ramo da Tecnologia. TDD, DDD, SaaS, PaaS, Cloud, Cluster, SGDB, SQL, NoSQL, Data Lake, DataWarehouse entre outros. Calma! Não se desespere. Aqui o foco é entender os conceitos principais. São eles, Banco de Dados e Cloud. Banco de dados nada mais é do que um software responsável por armazenar os dados de maneira estruturada ou não. Eles podem se subdividir entre vários tipos. Os mais comuns são os Relacionais e os Não Relacionais. Não vou me aprofundar em suas características. Basta entender que eles existem. É a forma mais comum de armazenamento de dados. Entender seus conceitos é fundamental até mesmo para entender como lidar com os dados de sua organização. Principalmente porque é nele que todo o Ouro se encontra, esperando para ser minerado. Já na área Cloud, entender sua estrutura básica e os tipos de implementações já é o suficiente. Até porque, boa parte do gerenciamento de toda a infraestrutura Cloud será realizado por outros profissionais como Engenheiro de dados e Arquiteto de dados.