A Ciência de Dados tem ganhado notoriedade nos últimos anos e não à toa foi Considerada a Profissão mais sexy do Século XXI, pela Harvard Business Review. Se trata de
uma área multidisciplinar, que envolve conhecimentos em Estatística, Probabilidade, Programação e Tecnologia da Informação. Hoje em dia é considerada uma área fundamental na tomada de decisão em diversas áreas corporativas como varejo, indústria e finanças.
Atualmente, ter uma equipe de dados tornou-se obrigatório em diversos ramos e muitas empresas têm adotado cada vez mais uma estrutura Data Driven. Isso, pois cada vez mais as empresas buscam gerar valor através dos dados e, de fato, há uma grande demanda no setor. Os dados estão espalhados em enorme quantidade, provenientes de diversas fontes, e divididos/classificados das mais variadas formas. Estes dados, por si só, podem não ser tão relevantes na maneira "crua" a qual são coletados, mas podem se tornar algo valioso se tratados e explorados. Esse é o papel da Ciência de Dados nos dias de hoje. Isso pode explicar a alta demanda por este profissional e os altos salários, também. Porém, é preciso ressaltar que existem diversos profissionais que trabalham nesta área.
O Cientista de Dados como é hoje, nem sempre foi idealizado desta maneira, porém, é assim que é conhecido um profissional que busca valor nos dados. Isso se deve pelo fato deste profissional ter sido idealizado como o "Canivete Suíço" das empresas e corporações. À época, acreditou-se que apenas um único profissional fosse capaz de lidar com a demanda por gerar valor através dos dados e desenvolver projetos Data Driven em larga escala.
Logo notou-se que a realidade estava longe de ser a idealizada e outros profissionais foram surgindo com o aumento exponencial de dados produzidos, minuto a minuto, na Era Digital. O objetivo foi consolidar uma cultura Data Driven de maneira eficaz e escalável. Deste modo, surgiram alguns profissionais como Engenheiro de dados, Analista de dados, Engenheiro de Machine Learning, Arquiteto de dados, entre outros.
Para atuar na área de Ciência de Dados, é essencial ter um conhecimento profundo e estratégico do negócio, mesmo que sem muito conhecimento sobre a implementação de determinado algoritmo ou fundamentação estatística. O estudo nessa área é contínuo e tornar-se um Cientista de Dados é um desafio constante. Em analogia, os médicos passam uma vida estudando sobre determinada área de especialização. Na Ciência de Dados não é diferente.
Dito isto, para se tornar um bom Cientista de Dados, precisamos entender quais os pontos fundamentais desta área tão extensa e multidisciplinar. Aqui listo 4 dos principais requisitos que considero fundamentais:
Fundamentos Matemáticos: Deter fundamentos Matemáticos e estar seguro em relação a eles é fundamental para que possamos entender o que cada modelo de Machine Learning faz, como faz e o porquê faz. Não necessariamente você precisa ser um Matemático de carreira antes de se tornar um Cientista de Dados. No entanto, pode ser essencial conhecer Estatística e Álgebra Linear a fim de que se tenha um bom entendimento do processo de desenvolvimento de um algorítmico de Machine Learning e saber determinar qual o melhor modelo se aplica ao seu projeto, bem como entender o comportamento de seu modelo durante o seu ciclo de vida e poder "Debugá-lo" de maneira eficiente, em caso de comportamentos adversos.
Conhecimento de negócio: os conhecimentos técnicos podem parecer triviais para qualquer profissional de dados, porém, se um profissional de dados não entende minimamente sobre a área de negócios a ser estudada, seu conhecimento técnico não será útil. Por isso é comum ver em empresas Data Driven o trabalho conjunto entre a área de negócios e a equipe de dados. Para isso, além de obter apoio da área de negócios, o profissional de dados deve estar sempre atualizado sobre a sua área de atuação. Isso pode incluir a leitura de periódicos, revistas especializadas, participar de workshops ou até mesmo se graduar em um curso relacionado a sua área de interesse/atuação.
Programação: não é de hoje que a programação tem modificado a maneira de atuar de muitos profissionais e, em partes, acredito que ela foi responsável pelo surgimento do Cientista de Dados como é hoje, principalmente por ter a capacidade de acelerar o processo de desenvolvimento de modelos de Machine Learning. Aqui a regra é clara, não se apegue a uma linguagem de programação específica, pois isso pode atrapalhar a sua evolução como Cientista de Dados. Tenha em mente que a tecnologia é apenas uma ferramenta a qual você usa para aplicar os seus conhecimentos em Ciência de Dados. Dito isso, talvez a primeira tecnologia que você deva investir como profissional de dados seja uma linguagem de programação. Lembrando, nada de se apegar a ela, mas não há mal nenhum em se especializar em uma. Para Ciência de Dados, Python e R são as mais populares, seguidas de Java e Scala. Para atuar como Cientista de Dados, alguns conceitos básicos da linguagem são o suficiente para poder desenvolver um bom trabalho. Conceitos como paradigmas de programação, Padrões de Projetos, entre outros não são triviais aqui, mas podem ser úteis no futuro. Opte por aprender o necessário para aplicar seus conhecimentos e foque em lógica de programação de início.
Tecnologia da Informação: aqui o balaio é maior. Não é difícil ter uma indigestão com a sopa de letrinhas que se encontra no ramo da Tecnologia. TDD, DDD, SaaS, PaaS, Cloud, Cluster, SGDB, SQL, NoSQL, Data Lake, DataWarehouse entre outros. Calma! Não se desespere. Aqui o foco é entender os conceitos principais. São eles, Banco de Dados e Cloud. Banco de dados nada mais é do que um software responsável por armazenar os dados de maneira estruturada ou não. Eles podem se subdividir entre vários tipos. Os mais comuns são os Relacionais e os Não Relacionais. Não vou me aprofundar em suas características. Basta entender que eles existem. É a forma mais comum de armazenamento de dados. Entender seus conceitos é fundamental até mesmo para entender como lidar com os dados de sua organização. Principalmente porque é nele que todo o Ouro se encontra, esperando para ser minerado. Já na área Cloud, entender sua estrutura básica e os tipos de implementações já é o suficiente. Até porque, boa parte do gerenciamento de toda a infraestrutura Cloud será realizado por outros profissionais como Engenheiro de dados e Arquiteto de dados.
Em resumo, a Ciência de Dados é uma área em constante evolução, e a necessidade de profissionais capacitados e atualizados para lidar com a quantidade crescente de dados é cada vez mais evidente. É uma área multidisciplinar que envolve muitos profissionais e que precisa ser levada em consideração em todas as esferas da organização. Com o conhecimento destes 4 tópicos citados anteriormente, é possível contribuir de forma efetiva com a tomada de decisão em qualquer empresa ou instituição e se consolidar ainda mais como um Cientista de Dados qualificado.
Top comments (0)