No artigo do New York Times os autores abordam nove problemas que notaram no conceito de Big Data. Eles explicam que Big Data combina o poder da computação moderna com o mar de dados que existe por aí.
A primeira coisa que o artigo denota é que apesar de a big data ser ótima em detectar correlações, nunca nos diz quais correlações são significativas. Em segundo os autores escrevem que big data pode trabalhar bem junto com investigação científica, mas raramente obtém sucesso sozinha, precisa agregar uma base de entendimento em física e bioquímica. Em terceiro o artigo mostra que podemos brincar com diversas ferramentas baseada em grande quantidade de dados, mas não podemos prever a ação humana sobre ela. Por exemplo na correção de atividades de classe, quando os estudantes entendem qual é o padrão de correção, eles começam a escrever palavras obscuras ao invés de uma escrita clara e coerente, buscando apenas a nota, e não o aprendizado.
Em quarto, os autores especificam que um sistema de big data pode ser menos robusto do que parece, por exemplo o relatório de tendência de gripe inicialmente foi bem sucedido no início, mas ao longo dos anos passou a falhar com projeções muito ruins. Isso aconteceu devido a mudança não identificada nos padrões de identificação da doença ao longo do tempo. A quinta preocupação dos autores se refere ao efeito da "camara de eco”, podendo criar um efeito de loop vicioso quando a fonte dos dados produz a si mesma, por exemplo artigos da Wikipedia que foram escritos pelo google tradutor. Se houvesse um erro no google tradutor, além de afetar o conhecimento da biblioteca, afetaria também o google tradutor, que usa a Wiki de fonte, reforçando o erro.
Em sexto lugar, o risco de amplificar erros é trazido, por exemplo, o de correlações em excesso. Existe um risco aleatório de encontrar correlações que parecem significantes mas não são, isso pode acontecer se você procurar muitas vezes por correlações em duas variáveis. O sétimo problema que os autores vêem é que big data tenta disponibilizar soluções que parecem científicas para perguntas imprecisas. Ela traz exemplos sobre a tentativa de decidir quais figuras históricas são mais relevantes, mas os resultados foram vagos e errôneos. Em último lugar os autores citam o problema dos “trigrams”, que são sequências de palavras em linha que são muito usadas em programas de tratamento de texto, entretanto nenhuma base de dados nunca será grande o suficiente para incluir todos os trigrams que as pessoas talvez usem, por causa da renovação contínua da língua.
O problema que os autores quase esquecem de adicionar é o hype do conceito big data! Eles concluem dizendo que big data está pra ficar, mas precisa ser usada como a ferramenta que é.
Além destes problemas existem muitos outros desafios que nos instigam a continuar trabalhando com big data. Por exemplo, a falta de um consenso bem definido do que é big data, permite uma ampla interpretação. Isso permite que qualquer um que possua uma grande quantidade de dados chame seu ecossistema de big data. Não que não seja, mas uma definição bem delineada permite que possamos compreender bem o que estamos tratando. É compreensível que isso aconteça visto que é uma tecnologia emergente que ainda está em desenvolvimento, logo menos ela terá uma forma bem definida e teremos a capacidade de dizer o que é ou não big data.
Outro problema que assombra o universo de big data é a falta de profissionais qualificados. Esses profissionais podem incluir engenheiros de dados, analista de dados e cientista de dados. Isso acontece porque a tecnologia evoluiu muito rápido, mas a quantidade de profissionais qualificados não cresceu na mesma proporção. Uma solução é contratar pessoas que estão iniciando na área e oferecer o treinamento devido e recompensas.
O último problema que eu observo e que também é uma caraterística no universo de Big Data é a falta de padronização nos tipos de dados. Existe uma quantidade enorme de informações por todo lugar, mas cada um no seu formato apropriado, sendo necessário uma mão de obra qualificada para tratar e padronizar a fim de realizar as análises necessárias para o negócio.
Concluindo, Big Data é uma tecnologia promissora que é fundamental para esse novo mundo dinâmico em constante mutação. Eu percebo que os infortúnios que a área de estudo vêm passando é temporário e acontecem majoritariamente porque é um estado da arte que se popularizou. Conforme mais atenção e dinheiro é investido para essa tecnologia evoluir, mais esses problemas serão resolvidos.
Marcus, G. and Davis, E., 2014. Eight (no, nine!) problems with big data. The New York Times, 6(04), p.2014.
Top comments (0)