Assim como o Big Data é um termo já inserido no dia a dia da maioria das grandes empresas, outros conceitos surgem a partir da transformação digital e vão ganhando cada vez mais visibilidade por meio de novos estudos, projetos e eventos com a participação de especialistas e profissionais da área. Um desses conceitos é o Data Lake que, em essência, significa estratégia de armazenamento de dados. Para quem trabalha com Tecnologia da Informação ter uma gestão eficiente e uma estratégia bem desenhada para armazenar informações reflete o nível de maturidade do negócio.
Isso porque, independentemente do tamanho da companhia, só é possível pensar em Data Lake depois de ter passado por algumas etapas importantes da cultura digital. Em uma etapa mais avançada, empresas que rodam na nuvem já utilizam diversas fontes de dados- que podem ser estruturados ou não – para aprender com a jornada dos usuários na web e sugerir produtos e serviços de maneira mais assertiva. A aplicação de ferramentas de análises, como o Business Intelligence (BI), aumentam as chances de resultados positivos a partir de uma ação direcionada.
Dados não estruturados são todos aqueles que não estão armazenados dentro de uma estrutura que podemos compreender sem uma análise profunda, pois estão armazenados de forma organizada. Tal organização é geralmente feita por colunas e linhas (semelhante a uma planilha), mas podem variar de acordo com a fonte (origem dos dados). Estes dados, podem, por exemplo, serem encontrados na web para quem souber extraí-los. Podem ser gerados a partir de postagens nas redes sociais, comentários em determinadas publicações, etc. Posso garantir que as possibilidades são quase infinitas e, por conta do grande volume de informações possíveis de serem coletadas, é preciso um repositório que comporte esses dados em seu estado cru antes que sejam filtrados e classificados.
A utilização desse tipo de dado para tomada decisões abre diversas possibilidades, entre elas, a análise dessas informações em tempo real. Vamos supor que você atua em uma empresa que vende passagens aéreas, utilizando de dados não estruturados você pode monitorar as redes sociais e saber, por exemplo, que está acontecendo um desastre na Flórida e que não será uma boa ideia sugerir passagens para essa região aos seus clientes.
Por isso é importante pensar no Data Lake como uma estrutura complexa que pode viabilizar a implementação de diversas ferramentas eficazes como o Machine Learning, que é o aprendizado de máquina a partir de dados comportamentais. Entretanto, há muito mais em jogo no mundo da tecnologia do que podemos aplicar no nosso dia a dia. E é por esse dinamismo que acredito que os profissionais de engenharia de dados e os cientistas serão cada vez mais requisitados nas companhias. Eles terão o papel fundamental de apoiar as organizações nessa realidade em que os dados valem ouro, desde que sejam armazenados e manipulados corretamente e com segurança.