Vivemos em novos tempos. Participamos – algumas vezes como protagonistas, outras como coadjuvantes – de uma evolução constante da Internet, em que a tecnologia movimenta os negócios e acelera de forma exponencial o ritmo de empresas e pessoas. Nessa nova realidade os dados passaram a ser a matéria-prima essencial para o bom funcionamento das empresas.
Com isso, o dilúvio de dados obriga as companhias e seus gestores a repensarem suas estratégias, modelos comerciais e técnicas de gestão. O conceito de Big Data é relativamente novo e, hoje, é colocado como um dos pilares da 4ª Revolução Industrial, além de ser um termo familiar em diversas áreas do mundo corporativo.
Se em um passado recente grandes empresas concentraram suas visões analíticas apenas no passado, olhando os dias anteriores – famoso “D-1”, hoje empresas de todos os tamanhos, de centenárias a startups, buscam abordagens em “near real time”, com volumes massivos e consumindo dados em diferentes formatos. As empresas estão cada vez mais focadas em dados, ou como tendência: “data centric”, em que não só o talento e experiência dos gestores bastam, é preciso uma visão exata e pró-ativa do que está acontecendo e o que irá acontecer.
O resultado desta nova abordagem em dados é revolucionário. O aumento da capacidade analítica cria novas perspectivas de desenvolvimento de produtos digitais, aumentam potencial de gestão com indicadores e desenvolve um maior elo com clientes. Aliás, nunca buscou-se tanto conhecer verdadeiramente os hábitos e perfis de clientes. Campanhas passaram de segmentadas para personalizadas, e os mecanismos de recomendações estão cada vez mais inseridos no cotidiano, inferindo no perfil de consumo e hábitos. Frases como: “esta série tem 98% de relevância com seu perfil”, são cada vez mais corriqueiras.
Porém quando pensamos em Big Data, temos também desafios gigantes. Centralizar, tratar e consumir dados massivos em baixa latência não é uma tarefa simples. Arquiteturas analíticas, como o Data Lake, entram cada vez mais na pauta executiva, pois visam criar um repositório propício a insights utilizando não somente dados estruturados, mas também como áudio, vídeo e imagens.
Quem se aventura no ambiente de dados encontra um leque vasto e complexo de ferramentas, como Hadoop, Yarn, Hive, Spark, Kafka, Presto, Sqoop, Flink – considerando apenas a lista da Apache Foundation, maior referência para Software Livre, são 48 projetos/ferramentas. Como se ainda não bastasse, há uma grande escassez pelos profissionais capazes de operar este ecossistema, criando uma verdadeira competição internacional pelo recrutamento de Engenheiros e Cientistas de dados.
Sabendo destes desafios, os grandes “players” de cloud cloud aumentam seu portfólio de ferramentas gerenciadas para Big Data. Estas ferramentas abstraem o esforço operacional de sustentação de ambiente Big Data, que seria uma tarefa árdua, para permitir que os desenvolvedores foquem apenas na ingestão, armazenamento e processamento de dados, suavizando assim os impactos da complexidade de gestão de ambiente e carência de profissionais qualificados.
E mesmo com uma arquitetura preparada para processamento de dados, com estrutura “Data Lake” em produção e um time apto a conduzir mineração de dados, as empresas tendem a ser desafiadas por normas e regulações. Um cenário claro tem sido a corrida à adequação ao GDPR (“General Data Protection Regulation” – Regulação Geral de Proteção de Dados) na Europa e sua aplicação em versão brasileira, como a LGPD (“Lei Geral de Proteção de Dados”), que incluem penalizações de até R$ 50 milhões para empresas infratoras.
Por ainda ser um conceito em maturação, acredita-se que ainda há diversos desafios com Big Data. Porém seus benefícios são claros, e não mais opcionais para empresas que pretendem sobreviver aos cenários digitais. O leque de aplicações é infinito, sendo instrumento base para outras tecnologias disruptivas, como Inteligência Artificial e Internet das Coisas (IoT).