O que caracteriza os problemas de gerenciamento de dados associados ao armazenamento de Big Data

O Hadoop e o Big Data estão intimamente interligados, e é comum ouvir esses dois termos sendo mencionados juntos ou pelo menos sendo associados um ao outro. Devido a suas amplas implicações no contexto dos dados, o Big Data geralmente está inter-relacionado a um grande número de tecnologias. O Big Data está rapidamente se tornando onipresente no mundo digital hoje, e o Hadoop é apenas mais uma forma de encontrar respostas nos dados.

O que é o Hadoop?

O Hadoop é uma estrutura de código aberto que serve para lidar com todos os componentes do armazenamento e do processamento de quantidades enormes de dados. Trata-se de uma biblioteca de software versátil e acessível. Por ter um baixo custo inicial e permitir a análise de dados sob demanda, ele é uma forma atraente de processar o Big Data.

O Hadoop nasceu no início dos anos 2000, quando foi criado como parte do sistema de indexação de um mecanismo de pesquisa para produzir resultados de pesquisa mais rápidos. Ao mesmo tempo, o Google estava em formação. O Google deslanchou com uma pesquisa na Web inovadora, enquanto o Hadoop encontrou outras oportunidades com sua arquitetura tecnológica, enfocando aspectos técnicos do armazenamento e do processamento de dados. O projeto foi batizado com o nome do elefante de pelúcia do filho de seu criador: Hadoop.

O que o Hadoop faz e por que ele está em toda parte

O Hadoop é um conjunto de partes que funcionam em conjunto para processar os dados armazenados. Ele consiste em quatro modelos:
Hadoop Common: os utilitários básicos que viabilizam a maioria dos casos de uso
Sistema de arquivos distribuído do Hadoop (Hadoop Distributed File System, HDFS): armazena os dados em um formato de fácil acesso
Hadoop MapReduce: processa os dados mapeando um conjunto de dados grande e, em seguida, filtrando-o para chegar a resultados específicos
Hadoop YARN: gerencia recursos e agendamentos

O Hadoop é amplamente difundido por ser acessível e fácil de adotar. Ele é econômico e útil, com módulos que oferecem uma grande variedade de opções. O Hadoop pode ser facilmente escalonado com várias máquinas para processar conjuntos de dados de praticamente qualquer tamanho. Além disso, por sua forma de armazenar e processar os dados, o Hadoop é uma solução empresarial atraente para o armazenamento de dados em constante crescimento.

Usando o Hadoop para análises de baixo custo com hardware flexível

O problema de armazenar grandes volumes de dados é o fato de que se torna extremamente caro manter os recursos e o hardware para processar as cargas. O Hadoop é tão popular e adotado pelo fato de ser muito mais acessível e permitir um uso flexível do hardware. O Hadoop utiliza “hardware comercial”, ou seja, sistemas de baixo custo adquiridos diretamente do varejo. Para executar o Hadoop não é necessário nenhum sistema reservado ou hardware personalizado caro, o que reduz o custo de sua operação.

Em vez de depender de um hardware caro para processar os dados, o Hadoop distribui a capacidade de processamento entre várias máquinas. O sistema pode ser escalonado para comportar conjuntos de dados de praticamente qualquer tamanho. Os profissionais de TI geralmente são os mais beneficiados por essa estrutura, já que o Hadoop permite que eles comprem as quantidades e os tipos de hardware mais adequados para as necessidades personalizadas da TI.

Diferença entre armazenar os dados em data warehouses e em lagos de dados

O Hadoop não só distribui a capacidade de processamento, mas também muda a forma como os dados são armazenados e analisados.

Tradicionalmente, os dados eram armazenados em “data warehouses”. Como o nome sugere, tratava-se de grandes coleções de conjuntos de dados armazenados e organizados segundo o tipo das informações. Os analistas então acessavam esses conjuntos de dados e tabelas recém-armazenados. Esses formatos eram estruturados, e os dados eram empacotados para serem acessados sob demanda. Isso exigia que todos os dados fossem analisados para que fosse possível arquivá-los adequadamente e recuperá-los quando necessário.

Embora os sistemas de data warehouse sejam práticos para usuários que precisam acessar tabelas específicas, o processo inicial de análise e armazenamento pode ser demorado e gerar um alto consumo de recursos. Além disso, quando não são utilizados corretamente, os data warehouses podem ser ineficientes: se alguns dados não tiverem uma utilidade imediata ou uma função evidente, eles podem ser esquecidos ou excluídos da análise. Como o armazenamento pode crescer e se tornar caro, os data warehouses exigem estratégias bem pensadas para serem escalonados se os analistas e profissionais de TI querem aproveitar suas vantagens estruturais.

Os lagos de dados, por sua vez, funcionam de maneira oposta. Enquanto um data warehouse é controlado e catalogado, os lagos de dados são um imenso repositório em que todos os dados fluem livremente. Todos os dados são armazenados, não importa se eles são ou não analisados e se têm ou não uma utilidade (seja agora ou no futuro). Os dados são importados em seu formato bruto e só são analisados quando necessário. Como o hardware do Hadoop é consideravelmente econômico, ele é fácil de escalonar verticalmente conforme necessário para armazenar ou processar quantidades maiores de dados. No entanto, isso significa que é mais difícil manter tabelas pré-empacotadas e conjuntos de dados aprovados prontos para uso, um dos principais benefícios dos data warehouses. Para escalonar lagos de dados, é necessário escalonar as estratégias de governança e a capacitação.

Cada método de armazenamento traz seus próprios benefícios, e as empresas geralmente usam tanto data warehouses como lagos de dados para diferentes tipos de necessidades de dados.

O papel do Hadoop na IoT (Internet das Coisas)

Uma das soluções que o Hadoop oferece é o armazenamento e as condições para processar quantidades inimagináveis de dados. O Big Data não para de crescer. Há cinco anos, gerávamos pouco mais da metade dos dados que geramos hoje. Há 15 anos, a quantidade de dados que produzíamos em 24 horas era menor do que a que produzimos hoje em cerca de três minutos.

Uma das principais causas para esse enorme disparo na geração de dados é a tendência tecnológica atual chamada de “Internet das Coisas” (abreviada para IoT, do inglês “Internet of Things”). Isso significa objetos físicos comuns que são conectados à Internet e controlados por meio dela. Smartphones, Smart TVs e sistemas de alarme foram apenas os primeiros passos. Agora, passamos a eletrodomésticos inteligentes, como geladeiras, lava-louças, termostatos, lâmpadas, cafeteiras, câmeras de segurança, babás eletrônicas, trancas de portas, robôs aspiradores e muitos outros dispositivos, todos capazes de se conectar à Internet. Embora esses aparelhos tragam praticidade às nossas vidas, eles também rastreiam e armazenam dados sobre cada operação que realizam.

A IoT também está presente em ambientes profissionais, empresariais e governamentais. Sistemas inteligentes de ar condicionado mantêm a eficiência de edifícios, câmeras presas no corpo protegem policiais e civis, e dispositivos com reconhecimento ambiental ajudam governos a responder mais rapidamente a desastres naturais, como terremotos e incêndios florestais.

Combinados, todos esses dispositivos registram uma quantidade vertiginosa de dados que requer monitoramento flexível e escalabilidade econômica. É por isso que sistemas como o Hadoop costumam ser considerados soluções ideais para armazenar dados da IoT. O Hadoop não é a única opção, mas certamente é a mais difundida devido às demandas em constante crescimento da IoT.

O armazenamento de Big Data só tem serventia quando é usado na prática

À medida que o Big Data cresce, precisamos não só armazená-lo de maneira eficaz, mas também garantir que ele seja usado com eficácia. Podemos armazenar todos os dados do mundo, mas eles não servirão para nada se ficarem parados “juntando poeira”. Embora o Hadoop tenha vantagens sobre outros métodos de armazenamento de dados, o armazenamento de dados em si não substitui a análise de dados e o business intelligence.

Com a coleta de quantidades maiores de dados, o armazenamento se tornará cada vez mais caro. Se você não usar esses dados para extrair informações e valor, terminará gastando uma quantia exorbitante de dinheiro em um conjunto de dados incrível, mas inútil e em uma estratégia de dados infrutífera. Uma boa metáfora é pensar nos dados em termos de mineração de ouro: se você comprar um terreno para mineração e não minerá-lo, terá simplesmente gasto uma montanha de dinheiro em terra. Empregados corretamente, sistemas como o Hadoop apenas tornam o terreno um pouco mais barato.

Big Data é o termo em Tecnologia da Informação (TI) que trata sobre grandes conjuntos de dados que precisam ser processados e armazenados, o conceito do Big Data se iniciou com 3 Vs : Velocidade, Volume e Variedade.

O volume de dados gerado atualmente é monstruoso, todos os dias bilhões de novas informações são geradas globalmente, pense em todos os Apps, Sistemas, TVs, Celulares, aparelhos com IoT (Internet of Things ou Internet das Coisas) que estão capturando, processando e armazenando novos dados. Cada clique que é dado em uma página ou aplicativo é automaticamente guardado para que possa ser Analisado.

Big Data Analytics ou Big Data e Inteligência Analítica

São todos os meios, técnicas e ferramentas utilizadas para analisar, tirar novos Insights (Ideias) e métricas de toda essa nova realidade dados, pensando por exemplo em um Aplicativo, como Waze ou Instagram, milhões de novas informações são geradas a cada hora e para gerar valor de negócio (Business Insights) esses dados precisam de alguma maneira serem agrupados, consolidados e principalmente Analisados.

Aqui entram as ferramentas e técnicas de Big Data Analytics, onde podemos atuar avaliando as necessidades das áreas de negócios (Business Units) ou aplicando algoritimos de Ciência de Dados (Data Science) para categorizar, agrupar e analisar esses dados.

Existem perfis diferentes de trabalho em big data ( vamos falar isso mais para o final do artigo ), mas encontramos : Engenheiros de Dados, Cientistas de Dados, Administradores de Big Data, etc.

Tendências de Big Data

Sempre penso muito antes de responder qualquer questão que foi colocada a mim. Por isso, vamos falar um pouco sobre tudo que cerca o assunto antes de grandes definições. Para quem nunca viu, abaixo está uma pesquisa feita no Google Trends. O termo é pesquisado nos EUA desde sempre, mas em 2011 houve uma explosão de pesquisas tanto aqui, quanto lá na terra do Tio Sam.

O que caracteriza os problemas de gerenciamento de dados associados ao armazenamento de Big Data

Aqui no Brasil, vemos um crescimento constante a partir de 2012 e um pico em Maio/2013, exatamente quando a Veja publicou uma matéria sobre Big Data, não concordo com tudo que estava escrito na matéria, mas isso fica para um post a parte.

Outro gráfico interessante que coloquei abaixo é uma comparação entre as pesquisas sobre Big Data x Business Intelligence, essa pesquisa é Global. Podemos ver que o termo “Business Intelligence” reinou absoluto até o começo desse ano, onde o “Big Data” ultrapassou o termo.

O que caracteriza os problemas de gerenciamento de dados associados ao armazenamento de Big Data

No gráfico abaixo uma comparação entre Data Warehouse x Business Intelligence x Big Data. Em 2006, “Business Intelligence” passou “Data Warehouse” e em 2013, “Big Data” passou “Business Intelligence”.

O que caracteriza os problemas de gerenciamento de dados associados ao armazenamento de Big Data

Definição simples DO CONCEITO de BigData

Big Data pode ser definido, de maneira mais simplista, como um conjunto de técnicas capazes de se analisar grandes quantidades de dados para a geração de resultados importantes que, em volumes menores, dificilmente seria possível.

Em tese, podemos definir o conceito de Big Data como um conjunto de dados extremamente amplos que, por isto, necessitam de ferramentas especiais para comportar o grande volume de dados que são encontrados, extraídos, organizados, transformados em informações que possibilitam uma análise ampla e em tempo hábil.

Big Data = Grandes Dados ou Grandes Volumes de Dados?

Alguns DBAs e programadores que conheço migraram seus currículos instantaneamente de “Especialistas em Bancos de Dados” para “Especialistas em Big Data” afinal de contas trabalhavam com bancos de dados de alguns Terabytes (TBs) e teoricamente isso é Big Data. Na verdade não é simplesmente o volume de dados que define o Big Data, o conceito é calcado em um pilar de 3 itens, algumas pessoas falam em 4, mas vamos aos 3 principais:

O que caracteriza os problemas de gerenciamento de dados associados ao armazenamento de Big Data

Volume – Volume dos Dados:

Passamos a falar muito rápido de Gigabytes para Terabytes e agora estamos falando de Petabytes e outros volumes que não vou saber colocar aqui de cabeça para vocês. Hoje são contabilizados em média 12 Terabytes de Tweets diariamente, em 2012 foram gerados cerca de 2.834 Exabytes (que são milhões de Gigabytes) a previsão é que em 2020 se gerem anualmente 40.026 Exabytes de informações.

Velocity – Velocidade:

Hoje para alguns negócios, 1 minuto pode ser muito tempo, detecção de fraudes, liberações de pagamentos, análises de dados médicos ou qualquer outra informação sensível a tempo. A maior parte dos projetos de DW/BI (Data Warehouse e Business Intelligence) ainda tem latência em D-1, ou seja, carregamos o dia anterior. Ainda acreditamos que essa solução se aplique a muitos negócios, porém, para algumas análises, quanto mais próximo do tempo real, maior pode ser o incremento de negócio.

Variety – Variedade:

Big Data também poderia ser considerado como Any Data (qualquer dado), hoje temos capacidade de capturar e analisar dados estruturados e não estruturados, texto, sensores, navegação Web, áudio, vídeo, arquivos de logs, catracas, centrais de ar condicionado, entre outros.

Uma nova série de ferramentas está se tornando parte dos projetos, são as ferramentas de machine data, dados de máquina, quase qualquer aparelho eletrônico hoje em dia tem uma estrutura de dados ou programação, o ponto é que nem todos podem ser acessados (ainda..).

Qual o volume de dados gerado diariamente?

  • O Facebook armazena, acessa e analisa mais de 50 petabytes de informações geradas pelos usuários, a cada mês são gerados mais de 700 milhões de minutos por mês.
  • A cada minuto são feitos uploads de 48 horas de vídeos no Youtube, ou seja, nunca ninguém conseguirá assistir todos os vídeos do Youtube.
  • Diariamente mais de 500 milhões de mensagens são enviadas pelo Twitter, com uma média de 5700 TPS (Twittes per Second ou Mensagens por Segundo), o recorde é de 143.199 TPS.
  • O Google processa diariamente mais de 3 bilhões de pesquisas em todo o mundo, sendo desse total 15% totalmente inéditas. Seu “motor” de pesquisa rastreia 20 bilhões de sites diariamente, armazenando 100 petabytes de informação. Sem contar todas as informações que as companhias geram diariamente, sejam elas estruturadas ou não.

O que são informações estruturas e não estruturadas?

Consideramos:

  • Informações estruturadas – aquelas que possuem algum padrão ou formato que pode ser usado na sua leitura e extração dos dados. Dados de bancos de dados, sistemas legados, arquivos texto (sejam csv, txt ou XML).
  • Informações não estruturadas – não possuem um formato padronizado para leitura, podem ser arquivos Word, Páginas de Internet/Intranet, Vídeos, áudios, entre outros.

Quais ferramentas? não está fácil escolher..

Ok, já sabemos o que é o termo, temos uma ideia do que ele faz, mas qual ferramenta devo escolher? Não quero desanimar ninguém, mas olhando abaixo devem ter mais de umas 100 marcas diferentes em categorias de softwares diferentes também.

O que caracteriza os problemas de gerenciamento de dados associados ao armazenamento de Big Data

Landinscape Big Data

Deixei os Twitters dos responsáveis pela figura (Matt Turck e Shivon Zilis) que tiveram tempo e coragem para montar o gráfico acima.

Em Maio/2013 fiz 2 cursos em Chicago-USA no TDWI (www.tdwi.org) com o Professor Krish Krishnan (@datagenius), realmente foram muito bom, um curso bem completo sobre Big Data e outro específico e mais focado no Hadoop.

Gostamos muito do Hadoop, nos parece ser uma suíte muito completa e estamos colocando nossas fichas nele, mas claro, não colocamos todas as fichas na mesma aposta, a não ser que eu tenha certeza para mandar o “All-In” como fazemos no pôquer.

Como essa aposta não é pôquer e tenho um quadro com cerca de 100 tecnologias diferentes, apostamos uma quantidade de fichas no Hadoop, mas guardamos fichas para mais apostas.

Mas é sempre bom ficar atento ao mercado de ferramentas e softwares, como os bancos noSql que são outras vertentes de Big DAta

Existem muitas ferramentas, muitos fabricantes, muitas a definições a acontecer, as perguntas que nos fazem:

  • Mas qual devo estudar?
  • Qual é a melhor do mercado?
  • Qual a mais usada?

Todo esse mercado ainda é muito recente, estamos falando de produtos comerciais que tem 2 ou 3 anos no máximo. Muitas definições estão acontecendo nesse momento. Sabemos que o mercado americano gera a maior parte das tendências de tecnologia mundialmente e pelo que vimos, nem eles ainda tem uma ferramenta ou uma solução principal, ainda está tudo muito fragmentado.

E o meu Data Warehouse, o que acontecerá?

Ainda segundo o Professor Krish Krishnan, os dados oriundos do BigData serão complementares ao Data Warehouse existente, visto que ainda existirão sistemas legados com dados estruturados e bancos de dados, da maneira que fazemos BI hoje.

O grande desafio será integrar os dados das estratégias de BI com as de Big Data, analisar separadamente as informações não é complexo, medir Tweets, Likes do Facebook ou qualquer outro dado não estruturado individualmente.

Passará a ser um grande desafio quando cruzarmos esses dados com Notas Fiscais, Pedidos, Entregas, etc.

QUER TRABALHAR COM BIG DATA?

O profissional que tem interesse em trabalhar na área, deve possuir características tanto técnica como conhecimento em negócios. O caminho que recomendamos e adquirir conhecimento através das ferramentas utilizadas.

Além das ferramentas, o interessado na área deve desenvolver conhecimentos técnicos em programação, Linux e Modelagem de Dados. Conhecer sobre o negócio ou os processos da empresa e ter noções mínimas de estatísticas e matemática aplicada a dados.

As áreas de atuação de um profissional em Big Data podem ser classificadas de 3 maneiras:

ADMINISTRADOR

Responsável por manter os ambientes e ferramentas funcionando. Um profissional mais técnico que necessita de conhecimento em sistemas operacionais, principalmente em Linux, arquitetura de hardware e redes, a fim de, garantir melhor performance das ferramentas.

DESENVOLVEDOR

Responsável por desenvolver os processos de captura, transformação e carga de dados. O perfil do profissional tende a exigir conhecimentos de programação e das ferramentas utilizadas nos processos. Além disso, desenvolve novas rotinas e processos relacionados as necessidades de negócio.

CIENTISTA OU ANALISTA DE DADOS

Responsável por atender as demandas das áreas de negócio ou planejamento da empresa. Está mais ligada as áreas de negócios devendo ter o conhecimento das ferramentas de consulta e acesso aos dados, como noções de estatística.

O que caracteriza os problemas de gerenciamento de dados associados ao armazenamento de Big Data

Definições Rápidas :

Big Data Significado – Os dados que já não são facilmente tratados por tecnologias relacionais atuais, são necessárias novas técnicas como hadoop, nosql, etc. Também consideramos que tenha pelo menos 1 dos 3 V’s – Variedade, Velocidade e Volume.

Big Data Artigos – a Internet tem muitos artigos disponíveis sobre o assunto big data, mas vejam em nosso blog

Exemplos de Big Data – Em nossos materiais, temos exemplos de big data, ou converse conosco e podemos mostrar onde usar big data no seu dia a dia – Quero Conhecer Mais

Big Data Wikipedia – as Definições do Wikipedia sempre são interessantes, veja aqui o que temos sobre o Big Data : https://pt.wikipedia.org/wiki/Big_data

Desvantagens do BigData – talvez para empresas as desvantagens podem ser : alto custo, demora no retorno do investimento (ROI), busca por uma demanda para implantar a tecnlogia, mesmo sem ter um problema claro a ser resolvido, entre outros. Para as pessoas um problema grande, pode ser a privacidade, visto os sistemas tem coletados dados sobre todas as movimentações, perfis sociais, etc.

Big Data Analytics – veja nesse nosso artigo um comparativo entre as tecnologias : https://www.cetax.com.br/data-science-vs-big-data-vs-data-analytics/

Big Data Pesquisa – O google é talvez a maior fonte de pesquisa para o assunto big data, use-o sempre !

Agradecimento

Pessoal, agradeço por conseguirem chegar até aqui! Confira outros artigos artigos:

Obrigado!
Marco Garcia

https://www.cetax.com.br