O que é Hadoop?

Acho que a melhor resposta é: Hadoop é o elefantinho desengonçado aí do lado. E de fato é. Quem está acostumado a assistir minhas aulas e palestras, deve estar pensando “o titio já está de sacanagem”. Não, não estou. Garanto. Este elefantinho aí ao lado, é do filho de Doug Cutting, criador do “Hadoop” (na verdade o filho dele é quem o criou). Doug decidiu usar este nome por ser de simples pronunciação, divertido, e acima de tudo único (acho que ninguém além de seu filhinho conhecia o que era um hadoop). Ser único tem uma vantagem astronômica nos dias googlianos! É facilmente localizável nas ferramentas de busca.

Agora, também podemos dizer que Hadoop é uma nova forma de armazenar e manipular grandes bancos de dados, sejam estes normalizados ou não. Na verdade, dentro do universo hadoop, sequer precisamos organizar os bancos de dados em tabelas, como faríamos num RDBMS tradicional

Hadoop não é para todos! Hadoop encontra sua existência em grandes bases de dados. E vamos combinar, nada menor que 1TB deve ser considerado grande nestes dias de Big Data.

Hadoop não substitui nem jamais substituirá os bancos de dados mais tradicionais, como os RDBMS/SGBDR que vemos atualmente. Hadoop não serve para fazer OLTP (transações, escrita e leitura concomitante). Hadoop encontra sua melhor forma em operações OLAP (grande quantidade de consultas, entenda-se, leitura). Pode-se dizer que Hadoop é mais indicado para operações ESCREVA uma vez, e, LEIA várias vezes.

Hadoop é um conjunto de ferramentas, um ecossitema que trabalham em sintonia para resolver as questões abaixo:

  • Manipulação de big data (grandes massas de dados). Nenhuma massa de dados é muito grande, 1TB, 100TB, 1PB ou maior, muito maior;
  • Análise complexa de dados, e, em larga escala;
  • Processamento de grandes logs;
  • Datawarehouse;
  • Análise de vídeos & imagens;
  • Computação avançada: inteligência artificial, “learning machines”, tomada de decisão

Hadoop tem sido utilizado, em mundo real, para resolver problemas como os listados abaixo:

  • Análise de Terabytes de dados provido por milhares de sensores meteorológicos espalhados pelo mundo, no intuito de salvar vidas humanas, através da predição de desastres e catástrofes meteorológicas;
  • Análise de milhares de Terabytes de informações financeiras, completamente desorganizadas e desnormalizadas, oriundas: de blogs, jornais, revistas, bolsas de valores para ajudar corretoras de valores e bancos na compra e venda eficiente e lucrativa de ações;
  • Determinação de risco em operações financeiras de cartões de créditos;
  • Projetos de inteligência artificial onde é necessário processar imensas massas de dados em poucos segundos;
  • Traçar perfil de consumidores em poucos segundos, e, oferecer ofertas com grandes chances de venda;

Tenho visto as aplicações mais variadas, e, algumas até malucas. Mas, o que tenho visto em comum em todas as aplicações é: Grande Volume de Dados (>1TB) versus baixíssimo tempo de resposta.

Quero reforçar: O hadoop não vai substituir o MySQL, Oracle, DB2, etc. O hadoop tem outro propósito e aplicação. RDBMS e o hadoop irão coexistir e e se complementarem ao logo do tempo.

2 comentários em “O que é Hadoop?”

  1. Boa tarde,
    Alexandre.

    Quem desenvolveu o Hadoop?
    Existe alguma documentação deste Banco de Dados?
    Obrigado.

    1. Olá Sandro,

      Acho que tudo que voce precisa está em http://hadoop.apache.org. É importante que vc tenha em mente que hadoop não é um banco de dados, mas sim, um ecossistema, uma plataforma, que dentre, outras coisas funciona, e, tem um banco de dados 🙂

      Hadoop não deve ser comparado com bancos de dados relacionais, tais como: MySQL, Oracle, SQL Server, etc. O ambiente hadoop é mais propício para aplicações que trabalham com OLAP, que, escrevem um única vez e lêem várias.

      Abs,

      AA

Deixe um comentário

O seu endereço de e-mail não será publicado.

Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são processados.