Acho que a melhor resposta é: Hadoop é o elefantinho desengonçado aí do lado. E de fato é. Quem está acostumado a assistir minhas aulas e palestras, deve estar pensando “o titio já está de sacanagem”. Não, não estou. Garanto. Este elefantinho aí ao lado, é do filho de Doug Cutting, criador do “Hadoop” (na verdade o filho dele é quem o criou). Doug decidiu usar este nome por ser de simples pronunciação, divertido, e acima de tudo único (acho que ninguém além de seu filhinho conhecia o que era um hadoop). Ser único tem uma vantagem astronômica nos dias googlianos! É facilmente localizável nas ferramentas de busca.

Agora, também podemos dizer que Hadoop é uma nova forma de armazenar e manipular grandes bancos de dados, sejam estes normalizados ou não. Na verdade, dentro do universo hadoop, sequer precisamos organizar os bancos de dados em tabelas, como faríamos num RDBMS tradicional

Hadoop não é para todos! Hadoop encontra sua existência em grandes bases de dados. E vamos combinar, nada menor que 1TB deve ser considerado grande nestes dias de Big Data.

Hadoop não substitui nem jamais substituirá os bancos de dados mais tradicionais, como os RDBMS/SGBDR que vemos atualmente. Hadoop não serve para fazer OLTP (transações, escrita e leitura concomitante). Hadoop encontra sua melhor forma em operações OLAP (grande quantidade de consultas, entenda-se, leitura). Pode-se dizer que Hadoop é mais indicado para operações ESCREVA uma vez, e, LEIA várias vezes.

Hadoop é um conjunto de ferramentas, um ecossitema que trabalham em sintonia para resolver as questões abaixo:

  • Manipulação de big data (grandes massas de dados). Nenhuma massa de dados é muito grande, 1TB, 100TB, 1PB ou maior, muito maior;
  • Análise complexa de dados, e, em larga escala;
  • Processamento de grandes logs;
  • Datawarehouse;
  • Análise de vídeos & imagens;
  • Computação avançada: inteligência artificial, “learning machines”, tomada de decisão

Hadoop tem sido utilizado, em mundo real, para resolver problemas como os listados abaixo:

  • Análise de Terabytes de dados provido por milhares de sensores meteorológicos espalhados pelo mundo, no intuito de salvar vidas humanas, através da predição de desastres e catástrofes meteorológicas;
  • Análise de milhares de Terabytes de informações financeiras, completamente desorganizadas e desnormalizadas, oriundas: de blogs, jornais, revistas, bolsas de valores para ajudar corretoras de valores e bancos na compra e venda eficiente e lucrativa de ações;
  • Determinação de risco em operações financeiras de cartões de créditos;
  • Projetos de inteligência artificial onde é necessário processar imensas massas de dados em poucos segundos;
  • Traçar perfil de consumidores em poucos segundos, e, oferecer ofertas com grandes chances de venda;

Tenho visto as aplicações mais variadas, e, algumas até malucas. Mas, o que tenho visto em comum em todas as aplicações é: Grande Volume de Dados (>1TB) versus baixíssimo tempo de resposta.

Quero reforçar: O hadoop não vai substituir o MySQL, Oracle, DB2, etc. O hadoop tem outro propósito e aplicação. RDBMS e o hadoop irão coexistir e e se complementarem ao logo do tempo.