Fiz alguns exercícios com o DataStage da IBM. Não sou lá dos maiores fãs da IBM, mas, preciso confessar que o DataStage me convenceu. Até os tutoriais de instalação e guias de uso foram perfeitos (alguém vai usar isso contra mim algum dia 🙂 ).
Mas, o que é o DataStage?
Acima de tudo é uma ferramenta de consolidação que faz faz parte do InfoSphere Information Server. Com ele é possível fazer ETL (Extract-Transform-Load), ELT, e, TEL.
É uma ferramenta fantástica que permite criar “jobs” que extraem informações de, virtualmente, qualquer banco de dados, manipulá-las, através de regras de negócios, e, persisti-las, igualmente em qualquer banco de dados. Ponto para a IBM que não se limitou aos seus enjoados e chatões DB2 e (des)Informix.
O Objetivo deste laboratório, era, na verdade “brincar” com o módulo QualityStage Designer, que vai de encontro com uma das áreas de especialização que tenho me concentrado: MDM/DQ. Mas, a ferramenta é tão surpreendente que, praticamente, me obrigou a estender os mesmos exercícios.
Estou mais habituado ao Oracle Enterprise DQ (Oracle Enterprise Data Quality), e, recentemente usando o Spectrum DQ (Pitney Bowes), não tive a menor dificuldade em usar seja o DataStage, seja, o QualityStage. Realmente, a IBM acertou a mão neste brinquedinho.
Como ferramenta de DQ: Aprovado! Há componentes suficientes para suprir boa parte das necessidades de DQ. Na parte de Geo (tratamento de endereços) leva um banho do Spectrum da Pitney e Bowes. Mas, no restante, é excelente. É claro que num final de semana, seguindo-se tutoriais, não é o melhor dos cenários. Submete-lo a uma POC faria muito mais sentido. Contudo, eu não me sentiria nem um pouco desconfortável em utiliza-lo em produção. Eu gostando ou não da IBM, é um pedigree de raça e renome.
A conjunção IBM InfoSphere DataStage + QualityStage é brilhante, ao adicionar-se à esta dupla o InfoSphere Federation Server, a ferramenta mostra à que veio.
Com o InfoSphere Federation Server, que é um “big <federador>” 🙂 é possível relacionar tabelas em servidores distintos, sejam caixas distintas ou “vendors” (fabricantes) distintos.
– Facilidade de instalação e inicio de uso
– Integração com múltiplos bancos de dados e “federação”
– Conecta-se à qualquer fonte de dados: RBMS, arquivo texto, XML, Mainframe (até na NASA 🙂 )
– Criação de “jobs” (fluxos de dados) com destaque para programação e SQL
– Implementação de comandos SQL
– Módulo de Data Quality (poderoso, fartura de componentes, padrão de mercado, curva de aprendizagem)
– Acho que todo mundo de TI deveria falar inglês, mas, documentação em português é fundamental
– O tratamento de endereço do QualityStage é um tanto pobre comparado aos concorrentes, mas suficiente
Para aqueles que não tiverem como baixar, instalar e testar, recomendo, complementar a leitura através do texto em português da própria IBM, através do link: https://www.ibm.com/developerworks/br/data/library/techarticle/dm-0703harris/index.html.
Se voce está procurando uma excelente ferramenta de Data Quality, voce acaba de encontrar uma. Embora parceiro Oracle, minha filosofia neste Blog não é puxar a sardinha para nenhum lado. Meu objetivo aqui é testar, e escrever minhas impressões sejam elas boas ou más, sobre qualquer ferramenta que seja.