MDM
ETL é um velho conhecido. ETL significa Extract – Transform – Load, ou, em “bom quase bom português”: Extrair, Transformar e Carregar. Nos últimos anos alguns “vendors” (fabricantes), notadamente, a IBM, tem aparecido com “várias variações”, tais como: TEL e T-ETL, por exemplo. Mas, no fundo “ETL” em que pese o significado de suas “letrinhas combinadas” é um processo de migração, de transporte de dados.

 O objetivo máximo de uma ferramenta de ETL é transportar dados de uma ou mais fontes de origem (A) para um destino (B). Normalmente, (A) é uma banco de dados relacional e/ou arquivos texto (xml, csv, “plain text”). E, o destino ou (B), geralmente, é um Data Mart ou Data Warehouse (banco de dados relacional, NoSQL, BigData, etc). Obviamente, existem outros usos mais específicos (e até mais bacanas) para ETL.

Então, num processo de ETL, temos em resumo:

–       Fase 1 – Extração (Extract):

  •  Os dados são extraídos de uma ou mais fontes/origens (A)

–       Fase 2 – Transfomação (Transform):

  • Aplicação de regras “de-para”: SP para São Paulo, RJ para Rio de Janeiro, ou ainda, 1 para Masculino, 2 para Feminino e 3 para … J
  • Cálculos: Preço Total de Venda = Quantidade x Valor Unitário em U$ x Cotação do Dólar na data de venda
  • Agrupamentos: Total por Categoria, Densidade demográfica de uma macro região
  • Transposição/Rotação: transformar linhas em colunas e vice-versadatawarehouse
  • Seleção/Exclusão de dados, por exemplo, somente clientes do estado de SP serão entregues no destino
  • Criação e/ou substituição de chaves (id’s – surrogate Keys)
  • Alguma padronização pode acontecer: Geladeira = Refrigerador, SPaulo, São Paulo, S.Paulo, San Paolo viram São Paulo, por exemplo.

–       Fase 3 – Carga (Load)

  • Carregar os dados no destino (Data Warehouse (DW), Data Mart, Big Data (NoSQL), etc)

Notem que toda a magia ocorre na fase 2, no “T” do “ETL”, contudo, todas as fases são igualmente importantes, pois, uma falha em qualquer uma delas, pode, afetar, negativamente, o resultado do processo inteiro.

Então, não tenho receio de definir o ETL como uma grande movimentação de dados, que pode, sim, acontecer total, parcial, incremental ou diferencialmente. E, que, em havendo origem (A) pode-se a qualquer tempo (salvo as proporções e esforços necessários) recriar o destino (B). Logo, (A) é, fundamentalmente, mais importante que (B).

Normalmente, utilizam-se ferramentas de ETL, em grande parte, operadas através da criação de fluxos de dados. Dentre as ferramentas mais conhecidas: InfoSphere DataStage (IBM), ODI – Oracle Data Integrator (Oracle), OWB – Oracle Warehouse Builder (Oracle), PowerCenter (Informatica), CloverETL (Clover), e, gratuitas tais como: Open Studio for Data Integration (Talend),  CloverETL Community (Clover), Kettle (Pentaho).

Já um processo de MDM (Master Data Management) contém dentro de si o ETL. Embora muitos especialistas discordem. Então, dentro de um processo de MDM, também coleta-se… extrai-se dados de uma ou mais origens (A), e, muitas transformações acontecem, transporta-se… e, finalmente, entrega-se estes dados em um ou mais destinos (B).

A grande diferença agora está no T… Ah, este “têzinho” trabalha muito dentro de um processo de MDM.

No T, agora, além de tudo o que vimos que é feito num ETL tradicional, também se aplica (no caso de MDM):

–       Geo-localização: correção ajuste de endereço (por exemplo: Rua Paulista vira Avenida Paulista), são corrigidos CEP’s, nomes de cidades, estados, logradouros, bairros. A numeração do endereço é verificada contra a faixa de números do logradouro, e, são atribuídas as coordenadas geográficas: Latitude e Longitude

–       Padronização: descrição de produto, categoria, classificação, nome de pessoas, medidas, etc.

–       Higienização:

–       Algumas regras de negócios são aplicadas

–       Agrupamento de dados

–       Deduplicação de dados: eliminação de dados idênticos (ou parecidos conforme a necessidade).

O que é MDM?

data-qualityMaster Data Management ou Gerenciamento de Dados Mestres. E “dados mestres” vem a ser todo dado não transacional (movimentos) que são importantes para a empresa. Exemplo: Pessoas (clientes, fornecedores, parceiros, revendedores, distribuidores, colaboradores, etc), Regras de Negócios, Items (produtos e suas definições).

No Brasil, fomos levados a acreditar que cadastros não importantes, mas, os movimentos (dados não mestres): vendas, compras, estoque, contas à pagar e receber, etc.

Será que o cadastro de clientes não é importante? Vejamos:

–       Imagine disparar uma campanha de artigos para gestantes para meninas de 15 anos? (Isto aconteceu nos Estados Unidos com a gigante Target.com. Rendeu-lhe alguns processos na justiça e milhares de dólares pelo ralo)

–       Imagine um dos maiores bancos privados do país abrir 2 agências em uma região que julga ter muitos clientes potencias?  Descobre-se que seus dados de geo localização são falhos. Isto aconteceu com um grande banco nacional, que se viu obrigado a fechar as duas agências, e implantar um dos maiores projetos de MDM da América Latina.

–       E se uma conhecida rede de varejo resolve fazer uma grande promoção, com milhares de reais em campanhas na televisão, visando um incremento de mais de 25% nas vendas de certo período, com um aumento de 7% no lucro deste mesmo período? Após a campanha, analisa-se que ocorreu um incremento recorde de 37% nas vendas do período. Mas, logo vem a dura realidade: backlog de pedidos (entregas emperradas), e, prejuízo de quase 15%. Motivo: Regras de negócios, fretes, e items mal definidos – dados falhos.

Não estou dizendo que os dados transacionais não sejam importantes. De fato, são. E muito. Mas, minha geração, que iniciou em TI (antigamente era Processamento de Dados) na década de 80, foi ensinada, doutrinada, motivada e enganada a acreditar que dados mestres (vulgo cadastros) não são tão importante, pois, são “recuperáveis”. “Ah! Se perdemos o cadastro de clientes, colocamos o Joãozinho e o Zezinho para digitar”. Não, não é bem assim.

Hoje, sistemas cada vez mais complexos e inteligentes, robôs digitais, analisadores de comportamento, sensores, capturam dados “transacionais”, mas, são balizados e tomam decisões apoiadas em “informações” extraídas dos dados mestres (mais uma vez: cadastros).

Portanto, os “flaw data”, dados falhos podem levar sistemas inteligentes e complexos a tomarem e/ou levarem a tomadas de decisões, igualmente, falhas.

Temos então, que o processo de MDM – Master Data Management veio, justamente, para cuidar destes “cadastros”, melhorando a qualidade dos dados nele contidos, para que possam produzir informação de alta qualidade.

MDM e Big Data podem ou não andar juntos. É incorreto dizer que MDM só coexiste num ambiente de Big Data. São conceitos, totalmente, diferentes que podem ou não se complementar. Contudo, MDM está muito mais conectado com o mundo de RDBMS (Relational Data Base Management System) – ou seja, o bom e velho banco de dados relacional (Oracle, MySQL, DB2, Sybase, SQL Server, etc).

MDM não é um processo que termina. É um processo contínuo, infinito. Enquanto houver entrada e/ou alteração de dados mestres, o processo de MDM irá existir. Inclusive, retro alimentando-se de dados que já passaram pelo processo.

MDM irá substituir o ETL? Não creio. ETL tem mais a ver com transporte de qualquer tipo de dados, MDM, tem a ver com melhorar a qualidade dos dados.

ETL pode transformar dados, mas, o processo simples de ETL não se preocupa em qualidade do dado entregue no destino. O MDM é um processo que utiliza ferramentas de ETL para melhorar a qualidade dos dados através de bancos de dados de enriquecimento.

ETL é uma ferramenta do processo de MDM, uma pequena parte de um processo complexo que envolve ferramentas, pessoas, e processos.

Liderei o primeiro projeto de MDM em 2008. E já se foram quase 6 projetos concluídos. Não é possível segmentar, pois, cada cliente pertencia a um segmento. Contudo, se observarmos o gráfico, veremos que são os maiores tomadores de MDM em nível mundial:

tdwi

A procura por MDM, ainda, é incipiente no Brasil. Não há profissionais treinados, e, a maioria das tentativas de voo solo se traduz em perdas irreparáveis, tanto, financeiras, como de imagem para as empresas. Estas malfadas tentativas de implantar o MDM na base do “vamo-que-vamo” tem colaborado para arranhar a imagem das equipes envolvidas, e, danificar o conceito de MDM, gerando, verdadeiros “Franksteins” que beiram a inutilidade.

MDM é um processo complexo. Muitas vezes caro. Pode ser aplicado em qualquer segmento, em qualquer porte de empresa ou governo. Contudo, somente empresas de porte médio ou maior, conseguirão implantar um MDM vencedor e conseguirão retorno com isso.