Sabe essa confusão toda sobre o que é Data Warehouse e qual o papel dele em um projeto de BI? Vamos terminar com ela aqui.
Antigamente só se falava em projetos de Data Warehouse, e por isso ainda se confunde muito Data Warehouse com Business Intelligence. Hoje em dia já temos os projetos de BI, e o Data Warehouse está incorporado nele.
O Data Warehouse é quem otimiza todo o processo de consultas e análises em grandes volumes de dados, sendo o ponto central para a tomada de decisão.
Mas antes, vamos dar um pouco de contexto
Onde o Data Warehouse se encontra no ciclo da informação (ou ciclo da tomada de decisão)?
Vamos olhar as 3 primeiras partes da imagem: data source, data integration e data storage.
Os dados começam no data source, que são as planilhas, ERPs, CRMs etc. Os data source são geralmente compostos por dados estruturados ou semiestruturados, onde não se pode ter redundância, e são modelados para a inserção e edição dos dados, não para a consulta.
Na segunda parte, de data integration, é onde acontece o ETL, mas não vou me aprofundar nele agora. Para resumir essa etapa: os dados são retirados das fontes de origem, transformados de forma que façam sentido juntos e inseridos no Data Warehouse.
Depois vem a terceira parte, que chamamos de data storage, que é onde entra o Data Warehouse e onde temos nossas informações de fato.
É importante avisar que mesmo o Data Warehouse vindo em um estágio depois do ETL, você deve se preocupar com ele antes. O ETL só vai poder ser feito depois que o Data Warehouse estiver pronto, porque é ele quem define de que forma os dados vão ser transformados e onde deverão ser inseridos.
Chega de contexto, o que é esse Data Warehouse afinal?
O Data Warehouse é quem centraliza os dados da empresa e elimina os ruídos de comunicação entre os departamentos, deixando tudo unificado.
Não é incomum acontecer de os dados de setores diferentes não baterem. Por exemplo, o setor de marketing ter registrado um total de vendas diferente do que o setor de vendas. Isso acontece porque os dados de uma empresa vêm de diversas fontes, tanto de sistemas internos como externos, e o Data Warehouse elimina esse tipo de problema, retirando os dados de todas essas fontes e unificando eles.
E assim você consegue ter uma visão total, e não só parcial, do que realmente está acontecendo. Por isso ele tem um grande enfoque na consistência e confiabilidade dos dados, além de ser modelado pensando na consulta rápida dos dados, e não na inserção ou alteração deles.
Com o Data Warehouse, e com os dados já transformados em informação, você consegue controlar os níveis de acesso, garantindo que cada pessoa receba os relatórios de que precisa – e evitando que veja os que não deve.
O Data Warehouse é todo planejado com foco na tomada de decisão e no que o negócio precisa. É importante tomar cuidado para não se limitar aos dados já existentes na hora de desenhar o Data Warehouse, mas fazer ele pensando no que o negócio precisa e nas informações necessárias para a tomada de decisão.
O Data Warehouse é a parte mais crítica nos projetos de BI. E por isso é tão necessário ter uma boa habilidade de modelagem de Data Warehouse, porque se você errar nessa parte, vai comprometer o ETL, a construção dos cubos, a própria criação dos dashboards e, principalmente, vai fazer com que erre também na entrega da tomada de decisão.
Além de ser a parte mais crítica do projeto, é quem garante a entrega do resultado. Depois que você já entendeu o conceito de BI e como ele funciona, o próximo passo é dominar a modelagem de Data Warehouse.