O que é um Data Warehouse?

Data-Warehouse

O objetivo da tecnologia Data Warehouse (DW) é de fornecer os subsídios necessários para a transformação de uma base de dados com transações em Tempo Real de uma organização OLTP (Online Transaction Processing) para uma base de dados maior que não seja orientada ao ambiente operacional e que contenha o histórico de todos de interesse existentes na organização, utilizando a tecnologia OLAP (On-line Analytical Processing).

Além disso, é preciso conhecer dois conceitos da estruturas de DW, uma segundo Kimball e outra segundo Inmon.

Bill Inmon
Bill Inmon é mundialmente reconhecido como o “pai do armazém de dados (DW)”. Ele tem 26 anos de experiência em gerenciamento de tecnologia de banco de dados e perícia em projeto de armazém de dados, além de publicar 36 livros e mais de 350 artigos em importantes sites e jornais. Seus livros foram traduzidos para nove idiomas. Ele é conhecido globalmente por seus seminários em desenvolvimento de armazéns de dados e tem sido uma referência como conferencista para importantes empresas do mercado.
Segundo Inmon, Data Warehouse é uma coleção de dados orientados por assuntos, integrados, variáveis com o tempo e não voláteis, para dar suporte ao processo de tomada de decisão.

Ralph Kimball
Ralph Kimball é um proponente principal da abordagem dimensional para projetar grandes armazéns de dados. Ele atualmente ensina a projetar DW para grupos de TI, e ajuda clientes seletos no desenho específico de projetos de armazém de dados. Ralph é um colunista da revista Intelligent Enterprise e tem um relacionamento com a Sagent Technology, Inc., um fornecedor de ferramenta de armazém de dados. Seu livro “The Data Warehouse Toolkit” está amplamente reconhecido como o trabalho seminal sobre o assunto.

Kimball define assim: é um conjunto de ferramentas e técnicas de projeto, que quando aplicadas às necessidades específicas dos usuários e aos bancos de dados específicos permitirá que planejem e construam um data warehouse.

Futuramente entrarei, em um novo post, entrarei no detalhe da estrutura que cada um propõe. Continuando…

Com o amadurecimento dos sistemas de informação empresariais, as necessidades de análise dos dados cresceram paralelamente. Os sistemas OLTP (Online Transaction Processing ou Processamento de Transações em Tempo Real) não conseguiam cumprir a tarefa de análise com a simples geração de relatórios.
Nesse contexto, a implementação do data warehouse passou a se tornar realidade nas grandes corporações. O mercado de ferramentas de data warehouse, que faz parte do mercado de Business Intelligence cresceu então, e ferramentas melhores e mais sofisticadas foram desenvolvidas para apoiar a estrutura do data warehouse e sua utilização.
Atualmente, por sua capacidade de sumarizar e analisar grandes volumes de dados, o data warehouse é o núcleo dos sistemas de informações gerenciais e apoio à decisão das principais soluções de business intelligence do mercado.

O Data Warehouse é:

  • Orientado a Assunto:

O Data Warehouse tem por característica ser orientado ao redor do principal assunto da organização. O percurso do dado orientado ao assunto está em contraste com a mais clássica das aplicações orientadas por processos/funções ao redor dos quais os sistemas operacionais mais antigos estão organizados.

  • Integrado:

Facilmente o aspecto mais importante do ambiente de Data Warehouse é que dados criados dentro de um ambiente de Data Warehouse são integrados. SEMPRE. COM NENHUMA EXCEÇÃO.
A integração mostra-se em muitas maneiras diferentes:
Na convenção consistente de nomes,
Na forma consistente das variáveis,
Na estrutura consistente de códigos,
Nos atributos físicos consistente dos dados,
E assim por diante.

  • Não Volátil:

Sempre inserido, nunca excluído.

  • Variante no Tempo:

Posições históricas das atividades no tempo. O Data Warehouse possibilita a análise de grandes volumes de dados coletados dos sistemas transacionais (OLTP). São as chamadas séries históricas que possibilitam uma melhor análise de eventos passados, oferecendo suporte às tomadas de decisões presentes e a previsão de eventos futuros.

  • Não voláteis:

Por definição, os dados em um Data Warehouse não são voláteis, ou seja, eles não mudam, salvo quando é necessário fazer correções de dados previamente carregados. Os dados estão disponíveis somente para leitura e não podem ser alterados.

data warehouse
Identificação de Sistema de origem:

A fim de construir o DW, os dados apropriados devem ser localizados. Tipicamente, este envolverá ambos o sistema OLTP atual onde o “dia-a-dia” das informações sobre os negócios reside, e dados históricos para os períodos anteriores, que podem estar contidos em forma de “sistemas legados”. Freqüentemente estes sistemas legados são relacionais (bancos de dados), exigindo esforços apropriados para sua extração.

O que o Data Warehouse não é:

  • Produto:

O Data Warehouse não é um produto e não pode ser comprado como um software de banco de dados. O sistema de Data Warehouse é similar ao desenvolvimento de um ERP, ou seja, ele exige análise do negócio, exige o entendimento do que se quer retirar das informações. Apesar de existirem produtos que fornecem uma gama de ferramentas para efetuar o Cleansing (*) dos dados, a modelagem do banco e da apresentação dos dados, nada disso pode ser feito sem um elevado grau de análise e desenvolvimento.
Cleasing de dados: detecção e correção (e remoção) de registros corrompidos ou incorretos de uma Base de Dados.

  • A linguagem:

O sistema de Data Warehouse não pode ser aprendido ou codificado como uma linguagem. Devido ao grande número de componentes e de etapas, um sistema de Data Warehouse suporta diversas linguagens e programações desde a extração dos dados até a apresentação dos mesmos.

  • Projeto:

O sistema de Data Warehouse pode ser pensado mais como um processo. Ele também pode ser pensado como uma série de projetos menores que convergem para a criação de um único sistema de corporativo de Data Warehouse. Devido à natureza evolutiva do DW, é mais fácil aceitá-lo como um processo que está sempre em crescimento do que em um projeto com início-meio-fim, o que definitivamente ele parece mas não é.

  • Modelagem:

O sistema de Data Warehouse não é somente um modelo de banco de dados e não é constituído por mais de um modelo. Existe o processo todo do sistema de BI/DW que compreende todos os procedimentos de ETL, Cleansing e apresentação das informações ao usuário final.

  • Cópia do sistema OLTP:

Alguns acreditam que o sistema de Data Warehouse é somente uma cópia do sistema transacional existente na empresa. Assim como somente um modelo de dados não faz um sistema de BI/DW, uma cópia de um sistema transacional o faz menos ainda. Existem ferramentas que conseguem extrair dados dos sistemas transacionais existentes e criar relatórios a partir das informações coletadas, mas mesmo eles estão montando um pequeno conjunto de metadados(*) e armazenando a informação em algum local.
(*)Metadados: ou metainformação, são dados sobre outros dados. Os metadados facilitam o entendimento dos relacionamentos e a utilidade das informações dos dados.

Fonte:
http://litolima.com/2010/01/11/uma-definicao-para-data-warehouse-armazem-de-dados/

http://social.technet.microsoft.com/wiki/pt-br/contents/articles/10275.estruturas-de-dw-kimball-x-inmon.aspx

Deixe um comentário