Mostrando postagens com marcador olap. Mostrar todas as postagens
Mostrando postagens com marcador olap. Mostrar todas as postagens

5 de março de 2012

Conceitos Básicos Sobre OLAP


OLAP é um conceito de interface com o usuário que proporciona a capacidade de ter idéias sobre os dados, permitindo analisá-los profundamente em diversos ângulos. As funções básicas são:

  • Visualização multidimensional dos dados;
  • Exploração;
  • Rotação;
  • Vários modos de visualização.

O OLAP e o Data Warehouse são destinados a trabalharem juntos. Enquanto o DW armazena as informações de forma eficiente, o OLAP deve recuperá-las com a mesma eficiência, porém com muita rapidez.

O OLAP é uma interface com o usuário e não uma forma de armazenamento de dados, porém se utiliza do armazenamento para poder apresentar as informações. Os métodos de armazenamento são:

  • ROLAP (OLAP Relacional): Os dados são armazenados de forma relacional.
  • MOLAP (OLAP Multidimensional): Os dados são armazenados de forma multidimensional.
  • HOLAP (OLAP Híbrido): Uma combinação dos métodos ROLAP e MOLAP.
  • DOLAP (OLAP Desktop): O conjunto de dados multidimensionais deve ser criado no servidor e transferido para o desktop. Permite portabilidade aos usuários OLAP que não possuem acesso direto ao servidor.

Os métodos mais comuns de armazenamento de dados utilizados pelos sistemas OLAP são ROLAP e MOLAP, a única diferença entre eles é a tecnologia de banco de dados. O ROLAP usa a tecnologia RDBMS (Relational DataBase Management System), na qual os dados são armazenados em uma série de tabelas e colunas. Enquanto o MOLAP usa a tecnologia MDDB (MultiDimensional Database), onde os dados são armazenados em arrays multidimensionais.

ROLAP é mais indicado para DATA WAREHOUSE pelo grande volume de dados, a necessidade de um maior número de funções e diversas regras de negócio a serem aplicadas. Responde às consultas da mesma forma que os aplicativos RDBMSs, a velocidade da resposta depende da informação desejada, pois a maior parte do processamento é feito em tempo de execução tendo em vista que os dados pré-calculados e resumidos geralmente não atendem a todas as solicitações dos usuários.

MOLAP é mais indidado para DATA MARTS, onde os dados são mais específicos e o aplicativo será direcionado na análise com dimensionalidade limitada e pouco detalhamento das informações fornecendo uma resposta rápida para praticamente qualquer consulta, pois no modelo multidimensional são gerados previamente todas as combinações e resumos possíveis.



fonte: http://www.devmedia.com.br/conceitos-basicos-sobre-olap/12523

ETL – Extração, Transformação e Carga de Dados


Envolve a movimentação dos dados de origem nos sistemas transacionais e/ou sistemas legados, obedecendo as regras de negócio. A mesma se dá basicamente em três passos, extração (E), transformação (T)  e carga (L – Loader) dos dados, esses são os mais trabalhosos, complexos e também muito detalhados, embora tenhamos várias ferramentas (falaremos mais abaixo) que nos auxiliam na execução desse trabalho.

1º passo: Definir as fontes de dados e fazer a extração deles. 
As origens deles podem ser várias e também em diferentes formatos, onde poderemos encontrar desde os sistemas transacionais das empresas até planilhas, flat files (arquivos textos), dados do Mainframe, etc.

2º passo: Transformar e limpar esses dados. 
É muito comum, na obtenção dos dados que, no mais das vezes, são antigos e desconhecidos, encontrarmos muito ‘lixo’ e inconsistências. Por exemplo. Quando um vendedor de linhas telefônicas for executar uma venda, ou inscrição, ele está preocupado em vender, e não na qualidade dos dados que está inserindo na base, então se por acaso o cliente não tiver o número do CPF a mão, ele cadastra um número qualquer, desde que o sistema aceite, um dos mais utilizados é o 999999999-99. Agora imagine um diretor de uma companhia telefônica consultar o seu Data Warehouse (DW) para ver quais são os seus maiores clientes, e aparecer em primeiro lugar o cliente que tem o CPF 999999999-99 ? Seria no mínimo estranho. Por isso, nessa fase do DW, fazemos a limpeza desses dados, para haver compatibilidade entre eles.
Além da limpeza, temos de fazer na maioria das vezes uma transformação, pois os dados provêm de vários sistemas, e por isso, geralmente uma mesma informação tem diferentes formatos, por exemplo: Em alguns sistemas a informação sobre o sexo do cliente pode estar armazenada no seguinte formato : “M” para Masculino e “F” para Feminino, porém em algum outro sistema está guardado como “H” para Masculino e “M” para Feminino, em outro ainda, podemos encontrar “1” para Masculino e “2” para Feminino,  e assim sucessivamente. Quando levamos esses dados para o DW, deve-se ter uma padronização deles, ou seja, quando o usuário for consultar o DW, ele não pode ver informações iguais em formatos diferentes. Assim sendo, quando fazemos o processo de ETL, transformamos esses dados e deixamos num formato uniforme sugerido pelo próprio usuário, como por exemplo “M” para Masculino e “F” para Feminino. No DW, teremos somente M e F, fato esse que facilitará a análise dos dados que serão recuperados pela ferramenta OLAP.





Staging Area é  parte do Data Warehouse responsável por receber a extração, transformação e carga (ETL) das informações dos sistemas transacionais legados, para posterior geração dos Data Marts de destino, com as características:

  • Área fora do acesso dos usuários.
  • Não deve suportar queries dos Usuários.
  • Pode ser composta por flat files (arquivos textos) ou tabelas de banco de dados na terceira forma normal (normalizadas).







fonte: http://litolima.com/2010/01/13/etl-extracao-transformacao-e-carga-de-dados/

Data Warehouse: definições importantes


OLAP (Online analisys process) – Programa que permite transformar os dados relacionais (OLTP) em dadosconsolidados utilizando cross-join e gerando os cubos com os cruzamentos. A arquitetura OLAP é otimizada paraconsolidação e leitura, não permitindo gravação ou alterações;

OLTP (Online transaction process) – São os servidores de banco de dados utilizados comercialmente desdeMicrosoft SQL Server, Oracle ou mesmo Access e Excel, já que todos estes tem os dados otimizados para operações de leitura e gravação constante. Sua desvantagem é a dificuldade em gerar dados consolidados em tempo hábil;

Data Warehouse – Repositório de cubos gerados para análise; coleção de dados orientada por temas, integrada, variante no tempo e não volátil, que tem por objetivo dar suporte aos processos de tomada de decisão;

Pivot Table – Programa visualizador dos cubos, permitindo montar visões e tabelas dinamicamente arrastandoos dados em colunas e linhas. Um bom programa para esta tarefa é o Excel;

Cross-Join – Processo onde se faz a junção dos dados e transforma-se as colunas em linhas e as linhas emcolunas gerando dados cruzados;

Cubo – Dados resultantes do processo de OLTP com o cross-join que são manipulados pelo pivot table.

Data mart (repositório de dados)  – sub-conjunto de dados de um Data warehouse (armazém de dados). Geralmente são dados referentes a um assunto em especial (ex: Vendas, Estoque, Controladoria) ou diferentes níveis de sumarização (ex: Vendas Anual, Vendas Mensal, Vendas 5 anos), que focalizam uma ou mais áreas específicas.

Operações em um OLAP

Drill Down: é a possibilidade de poder obter dados mais detalhados a partir de dados de mais alto nível, através de diferentes dimensões. Em outras palavras, drill down nada mais é do que aumentar o nível de detalhes de uma consulta ou relatório, adicionando-lhes novas linhas de cabeçalho provenientes de tabelas dimensão. Por exemplo, uma tela de um computador pode mostrar um mapa com figuras de Estados. Clicando com o mouse sobre um determinado Estado, poderia ser apresentado às vendas em cada região e clicando-se sobre uma determinada região seria possível verificar o desempenho dos vendedores.

Drill up ou roll up: é o inverso de drill down, ou seja, é apresentar os dados em um nível mais elevado a partir de um nível mais detalhado

Slice: compreende a extração de informações sumarizadas de um cubo de dados, a partir do valor de uma dimensão.

Dice: é a extração de um "subcubo" ou a interseção de vários slices.

Pivot: é o ângulo pelo qual os dados são vistos ou trocados. Na prática corresponde a modificação da posição das dimensões em um gráfico ou troca de linhas por colunas em uma tabela.