Concurso do Senado Federal: olap

Mostrando postagens com marcador olap. Mostrar todas as postagens

5 de março de 2012

Conceitos Básicos Sobre OLAP

OLAP é um conceito de interface com o usuário que proporciona a capacidade de ter idéias sobre os dados, permitindo analisá-los profundamente em diversos ângulos. As funções básicas são:

Visualização multidimensional dos dados;
Exploração;
Rotação;
Vários modos de visualização.

O OLAP e o Data Warehouse são destinados a trabalharem juntos. Enquanto o DW armazena as informações de forma eficiente, o OLAP deve recuperá-las com a mesma eficiência, porém com muita rapidez.

O OLAP é uma interface com o usuário e não uma forma de armazenamento de dados, porém se utiliza do armazenamento para poder apresentar as informações. Os métodos de armazenamento são:

ROLAP (OLAP Relacional): Os dados são armazenados de forma relacional.
MOLAP (OLAP Multidimensional): Os dados são armazenados de forma multidimensional.
HOLAP (OLAP Híbrido): Uma combinação dos métodos ROLAP e MOLAP.
DOLAP (OLAP Desktop): O conjunto de dados multidimensionais deve ser criado no servidor e transferido para o desktop. Permite portabilidade aos usuários OLAP que não possuem acesso direto ao servidor.

Os métodos mais comuns de armazenamento de dados utilizados pelos sistemas OLAP são ROLAP e MOLAP, a única diferença entre eles é a tecnologia de banco de dados. O ROLAP usa a tecnologia RDBMS (Relational DataBase Management System), na qual os dados são armazenados em uma série de tabelas e colunas. Enquanto o MOLAP usa a tecnologia MDDB (MultiDimensional Database), onde os dados são armazenados em arrays multidimensionais.

ROLAP é mais indicado para DATA WAREHOUSE pelo grande volume de dados, a necessidade de um maior número de funções e diversas regras de negócio a serem aplicadas. Responde às consultas da mesma forma que os aplicativos RDBMSs, a velocidade da resposta depende da informação desejada, pois a maior parte do processamento é feito em tempo de execução tendo em vista que os dados pré-calculados e resumidos geralmente não atendem a todas as solicitações dos usuários.

MOLAP é mais indidado para DATA MARTS, onde os dados são mais específicos e o aplicativo será direcionado na análise com dimensionalidade limitada e pouco detalhamento das informações fornecendo uma resposta rápida para praticamente qualquer consulta, pois no modelo multidimensional são gerados previamente todas as combinações e resumos possíveis.

fonte: http://www.devmedia.com.br/conceitos-basicos-sobre-olap/12523

ETL – Extração, Transformação e Carga de Dados

Envolve a movimentação dos dados de origem nos sistemas transacionais e/ou sistemas legados, obedecendo as regras de negócio. A mesma se dá basicamente em três passos, extração (E), transformação (T) e carga (L – Loader) dos dados, esses são os mais trabalhosos, complexos e também muito detalhados, embora tenhamos várias ferramentas (falaremos mais abaixo) que nos auxiliam na execução desse trabalho.

1º passo: Definir as fontes de dados e fazer a extração deles.
As origens deles podem ser várias e também em diferentes formatos, onde poderemos encontrar desde os sistemas transacionais das empresas até planilhas, flat files (arquivos textos), dados do Mainframe, etc.

2º passo: Transformar e limpar esses dados.
É muito comum, na obtenção dos dados que, no mais das vezes, são antigos e desconhecidos, encontrarmos muito ‘lixo’ e inconsistências. Por exemplo. Quando um vendedor de linhas telefônicas for executar uma venda, ou inscrição, ele está preocupado em vender, e não na qualidade dos dados que está inserindo na base, então se por acaso o cliente não tiver o número do CPF a mão, ele cadastra um número qualquer, desde que o sistema aceite, um dos mais utilizados é o 999999999-99. Agora imagine um diretor de uma companhia telefônica consultar o seu Data Warehouse (DW) para ver quais são os seus maiores clientes, e aparecer em primeiro lugar o cliente que tem o CPF 999999999-99 ? Seria no mínimo estranho. Por isso, nessa fase do DW, fazemos a limpeza desses dados, para haver compatibilidade entre eles.
Além da limpeza, temos de fazer na maioria das vezes uma transformação, pois os dados provêm de vários sistemas, e por isso, geralmente uma mesma informação tem diferentes formatos, por exemplo: Em alguns sistemas a informação sobre o sexo do cliente pode estar armazenada no seguinte formato : “M” para Masculino e “F” para Feminino, porém em algum outro sistema está guardado como “H” para Masculino e “M” para Feminino, em outro ainda, podemos encontrar “1” para Masculino e “2” para Feminino, e assim sucessivamente. Quando levamos esses dados para o DW, deve-se ter uma padronização deles, ou seja, quando o usuário for consultar o DW, ele não pode ver informações iguais em formatos diferentes. Assim sendo, quando fazemos o processo de ETL, transformamos esses dados e deixamos num formato uniforme sugerido pelo próprio usuário, como por exemplo “M” para Masculino e “F” para Feminino. No DW, teremos somente M e F, fato esse que facilitará a análise dos dados que serão recuperados pela ferramenta OLAP.

Staging Area é parte do Data Warehouse responsável por receber a extração, transformação e carga (ETL) das informações dos sistemas transacionais legados, para posterior geração dos Data Marts de destino, com as características:

Área fora do acesso dos usuários.
Não deve suportar queries dos Usuários.
Pode ser composta por flat files (arquivos textos) ou tabelas de banco de dados na terceira forma normal (normalizadas).

fonte: http://litolima.com/2010/01/13/etl-extracao-transformacao-e-carga-de-dados/

Data Warehouse: definições importantes

OLAP (Online analisys process) – Programa que permite transformar os dados relacionais (OLTP) em dadosconsolidados utilizando cross-join e gerando os cubos com os cruzamentos. A arquitetura OLAP é otimizada paraconsolidação e leitura, não permitindo gravação ou alterações;

OLTP (Online transaction process) – São os servidores de banco de dados utilizados comercialmente desdeMicrosoft SQL Server, Oracle ou mesmo Access e Excel, já que todos estes tem os dados otimizados para operações de leitura e gravação constante. Sua desvantagem é a dificuldade em gerar dados consolidados em tempo hábil;

Data Warehouse – Repositório de cubos gerados para análise; coleção de dados orientada por temas, integrada, variante no tempo e não volátil, que tem por objetivo dar suporte aos processos de tomada de decisão;

Pivot Table – Programa visualizador dos cubos, permitindo montar visões e tabelas dinamicamente arrastandoos dados em colunas e linhas. Um bom programa para esta tarefa é o Excel;

Cross-Join – Processo onde se faz a junção dos dados e transforma-se as colunas em linhas e as linhas emcolunas gerando dados cruzados;

Cubo – Dados resultantes do processo de OLTP com o cross-join que são manipulados pelo pivot table.

Data mart (repositório de dados) – sub-conjunto de dados de um Data warehouse (armazém de dados). Geralmente são dados referentes a um assunto em especial (ex: Vendas, Estoque, Controladoria) ou diferentes níveis de sumarização (ex: Vendas Anual, Vendas Mensal, Vendas 5 anos), que focalizam uma ou mais áreas específicas.

Operações em um OLAP

Drill Down: é a possibilidade de poder obter dados mais detalhados a partir de dados de mais alto nível, através de diferentes dimensões. Em outras palavras, drill down nada mais é do que aumentar o nível de detalhes de uma consulta ou relatório, adicionando-lhes novas linhas de cabeçalho provenientes de tabelas dimensão. Por exemplo, uma tela de um computador pode mostrar um mapa com figuras de Estados. Clicando com o mouse sobre um determinado Estado, poderia ser apresentado às vendas em cada região e clicando-se sobre uma determinada região seria possível verificar o desempenho dos vendedores.

Drill up ou roll up: é o inverso de drill down, ou seja, é apresentar os dados em um nível mais elevado a partir de um nível mais detalhado

Slice: compreende a extração de informações sumarizadas de um cubo de dados, a partir do valor de uma dimensão.

Dice: é a extração de um "subcubo" ou a interseção de vários slices.

Pivot: é o ângulo pelo qual os dados são vistos ou trocados. Na prática corresponde a modificação da posição das dimensões em um gráfico ou troca de linhas por colunas em uma tabela.

Mais informações.