magazyny danych (74 str).doc

(1569 KB) Pobierz
Magazyny danych i technologia OLAP

Praca pochodzi z serwisu www.e-sciagi.pl

Next-Generation Database Technology

 

Magazyny danych i technologia OLAP

Opracował  na podstawie materiałów T. Morzego, T.Koszlajdy, M. Matysiaka, R. Wrembela

______________________________________________________________________________

Literatura:

1.          T. Koszlajda, Technologia magazynów danych, w: Materiały II Kraj. Szkoły PLOUG’97, Zakopane.

2.          M. Matysiak, Technologia OLAP, w: Materiały II Krajowej Szkoły PLOUG’97, Zakopane.

3.          R. Wrembel, Dane hurtowo, Informatyka, nr.10, 1998

4.          T. Morzy, Eksploracja danych a bazy danych, Materiały III Krajowej Szkoły PLOUG’98, Zakopane.

5.          Chaudhuri S., U. Dayal, An Overview of Data Warehousing and OLAP Technology, SIGMOD Record, Vol. 26, No. 1, March 1997.

6.          Codd E.F., S.B. Codd, C.T. Salley, Providing to User-Analysts: An IT Mandate, Arbor Software’s web site, http://www.arborsoft.com/OLAP.html.

7.          Widom J., Research Problems in Data Warehousing, Proceedings 4th Intern. CIKM Conference, 1995.

8.          Http:// www.olapcouncil.org

 

Informatyzacja firm, instytucji i innych jednostek organizacyjnych powinna realizować dwa podstawowe cele:

F              Usprawnienie pracy pojedynczego pracownika

F              Racjonalizacja działania całych firm

Ad 1) Usprawnienie pracy pojedynczego pracownika: sprzedawcy, magazyniera, księgowego lub urzędnika - poprzez automatyzację realizowanych przez nich wybranych, rutynowych działań.

F              Przykłady takich działań:

-             wprowadzanie zamówień, wydawanie lub przyjmowanie towaru, realizacja sprzedaży, rezerwacja miejsc lub operacja przelewu na kontach bankowych.

F              Działania te charakteryzuje ściśle określona procedura postępowania i cykliczna powtarzalność


Ad 2) Racjonalizacja działania całych firm - w wyniku wspomagania decyzji kadry zarządzającej - przez dostarczenie danych analitycznych opisujących bieżący stan i historię działania danej firmy.

F              Programowe narzędzia analityczne - udostępnianie informacji statystycznych o bieżącym stanie firmy, występujących trendach itp.

Korzyści: trafniejsze decyzje o strategicznym znaczeniu dla rozwoju danego przedsiębiorstwa.

Sposób w jaki użytkownik korzysta z bazy danych (w jaki realizuje do niej dostęp) nazywamy modelem przetwarzania


Aplikacje operacyjne systemu informatycznego

F    Cel: wspomaganie pracy pojedynczych pracowników

F    Charakterystyka:

·              proste przetwarzanie,

·              działania na niewielkich zbiorach danych szczegółowych,

·              realizacja prostych operacji odczytu, wstawiania, modyfikacji i usuwania danych.

F    Modelem przetwarzania właściwym dla tej kategorii aplikacji jest tak zwane przetwarzanie transakcyjne (ang. On-line Transaction Processing - OLTP).

F    Główne cele tej technologii:

·                   zapewnienie spójności danych,

·                   wysoka wydajność systemów pracujących w środowisku wielodostępnym,

F    Krytycznym parametrem efektywnościowym takich systemów jest ich przepustowość, mierzona liczbą transakcji w jednostce czasu.


Aplikacje analityczne systemu informatycznego

F    Cel: wspomaganie pracy kadry zarządzającej

F    Charakterystyka:

·             dużo większa złożoność przetwarzania niż aplikacji operacyjnych

·             zorientowanie na wspieranie procesów decyzyjnych (przetwarzanie danych historycznych, zagregowanych i często skonsolidowanych z wielu źródeł danych: relacyjnych i obiektowych baz danych, arkuszy kalkulacyjnych, itp.)

·             realizacja złożonych zapytań wymagających dostępu do milionów krotek (tysiące gigabajtów), wielu operacji połączenia, grupowania i agregowania oraz filtrowania danych

·             przykłady takich zapytań: Jaka jest sprzedaży produktów w supermarkecie w kolejnych kwartałach, miesiącach itp. ? Jaka jest sprzedaż produktów z podziałem na rodzaje produktów (AGD, produkty spożywcze, kosmetyki, itp.)


Aplikacje analityczne - podsumowanie

Modelem przetwarzania właściwym dla tej kategorii aplikacji jest przetwarzanie analityczne (ang. On-line Analytical Processing - OLAP) - ma za zadanie wspieranie procesów analizy danych dostarczając narzędzi umożliwiających taką analizę w wielu „wymiarach” definiowanych przez użytkowników (czas, miejsce, klasyfikacja produktów, itp.).

OLAP – weryfikacja hipotez

Analiza danych zgodnie z modelem OLAP, jest całkowicie sterowana przez analityka. Analityk formułuje zapytania i dokonuje analizy danych. Z tego punktu widzenia, OLAP można interpretować jako rozszerzenie standardu SQL o możliwości efektywnego przetwarzania złożonych zapytań zawierających agregaty.


Aplikacje analityczne - podsumowanie

F    Przetwarzanie w aplikacjach analitycznych:

·             operacje odczytu dużych wolumenów danych, przetwarzanych następnie przez złożone funkcje analityczne,

·             proces analizy jest całkowicie sterowany przez użytkownika – mówimy o analizie danych sterowanej zapytaniami (ang. query-driven exploration)

·             odpowiedzi na takie zapytania umożliwiają decydentom określenie wąskich gardeł sprzedaży, produktów przynoszących deficyt, itp.

F    Efektywność takich systemów: mierzona czasem odpowiedzi


Problemy realizacji systemów OLAP

F Komercyjnie dostępne systemy transakcyjne (systemy zarządzania bazami danych SZBD) dostarczają efektywnych rozwiązań dla takich problemów jak: efektywne i bezpieczne przechowywanie danych, transakcyjne odtwarzanie danych, dostępność danych, optymalizacja dostępu do danych, zarządzanie współbieżnością.

F W znacznie mniejszym stopniu systemy te wspomagają operacje agregacji danych, wykonywania pewnych podsumowań czy też optymalizacji złożonych zapytań formułowanych ad hoc.

F Systemy te w niewielkim stopniu wspomagają również integrację danych z różnych heterogenicznych źródeł danych.


Problemy realizacji systemów OLAP

F Aby przeprowadzić analizę danych dla wspomagania decyzji, należy dysponować odpowiednimi danymi opisującymi działalność przedsiębiorstwa.

F Bardzo rzadko informacje te są dostępne w jednej bazie danych. Z reguły, są one rozproszone po wielu oddziałowych, rozproszonych geograficznie i heterogenicznych bazach danych.

Typowy stan informatyzacji firm, instytucji: heterogeniczność eksploatowanych systemów - uniemożliwia to bezpośredni dostęp do wszystkich danych określających kondycję danej firmy

 

Problemy realizacji systemów OLAP

F Stąd, opracowując koncepcję systemu wspomagania podejmowania decyzji należy odpowiedzieć na dwa zasadnicze pytania odnośnie architektury takiego systemu i modelu przetwarzania.

1.        Czy analiza powinna mieć charakter rozproszony czy scentralizowany, innymi słowy, czy dane należy zgromadzić i przetwarzać w jednym miejscu w sposób scentralizowany, czy też korzystając z mechanizmu transakcji rozproszonych można przetwarzać dane w sposób rozproszony.

2.        Drugie pytanie dotyczy koegzystencji dwóch systemów – systemu bieżącej obsługi działania przedsiębiorstwa oraz systemu wspomagania podejmowania decyzji. Oba systemy operują na tych samych danych, stąd pytanie, czy oba modele OLAP i OLTP mogą współistnieć w tym samym systemie bazy danych, czy też powinny funkcjonować niezależnie.

 

Problemy realizacji systemów OLAP

Problem integracji heterogenicznych i rozproszonych systemów informatycznych

F W ciągu kilku ostatnich lat problem przygotowywania aplikacji realizujących dostęp do heterogenicznych źródeł danych, które są fizycznie rozproszone, zarządzane przez niezależne SZBD, próbowano rozwiązywać na kilka sposobów:

·             konwersja i migracja danych ze starych, zamkniętych systemów do nowych systemów;

·             wykorzystanie tzw. bramek pomiędzy różnymi systemami baz danych (ang. DB gateways)

·             koncepcja sfederowanych systemów baz danych


Czy w celu integracji heterogenicznych i rozproszonych systemów informatycznych można wykorzystać koncepcje sfederowanych systemów baz danych ?

Architektura sfederowanych baz danych


Ocena technologii sfederowanych systemów baz danych

F    Idea sfederowanych systemów baz danych nie zakończyła się sukcesem

F    Nie powstały żadne rozpowszechnione systemy komercyjne oparte na tej technologii

F    Część rozwiązań składających się na tę technologię zostało jednak wykorzystana w produktach komercyjnych i standardach - pomosty i platformy integracyjne:

Þ      ODBC (ang. Open Database Connectivity),

Þ      TUXEDO i CORBA (ang. Common Object Request Broker Architecture),

Þ      DCE (ang. Distributed Computing Environment) i ODP (ang. Open Distributed Processing).


Problemy realizacji systemów OLAP - cd.

F    Odmienność charakterystyki przetwarzania OLTP i OLAP powoduje, że rozwiązania dostępne w standardowych systemach baz danych są nieprzydatne do eksploatacji aplikacji analitycznych

F    Równoczesna eksploatacja aplikacji operacyjnych i analitycznych w środowisku tego samego systemu bazy danych, musi prowadzić do niskiej efektywności działania całego systemu informatycznego.


Problemy realizacji systemów OLAP - cd.

Wnioski: analiza powinna mieć charakter scentralizowany, a modele OLAP i OLTP powinny funkcjonować niezależnie.

F Oczywiście, odpowiedź na pytania o architekturę i model przetwarzania jest uzależniona od aktualnego stanu rozwoju technologii informatycznej.

F Ze względu na charakter i pracochłonność obliczeń, częściowo również ze względu na problem autoryzacji dostępu do danych, analiza danych jest aktualnie prowadzona w sposób scentralizowany.

F Wraz z rozwojem sieci komputerowych, wzrostem prędkości transmisji danych, należy się jednak spodziewać przechodzenia od modelu przetwarzania analitycznego scentralizowanego do modelu przetwarzania analitycznego rozproszonego.


Magazyn danych - koncepcja i architektura

W ostatnim czasie prace badawcze i rozwojowe prowadzone w ramach powyższych problemów doprowadziły do opracowania nowego typu relacyjnej bazy danych nazwanego magazynem danych (ang. data warehouse).

F    Magazyny danych, są „tematycznie zorientowanymi, zintegrowanymi, zmiennymi w czasie, nie ulotnymi zbiorami danych, wykorzystywanymi w organizacjach głównie do przetwarzania analitycznego  i podejmowania decyzji

F    Magazyny danych są niezależne od operacyjnych baz danych, na których działają aplikacje OLTP


Magazyn danych - koncepcja i architektura

F    Uzasadnienie konieczności budowy magazynów danych dla przetwarzania analitycznego:

1.            procesy decyzyjne wymagają danych, na przykład o trendach, których może nie być w operacyjnych bazach danych

2.            procesy decyzyjne wymagają dostępu do skonsolidowanych danych pochodzących z wielu heterogenicznych źródeł, które mogą używać niezgodnych formatów danych i niezgodnego kodowania

3.            operacje typowe dla systemów OLAP wymagają specjalnego składowania danych, odpowiednich struktur i metod dostępu do danych, których nie stosuje się w tradycyjnych, komercyjnych systemach zarządzania bazami danych (ang. DBMS).


Magazyn danych - rozdzielenie przetwarzania operacyjnego i analitycznego

 


Koncepcja magazynu danych - cd.

F Problem konstrukcji magazynu danych wiąże się z problemem magazynowania danych (ang. data warehousing).

F Magazynowanie danych jest procesem zbierania i przetwarzania danych z różnych, heterogenicznych i rozproszonych źródeł danych w celu uzyskania jednolitego obrazu części bądź całości działalności danego przedsiębiorstwa.


Struktura magazynu danych

W magazynie danych przechowywane są następujące kategorie danych:

·                        dane elementarne pozyskane bezpośrednio ze źródłowych heterogenicznych baz danych (wykonanych w różnych technologiach), jak i ze źródeł innych niż bazy danych, np. arkusze kalkulacyjne, dokumenty tekstowe, pliki HTML, multimedia;

·                        dane historyczne tworzone w momencie pojawiania się nowych wartości już przechowywanych danych;

·         ...

Zgłoś jeśli naruszono regulamin