HUR2006 05, WAT, semestr VI, Hurtownie danych
[ Pobierz całość w formacie PDF ]
Hurtownie danych
Metadane i czynniki jakoci.
Jakub Wróblewski
jakubw@pjwstk.edu.pl
BAZA METADANYCH
Hurtownie
tematyczne
Magazyny danych
operacyjnych,
"ródła
Centralna
hurtownia
danych
ładowanie,
czyszczenie,
transformacja
Metadane
• Baza metadanych (metadata repository) wykorzystywana jest
na wszystkich etapach pracy hurtowni danych.
1
BAZA METADANYCH
Zawarto bazy metadanych:
- Perspektywa poj,ciowa (dane biznesowe)
- Perspektywa logiczna (schemat)
- Perspektywa fizyczna
- Statystyki danych
- Statystyki u.ycia
- Informacje administracyjne
METADANE -
PERSPEKTYWA POJ
CIOWA
- Sformalizowany opis zawarto0ci hurtowni w terminach konkretnego
przedsi,biorstwa (obiektów rzeczywistych, np. klient, sprzedawca)
- Opis procesu integracji poj,ciowej danych
- Opis (biznesowy) z punktu widzenia u.ytkownika (np. raporty)
Opis mo.e by2 sformalizowany (z mo.liwo0ci3 automatycznego
wykorzystania do wnioskowania) lub w j,zyku naturalnym.
Przykład: Asercje midzymodelowe - zdefiniowane zwizki midzy
rónymi pojciami wystpujcymi w rónych modelach. Np. moemy
zapisa", e kontrahent (pojcie nalece do modelu jednego ze &ródeł
danych) to szczególny przypadek klienta (pojcie z modelu
przedsibiorstwa). Pozwala to sprawnie zlokalizowa" wszystkie
&ródła, z których pochodz informacje o klientach.
2
METADANE -
PERSPEKTYWA LOGICZNA
- Schemat danych w centralnej hurtowni danych, "ródłach i
hurtowniach tematycznych
- Przechowuje:
- nazwy tablic i kolumn,
- typy danych,
- rodzaje relacji mi,dzy tablicami,
- definicje perspektyw zmaterializowanych,
- definicje wi,zów integralno0ci,
- definicje kostek danych i hierarchii wymiarów,
- opis logiczny procesu ładowania danych.
METADANE -
PERSPEKTYWA FIZYCZNA
- Definicja fizycznego rozmieszczenia danych i ich przepływu
- Podstawowe obiekty perspektywy fizycznej: magazyny danych i
agenci.
- Informacje o lokalizacji fragmentów danych składaj3cych si, na
logiczne "ródło danych
- Definicje agentów:
- steruj3cych (np. wyzwalacze, programy
powiadamiaj3ce)
- transportowych (procedury przeprowadzaj3ce
ładowanie, czyszczenie i transformacj,
danych, a tak.e propagacj, aktualizacji)
Wszystkie trzy perspektywy metadanych s powizane - np.
magazyn danych przechowuje cz logicznej tablicy, wchodzcej
w skład pojcia z perspektywy pojciowej.
3
STATYSTYKI DANYCH I
U
YCIA
- Rodzaj metadanych aktualizowanych bardzo cz,sto (przy ka.dej
aktualizacji danych).
- Statystyki danych (np. histogramy warto0ci, wielko0ci tablic) s3
wykorzystywane podczas optymalizacji procesów, zapyta9 i modelu
fizycznego danych.
- Statystyki u.ycia (dzienniki zapyta9) pozwalaj3 oceni2, jak cz,sto
wykorzystywane s3 informacje redundantne (perspektywy
zmaterializowane), oraz zlokalizowa2 powtarzaj3ce si, zapytania,
które jeszcze nie zostały zoptymalizowane.
- Mo.liwo02 automatycznej optymalizacji pracy.
- Rejestracja zmian w danych i w metadanych.
METADANE
ADMINISTRACYJNE
- Zasady dost,pu do danych, definicje u.ytkowników i ich grup.
- Terminy wykonywania cyklicznych czynno0ci w hurtowni danych
(aktualizacja ze "ródeł, backup).
- Inne, np. informacje o wła0cicielach poszczególnych danych.
4
STANDARDY
Próby pełnej standaryzacji metadanych jak dotd nie powiodły si.
Microsoft Repository / Meta Data Engine:
-
Schematy metadanych wykorzystuj3 j,zyk UML
- Wykorzystywane mechanizmy: COM (Common Object Model), OEM (Object
Exchange Model)
Metadata Interchange Specification (MDIS):
- Pliki tekstowe o okre0lonej strukturze (specyfikacja rozszerzalna)
- Obiekty „baza danych”, „element”, „relacja” itp. Mo.na np. opisa2 relacje mi,dzy
tablicami czy kolumnami za pomoc3 słów kluczowych EQUIVALENT, INCLUDES,
DERIVED itp.
Telos (systemy ConceptBase, Semantic Index):
- uniwersalny j,zyk opisu danych, oferuj3cy obiekty zło.one, hierarchie, relacje, a tak.e
mechanizmy automatycznego wnioskowania
Inne: OIM (Open Information Model), CWM (Common Warehouse Metamodel)
PRZYKŁAD
Zadanie: aplikacja wspomagajca proces backupu danych (decydowanie, które
tablice lub ich czci moemy przenie" do archiwum) na podstawie statystyk
uycia danych.
Monitorujemy dziennik zapyta9 do hurtowni danych i analizujemy
(OLAP) zapytania pod k3tem u.ytych danych. Przechowujemy
informacje o ka.dym zapytaniu:
- Kto zadał zapytanie? (U.ytkownik, grupa u.ytkowników itp.)
- Które tablice zostały u.yte?
- Jakie dane zostały u.yte? (Zakres dat bezwzgl,dnych, zakres czasowy
wzgl,dny, np. dane z trzech miesi,cy poprzedzaj3cych zadanie zapytania).
5
[ Pobierz całość w formacie PDF ]
zanotowane.pl doc.pisz.pl pdf.pisz.pl chiara76.opx.pl
Hurtownie danych
Metadane i czynniki jakoci.
Jakub Wróblewski
jakubw@pjwstk.edu.pl
BAZA METADANYCH
Hurtownie
tematyczne
Magazyny danych
operacyjnych,
"ródła
Centralna
hurtownia
danych
ładowanie,
czyszczenie,
transformacja
Metadane
• Baza metadanych (metadata repository) wykorzystywana jest
na wszystkich etapach pracy hurtowni danych.
1
BAZA METADANYCH
Zawarto bazy metadanych:
- Perspektywa poj,ciowa (dane biznesowe)
- Perspektywa logiczna (schemat)
- Perspektywa fizyczna
- Statystyki danych
- Statystyki u.ycia
- Informacje administracyjne
METADANE -
PERSPEKTYWA POJ
CIOWA
- Sformalizowany opis zawarto0ci hurtowni w terminach konkretnego
przedsi,biorstwa (obiektów rzeczywistych, np. klient, sprzedawca)
- Opis procesu integracji poj,ciowej danych
- Opis (biznesowy) z punktu widzenia u.ytkownika (np. raporty)
Opis mo.e by2 sformalizowany (z mo.liwo0ci3 automatycznego
wykorzystania do wnioskowania) lub w j,zyku naturalnym.
Przykład: Asercje midzymodelowe - zdefiniowane zwizki midzy
rónymi pojciami wystpujcymi w rónych modelach. Np. moemy
zapisa", e kontrahent (pojcie nalece do modelu jednego ze &ródeł
danych) to szczególny przypadek klienta (pojcie z modelu
przedsibiorstwa). Pozwala to sprawnie zlokalizowa" wszystkie
&ródła, z których pochodz informacje o klientach.
2
METADANE -
PERSPEKTYWA LOGICZNA
- Schemat danych w centralnej hurtowni danych, "ródłach i
hurtowniach tematycznych
- Przechowuje:
- nazwy tablic i kolumn,
- typy danych,
- rodzaje relacji mi,dzy tablicami,
- definicje perspektyw zmaterializowanych,
- definicje wi,zów integralno0ci,
- definicje kostek danych i hierarchii wymiarów,
- opis logiczny procesu ładowania danych.
METADANE -
PERSPEKTYWA FIZYCZNA
- Definicja fizycznego rozmieszczenia danych i ich przepływu
- Podstawowe obiekty perspektywy fizycznej: magazyny danych i
agenci.
- Informacje o lokalizacji fragmentów danych składaj3cych si, na
logiczne "ródło danych
- Definicje agentów:
- steruj3cych (np. wyzwalacze, programy
powiadamiaj3ce)
- transportowych (procedury przeprowadzaj3ce
ładowanie, czyszczenie i transformacj,
danych, a tak.e propagacj, aktualizacji)
Wszystkie trzy perspektywy metadanych s powizane - np.
magazyn danych przechowuje cz logicznej tablicy, wchodzcej
w skład pojcia z perspektywy pojciowej.
3
STATYSTYKI DANYCH I
U
YCIA
- Rodzaj metadanych aktualizowanych bardzo cz,sto (przy ka.dej
aktualizacji danych).
- Statystyki danych (np. histogramy warto0ci, wielko0ci tablic) s3
wykorzystywane podczas optymalizacji procesów, zapyta9 i modelu
fizycznego danych.
- Statystyki u.ycia (dzienniki zapyta9) pozwalaj3 oceni2, jak cz,sto
wykorzystywane s3 informacje redundantne (perspektywy
zmaterializowane), oraz zlokalizowa2 powtarzaj3ce si, zapytania,
które jeszcze nie zostały zoptymalizowane.
- Mo.liwo02 automatycznej optymalizacji pracy.
- Rejestracja zmian w danych i w metadanych.
METADANE
ADMINISTRACYJNE
- Zasady dost,pu do danych, definicje u.ytkowników i ich grup.
- Terminy wykonywania cyklicznych czynno0ci w hurtowni danych
(aktualizacja ze "ródeł, backup).
- Inne, np. informacje o wła0cicielach poszczególnych danych.
4
STANDARDY
Próby pełnej standaryzacji metadanych jak dotd nie powiodły si.
Microsoft Repository / Meta Data Engine:
-
Schematy metadanych wykorzystuj3 j,zyk UML
- Wykorzystywane mechanizmy: COM (Common Object Model), OEM (Object
Exchange Model)
Metadata Interchange Specification (MDIS):
- Pliki tekstowe o okre0lonej strukturze (specyfikacja rozszerzalna)
- Obiekty „baza danych”, „element”, „relacja” itp. Mo.na np. opisa2 relacje mi,dzy
tablicami czy kolumnami za pomoc3 słów kluczowych EQUIVALENT, INCLUDES,
DERIVED itp.
Telos (systemy ConceptBase, Semantic Index):
- uniwersalny j,zyk opisu danych, oferuj3cy obiekty zło.one, hierarchie, relacje, a tak.e
mechanizmy automatycznego wnioskowania
Inne: OIM (Open Information Model), CWM (Common Warehouse Metamodel)
PRZYKŁAD
Zadanie: aplikacja wspomagajca proces backupu danych (decydowanie, które
tablice lub ich czci moemy przenie" do archiwum) na podstawie statystyk
uycia danych.
Monitorujemy dziennik zapyta9 do hurtowni danych i analizujemy
(OLAP) zapytania pod k3tem u.ytych danych. Przechowujemy
informacje o ka.dym zapytaniu:
- Kto zadał zapytanie? (U.ytkownik, grupa u.ytkowników itp.)
- Które tablice zostały u.yte?
- Jakie dane zostały u.yte? (Zakres dat bezwzgl,dnych, zakres czasowy
wzgl,dny, np. dane z trzech miesi,cy poprzedzaj3cych zadanie zapytania).
5
[ Pobierz całość w formacie PDF ]