DATAKON 2001

Úvod
Charakteristika
Obsah

Sponzori konferencie
DATAKON 2001
ADASTRA, s.r.o.
AEC, s.r.o.
BERIT, a.s.
DCIT, s.r.o.
IBM Eeská republika, s.r.o.
Oracle Czech, s.r.o.
Progress Software, s.r.o.
Qbizm Technologies, Inc.
SMS, s.r.o.
SYBASE Eeská republika, s.r.o.
TATRA Banka, a.s.
TurboConsult, s.r.o.
Vema, a.s.

Mediálny partner
Softwarové noviny

Vertikálna štruktúra dátového skladu a procesné metaúdaje

Pavol Horanský

Oddelenie analýzy historických údajov, Tatra banka, a.s.
Vajanského nábr. 5, 810 11 Bratislava 111
pavol_horansky@tatrabanka.sk

Abstrakt. Príspevok vychádza zo skúseností, získaných pri budovaní reálneho dátového skladu (angl. data warehouse, DWH). Venuje sa procesom, ktoré je potrebné vykonať pri napĺňaní centrálneho dátového skladu (CDS) DWH. Tieto procesy sa v prevázdke ukázali ako najviac problémové pre systémové zvládnutie a implementáciu. Analyzuje potrebné kroky a pokúša sa identifikovať stabilné časti procesov získavnia, čistenia a transformácie údajov. Na základe identifikovaných stabilných častí procesov definuje DWH inštrukcie, ktoré sú v ďalšom považované za základné stavebné kamene pri napĺňaní CDS. Opisuje sa vertikálna štruktúra DWH, optimalizovaná na použitie DWH inštrukcií. Analyzujú sa problémy pri synchronizácii paralelného napĺňania CDS a potreba zavedenia procesných metadúdajov, opisujúcich procesy a stavy v DWH. Je zavedená hierarchická štruktúra procesných metaúdajov a opísaný ich vzťah k štrukturálnym metaúdajom. O naznačenom riešení sa diskutuje z hľadiska robustnosti a manažovateľnosti procesov.

Klíčová slova: data warehouse, metadata, star schéma, snowflake, čistenie a transformácia údajov, procesy.

Annotation:

A vertical structure of Data warehouse and processe's metadata

The paper summaries experiences acquired by developing actual Data warehouse (DWH). We deal with processes necessary for loading Central Data Store (CDS) of DWH. Everyday operation shows it is hard to implement these processes and also to get them under control. The paper analyses essential steps and try to identify processes's stable parts of import, cleansing and transformation data. DWH instructions, building blocks of DWH's data processing, are based on and will be defined by the identified stable parts of the processes. A vertical structure of DWH optimized for using DWH instructions is described. The paper analyses synchronization's problems of parallel loading CDS and requirement of implementation processes's metadata, characterize DWH processes and their states. Hierarchical structure of the processes's metadata is defined and theirs relation to structural's metadata is explained. Described solution is discussed in terms of robustness and manageability of processes.

<< Obsah