Úvod do datového profilování
Profilování dat je proces systematické dokumentace návrhu a obsahu dat v souboru, tabulce nebo schématu. Profilování dat je důležitým prvním krokem, který se provádí, když je datový sklad ve fázi plánování. Pro architekty a návrháře datových skladů je důležité, aby porozuměli kvalitě a celkové povaze základních dat provozních systémů předtím, než se pustí do velkého projektu datového skladu. Některé specifické aspekty zdrojových dat, které může profilování odhalit, zahrnují:
- Celková velikost (v bajtech) každé zdrojové tabulky nebo souboru včetně specifikací datového typu každého pole/sloupce.
- Počty, průměry, rozsahy a existence hodnot null pro každý sloupec.
- Vztahy mezi datovými sloupci v tabulkách (jako funkční závislosti).
- Vztahy mezi tabulkami (například vztahy cizích klíčů).
Výsledky fáze profilování dat lze dále použít k vývoji pravidel pro kontrolu kvality dat a pravidel pro nápravu problémů s daty během prvních fází ETL potrubí.
Oracle Warehouse Builder poskytuje výkonné zařízení pro profilování dat, které lze použít k podrobnému zjištění rozsahu a charakteristik dat ve schématu. Oficiální dokumentaci OWB o profilování dat lze nalézt na tomto odkazu. Oracle Warehouse Builder se instaluje spolu se standardní a podnikovou verzí databáze Oracle 11g. Zde je několik pokynů k instalaci Oracle 11g Release 2 na Windows.
Pokud máte centrální server Oracle 11g, můžete pro přístup k tomuto centrálnímu úložišti použít klienta Oracle Warehouse Builder.
V této ukázce jsou uvedeny hlavní kroky potřebné k profilování systémového schématu OLTP. Cílovým schématem bude schéma Oracle „Order Entry“ (OE), které lze nainstalovat a povolit v databázích Oracle 11g. Pamatujte, že uživatel Oracle Warehouse musí mít přístup (přihlašovací údaje) ke schématu OE, aby mohl nastavit příslušný modul v OWB.
Prvním hlavním krokem v profilování je vytvoření modulu, který ukazuje na schéma zdrojové databáze. OWB podporuje velké množství databázových zdrojů i plochých (textových) souborů.
Nastavení nového modulu pro schéma zadání objednávky
V této sadě kroků bude schéma objednávky (OE) vytvořeno jako nový modul v Oracle Warehouse Builder.
- Začněte přihlášením do Oracle Warehouse Builder. Otevřete okno Project Navigator a poté otevřete MY_PROJECT
Otevřete Databáze a poté Oracle
Klepněte pravým tlačítkem myši na Oracle a vyberte Nový modul Oracle jak je uvedeno níže:
- Když se zobrazí uvítací obrazovka, klikněte na Další> tlačítko
- Zadejte nový název a popis databáze. Pamatujte, že v názvu databáze nesmíte používat mezery.
Klikněte na Další> pokračujte tlačítkem.
- Dalším hlavním krokem bude určení umístění databáze. Je více než pravděpodobné, že je to poprvé, co procházíte těmito kroky, a tak umístění schématu Oracle OE nebylo stanoveno. V tomto případě klikněte na Upravit... tlačítko zobrazené vedle Umístění výzva
- Vyplňte název, popis a informace o připojení (název hostitele, uživatelské jméno, heslo, číslo portu, název služby Oracle atd.) Klikněte na OK po dokončení.
- Potvrďte informace o připojení a klikněte na možnost Importovat po dokončení .
Poté klikněte na Další> tlačítko pro pokračování:
- Zobrazí se závěrečná obrazovka shrnutí indikující, že vytvoření modulu bylo úspěšné.
Klikněte na Dokončit tlačítko pro zavření této obrazovky.
Import metadat pro schéma zadání objednávky
- Zaškrtnutím možnosti Importovat po dokončení možnost v kroku 6, Průvodce importem metadat se automaticky spustí po vytvoření databázového modulu. Pokud jste tuto možnost přeskočili, klikněte pravým tlačítkem na nový modul Order_Entry a vyberte Importovat metadata z nabídky.
Jakmile se spustí průvodce importem metadat, klikněte na Další> pokračujte tlačítkem.
- Informace o filtru se objeví další obrazovka. V tomto případě chceme importovat metadata pro veškerý obsah schématu, takže klikněte na Vše a poté klikněte na Další> pokračujte tlačítkem.
- Další zobrazená obrazovka nabízí možnost vybrat některé nebo všechny objekty objevené ve schématu. Zpočátku Výběr objektu obrazovka se objeví následovně:
- Kliknutím na ikonu dvojité pravé šipky přesunete všechny objekty z Dostupné stranou na Vybrané straně, jak je znázorněno níže. Poté klikněte na Další> pokračujte tlačítkem.
- Souhrn a import se objeví další obrazovka. Zkontrolujte obrazovku, abyste se ujistili, že byly vybrány všechny objekty, a klikněte na Dokončit dokončete import.
- Import výsledků zobrazí se souhrnná obrazovka. Klikněte na OK tlačítko pro zavření.
- V aplikaci Oracle Warehouse Builder Projects Navigator bude databáze ORDER_ENTRY naplněna všemi svými objekty včetně tabulek, jak je uvedeno níže:
V tomto okamžiku byl vytvořen nový databázový modul pro schéma databáze Oracle Order Entry a všechna metadata schématu byla importována do Oracle Warehouse Builder. V další sadě kroků nový Datový profil bude vytvořen.
Vytvoření datového profilu v aplikaci Oracle Warehouse Builder
Dalším důležitým krokem je vytvoření Datového profilu .
- V Navigátoru projektů Oracle Warehouse Builder klikněte pravým tlačítkem na Datové profily a vyberte Nový datový profil
- Když se zobrazí uvítací obrazovka, klikněte na Další> tlačítko
- Zadejte název a popis nového datového profilu. V tomto příkladu jsme nový profil pojmenovali:Order_Entry_Schema_Profile (Všimněte si, že v názvu profilu nejsou povoleny mezery). Klikněte na Další> pokračujte tlačítkem.
- Další obrazovka obsahuje seznam objektů schématu. Otevřete Tabulky a přidejte všechny tabulky (s výjimkou PURCHASEORDER tabulka) uvedená v databázi zadání objednávky na Vybrané straně obrazovky.
Nepřidávejte žádné zobrazení.
Klikněte na Další> pokračujte tlačítkem.
- V tomto bodě Shrnutí Zobrazí se obrazovka a datový profil je nastaven. Klikněte na Dokončit tlačítko.
- Jakmile je nový profil nastaven, Editor datového profilu objeví se obrazovka.
Dalším krokem bude spuštění profilovače na schématu.
Práce s Editorem profilů v aplikaci Oracle Warehouse Builder
Posledním hlavním krokem je práce v Editoru profilů k zahájení úlohy profilování dat a následné zobrazení výsledků. Pokud jste pro vytvoření nového datového profilu postupovali podle předchozích kroků, pak by OWB mělo spustit Editor datového profilu . Všechny pokyny od tohoto bodu předpokládají, že pracujeme v Editoru datového profilu.
- Níže je pohled na Editor datového profilu. Všimněte si, že databázový modul ORDER_ENTRY je otevřen v Objektech profilu zde by měly být uvedeny všechny tabulky.
- Můžete provádět změny v krocích profilování v sekcích Property Inspector, jako je Načíst konfiguraci a Konfigurace agregace . Popis těchto nastavení lze nalézt na tomto odkazu.
U tohoto příkladu se ujistěte, že jsou vybrány následující výchozí hodnoty profilování:- Povolit Common Format Discovery
- Povolit zjišťování typů
- Povolit zjišťování vzoru
- Povolit zjišťování domény
- Povolit zjišťování jedinečného klíče
- Povolit zjišťování funkčních závislostí
- Povolit zjišťování redundantních sloupců
- Povolit profilování datových pravidel
- Chcete-li zahájit úlohu profilování dat, stáhněte dolů Profil a vyberte Profil
- Po spuštění úlohy profilu se zobrazí dialogové okno s průběhem ověřování profilu. To může trvat několik minut v závislosti na rychlosti serveru a počtu databázových objektů v profilu.
- Po dokončení kroku ověření se spustí skutečná úloha profilu. Všimněte si, že tato úloha běží asynchronně na pozadí. Klikněte na OK tlačítko pro zavření Profil zahájen dialogové okno.
- Po dokončení úlohy profilu Načíst výsledky profilu objeví se obrazovka. Klikněte na Ano k načtení výsledků profilu do Editoru profilu.
- Výsledky profilu se zobrazí v Editoru profilu. Kliknutím na název tabulky zobrazíte metadata na Plátně výsledků profilu . Kliknutím na název sloupce zobrazíte podrobnosti o sloupci na Panelu procházení dat
Na obrázku níže (kliknutím zobrazíte větší obrázek) ZÁKAZNÍCI tabulka byla vybrána k zobrazení na plátně výsledků profilu a v NLS_TERRITORY sloupec byl vybrán k zobrazení na panelu Data Drill.
Další informace o profilování dat Oracle OWB
Kromě dokumentace poskytuje Oracle také sérii výukových programů Oracle By Example (OBE) pro OWB včetně:Oracle Warehouse Builder:Zkoumání zdrojových dat pomocí profilování dat.