sql >> Databáze >  >> RDS >> Oracle

Datové sklady Profilování dat ETL pomocí Oracle Warehouse Builder

Úvod do datového profilování

Profilování dat je proces systematické dokumentace návrhu a obsahu dat v souboru, tabulce nebo schématu. Profilování dat je důležitým prvním krokem, který se provádí, když je datový sklad ve fázi plánování. Pro architekty a návrháře datových skladů je důležité, aby porozuměli kvalitě a celkové povaze základních dat provozních systémů předtím, než se pustí do velkého projektu datového skladu. Některé specifické aspekty zdrojových dat, které může profilování odhalit, zahrnují:

  • Celková velikost (v bajtech) každé zdrojové tabulky nebo souboru včetně specifikací datového typu každého pole/sloupce.
  • Počty, průměry, rozsahy a existence hodnot null pro každý sloupec.
  • Vztahy mezi datovými sloupci v tabulkách (jako funkční závislosti).
  • Vztahy mezi tabulkami (například vztahy cizích klíčů).

Výsledky fáze profilování dat lze dále použít k vývoji pravidel pro kontrolu kvality dat a pravidel pro nápravu problémů s daty během prvních fází ETL potrubí.

Oracle Warehouse Builder poskytuje výkonné zařízení pro profilování dat, které lze použít k podrobnému zjištění rozsahu a charakteristik dat ve schématu. Oficiální dokumentaci OWB o profilování dat lze nalézt na tomto odkazu. Oracle Warehouse Builder se instaluje spolu se standardní a podnikovou verzí databáze Oracle 11g. Zde je několik pokynů k instalaci Oracle 11g Release 2 na Windows.

Pokud máte centrální server Oracle 11g, můžete pro přístup k tomuto centrálnímu úložišti použít klienta Oracle Warehouse Builder.

V této ukázce jsou uvedeny hlavní kroky potřebné k profilování systémového schématu OLTP. Cílovým schématem bude schéma Oracle „Order Entry“ (OE), které lze nainstalovat a povolit v databázích Oracle 11g. Pamatujte, že uživatel Oracle Warehouse musí mít přístup (přihlašovací údaje) ke schématu OE, aby mohl nastavit příslušný modul v OWB.

Prvním hlavním krokem v profilování je vytvoření modulu, který ukazuje na schéma zdrojové databáze. OWB podporuje velké množství databázových zdrojů i plochých (textových) souborů.

Nastavení nového modulu pro schéma zadání objednávky

V této sadě kroků bude schéma objednávky (OE) vytvořeno jako nový modul v Oracle Warehouse Builder.

  1. Začněte přihlášením do Oracle Warehouse Builder. Otevřete okno Project Navigator a poté otevřete MY_PROJECT
    Otevřete Databáze a poté Oracle
    Klepněte pravým tlačítkem myši na Oracle a vyberte Nový modul Oracle jak je uvedeno níže:
  2. Když se zobrazí uvítací obrazovka, klikněte na Další> tlačítko
  3. Zadejte nový název a popis databáze. Pamatujte, že v názvu databáze nesmíte používat mezery.
    Klikněte na Další> pokračujte tlačítkem.
  4. Dalším hlavním krokem bude určení umístění databáze. Je více než pravděpodobné, že je to poprvé, co procházíte těmito kroky, a tak umístění schématu Oracle OE nebylo stanoveno. V tomto případě klikněte na Upravit... tlačítko zobrazené vedle Umístění výzva
  5. Vyplňte název, popis a informace o připojení (název hostitele, uživatelské jméno, heslo, číslo portu, název služby Oracle atd.) Klikněte na OK po dokončení.
  6. Potvrďte informace o připojení a klikněte na možnost Importovat po dokončení .
    Poté klikněte na Další> tlačítko pro pokračování:
  7. Zobrazí se závěrečná obrazovka shrnutí indikující, že vytvoření modulu bylo úspěšné.
    Klikněte na Dokončit tlačítko pro zavření této obrazovky.

Import metadat pro schéma zadání objednávky

  1. Zaškrtnutím možnosti Importovat po dokončení možnost v kroku 6, Průvodce importem metadat se automaticky spustí po vytvoření databázového modulu. Pokud jste tuto možnost přeskočili, klikněte pravým tlačítkem na nový modul Order_Entry a vyberte Importovat metadata z nabídky.
    Jakmile se spustí průvodce importem metadat, klikněte na Další> pokračujte tlačítkem.
  2. Informace o filtru se objeví další obrazovka. V tomto případě chceme importovat metadata pro veškerý obsah schématu, takže klikněte na Vše a poté klikněte na Další> pokračujte tlačítkem.
  3. Další zobrazená obrazovka nabízí možnost vybrat některé nebo všechny objekty objevené ve schématu. Zpočátku Výběr objektu obrazovka se objeví následovně:
  4. Kliknutím na ikonu dvojité pravé šipky přesunete všechny objekty z Dostupné stranou na Vybrané straně, jak je znázorněno níže. Poté klikněte na Další> pokračujte tlačítkem.
  5. Souhrn a import se objeví další obrazovka. Zkontrolujte obrazovku, abyste se ujistili, že byly vybrány všechny objekty, a klikněte na Dokončit dokončete import.
  6. Import výsledků zobrazí se souhrnná obrazovka. Klikněte na OK tlačítko pro zavření.
  7. V aplikaci Oracle Warehouse Builder Projects Navigator bude databáze ORDER_ENTRY naplněna všemi svými objekty včetně tabulek, jak je uvedeno níže:

V tomto okamžiku byl vytvořen nový databázový modul pro schéma databáze Oracle Order Entry a všechna metadata schématu byla importována do Oracle Warehouse Builder. V další sadě kroků nový Datový profil bude vytvořen.

Vytvoření datového profilu v aplikaci Oracle Warehouse Builder

Dalším důležitým krokem je vytvoření Datového profilu .

  1. V Navigátoru projektů Oracle Warehouse Builder klikněte pravým tlačítkem na Datové profily a vyberte Nový datový profil
  2. Když se zobrazí uvítací obrazovka, klikněte na Další> tlačítko
  3. Zadejte název a popis nového datového profilu. V tomto příkladu jsme nový profil pojmenovali:Order_Entry_Schema_Profile (Všimněte si, že v názvu profilu nejsou povoleny mezery). Klikněte na Další> pokračujte tlačítkem.
  4. Další obrazovka obsahuje seznam objektů schématu. Otevřete Tabulky a přidejte všechny tabulky (s výjimkou PURCHASEORDER tabulka) uvedená v databázi zadání objednávky na Vybrané straně obrazovky.
    Nepřidávejte žádné zobrazení.
    Klikněte na Další> pokračujte tlačítkem.
  5. V tomto bodě Shrnutí Zobrazí se obrazovka a datový profil je nastaven. Klikněte na Dokončit tlačítko.
  6. Jakmile je nový profil nastaven, Editor datového profilu objeví se obrazovka.

Dalším krokem bude spuštění profilovače na schématu.

Práce s Editorem profilů v aplikaci Oracle Warehouse Builder

Posledním hlavním krokem je práce v Editoru profilů k zahájení úlohy profilování dat a následné zobrazení výsledků. Pokud jste pro vytvoření nového datového profilu postupovali podle předchozích kroků, pak by OWB mělo spustit Editor datového profilu . Všechny pokyny od tohoto bodu předpokládají, že pracujeme v Editoru datového profilu.

  1. Níže je pohled na Editor datového profilu. Všimněte si, že databázový modul ORDER_ENTRY je otevřen v Objektech profilu zde by měly být uvedeny všechny tabulky.
  2. Můžete provádět změny v krocích profilování v sekcích Property Inspector, jako je Načíst konfiguraci a Konfigurace agregace . Popis těchto nastavení lze nalézt na tomto odkazu.
    U tohoto příkladu se ujistěte, že jsou vybrány následující výchozí hodnoty profilování:

    • Povolit Common Format Discovery
    • Povolit zjišťování typů
    • Povolit zjišťování vzoru
    • Povolit zjišťování domény
    • Povolit zjišťování jedinečného klíče
    • Povolit zjišťování funkčních závislostí
    • Povolit zjišťování redundantních sloupců
    • Povolit profilování datových pravidel
  3. Chcete-li zahájit úlohu profilování dat, stáhněte dolů Profil a vyberte Profil
  4. Po spuštění úlohy profilu se zobrazí dialogové okno s průběhem ověřování profilu. To může trvat několik minut v závislosti na rychlosti serveru a počtu databázových objektů v profilu.
  5. Po dokončení kroku ověření se spustí skutečná úloha profilu. Všimněte si, že tato úloha běží asynchronně na pozadí. Klikněte na OK tlačítko pro zavření Profil zahájen dialogové okno.
  6. Po dokončení úlohy profilu Načíst výsledky profilu objeví se obrazovka. Klikněte na Ano k načtení výsledků profilu do Editoru profilu.
  7. Výsledky profilu se zobrazí v Editoru profilu. Kliknutím na název tabulky zobrazíte metadata na Plátně výsledků profilu . Kliknutím na název sloupce zobrazíte podrobnosti o sloupci na Panelu procházení dat
    Na obrázku níže (kliknutím zobrazíte větší obrázek) ZÁKAZNÍCI tabulka byla vybrána k zobrazení na plátně výsledků profilu a v NLS_TERRITORY sloupec byl vybrán k zobrazení na panelu Data Drill.

Další informace o profilování dat Oracle OWB

Kromě dokumentace poskytuje Oracle také sérii výukových programů Oracle By Example (OBE) pro OWB včetně:Oracle Warehouse Builder:Zkoumání zdrojových dat pomocí profilování dat.


  1. Může INNER JOIN nabídnout lepší výkon než EXISTS

  2. Postgres celočíselná pole jako parametry?

  3. výběr jedinečných hodnot ze sloupce

  4. Jak migrovat databáze a datové soubory