sql >> Databáze >  >> RDS >> Database

Nahrajte dokumenty do Azure Data Lake a exportujte data pomocí SSIS

Úvod

Azure roste každým dnem. Společnost Microsoft vytvořila Azure, což je služba Cloud Computing vydaná v roce 2010.

Podle Microsoftu používá Azure 80 % z 500 společností. Také 40 % tržeb Azure pochází od startupů a nezávislých dodavatelů softwaru. 33 % virtuálních počítačů Azure používá Linux. Microsoft očekává, že v roce 2018 vydělá 20 miliard dolarů.

Proto společnosti migrují část dat do Azure a někdy i všechna data.

Azure Data Lake je speciální úložiště pro paralelní analýzu velkých dat v Azure. Je optimalizován pro analýzu. Můžete ukládat data sociálních sítí, e-maily, dokumenty, informace ze senzorů, geografické informace a další.

Pokud chcete pouze ukládat data, stačí Azure Blob Storage. Pokud chcete analyzovat data, Data Lake je nejlepší volbou, protože je navržena pro sestavy.

Data Lake Store se obvykle analyzuje pomocí Cortana Analytics Suite, Power BI, SSIS je známý a oblíbený nástroj pro migraci dat. V tomto novém článku si ukážeme, jak používat SSIS k migraci dat do Azure. Také si ukážeme, jak exportovat data ze souboru .txt v Azure Data Lake Store na místní SQL Server.

Pokud nemáte žádné zkušenosti s Azure, ale máte zkušenosti s SSIS. Tento článek je pro vás.

Při importu dat do Azure Data Lake budeme postupovat podle těchto kroků:

  1. Nainstalujte balíček funkcí SSIS pro Azure
    Ve výchozím nastavení se nemůžete připojit k Azure Data Lake Store. Je nutné nainstalovat balíček funkcí pro Azure v projektech SSIS.
  1. Vytvořte Azure Data Lake Store (ADLS) v Azure Portal
    Pokud nemáte Azure Data Lake Store, budete si muset vytvořit nový. V tomto ADLS vytvoříme složku a zde budeme importovat data z lokální složky.
  1. Vytvořte registraci aplikace
    Na Azure Portal v možnostech Azure Active Directory (AAD) je možnost registrace aplikace. Pro přístup k ADLS použijeme registraci aplikace.
  1. Přidělte oprávnění ADLS
    V ADLS v Průzkumníku dat musíte udělit přístup k registraci aplikace.
  1. Export souborů do ADLS pomocí SSIS
    Pomocí úlohy ADLS pro SSIS v SSDT můžete exportovat data z místního souboru do SSIS. K tomuto účelu potřebujete ADLS URL, ID aplikace registrace aplikace a klíč registrace aplikace.
  1. Ověřte výsledky
    Nakonec přejděte na Azure Portal do ADLS, Data Explore a ověřte, že soubory byly úspěšně zkopírovány.

Požadavky

Pro tento článek je vyžadován následující software:

  1. SSIS nainstalován (součástí instalačního programu SQL Server)
  2. Nainstalované nástroje SQL Server Data Tools (SSDT)
  3. Účet Azure
  4. Balík funkcí SSIS pro Azure

Začněte

1. Nainstalujte balíček funkcí SSIS pro Azure
K dispozici je bezplatný balíček Feature Pack pro SSIS, který obsahuje úlohy pro připojení k Azure. Je třeba nainstalovat sadu funkcí SSIS. Tento balíček obsahuje několik úloh pro práci s velkými daty v Azure (HDInsight), Azure Blob Storage, Azure Data Lake Store, Azure Data Warehouse a další:

Instalační program má 29 MB. Existuje verze pro 32 a 64 bitů.

2. Vytvořte Azure Data Lake Store (ADLS) na Azure Portal
Budete také potřebovat předplatné Azure. Existují zkušební verze pro nováčky, kteří se chtějí naučit tuto novou technologii. Vytvoříme Azure Data Lake Store. Data Lake Store je místo, kde ukládáte svá data v Azure pro účely analýzy. Přihlaste se k Azure Portal a přejděte na další služby (>) a do textového pole pro vyhledávání napište Data Lake Store. Vyberte Obchod Data Lake:

Předpokládám, že ještě nemáte Data Lake Store, takže vytvoříme nový stisknutím ikony + Přidat:

Zadejte název úložiště Data Lake Store. Skupina prostředků má zpracovávat více prostředků Azure ve skupinách. Místo určuje umístění, které je vám nejblíže. Můžete platit za spotřebu. Cena se pohybuje kolem 0,39 USD za GB. Čím více TB, tím nejlevnější. Existují také poplatky za operace čtení a zápisu (10 000 operací zápisu za 0,05 $ a 10 000 operací čtení za 0,004 $).

Po vytvoření klikněte na Data Lake Store:

Chcete-li vytvořit složky a přidat soubory, přejděte do Průzkumníka dat:

Vytvořte Novou složku. Do této složky nahrajeme soubory. Přiřaďte jméno a stiskněte OK:

3. Vytvořte registraci aplikace
Vytvoříme registraci aplikace pro přístup k Data Lake. Při registraci aplikace zaregistrujete svou aplikaci a je vám přiděleno ID aplikace a klíč. K tomu musíme přejít do Další služby>Active Directory:

Přejděte na Registrace aplikací:

Přidejte jméno. Typ aplikace je Web app/API (výchozí). URL může být libovolná URL podle vašich preferencí:



Klikněte na právě vytvořenou aplikaci:


Pro připojení k Azure Data Lake Store potřebujete ID aplikace:

V registraci aplikace přejděte na klíče. Vytvořte nový klíč a přiřaďte klíči dobu platnosti. Zkopírujte a někam vložte hodnotu. Tato hodnota bude vyžadována pro připojení k Azure Data Lake Store:

Přejděte do obchodu Data Lake Store a zkopírujte adresu URL v části Přehled. Tyto informace jsou také užitečné pro připojení pomocí SSIS:


4. Přidělte oprávnění ADLS
Udělíme oprávnění k našim registracím aplikací. Tato oprávnění umožní přístup k ADLS. Přejděte do Průzkumníka dat:

Stiskněte možnost Přístup a přidejte Registraci aplikace:


Stiskněte +Přidat možnost přidat registraci aplikace:

Do textového pole napište AppService a stiskněte tlačítko Vybrat:


Přidělte oprávnění ke čtení, zápisu a spouštění. Můžete přidat oprávnění ke složce a složce a všem dětem.

Můžete také přidělit přístup, výchozí oprávnění a obojí:

5. Export souborů do ADLS pomocí SSIS
V SSDT vytvořte projekt SSIS. Pokud jste nainstalovali sadu funkcí pro Azure, budete moci zobrazit úkol systému souborů Azure Data Lake Store. Přetáhněte tuto úlohu do podokna návrhu:

Dvakrát klikněte na úkol systému souborů Azure Data Lake Store. Existují 2 možné operace. Ke kopírování z Azure Data Lake (ADL) nebo ke kopírování do ADL. V tomto příkladu budeme kopírovat z místního souboru do ADL. Ve zdroji použijeme složku c:\sql, budeme mít nějaké místní soubory ke zkopírování do ADL. V AzureDataLakeDirectory použijeme sdílenou složku. Tato složka byla vytvořena v ADL Store v předchozích krocích. AzureDataLakeConnection bude vysvětleno později. Živé vypršení platnosti souboru (tato možnost se používá k určení, kdy vyprší platnost souborů):

V AzureDataLakeConnection vybereme možnost Nové připojení pro vytvoření nového:

Pro připojení potřebujete hostitele ADLS. Toto je adresa URL, když přejdete do sekce Přehled ADLS na portálu. V ověřování použijeme identitu služby Azure AD. Tato možnost používá registraci aplikace vytvořenou v Azure.

ID klienta je ID aplikace registrace aplikace. Tyto informace najdete v části Registrace aplikace Azure AD.

Tajný klíč najdete na portálu v Registraci aplikací v Azure AD v sekci klíč. Můžete vytvořit klíč a použít hodnotu v této sekci.

Název tenanta je název domény Azure AD (vysvětlíme doménu Azure).

Stisknutím testovacího připojení ověřte, že je vše v pořádku. Jakmile je vše v pořádku, stiskněte OK:

Pokud neznáte svou doménu (jméno nájemce), můžete to zkontrolovat kliknutím v pravé horní části portálu.


Můžete spustit balíček SSIS a exportovat data do ADLS. V tomto příkladu máme v místní složce 3 soubory.

6. Ověřte výsledky
Pokud je vše v pořádku, přejděte na Azure Portal do ADLS a přejděte do Průzkumníka dat. Přejděte do sdílené složky a zkontrolujte tam soubory. Budete moci vidět 5 zkopírovaných souborů.


Export dat z Data Lake na místní SQL Server

Ve druhé části vyexportujeme data uložená v Azure Data Lake na místní SQL Server. Přetáhněte úlohu toku dat:

Dvakrát klikněte na úlohu Tok dat a přetáhněte zdroj Azure Data Lake Store a cíl SQL Server. Spojte oba úkoly. Dvakrát klikněte na Azure Data Lake Store Source:

Vyberte připojení ADLS vytvořené v první části článku. V cestě zadejte cestu ADLS (název složky/souboru). V tomto scénáři je formát souboru text a oddělovač je čárka:

Ve sloupcích můžete vidět sloupce. Pokud nejsou žádné sloupce. Výchozí záhlaví sloupců se vytvoří:

Poklepejte na cíl SQL Server. Stisknutím tlačítka Nový vytvořte správce připojení:

Vytvořte nové připojení. Zadejte název serveru SQL, ověření a databázi, kam chcete data uložit:

V tabulce nebo zobrazení vytvořte novou tabulku stisknutím tlačítka Nový:



Ve výchozím nastavení budete mít následující kód T-SQL:

Změňte kód a zadejte název tabulky a zadejte názvy sloupců:

CREATE TABLE [smartphones] (

    [ID] int,

    Brand nvarchar(100),

    Version nvarchar(100)

)

Přejděte na stránku Mapování a přiřaďte Prop_0 k ID, Prop_1 ke značce, Prop_2 k verzi:

Budete mít chybu v cíli SQL Server. Že sloupec nelze vložit kvůli problému s převodem. Důvodem je, že Prop_0 je řetězec a SQL Server tabulka je celé číslo:

Přetáhněte úlohu Data Conversion a připojte se mezi Azure Data Lake Store Source a SQL Server Destination:

Poklepejte na převod dat, vyberte Prop_0 a převeďte datový typ na čtyřbajtové celé číslo se znaménkem [DT_I4] a přiřaďte alias. Převod dat vytvoří další sloupec s jiným datovým typem:

Vraťte se do SQL Destination Editor a porovnejte Prop_0int s ID:

Spusťte balíček SSIS. V SSMS ověřte, že jsou vytvořeny tabulky dbo.smartphones a zkontrolujte, zda byla data importována:

Máte-li dotazy nebo problémy, neváhejte napsat své komentáře.

Závěry

Azure Data Lake je speciální úložiště s vysokým výkonem pro zpracování velkých dat. K migraci dat z místních serverů do Azure můžete použít SSIS. K tomu potřebujete nový Feature Pack pro Azure. Tento balíček nainstaluje nové úkoly pro připojení k ADLS.

Pro připojení k ADLS pomocí SSIS jsme vytvořili registraci aplikace AAD s oprávněními.

SSIS umožňuje snadné nahrávání souborů do ADLS. Stačí zadat ADLS URL a registrační klíč aplikace a ID aplikace.

Ukazujeme také, jak extrahovat data z ADLS do tabulky na místním serveru SQL Server.

Odkazy

Pro více informací o SSIS, Data Lake Store a registraci aplikace použijte následující odkazy:

  • Představujeme Azure Data Lake
  • Správce připojení Azure Data Lake Store
  • Azure Feature Pack for Integration Services (SSIS)
  • Integrace aplikací s Azure Active Directory
  • Úloha systému souborů Azure Data Lake Store
  • Zaregistrujte svou aplikaci u svého tenanta Azure Active Directory

  1. Jak vyvolat chybu ve funkci MySQL

  2. 5 způsobů aktualizace dat pomocí dílčího dotazu v Oracle SQL

  3. Laravel-5 ekvivalent „LIKE“ (výmluvný)

  4. Průvodce indexy MySQL