Přesunout data z oracle do HDFS, zpracovat a přesunout do Teradata z HDFS

Zdá se, že máte několik otázek, takže se je pokusíme rozebrat.

Import v HDFS

Zdá se, že hledáte Sqoop . Sqoop je nástroj, který vám umožní snadno přenášet data do/z HDFS a dokáže se nativně připojit k různým databázím včetně Oracle. Sqoop je kompatibilní s tenkým ovladačem Oracle JDBC. Zde je návod, jak přenést z Oracle na HDFS:

sqoop import --connect jdbc:oracle:example@sqldat.com:1521/db --username xxx --password yyy --table tbl --target-dir /path/to/dir

Další informace:zde a zde . Všimněte si, že můžete také importovat přímo do tabulky Hive pomocí Sqoop, což by mohlo být vhodné pro provedení vaší analýzy.

Zpracování

Jak jste poznamenali, protože vaše data jsou zpočátku relační, je dobré použít k analýze Hive, protože možná znáte syntaxi podobnou SQL. Pig je čistější relační algebra a syntaxe NENÍ podobná SQL, je to spíše otázka preferencí, ale oba přístupy by měly fungovat dobře.

Protože můžete data importovat do Hive přímo pomocí Sqoop, vaše data by měla být po importu přímo připravena ke zpracování.

V Hive můžete spustit svůj dotaz a říct mu, aby zapsal výsledky do HDFS:

hive -e "insert overwrite directory '/path/to/output' select * from mytable ..."

Export do TeraData

Cloudera minulý rok vydala konektor pro Teradata pro Sqoop, jak je popsáno zde , takže byste se měli podívat, protože to vypadá přesně tak, jak chcete. Zde je návod, jak byste to udělali:

sqoop export --connect jdbc:teradata://localhost/DATABASE=MY_BASE --username sqooptest --password xxxxx --table MY_DATA --export-dir /path/to/hive/output

Celá věc je určitě proveditelná v jakémkoli časovém období, které chcete, nakonec bude záležet na velikosti vašeho clusteru, pokud to chcete rychle, škálujte svůj cluster podle potřeby. Dobrá věc s Hive and Sqoop je, že zpracování bude distribuováno ve vašem clusteru, takže máte úplnou kontrolu nad plánem.