sql >> Databáze >  >> RDS >> Database

Nomenklatura a architektura produktů IRI

Názvy softwarových produktů IRI a způsob jejich fungování byly občas pro nezasvěcené zdrojem záhad nebo dokonce zmatku. Tento článek vysvětluje jednotlivé části a objasňuje jejich vzájemné působení a poskytuje rychlý základ pro potenciální uživatele, partnery a nové průmyslové analýzy sv.

Kde to všechno začalo

Začalo to s IRI CoSort v roce 1978, nástrojem pro třídění, transformaci a vytváření sestav velkých dat pro Unix a Windows, který se dodnes široce používá. Před CoSortem se tento první produkt IRI nazýval CO-SORT, COSORT a CoSORT v tomto pořadí.

V roce 1992 IRI přidalo syntaxi a program pro manipulaci s daty Sort Control Language (SortCL) k dalším utilitám a rozhraním API v balíčku CoSort. Dnes je SortCL nejpoužívanějším a funkcemi nabitým uživatelským rozhraním v balíčku CoSort.

Skripty SortCL definují a program sortcl spouští úlohy, které provádějí a kombinují mnoho běžných úloh přesunu dat a mapování, které uživatelé CoSort potřebují spouštět. SortCL není jen jednoduché 4GL pro učení, čtení a úpravy, ale je také podporováno prostřednictvím API (nazývaného sortcl_routine) a graficky v bezplatném IRI Workbench IDE, postaveném na Eclipse.

Jak se funkce SortCL rozšiřovala, přerostla tradiční trh CoSort pro migraci řazení a akceleraci BI/DW. Spustitelný soubor SortCL dnes není pouze motorem, který spouští většinu úloh CoSort, ale je i tlukoucím srdcem několika vedlejších produktů, které jsou znázorněny zde:

Spin-Off produkty CoSort / SortCL

Konkrétně stejný engine SortCL a kompatibilní skripty úloh – obvykle navržené a často spravované z IRI Workbench, zpracovávají zdroje strukturovaných dat v:

  1. IRI FieldShield a IRI DarkShield pro maskování dat
  2. IRI RowGen pro syntézu testovacích dat a podmnožinu databáze
  3. IRI NextForm pro konverzi a replikaci dat a databází a
  4. Úlohy platformy pro správu dat IRI Voracity, které zahrnují ty v CoSort a výše odkazované produkty, plus další funkce front-end prostřednictvím běžného grafického rozhraní Workbench, jako:
  • Zjišťování dat (profilování, klasifikace a vyhledávání)
  • Datový sklad ETL, CDC a SDC
  • Migrace a prototypování datového trezoru 2.0
  • Kvalita dat (validace, čištění, homogenizace)
  • Analytika nebo boj s daty pro Splunk a KNIME a další nástroje BI prostřednictvím předávání

Další způsob, jak se podívat na hierarchii produktů, je tento:

kde je Workbench IDE místo, kde jsou navrhovány všechny úlohy produktu IRI – včetně těch dalších funkcí podporovaných ve Voracity.

Časté dotazy

Protože SortCL začal s CoSort a je společný pro všechny tyto produkty, znamená to, že mohu použít CoSort nebo jiný produkt výše k tomu, co ostatní produkty?

Odpověď je ano i ne. Ano, máte SortCL a teoreticky můžete provést stejnou práci, jakou má vykonávat jiný produkt IRI kompatibilní se SortCL. Bylo by to ale obtížnější a představuje výrobní riziko. IRI poskytuje pouze dokumentaci a podporu pro úkoly, které nejlépe souvisí s vašimi licencovanými produkty IRI.

Proto je schopnost crossoveru v praxi omezená. Nicméně kombinační funkce je v mnoha případech běžná (např. tříděná podmnožina DB) a ve Voracity jsou případy použití s ​​více úkoly a více kroky (jako přírůstkové mapování, maskování, čištění a přeformátování) vysoce účinné a plně podporované.

SortCL je výchozí engine ve všech IRI Voracity CDC, ETL, CDC, čištění, smíření, podmnožiny ,
Maskování PII, syntéza testovacích dat, konverze, přeformátování, hádky, analýzy a úlohy vytváření sestav.

Runtime Architecture

Nyní, když znáte názvy produktů, pojďme se podívat, jak spolu souvisí a jak se používají.

Software IRI obvykle funguje v modelu klient/server, kde jsou úlohy kompatibilní se SortCL definovány v prostředí front-end editace, jako je IRI Workbench nebo jiný textový editor, nebo prostřednictvím IRI API. Tyto úlohy obvykle běží v back-end programu SortCL na počítačích se systémem Linux, Unix nebo Windows (fyzické nebo virtuální), místní nebo cloudové:

Některé úlohy napsané v syntaxi SortCL lze také spustit bez úprav přímo v Map Reduce 2, Spark, Spark Stream, Story nebo Tez pro držitele licence na edici Voracity Grid (VGrid) pro Hadoop.

Všimněte si však, že na rozdíl od mnoha jiných ETL a programů pro maskování dat neexistuje žádný server CoSort, kde by SortCL musel běžet nebo být centrálně spravován. Lehký spustitelný soubor SortCL může běžet kdekoli od Raspberry Pi po sálový počítač z/Linux.

Podle výše uvedeného diagramu je proto běžné, že weby mají testovací instance a instance QA SortCL nainstalované na vývojářských laptopech s IRI Workbench a také na centralizovaných souborových nebo databázových serverech pro optimalizaci výkonu. Tento FAQ pokrývá otázku, kde licencovat SortCL například v kontextu produktů IRI pro maskování dat a jak podle toho zohlednit jeho náklady.

Máte-li jakékoli dotazy ohledně toho, který produkt IRI potřebujete, nebo jak jej nejlépe nasadit na hardware, který máte (nebo plánujete poskytovat), kontaktujte svého zástupce IRI.


  1. Analýza I/O výkonu pro SQL Server

  2. Jak nainstalovat MariaDB 10 na Debian a Ubuntu

  3. Jak monitorovat výkon PostgreSQL 12 pomocí OmniDB – část 1

  4. Vyplňte chybějící data pro výstup dotazu SQL Server pomocí CTE