Názvy softwarových produktů IRI a způsob jejich fungování byly občas pro nezasvěcené zdrojem záhad nebo dokonce zmatku. Tento článek vysvětluje jednotlivé části a objasňuje jejich vzájemné působení a poskytuje rychlý základ pro potenciální uživatele, partnery a nové průmyslové analýzy sv.
Kde to všechno začalo
Začalo to s IRI CoSort v roce 1978, nástrojem pro třídění, transformaci a vytváření sestav velkých dat pro Unix a Windows, který se dodnes široce používá. Před CoSortem se tento první produkt IRI nazýval CO-SORT, COSORT a CoSORT v tomto pořadí.
V roce 1992 IRI přidalo syntaxi a program pro manipulaci s daty Sort Control Language (SortCL) k dalším utilitám a rozhraním API v balíčku CoSort. Dnes je SortCL nejpoužívanějším a funkcemi nabitým uživatelským rozhraním v balíčku CoSort.
Skripty SortCL definují a program sortcl spouští úlohy, které provádějí a kombinují mnoho běžných úloh přesunu dat a mapování, které uživatelé CoSort potřebují spouštět. SortCL není jen jednoduché 4GL pro učení, čtení a úpravy, ale je také podporováno prostřednictvím API (nazývaného sortcl_routine) a graficky v bezplatném IRI Workbench IDE, postaveném na Eclipse.
Jak se funkce SortCL rozšiřovala, přerostla tradiční trh CoSort pro migraci řazení a akceleraci BI/DW. Spustitelný soubor SortCL dnes není pouze motorem, který spouští většinu úloh CoSort, ale je i tlukoucím srdcem několika vedlejších produktů, které jsou znázorněny zde:
Spin-Off produkty CoSort / SortCL
Konkrétně stejný engine SortCL a kompatibilní skripty úloh – obvykle navržené a často spravované z IRI Workbench, zpracovávají zdroje strukturovaných dat v:
- IRI FieldShield a IRI DarkShield pro maskování dat
- IRI RowGen pro syntézu testovacích dat a podmnožinu databáze
- IRI NextForm pro konverzi a replikaci dat a databází a
- Úlohy platformy pro správu dat IRI Voracity, které zahrnují ty v CoSort a výše odkazované produkty, plus další funkce front-end prostřednictvím běžného grafického rozhraní Workbench, jako:
- Zjišťování dat (profilování, klasifikace a vyhledávání)
- Datový sklad ETL, CDC a SDC
- Migrace a prototypování datového trezoru 2.0
- Kvalita dat (validace, čištění, homogenizace)
- Analytika nebo boj s daty pro Splunk a KNIME a další nástroje BI prostřednictvím předávání
Další způsob, jak se podívat na hierarchii produktů, je tento:
kde je Workbench IDE místo, kde jsou navrhovány všechny úlohy produktu IRI – včetně těch dalších funkcí podporovaných ve Voracity.
Časté dotazy
Protože SortCL začal s CoSort a je společný pro všechny tyto produkty, znamená to, že mohu použít CoSort nebo jiný produkt výše k tomu, co ostatní produkty?
Odpověď je ano i ne. Ano, máte SortCL a teoreticky můžete provést stejnou práci, jakou má vykonávat jiný produkt IRI kompatibilní se SortCL. Bylo by to ale obtížnější a představuje výrobní riziko. IRI poskytuje pouze dokumentaci a podporu pro úkoly, které nejlépe souvisí s vašimi licencovanými produkty IRI.
Proto je schopnost crossoveru v praxi omezená. Nicméně kombinační funkce je v mnoha případech běžná (např. tříděná podmnožina DB) a ve Voracity jsou případy použití s více úkoly a více kroky (jako přírůstkové mapování, maskování, čištění a přeformátování) vysoce účinné a plně podporované.
SortCL je výchozí engine ve všech IRI Voracity CDC, ETL, CDC, čištění, smíření, podmnožiny ,
Maskování PII, syntéza testovacích dat, konverze, přeformátování, hádky, analýzy a úlohy vytváření sestav.
Runtime Architecture
Nyní, když znáte názvy produktů, pojďme se podívat, jak spolu souvisí a jak se používají.
Software IRI obvykle funguje v modelu klient/server, kde jsou úlohy kompatibilní se SortCL definovány v prostředí front-end editace, jako je IRI Workbench nebo jiný textový editor, nebo prostřednictvím IRI API. Tyto úlohy obvykle běží v back-end programu SortCL na počítačích se systémem Linux, Unix nebo Windows (fyzické nebo virtuální), místní nebo cloudové:
Některé úlohy napsané v syntaxi SortCL lze také spustit bez úprav přímo v Map Reduce 2, Spark, Spark Stream, Story nebo Tez pro držitele licence na edici Voracity Grid (VGrid) pro Hadoop.
Všimněte si však, že na rozdíl od mnoha jiných ETL a programů pro maskování dat neexistuje žádný server CoSort, kde by SortCL musel běžet nebo být centrálně spravován. Lehký spustitelný soubor SortCL může běžet kdekoli od Raspberry Pi po sálový počítač z/Linux.
Podle výše uvedeného diagramu je proto běžné, že weby mají testovací instance a instance QA SortCL nainstalované na vývojářských laptopech s IRI Workbench a také na centralizovaných souborových nebo databázových serverech pro optimalizaci výkonu. Tento FAQ pokrývá otázku, kde licencovat SortCL například v kontextu produktů IRI pro maskování dat a jak podle toho zohlednit jeho náklady.
Máte-li jakékoli dotazy ohledně toho, který produkt IRI potřebujete, nebo jak jej nejlépe nasadit na hardware, který máte (nebo plánujete poskytovat), kontaktujte svého zástupce IRI.