sql >> Databáze >  >> RDS >> Database

Sloučení datových souborů se Statistica, část 1

Platforma Statistica je zařazena mezi pět nejlepších platforem pro datovou vědu podle nové zprávy společnosti Gartner za rok 2017, „Magic Quadrant for Data Science Platforms“ (https://www.gartner.com/doc/3606026/magic-quadrant-data-science- platformy), dříve nazývané „Advanced Analytics Platforms“ v roce 2016. Široká škála funkcí a grafické uživatelské rozhraní (GUI) poskytované společností Statistica z ní činí jeden z nejběžněji používaných nástrojů pro datovou vědu.

Datové soubory Statistica se nazývají Tabulky , které mají řádky a sloupce dat. Řádky dat se nazývají případy a záhlaví sloupců pro data se nazývají proměnné . Častým problémem při přípravě dat je to, že různí členové týmu vyvíjejí nebo shromažďují datové sady odděleně a datové sady musí být sloučeny, než lze tabulku použít. Data mohou být ve více datových souborech. Probereme, jak mohou být data ve dvou různých datových souborech sloučena do jednoho datového souboru pomocí Statistica.

Statistica podporuje různé typy režimů sloučení pro dva datové soubory, a tyto jsou:

  • Zřetězit: Když jsou dva datové soubory zřetězeny, jeden datový soubor se vezme a přidá (nebo zřetězí) na pravou stranu druhého datového souboru.
  • Kartézské: Vytvoří křížový produkt dvou datových souborů.
  • Shoda případových jmen: Sloučí případy (řádky) jednoho souboru s případy ostatních souborů tak, že se shodují s názvy případů.
  • Shoda proměnných: Sloučí řádky jednoho datového souboru s řádky druhého datového souboru porovnáním názvů proměnných.

Začneme diskusí o spojení Concatenate. Tento výukový program má následující sekce:

  • Nastavení prostředí
  • Zřetězení datových souborů
  • Závěr

Nastavení prostředí

Stáhněte a nainstalujte platformu Statistica. Datové soubory Statistica se nazývají tabulky (uložené s příponou .sta přípona). V tomto tutoriálu vytvoříme nějaké datové soubory Statistica. Datový soubor se vytvoří pomocí Soubor>Nový . V části Vytvořit nový dokument , vyberte Tabulka , jak je znázorněno na obrázku 1.


Obrázek 1: Výběrem možnosti Nová tabulka k vytvoření

Chcete-li uložit datový soubor, vyberte Soubor>Uložit jako , jak je znázorněno na obrázku 2.


Obrázek 2: Soubor>Uložit jako

Zřetězení datových souborů

Nejprve vytvořte dva datové soubory, které mají být sloučeny. Datové soubory, které mají být sloučeny, by obvykle měly stejný počet řádků a stejný nebo jiný počet sloupců. Protože data mají být zřetězena, názvy sloupců by se obvykle lišily. Nic z toho není podmínkou; dva datové soubory mohou mít různý počet řádků a my si probereme, jak takovou sadu datových souborů také sloučit. Cílem je sloučit data v jednom datovém souboru s druhým tak, aby byl datový soubor 2 přidán na pravou stranu datového souboru 1. Jako příklad vytvořte datový soubor (nazvaný wlslog1.sta ) se záhlavími sloupců (proměnné). ) časové razítko , kategorie a typ a následující data (příklad dat protokolu).

4-8-2014-7:06:16,Notice,WebLogicServer4-8-2014-7:06:17,Notice,WebLogicServer4-8-2014-7:06:18,Notice,WebLogicServer4-8-2014 -7:06:20,Upozornění,WebLogicServer4-8-2014-7:06:21,Upozornění,WebLogicServer4-8-2014-7:06:22,Upozornění,WebLogicServer

Soubor wlslog1.sta datový soubor je zobrazen ve Statistica na obrázku 3.


Obrázek 3: Datový soubor wlslog1.sta

Vytvořte další datový soubor (wlslog2.sta ) se záhlavími sloupců název serveru , kód a msg a přidejte následující data (také ukázková data protokolu).

AdminServer,BEA-000365,STANDBYAdminServer,BEA-000365,RESUMINGAdminServer,BEA-000365,ADMINAdminServer,BEA-000331,STARTINGAdminServer,BEA-000365,STARTEDAdminServer,BEA-000360,RUNNING 

Soubor wlslog2.sta soubor je znázorněn na obrázku 4. Chcete-li sloučit dva datové soubory, wlslog1.sta a wlslog2.sta , klikněte na Data a vyberte Sloučit , jak je znázorněno na obrázku 4.


Obrázek 4: Datový soubor wlslog2.sta

A Možnosti sloučení Zobrazí se dialogové okno, jak je znázorněno na obrázku 5. Proměnné ve výchozím nastavení je vybrána karta. Vyberte Režim jako Concatenate . Klikněte na Soubor 1 tlačítkem vyberte 1 soubor ke sloučení.


Obrázek 5: Možnosti sloučení

Vyberte soubor wlslog1.sta v Vybrat tabulku dialog (viz obrázek 6). Klikněte na OK . Soubor wlslog1.sta soubor bude přidán do Souboru 1 pole. Podobně vyberte 2 soubor wlslog2.sta .


Obrázek 6: Výběr tabulky ke sloučení

Není vyžadována žádná další konfigurace. Ve výchozím nastavení se vygeneruje výstupní tabulka a lze ji nakonfigurovat pomocí Možností kartu, jak je znázorněno na obrázku 7. Ponechte výchozí nastavení pro výstupní tabulku.


Obrázek 7: Karta Možnosti

Dva soubory, které mají být sloučeny, se přidají do Souboru 1 a Soubor 2 polí, jak je znázorněno na obrázku 8. Výchozí nastavení pro Unmatched Cases vyplní datové soubory chybějícími hodnotami, což znamená, že pro sekci sloučeného řádku jsou uložena prázdná data (případ ), které se neshodují z jednoho datového souboru do druhého. Klikněte na OK .


Obrázek 8: Datové soubory ke sloučení

Dva datové soubory se spojí, jak je znázorněno na obrázku 9. Výsledná tabulka má 6 sloupců a 6 řádků.


Obrázek 9: Výsledná tabulka po sloučení

Pokud by jedna tabulka měla mít více řádků než druhá, obě tabulky by se spojily stejně. Jako příklad přidejte další řádek do 1 tabulky (wlslog1.sta ) vytvořte 7 řad, jak je znázorněno na obrázku 10.


Obrázek 10: Extra řádek v wlslog1.sta

Při zřetězení s tabulkou 2 (wlslog2.sta ), výsledná tabulka má navíc řádek s chybějícími daty pro sloupce ze 2 tabulky (viz obrázek 11).


Obrázek 11: Sloučená tabulka

Závěr

V tomto tutoriálu jsme představili slučování datových souborů (také nazývaných tabulky) v platformě Statistica pro datovou vědu. Probrali jsme jeden z režimů sloučení:Zřetězení sloučení. V následujícím tutoriálu probereme slučování pomocí párování názvů případů a párování proměnných.


  1. Jak přímo spustit SQL dotaz v C#?

  2. SQL EXISTS Operátor pro začátečníky

  3. Jak vám může analýza pracovní zátěže SQL pomoci?

  4. Datum/Časové razítko pro záznam, kdy byl záznam přidán do tabulky?