sql >> Databáze >  >> RDS >> Database

Pochopení 3 klíčových charakteristik velkých dat

Skutečnost, že organizace čelí problémům s velkými daty, je v dnešní době běžná. Termín Big Data odkazuje na použití sady různých technologií, starých i nových, k extrakci smysluplných informací z obrovské hromady dat. Soubor dat je nejen velký, ale má také svůj vlastní jedinečný soubor výzev při jejich zachycení, správě a zpracování. Na rozdíl od dat uložených v relačních databázích, které jsou strukturované, formát velkých dat může být strukturovaný, polostrukturovaný až nestrukturovaný nebo shromažďovaný z různých zdrojů s různou velikostí. Tento článek se ponoří do základních aspektů velkých dat, jejich základních charakteristik a poskytne vám náznak nástrojů a technik používaných k jejich řešení.

Přehled

Termín Big Data poskytuje pouze dojem o velikosti dat. To je v jistém smyslu pravda, ale nedává to celkový obraz. Výzvy s tím spojené nejsou jen o jeho velikosti. Ve skutečnosti se tato myšlenka vyvinula tak, aby pojmenovala moře dat shromážděných z různých zdrojů, formátů a velikostí a zároveň bylo obtížné je využít nebo z nich získat hodnotu. Vzestup rozvíjejících se technologií a rostoucí používání internetu dal impuls k objemu a rozdílům. Objem se neustále zvyšuje s každou výměnou informací přes internet nebo dokonce s nepatrnými objekty IoT, které používáme. Jednoduché zvednutí telefonního hovoru nebo zapnutí CCTV může vytvořit datový řetězec. Dnes je většina zařízení připojena online. Nyní, pokud chce organizace shromažďovat tyto informace online, potřebuje speciální proces zpracování, protože generovaná data budou masivní. Navíc nemusí existovat jednotnost formátu zachycených dat. To zvyšuje složitost, protože musíme pracovat se strukturovanými, polostrukturovanými nebo nestrukturovanými daty. Nástroje, které jsme doposud používali k organizaci dat, si s takovou rozmanitostí a objemem neporadí. Můžeme tedy říci, že termín Big Data se ve skutečnosti vztahuje na data, která nelze zpracovat nebo analyzovat pomocí tradičních nástrojů a technik, které se běžně používají ke zpracování strukturovaných nebo polostrukturovaných dat, jako je použití relačních databází, XML a tak dále.

Organizace jsou dnes plné nestrukturovaných nebo polostrukturovaných dat dostupných v nezpracovaném formátu. Tato data mohou být velkým množstvím informací, pokud jsou zpracována a z toho plyne hodnota. Ale problém je, jak to udělat. Tradiční techniky a nástroje, jako jsou relační databáze, jsou pro zpracování tak velkého objemu různorodých dat nedostatečné. Pro organizace je to také dvousečný problém, protože jejich pouhé skartování by znamenalo ztrátu cenných informací – pokud vůbec nějaké – a jejich ponechání je plýtváním zdrojů. Proto se hledají některé nástroje a techniky, jak problém vyřešit. Někdy jsme si docela jisti jeho potenciální hodnotou ležící na hromadě a můžeme sklidit zlatý důl informací, ale bez patřičných nástrojů je pro obchodní proces docela náročné vytěžit z toho jakýkoli užitek. Dnešní data jsou masivní a explodovala jako cokoliv jiného v posledních letech; zdá se, že tomu nelze zabránit, mimochodem.

Výbuch informací

Velká data se každou minutou zvětšují téměř ve všech odvětvích, ať už jde o technologie, média, maloobchod, finanční služby, cestování a sociální média, abychom jmenovali jen některé. Objem zpracování dat, o kterém mluvíme, je děsivý. Zde je několik statistických informací, abyste měli představu:

  • Kanály počasí obdrží každou minutu 18 055 555 požadavků na předpověď.
  • Uživatelé Netflixu streamují 97 222 hodin videa každou minutu.
  • Uživatelé Skype uskuteční 176 220 hovorů každou minutu.
  • Uživatelé Instagramu zveřejňují každou minutu 49 380 fotek.

Tato čísla každým rokem rostou, přičemž stále více lidí používá internet. V roce 2017 dosáhlo používání internetu až 47 % (3,8 miliardy lidí) světové populace. Se stále rostoucím počtem elektronických zařízení se naše přibližná výstupní data odhadují na 2,5 kvintilionů bajtů za den a stále rostou.

Statistiky Vyhledávání Google ukazují 3,5 miliardy vyhledávání denně, což je v průměru přes 40 000 vyhledávání každou sekundu. Také bychom si neměli nechat ujít, že vyhledávání provádějí i jiné vyhledávače. Zpráva Email Statistics Report, 2015–2019 společnosti Radicati Group, Inc., uvádí 2,9 miliardy uživatelů e-mailu do roku 2019.

Při pokusu odhadnout, kolik fotografií bude pořízeno v roce 2017:Pokud v roce 2017 bylo na světě 7,5 miliardy lidí, z nichž asi 5 miliard mělo mobilní telefony, je pravděpodobné, že 80 % těchto telefonů má vestavěné fotoaparáty. To znamená, že jejich fotoaparáty používají asi 4 miliardy lidí. Pokud pořídí 10 fotografií za den, což představuje 3 650 fotografií za rok na osobu, dává to dohromady přibližně 14 bilionů fotografií pořízených za rok.

Proto, když říkáme velká data, v podstatě se to týká dat nebo souborů záznamů, které jsou příliš velké na to, aby je bylo možné odhadnout. Jsou vytvářeny prostřednictvím vyhledávačů, obchodní informatiky, sociálních sítí, sociálních médií, genomiky, meteorologie, předpovědí počasí a mnoha dalších zdrojů. To zjevně nelze provozovat pomocí stávajících nástrojů a technik pro správu databází. Velká data otevírají arénu velkých výzev, pokud jde o ukládání, zachycování, správu, údržbu, analýzu, výzkum, nové nástroje pro jejich zpracování a podobně.

Charakteristika velkých dat

Jako u všech velkých věcí, pokud je chceme řídit, musíme je charakterizovat, abychom si uspořádali naše porozumění. Proto lze velká data definovat jednou nebo více ze tří charakteristik, třemi vs:vysoký objem , vysoká rozmanitost a vysokou rychlostí . Tyto charakteristiky vyvolávají některé důležité otázky, které nám nejen pomáhají je dešifrovat, ale také nám dávají představu o tom, jak nakládat s obrovskými, nesourodými daty zvládnutelnou rychlostí v rozumném časovém rámci, abychom z nich mohli získat hodnotu. analýzu v reálném čase a rychlou následnou odezvu.

  • Hlasitost: Objem se vztahuje k naprosté velikosti neustále se rozšiřujících dat ve světě výpočetní techniky. Vyvolává otázku ohledně množství dat.
  • Rychlost: Rychlost se vztahuje k rychlosti zpracování. Vyvstává otázka, jakou rychlostí jsou data zpracovávána.
  • Rozmanitost: Rozmanitost se týká typů dat. Vyvolává to otázku, jak různorodé jsou datové formáty.

Všimněte si, že velká data charakterizujeme do tří V, jen abychom zjednodušili jejich základní principy. Je docela možné, že velikost může být relativně malá, a přesto příliš pestrá a složitá, nebo to může být relativně jednoduchá a přitom obrovský objem dat. Proto k těmto třem V můžeme snadno přidat další, Veracity . Pravdivost určuje přesnost dat ve vztahu k obchodní hodnotě, kterou chceme extrahovat. Bez pravdivosti je pro organizaci nemožné použít své zdroje k analýze hromady dat. S větší přesností, pokud jde o kontext dat, existuje větší šance na získání cenných informací. Pravdivost je proto další charakteristikou velkých dat. Společnosti využívají strukturovaná, polostrukturovaná a nestrukturovaná data z e-mailů, sociálních médií, textových proudů a dalších. Před analýzou je však důležité identifikovat množství a typy uvažovaných dat, které by ovlivnily obchodní výsledky.

Nástroje a techniky

Umělá inteligence (AI), IoT a sociální média pohánějí složitost dat prostřednictvím nových forem a zdrojů. Například je klíčové, aby v reálném čase byla velká data přicházející přes senzory, zařízení, sítě, transakce zachycena, spravována a zpracována s nízkou latencí. Big Data umožňují analytikům, výzkumníkům a podnikovým uživatelům rychleji činit informovanější rozhodnutí s využitím historických dat, která by jinak byla nedosažitelná. K získání nového náhledu z dostupné hromady dat lze použít textovou analýzu, strojové učení, prediktivní analytiku, dolování dat a zpracování přirozeného jazyka.

Technologie se vyvinula pro správu obrovských objemů dat, která byla dříve drahá a musela mít pomoc superpočítačů. Se vznikem sociálních médií, jako je Facebook, vyhledávačů jako Google a Yahoo!, dostaly projekty Big Data impuls a rostly stejně jako dnes. Technologie jako MapReduce, Hadoop a Big Table byly vyvinuty tak, aby splňovaly dnešní potřeby.

V souvislosti s Big Data jsou zmíněna také úložiště NoSQL. Je to alternativní databáze na rozdíl od relačních databází. Tyto databáze neorganizují záznamy v tabulkách řádků a sloupců, jak je tomu v konvenčních relačních databázích. Existují různé typy databází NoSQL, jako je Content Store, Document Store, Event Store, Graph, Key Value a podobně. Nepoužívají SQL pro dotazy a řídí se jiným architektonickým modelem. Bylo zjištěno, že usnadňují analýzu velkých dat příznivým způsobem. Některé populární názvy jsou:Hbase, MongoDB, CouchDB a Neo4j. Kromě nich existuje mnoho dalších.

Závěr

Big Data otevřela novou příležitost ke sběru dat a získávání hodnoty z nich, které jinak byly plýtváním. Je nemožné zachytit, spravovat a zpracovávat velká data pomocí tradičních nástrojů, jako jsou relační databáze. Platforma pro velká data poskytuje nástroje a zdroje pro získání náhledu z objemných, různorodých a rychlých dat. Tyto hromady dat nyní mají prostředky a životaschopný kontext, který lze použít pro různé účely v obchodním procesu organizace. Proto, abychom přesně určili, o jakém typu dat mluvíme, musíme je a jejich charakteristiky pochopit jako primární krok.


  1. Jak exportovat data z Oracle SQL Developer do Excelu?

  2. Přehled ukládání do mezipaměti pro PostgreSQL

  3. Použijte COL_LENGTH() k získání délky sloupce na serveru SQL

  4. SQL Server:Indexové sloupce používané jako?