sql >> Databáze >  >> RDS >> Database

Analyzujte velká data pomocí nástrojů Microsoft Azure

Velká data

Velká data popisuje velký objem dat, ať už strukturovaných nebo nestrukturovaných, které denně zaplavují podnik. Big Data řeší způsoby, jak analyzovat, extrahovat informace nebo pracovat s datovými soubory, které jsou příliš velké nebo složité na to, aby se s nimi vypořádal běžný software pro zpracování dat.

Velká data mají následující charakteristiky:

  • Hlasitost: Množství generovaných a uložených dat
  • Rozmanitost: Typ a povaha dat
  • Rychlost: Rychlost, jakou jsou data generována a zpracovávána
  • Vernost: Kvalita dat a hodnota dat

Vliv Azure na velká data

Microsoft Azure pomocí nástrojů strojového učení transformuje data na užitečné přehledy. Umožňuje vám kombinovat jakákoli data v jakémkoli měřítku a vytvářet a nasazovat modely strojového učení ve velkém.

Pomocí následujících produktů Azure lze provádět pokročilé analýzy velkých dat:

  • Datový sklad SQL
  • Datová továrna
  • Azure BLOB Storage
  • Azure Databricks
  • Azure Cosmos DB
  • Power BI

Pojďme se na každou z nich podívat jednotlivě.

Datový sklad SQL

SQL Data Warehouse je cloudový EDW (Enterprise Data Warehouse), který využívá Massively Parallel Processing (velký počet procesorů, které provádějí sadu výpočtů paralelně) ke spouštění složitých dotazů přes petabajty dat.

Jednoduše importujete velká data do SQL Data Warehouse pomocí dotazů PolyBase T-SQL (dotazy, které čtou data z Hadoop), a pak s výkonem MPP spustíte vysoce výkonnou analýzu. Datový sklad se pak stane jedinou verzí pravdy, na kterou se můžete spolehnout při získávání poznatků.

Datová továrna

Data Factory je cloudová služba pro integraci dat, která skládá služby ukládání, pohybu a zpracování dat do automatizovaných datových kanálů. Azure Data Factory je hybridní služba pro integraci dat, která vám umožňuje vytvářet, plánovat a organizovat pracovní postupy ETL/ELT (Extract, Transform, Load).

Azure BLOB Storage

Azure BLOB storage je masivně škálovatelné úložiště objektů pro nestrukturované dokumenty, obrázky, videa a zvuk. Úložiště BLOB Azure je optimalizováno pro ukládání velkého množství nestrukturovaných dat (data, která nesplňují konkrétní datový model nebo definici), jako jsou například textová nebo binární data.

Úložiště BLOB Azure má následující funkce:

  • Poskytování dokumentů nebo obrázků přímo do prohlížeče
  • Ukládání souborů pro distribuovaný přístup
  • Streamování zvuku a videa
  • Zápis do souborů protokolu
  • Ukládání dat pro obnovu po havárii, zálohování a obnovu a archivaci

Azure Databricks

Azure Databricks je snadná, rychlá a spolupracující analytická platforma založená na Apache Spark (open source distribuovaný obecný cluster-computing framework, který poskytuje rozhraní pro programování clusterů s implicitním datovým paralelismem).

Azure Cosmos DB

Azure Cosmos DB je globálně distribuovaná databázová služba. Je navržen tak, aby poskytoval nízkou latenci, pružnou škálovatelnost propustnosti, dobře definovanou sémantiku pro konzistenci dat a vysokou dostupnost.

Power BI

Power BI je sada nástrojů pro obchodní analýzu, které poskytují přehledy. Power BI vám umožňuje připojit se k mnoha zdrojům dat, zjednodušit přípravu dat, podpořit ad hoc analýzu a také vytvářet sestavy pro použití na webu a v mobilních zařízeních.

Závěr

Big Data se vyvíjela a neustále se vyvíjejí. S pomocí nástrojů Azure se velká data stávají stále lépe spravovatelnými.


  1. Jak volat uloženou proceduru Oracle v Pythonu?

  2. Import oddílů InnoDB v MariaDB 10.0/10.1

  3. Příklady převodu ‚date‘ na ‚datetime2‘ v SQL Server (T-SQL)

  4. Nesprávné výsledky s Merge Join