Databáze strojového učení nyní dospívají. To představuje obrovské příležitosti pro databázové profesionály, kteří se mohou vyvíjet, aby využili této změny.
V současné době jsou databázoví odborníci, např. správci databází (DBA) a vývojáři databází, některé z nejdůležitějších pozic v jakékoli IT organizaci. Databázový profesionál je zodpovědný za vytváření, správu a poskytování řízeného přístupu k databázi. Mít správnou osobu jako DBA může společnostem pomoci ušetřit čas a zkrátit dobu vývoje aplikací. S rostoucím přístupem k obrovskému množství dat se však povinnosti databázových profesionálů rychle vyvíjejí.
Bylo vyvinuto několik technologií, které lze použít nejen ke správě a zkoumání dat, ale mohou pomoci činit informovaná rozhodnutí na základě dat. Strojové učení je jednou z technologií, která v posledním desetiletí zaznamenala velký rozmach. Tento článek poskytuje stručný přehled toho, jak může strojové učení ovlivnit databázové profese, a jaké jsou výhody strojového učení jako sady dovedností.
Co je strojové učení?
Strojové učení je proces porozumění a získávání užitečných vzorců z dat pomocí různých statistických algoritmů. Strojové učení se dále dělí na techniky učení pod dohledem a bez dozoru. Strojové učení se v současnosti používá k řešení mnoha složitých problémů, jako je klasifikace ham a spamových e-mailů, predikce cen domu, generování poezie, klasifikace obrázků a tak dále.
Nahradí strojové učení databázové profese?
Jednou z nejčastějších mylných představ o strojovém učení je, že v mnoha zaměstnáních nahradí lidi. I když to může být pravda pro některé opakující se úkoly, AI a strojové učení v podstatě doplní lidský mozek, nikoli jej nahrazují. Databázovým profesionálům je databáze strojového učení nenahradí, spíše jim obrovsky pomohou.
Databázovým profesionálům umožní mnohem více se soustředit na plánování a strategické úkoly, protože zautomatizuje nudnější a autonomnější úkoly, jako je instalace, konfigurace a pravidelné aktualizace databáze. Proto by se databázoví profesionálové neměli obávat dopadu strojového učení na svou práci, měli by jej přijmout jako způsob, jak dokončit méně náročné úkoly mnohem rychleji a efektivněji. .
Zpracování velkých dat je výzva
Vzhledem k vzestupu celosvětové sítě za poslední dvě desetiletí jsou data dostupná ve všech tvarech a velikostech. Ve skutečnosti se termín velká data často používá pro datovou sadu, která má obrovský objem, přichází vysokou rychlostí a obsahuje různý obsah.
Zpracování obrovského množství takových nestrukturovaných dat se pro DBA stalo výzvou. Bylo zjištěno, že algoritmy běžící na databázích strojového učení dobře fungují i s nestrukturovanými daty. Obrovské množství dat lze snadno rozdělit na smysluplné informace pomocí technik strojového učení, které zdůrazňují potřebu databázových profesionálů získat dovednosti strojového učení.
Databáze strojového učení jsou zde
Společnosti jako Microsoft a Oracle již začaly začleňovat různé schopnosti strojového učení do databází. Například databáze Microsoft Azure SQL Database má modul, který navrhuje a doporučuje různé strategie zlepšení výkonu, které lze automaticky použít. Podobně SQL Server Query Store poskytuje plán pro identifikaci dotazů způsobujících problémová místa výkonu. Databáze Oracle 18c obsahuje funkce samoopravy a může použít vlastní opravy a upgradovat, kdykoli dojde k problému s databází. Dobrá znalost strojového učení ve skutečnosti pomáhá vývojářům databází porozumět zdůvodnění různých doporučení databázových nástrojů strojového učení.
Nástup plně autonomních databází
Současné databáze strojového učení mají omezené možnosti. Současný výzkum se zaměřuje na vývoj plně automatizovaných databází. Nebylo by hezké mít databázi, která dokáže předvídat problémy, které se vyskytnou, a je dostatečně proaktivní, aby předem přijala preventivní opatření? Nebo by neusnadnilo život databázovému profesionálovi, kdyby se databáze automaticky zálohovala, kdykoli dojde k zásadní transakci? Existuje mnoho scénářů, kdy jsou databáze strojového učení extrémně užitečné.
Například existující databáze provádějí automatické zálohování v určitou dobu, ale ne všechny databázové transakce stojí za zálohování. V tomto druhu scénáře by se databáze strojového učení mohly stát dostatečně chytrými, aby věděly, kdy zálohovat a kdy nezálohovat.
Kromě toho lze předem očekávat mnoho problémů s databázemi. Například ve scénářích, kdy více uživatelů přistupuje k různým databázovým zdrojům, se pravděpodobnost uváznutí mnohonásobně zvyšuje. Pokud by k tomu došlo, databáze strojového učení by mohla přejít k poskytování řízeného přístupu ke zdrojům a vyhnout se uváznutí.
Existuje několik akademických výzkumných skupin, které se pokusily vyvinout plně autonomní databáze.
Carnegie Mellon Database Research Group vyvinula projekt OtterTune která využívá techniky strojového učení a data o pracovní zátěži z obrovského množství starých databází k vytváření modelů schopných automaticky ladit nové zátěže. Databáze strojového učení OtterTune také automaticky doporučí optimální nastavení pro lepší propustnost a snížení latence pro nové databázové aplikace.
MIT také vyvinul open-source rámec pro správu databází s názvem DBSee ra který předpovídá výkon pro danou sadu databázových zdrojů a identifikuje také úzká místa výkonu.
Křivka učení
Strojové učení je často definováno jako průsečík informatiky a statistiky. Každý, kdo má znalosti z informatiky, může poměrně rychle vybudovat své dovednosti strojového učení na středně pokročilou úroveň, pokud si osvojí rozumné porozumění statistice.
Mnoho nástrojů GUI a cloudových platforem, jako je Google AI, IBM Watson, Amazon Sagemaker, Azure ML, zjednodušilo proces implementace technik strojového učení tím, že pro databáze strojového učení poskytuje rozhraní přetahování založené na GUI. Uživatelé musí pouze vědět, jak nástroj používat, protože většinu práce (přidávání datových sad, výběr technik předběžného zpracování, trénování modelu a nakonec vyhodnocení modelu) lze provést několika kliknutími myši.
Pokud chce databázový profesionál skutečně vybudovat kariéru v pokročilém strojovém učení, bude však muset důkladně porozumět statistikám. Počítačové znalosti databázového profesionála budou více než dostačující na to, aby rychle pochopili koncepty strojového učení související s CS.
Jak jsme však řekli výše, pokud má databázový profesionál zájem pouze o používání strojového učení k automatizaci opakujících se úkolů, znalost nástrojů strojového učení na bázi GUI bude více než dostačující.
Více kariérních cest
Úspěch strojového učení a umělé inteligence přiměl organizace k vytvoření specializovaných týmů pro vědu o datech, které obsahují zkušené odborníky na strojové učení.
V současné době mají odborníci na strojové učení a databázoví profesionálové různé profesní dráhy, nicméně stále více organizací očekává, že odborníci na strojové učení nebo datovou vědu budou mít určitou úroveň znalostí databází a naopak.
Vzhledem k tomu, že se to v současné době mění, jsou preferováni databázoví profesionálové se znalostmi dovedností strojového učení a mají větší šanci, že budou najati buď jako databázoví profesionálové, experti na strojové učení nebo někdo s oběmi pracovními povinnostmi.
Konečný verdikt
Nástup velkých dat a souvisejících technik strojového učení pravděpodobně přinese podstatné změny v pracovních povinnostech databázových profesionálů, protože přesčas se jejich zaměření přesune na data z databáze, protože databáze strojového učení se stále více spravují samy.
Strojové učení pomůže databázovým profesionálům zautomatizovat spoustu manuálních a pracných úkolů a uvolní jim čas a úsilí, aby si osvojili dovednosti strojového učení a mohli je používat.
Naučit se statistiky potřebné k rozvoji z databázového profesionála na širší databázi a strojové učení není přímočaré, ale přinese velké dividendy z hlediska kariérního růstu a příležitostí.