sql >> Databáze >  >> RDS >> Database

Velikost vzorku a doba trvání AKTUALIZACE STATISTIKY:Záleží na tom?

Pro každou novou databázi vytvořenou na serveru SQL je výchozí hodnota pro možnost Auto Update Statistics povoleno . Mám podezření, že většina správců databází nechává tuto možnost povolenou, protože umožňuje optimalizátoru automaticky aktualizovat statistiky, když jsou zrušeny, a obecně se doporučuje nechat ji povolenou. Statistiky se také aktualizují, když jsou indexy znovu sestaveny, a přestože není neobvyklé, že statistiky jsou dobře spravovány pomocí možnosti automatické aktualizace statistik a přes znovu sestavení indexu, čas od času může správce DBA zjistit, že je nutné nastavit pravidelnou úlohu pro aktualizaci statistika nebo soubor statistik.

Vlastní správa statistik často zahrnuje příkaz UPDATE STATISTICS, který se zdá být docela neškodný. Lze jej spustit pro všechny statistiky pro tabulku nebo indexované zobrazení nebo pro konkrétní statistiku. Lze použít výchozí vzorek, určit konkrétní vzorkovací frekvenci nebo počet řádků k vzorkování nebo můžete použít stejnou hodnotu vzorku, která byla použita dříve. Pokud jsou statistiky aktualizovány pro tabulku nebo indexované zobrazení, můžete se rozhodnout aktualizovat všechny statistiky, pouze statistiky indexu nebo pouze statistiky sloupců. A nakonec můžete deaktivovat možnost automatické aktualizace statistik pro statistiku.

Pro většinu správců databází může být největším hlediskem kdy ke spuštění příkazu UPDATE STATISTICS. Ale správci databází také rozhodují, ať už vědomě nebo ne, velikost vzorku pro aktualizaci. Vybraná velikost vzorku může ovlivnit výkon aktuální aktualizace a také výkon dotazů.

Porozumění účinkům velikosti vzorku

Výchozí velikost vzorku pro UPDATE STATISTICS pochází z nelineárního algoritmu a velikost vzorku se zmenšuje, jak se zvětšuje velikost tabulky, jak ukázal Joe Sack ve svém příspěvku Auto-Update Stats Default Sampling Test. V některých případech nemusí být velikost vzorku dostatečně velká, aby zachytila ​​dostatek zajímavých informací, nebo správně informace pro statistický histogram, jak poznamenal Conor Cunningham ve svém příspěvku Statistics Sample Races. Pokud výchozí vzorek nevytváří dobrý histogram, správci databází se mohou rozhodnout aktualizovat statistiky s vyšší vzorkovací frekvencí až do FULLSCAN (prohledávání všech řádků v tabulce nebo indexovaném zobrazení). Jak ale Conor zmínil ve svém příspěvku, skenování více řádků něco stojí a DBA se musí rozhodnout, zda spustit FULLSCAN a pokusit se vytvořit „nejlepší“ histogram, nebo odebrat vzorek menšího procenta, aby se minimalizoval dopad na výkon. aktualizace.

Abych se pokusil pochopit, v jakém okamžiku vzorek trvá déle než FULLSCAN, provedl jsem následující příkazy proti kopiím tabulky SalesOrderDetail, které byly zvětšeny pomocí skriptu Jonathana Kehayiase:

ID výpisu Prohlášení AKTUALIZACE STATISTIKY
1 AKTUALIZACE STATISTIKY [Prodej].[SalesOrderDetailEnlarged] POMOCÍ FULLSCAN;
2 AKTUALIZACE STATISTIKY [Prodeje].[SalesOrderDetailEnlarged];
3 AKTUALIZACE STATISTIKY [Prodeje].[SalesOrderDetailEnlarged] S VZOREM 10 PROCENT;
4 AKTUALIZOVAT STATISTIKY [Prodeje].[SalesOrderDetailEnlarged] U VZORKU 25 PROCENT;
5 AKTUALIZACE STATISTIKY [Prodeje].[SalesOrderDetailEnlarged] S VZOREM 50 PROCENT;
6 AKTUALIZOVAT STATISTIKY [Prodeje].[SalesOrderDetailEnlarged] U VZORKU 75 PROCENT;


Měl jsem tři kopie tabulky SalesOrderDetailEnlarged s následujícími charakteristikami*:

Počet řádků Počet stránek MAXDOP Max. paměť Úložiště Stroj
23 899 449 363 284 4 8 GB SSD_1 Laptop
607 312 902 7 757 200 16 54 GB SSD_2 Testovací server
607 312 902 7 757 200 16 54 GB 15 kB Testovací server


*Další podrobnosti o hardwaru jsou na konci tohoto příspěvku.

Všechny kopie tabulky měly následující statistiky a žádná ze tří statistik indexu neobsahovala sloupce:

Statistika Typ Sloupce v klíči
PK_SalesOrderDetailEnlarged_SalesOrderID_SalesOrderDetailID Index SalesOrderID, SalesOrderDetailID
AK_SalesOrderDetailEnlarged_rowguid Index rowguid
IX_SalesOrderDetailEnlarged_ProductID Index ID produktu
user_CarrierTrackingNumber Sloupec CarrierTrackingNumber


Výše uvedené příkazy UPDATE STATISTICS jsem spustil čtyřikrát každý proti tabulce SalesOrderDetailEnlarged na mém notebooku a dvakrát proti tabulkám SalesOrderDetailEnlarged na TestServeru. Příkazy byly spouštěny pokaždé v náhodném pořadí a mezipaměť procedur a mezipaměť vyrovnávací paměti byly vymazány před každým příkazem aktualizace. Doba trvání a využití databáze tempdb pro každou sadu příkazů (průměrné) jsou v grafech níže:


Průměrná doba trvání – aktualizace všech statistik pro SalesOrderDetailEnlarged


Využití tempdb – aktualizace všech statistik pro SalesOrderDetailEnlarged

Doba trvání pro tabulku s 23 miliony řádků byla kratší než tři minuty a jsou podrobněji popsány v další části. U tabulky na discích SSD_2 trval příkaz FULLSCAN 1492 sekund (téměř 25 minut) a aktualizace s 25% vzorkem trvala 2051 sekund (přes 34 minut). Naproti tomu na 15K discích trval příkaz FULLSCAN 2864 sekund (přes 47 minut) a aktualizace s 25% vzorkem trvala 2147 sekund (téměř 36 minut) – méně než čas FULLSCAN. Aktualizace s 50% vzorkem však trvala 4296 sekund (přes 71 minut).

Využití tempdb je mnohem konzistentnější, vykazuje stálý nárůst s rostoucí velikostí vzorku a využívá více prostoru tempdb než FULLSCAN někde mezi 25 % a 50 %. Zde je pozoruhodné, že AKTUALIZACE STATISTIKY dělá použít tempdb, což je důležité si pamatovat při dimenzování databáze tempdb pro prostředí SQL Server. Použití Tempdb je uvedeno v položce BOL AKTUALIZACE STATISTIC:

UPDATE STATISTICS může použít tempdb k seřazení vzorku řádků pro vytváření statistik.“

A účinek je zdokumentován v příspěvku Linchi Shea, Performance impact:tempdb and update statistics. Během diskusí o dimenzování tempdb to však není vždy zmíněno. Pokud máte velké tabulky a provádíte aktualizace pomocí FULLSCAN nebo vysokých vzorových hodnot, uvědomte si využití databáze tempdb.

Výkon selektivních aktualizací

Dále jsem se rozhodl otestovat příkazy UPDATE STATISTICS pro ostatní statistiky v tabulce, ale omezil jsem své testy na kopii tabulky s 23 miliony řádků. Výše uvedených šest variant příkazu UPDATE STATISTICS bylo opakováno čtyřikrát pro následující jednotlivé statistiky a poté porovnány s aktualizací pro celou tabulku:

  • PK_SalesOrderDetailEnlarged_SalesOrderID_SalesOrderDetailID
  • IX_SalesOrderDetailEnlarged_ProductID
  • user_CarrierTrackingNumber

Všechny testy byly spuštěny s výše uvedenou konfigurací na mém notebooku a výsledky jsou v grafu níže:


Průměrná doba trvání AKTUALIZACE STATISTIKY – všechny statistiky vs. vybrané

Jak se očekávalo, aktualizace jednotlivých statistik trvaly kratší dobu než aktualizace všech statistik pro tabulku. Hodnota, při které aktualizace vzorku trvala déle než FULLSCAN, se lišila:

příkaz UPDATE FULLSCAN trvání (s) První AKTUALIZACE, která trvala déle
Celá tabulka 62 50 % – 110 sekund
Shlukovaný index 17 75 % – 26 sekund
Neshlukovaný index 10 25 % – 19 sekund
Statistika vytvořená uživatelem 26 50 % – 28 sekund

Závěr

Na základě těchto údajů a údajů FULLSCAN z 607 milionů řádkových tabulek neexistuje žádný konkrétní bod zlomu, kdy aktualizace vzorku trvá déle než FULLSCAN; tento bod závisí na velikosti tabulky a dostupných zdrojích. Data však stále stojí za to, protože ukazují, že existují bod, kdy může zachycení nasamplované hodnoty trvat déle než FULLSCAN. Opět jde o znalost vašich dat. To je důležité nejen pro pochopení toho, zda tabulka potřebuje vlastní správu statistik, ale také pro pochopení ideální velikosti vzorku pro vytvoření užitečného histogramu a také pro optimalizaci využití zdrojů.

Specifikace

Specifikace notebooku:Dell M6500, 1 Intel i7 (2,13 GHz 4 jádra a HT je povoleno, takže 8 logických jader), 32 GB paměti, Windows 7, SQL Server 2012 SP1 (11.0.3128.0 x64), databázové soubory uložené na 265GB Samsung SSD PM810

Specifikace testovacího serveru:Dell R720, 2 Intel E5-2670 (2,6 GHz 8 jader a HT je povoleno, takže 16 logických jader na soket), 64 GB paměti, Windows 2012, SQL Server 2012 SP1 (11.0.3339.0 x64), databázové soubory pro jedna tabulka je umístěna na dvou 640GB Fusion-io Duo MLC kartách, databázové soubory pro druhou tabulku jsou na devíti 15K RPM discích v poli RAID5


  1. Funkce NLS_UPPER() v Oracle

  2. Co je Query Outlier a jak jej opravit

  3. Jak mohu odstranit duplicitní řádky v tabulce

  4. Rekurzivní dotaz používaný pro tranzitivní uzávěr