Dalším nápadem, který byste mohli vyzkoušet, může být identifikace běžných řetězců a jejich reprezentace pomocí bitmapy. Například mít dva bity pro reprezentaci protokolu (http, https, ftp nebo něco jiného), další bit pro označení, zda doména začíná „wwww“, dva bity pro označení, zda doména končí „.com“, „. org", ".edu" nebo něco jiného. Budete muset provést nějakou analýzu svých dat a zjistit, zda dávají smysl a zda existují nějaké další běžné řetězce, které můžete identifikovat.
Máte-li mnoho adres URL na stejný web, můžete také zvážit rozdělení tabulky na dvě různé, z nichž jedna obsahuje doménu a druhá obsahuje cestu relativní k doméně (a řetězec dotazu a id fragmentu, pokud existuje). Měli byste tabulku odkazů, která by měla id adresy URL, id domény a id cesty, a původní tabulku adres URL byste nahradili pohledem, který spojuje tyto tři tabulky. Tabulka domén by nemusela být omezena na doménu, můžete zahrnout tolik adresy URL, kolik je běžné (např. „http://stackoverflow.com/questions“). To by nezabralo příliš mnoho kódu k implementaci a má výhodu, že je stále čitelné. Vaše číselné kódování by mohlo být efektivnější, jakmile na to přijdete, budete muset analyzovat svá data, abyste zjistili, které z nich dává větší smysl.