I když odhodlané osobě nic nebrání ve seškrabování veřejně dostupného obsahu, můžete udělat několik základních věcí, abyste zmírnili klientovy obavy:
-
Omezení rychlosti podle uživatelského účtu, IP adresy, uživatelského agenta atd... - to znamená, že omezíte množství dat, které může konkrétní uživatelská skupina stáhnout za určité časové období. Pokud zjistíte, že se přenáší velké množství dat, vypnete účet nebo IP adresu.
-
Vyžadovat JavaScript – aby se zajistilo, že klient bude mít nějakou podobnost s interaktivním prohlížečem, spíše než s barebones pavoukem...
-
RIA – zpřístupněte svá data prostřednictvím rozhraní Rich Internet Application. Mřížky založené na JavaScriptu zahrnují ExtJs, YUI, Dojo atd. Bohatší prostředí zahrnují Flash a Silverlight jako 1kevgriff zmiňuje .
-
Kódujte data jako obrázky. To je pro běžné uživatele docela rušivé, ale mohli byste zakódovat některé ze svých datových tabulek nebo hodnot jako obrázky místo textu, což by porazilo většinu textových analyzátorů, ale není to samozřejmě spolehlivé.
-
robots.txt – k odepření zjevných webových pavouků, známých robotických uživatelských agentů.
User-agent:*
Disallow:/
-
Používejte metatagy robotů. To by přestalo vyhovovat pavoukům. To zabrání Googlu v indexování například:
Existují různé úrovně odstrašení a první možnost je pravděpodobně nejméně rušivá.