sql >> Databáze >  >> RDS >> Mysql

Efektivní způsob výpočtu procenta podobnosti mezi soubory dat

Standardní způsob, jak toho dosáhnout, je podobnost Jaccard. Pokud A je množina cílů prvního uživatele a B je množina cílů druhého uživatele, podobnost Jaccard je:

#(A intersect B)/#(A union B)

Toto je počet gólů, které sdílejí, vydělený celkovým počtem hlasů, které oba mají společně (započítávají se góly, které sdílejí pouze jednou). Pokud má tedy první uživatel cíle A={1,2,3} a druhý uživatel má cíle B={2,4}, je to toto:

A intersect B = {2}
A union B = {1,2,3,4}

#(A intersect B)/#(A union B) = 1/4

Podobnost Jaccard je vždy mezi 0 (nemají žádné cíle) a 1 (mají stejné cíle), takže můžete získat procento vynásobením 100.

http://en.wikipedia.org/wiki/Jaccard_index




  1. Index PostgreSQL vs Index InnoDB - Pochopení rozdílů

  2. Vytváření dočasných tabulek v SQL

  3. Vrácení výstupu skriptu Python CGI MySQL

  4. Datový model pro obchodování s akciemi, fondy a kryptoměnami