sql >> Databáze >  >> RDS >> Mysql

Funkce Jaro-winkler:proč je stejné skóre odpovídající velmi podobným a velmi odlišným slovům?

Vzorec vzdálenosti Jaro-Winkler je zaměřen na struny se společným začátkem. Například Valentina a Valentiria .

Má také některá ne tak intuitivní „pravidla“ (viz wikipedie ).

Pravděpodobně byste měli nejprve určit, jaký druh odlišnosti očekáváte, a poté hledat vhodný vzorec vzdálenosti. Například při psaní je „úhlový červ“ a „angelworm“ velmi pravděpodobnou chybou, takže vzdálenost mezi dvěma strunami by měla být malá. Zatímco nesoulad „tam“ a „tři“ je méně pravděpodobný a „éter“ ještě více. U delších anagramů může být vzdálenost Jaro úplně stejná a dokonce ani Winklerova korekce nemusí zasáhnout.

Jak si můžete přečíst na této stránce (zdůrazňuji můj)



  1. CDbCommand::fetchColumn() se nezdařilo:SQLSTATE[HY000]:Obecná chyba:2014 Nelze provést dotazy, když jsou aktivní ostatní dotazy bez vyrovnávací paměti

  2. mysqldb na pythonu 2.6+ (win32)

  3. Jak mohu používat MySQL ve Visual Studiu 2010 s EF4?

  4. záloha mysqli db s php