Shoda jmen je obtížná . Textové indexování společnosti Oracle podporuje fuzzy párování a stemming, což je začátek, ale zvažte tyto názvy:
- Nicholas Raleigh
- Nihcolas Raleigh
- Nico Raleigh
- Nik Raleigh
- Nicky Raleigh
- Nick Raleigh
- Nikolaus Raleigh
- Nicola Raleigh
- Nikki Raleigh
- Nikola Raleigh
- Nikolai Raleigh
- Nikolaj Raleigh
Pokusy narovnat je pomocí abstrakcí, ať už je to Levenshtein Distance nebo Double Metaphone, budou generovat falešně pozitivní a falešně negativní. To je povaha abstrakce. Nejlepší způsob, jak získat soustředěný a přesný soubor výsledků, je pomocí tezauru (a ani to není dokonalé). Bohužel, sestavení komplexního tezauru jmen je obrovský úkol; abyste získali představu o úkolu, podívejte se na statistiky na webu NameX .
Aktualizace:Oracle 11gR2 obsahuje rozšíření Oracle Text přizpůsobené vyhledávání jmen. To je velmi elegantní a rozhodně první místo, kde začít. Další informace .