sql >> Databáze >  >> RDS >> Oracle

Oracle Fuzzy textové vyhledávání

Shoda jmen je obtížná . Textové indexování společnosti Oracle podporuje fuzzy párování a stemming, což je začátek, ale zvažte tyto názvy:

  • Nicholas Raleigh
  • Nihcolas Raleigh
  • Nico Raleigh
  • Nik Raleigh
  • Nicky Raleigh
  • Nick Raleigh
  • Nikolaus Raleigh
  • Nicola Raleigh
  • Nikki Raleigh
  • Nikola Raleigh
  • Nikolai Raleigh
  • Nikolaj Raleigh

Pokusy narovnat je pomocí abstrakcí, ať už je to Levenshtein Distance nebo Double Metaphone, budou generovat falešně pozitivní a falešně negativní. To je povaha abstrakce. Nejlepší způsob, jak získat soustředěný a přesný soubor výsledků, je pomocí tezauru (a ani to není dokonalé). Bohužel, sestavení komplexního tezauru jmen je obrovský úkol; abyste získali představu o úkolu, podívejte se na statistiky na webu NameX .

Aktualizace:Oracle 11gR2 obsahuje rozšíření Oracle Text přizpůsobené vyhledávání jmen. To je velmi elegantní a rozhodně první místo, kde začít. Další informace .




  1. Jak omezit počet řádků, které lze uložit v tabulce mysql?

  2. číst rám s sqlalchemy, mysql a pandy

  3. java.sql.SQLException:Nebyl nalezen žádný vhodný ovladač pro jdbc:microsoft:sqlserver

  4. Porovnání INT bez příkazu WHERE