sql >> Databáze >  >> RDS >> Mysql

Jak mohu VYBRAT podobné řádky ve dvou různých tabulkách v MySQL (je to možné?)

Pro implementaci UDF Levenshtein Distance algoritmus, který si možná budete chtít vyzkoušet "codejanitor.com:Levenshteinova vzdálenost jako uložená funkce MySQL “:

CREATE FUNCTION LEVENSHTEIN (s1 VARCHAR(255), s2 VARCHAR(255))
RETURNS INT
DETERMINISTIC
BEGIN
  DECLARE s1_len, s2_len, i, j, c, c_temp, cost INT;
  DECLARE s1_char CHAR;
  DECLARE cv0, cv1 VARBINARY(256);
  SET s1_len = CHAR_LENGTH(s1), s2_len = CHAR_LENGTH(s2), cv1 = 0x00, j = 1, i = 1, c = 0;
  IF s1 = s2 THEN
    RETURN 0;
  ELSEIF s1_len = 0 THEN
    RETURN s2_len;
  ELSEIF s2_len = 0 THEN
    RETURN s1_len;
  ELSE
    WHILE j <= s2_len DO
      SET cv1 = CONCAT(cv1, UNHEX(HEX(j))), j = j + 1;
    END WHILE;
    WHILE i <= s1_len DO
      SET s1_char = SUBSTRING(s1, i, 1), c = i, cv0 = UNHEX(HEX(i)), j = 1;
      WHILE j <= s2_len DO
        SET c = c + 1;
        IF s1_char = SUBSTRING(s2, j, 1) THEN SET cost = 0; ELSE SET cost = 1; END IF;
        SET c_temp = CONV(HEX(SUBSTRING(cv1, j, 1)), 16, 10) + cost;
        IF c > c_temp THEN SET c = c_temp; END IF;
        SET c_temp = CONV(HEX(SUBSTRING(cv1, j+1, 1)), 16, 10) + 1;
        IF c > c_temp THEN SET c = c_temp; END IF;
        SET cv0 = CONCAT(cv0, UNHEX(HEX(c))), j = j + 1;
      END WHILE;
      SET cv1 = cv0, i = i + 1;
    END WHILE;
  END IF;
  RETURN c;
END

Nyní vytvoříme testovací případ pomocí dat, která jste poskytli ve své otázce:

CREATE TABLE table_a (name varchar(20));
CREATE TABLE table_b (name varchar(20));

INSERT INTO table_a VALUES('Olde School');      
INSERT INTO table_a VALUES('New School');
INSERT INTO table_a VALUES('Other, C.S. School');
INSERT INTO table_a VALUES('Main School');
INSERT INTO table_a VALUES('Too Cool for School');

INSERT INTO table_b VALUES('Old School');
INSERT INTO table_b VALUES('New ES');
INSERT INTO table_b VALUES('Other School');
INSERT INTO table_b VALUES('Main School');
INSERT INTO table_b VALUES('Hardknocks School');

Potom:

SELECT     *
FROM       table_a a
LEFT JOIN  table_b b ON (a.name = b.name);

Zjevně vrátí shodu, kde se názvy škol přesně shodují:

+---------------------+-------------+
| name                | name        |
+---------------------+-------------+
| Olde School         | NULL        |
| New School          | NULL        |
| Other, C.S. School  | NULL        |
| Main School         | Main School |
| Too Cool for School | NULL        |
+---------------------+-------------+
5 rows in set (0.00 sec)

Nyní můžeme zkusit použít LEVENSHTEIN funkce pro vrácení jmen škol, která mají vzdálenost úprav 2 nebo méně znaků:

SELECT     *
FROM       table_a a
LEFT JOIN  table_b b ON (LEVENSHTEIN(a.name, b.name) <= 2);

+---------------------+-------------+
| name                | name        |
+---------------------+-------------+
| Olde School         | Old School  |
| New School          | NULL        |
| Other, C.S. School  | NULL        |
| Main School         | Main School |
| Too Cool for School | NULL        |
+---------------------+-------------+
5 rows in set (0.08 sec)

Nyní pomocí <= 3 jako editační práh vzdálenosti:

SELECT     *
FROM       table_a a
LEFT JOIN  table_b b ON (LEVENSHTEIN(a.name, b.name) <= 3);

Dostaneme následující výsledek:

+---------------------+--------------+
| name                | name         |
+---------------------+--------------+
| Olde School         | Old School   |
| Olde School         | Other School |
| New School          | Old School   |
| Other, C.S. School  | NULL         |
| Main School         | Main School  |
| Too Cool for School | NULL         |
+---------------------+--------------+
6 rows in set (0.06 sec)

Všimněte si, jak tentokrát Olde School také odpovídal Other School a New School odpovídající Old School také. Ty jsou pravděpodobně falešně pozitivní a ukazují, že definování prahu je velmi důležité, aby se předešlo nesprávným shodám.

Jednou z běžných technik řešení tohoto problému je vzít v úvahu délku strun při aplikaci prahové hodnoty. Ve skutečnosti web, který Pro tuto implementaci jsem citoval také poskytuje LEVENSHTEIN_RATIO funkce, která vrací poměr (v procentech) rozdílu úprav na základě délky řetězců.



  1. MySQL Přidat cizí klíč

  2. Docker MySQL – nelze se připojit z aplikace Spring Boot k databázi MySQL

  3. Představujeme novou funkci – Spotlight Cloud Replication

  4. Přidání objektu dict do postgresql