To, o čem mluvíte, je proces shlukování textu. Snažíte se najít podobné části textu a libovolně si vybrat jeden z nich. Neznám žádnou databázi, která by tuto formu těžby textu prováděla.
Pro to, co popisujete, by pravděpodobně fungovala docela základní technika dolování textu. Vytvořte matici termín-dokument se všemi slovy kromě uživatelských jmen. Pak použijte rozklad singulární hodnoty k získání největší singulární hodnoty a vektoru (toto je první hlavní složka korelační matice). Podobné aktivity by se měly shlukovat podél této linie.
Pokud máte omezenou slovní zásobu a máte výrazy v tabulce, můžete změřit vzdálenost mezi dvěma akcemi poměrem slov, která se překrývají. Máte seznam všech slov v akcích?