WordNet je super skvělá databáze slov. Sám jsem to zkoumal. Níže uvedu svá zjištění – a doufám, že vám to pomůže lépe porozumět tabulkám.
Tabulka Synset Tabulka synsets je jednou z nejdůležitějších tabulek v databázi. Je zodpovědný za uložení všech definic v rámci WordNet. Každý řádek v tabulce synset má synsetid, definici, pos (pole slovních druhů) a lexdomainid (který odkazuje na tabulku lexdomain). V databázi WordNet je 117373 synsetů.
Tabulka slov WordNet má také tabulku „slov“, která má pouze dvě pole:wordid a „lemma“. Tabulka slov je zodpovědná za uložení všech lemmat (základních slov) v databázi Wordnet. V této tabulce je 146625 položek
Jak jsou tedy tyto dvě tabulky propojeny? Odpověď? Tabulka smyslů!
Tabulka smyslů Tabulka smyslů je zodpovědná za spojování slov (v tabulce slov) s definicemi (v tabulce synsetů). Záznamy v tabulce smyslů se označují jako „páry smyslu slova“ – protože každé párování wordid se synsetem je jeden úplný význam slova – „smysl slova“.
V databázi WordNet je celkem 206 354 významů slova.
Tabulka Lexdomains Na tabulku Lexdomains odkazuje tabulka smyslů a používá se k definování, do jaké lexikální domény dvojice slovo-smysl patří. V tabulce lexdomains je 45 lexikálních domén. Tabulka lexdomain je tedy způsob, jak WordNet „označit“ pár slovo-smysl. Je to však značně omezené, protože dvojice slovo-smysl může patřit pouze do JEDNÉ lexikální domény.
Mezi 45 lexikálních domén patří:
Přídavná jména: vše, pert
Příslovce všechny
Podstatná jména topy, akt, zvíře, artefakt, atribut, tělo, poznání, komunikace, událost, pocit, jídlo, skupina, místo, motiv, předmět, osoba, fenomén, rostlina, vlastnictví, proces, množství, linkdef, tvar, stav, substance, čas,
Slova tělo, změna, poznání, komunikace, konkurence, spotřeba, kontakt, tvorba, emoce, pohyb, vnímání, vlastnictví, sociální, stativní, počasí, ppl
Tabulka casedwords Některá slova v tabulce slov mají přirozeně první písmeno velké, tj. „A-tým“. Protože tabulka slov ukládá všechna slova jako malá písmena, WordNet používá tuto tabulku k určení verze slova s velkými písmeny. V této tabulce je 40313 položek.
Ve WordNet DB je mnoho dalších tabulek, jakmile je prozkoumám, zveřejním je znovu.
Hledání synonym Chcete-li odpovědět na svou otázku týkající se synonym – musíte provést následující.
Řekněme, že chcete najít synonyma pro slovo „Carry“. Chcete-li tak učinit, nejprve byste v tabulce slov hledali lemma odpovídající slovu „přenášet“. To by dalo wordid 21253. Pak byste prohledali tabulku smyslů, abyste našli všechny dvojice slovo-smysl pro slovo carry. Výsledkem je 41 výsledků – každý výsledek uvádí wordid 21253 a senseid (což je index dvojice slovo-smysl) a synsetid.
Nyní byste se pak museli dotázat na tabulku synset pro každý z vrácených synsetid, abyste měli přístup k přidruženému definičnímu poli v tabulce synset.
A konečně, abyste našli synonyma pro každý z uvedených synsetů, museli byste jednoduše hledat v tabulce smyslů další dvojice slovo-smysl, které sdílely stejnou synset.
Příklad:Níže je uveden jeden ze 41 dvojic slova-smysl pro slovo „nosit“:Pokud vyhledáme definici tohoto synsetid 202083512, najdete „přenášet nebo sloužit jako médium pro přenos“
Chcete-li najít všechna synonyma pro tuto definici, hledali byste v tabulce smyslů stejné synsetid 202083512. Získáte synonyma:kanál, vedení, předávání, předávání a vysílání (poznámka:k získání aktuální lemmata)
Doufám, že vám to pomůže demystifikovat WordNet. Zjišťuji, že je to docela cool...