Normalizovaná googlovská vzdálenost

Normalizovaná googlovská vzdálenost je metrika sémantické vzdálenosti, odvozená od počtu výsledků vrácených Google vyhledávacím enginem pro daná klíčová slova. Klíčová slova, která mají blízký význam v přirozeném jazyce, jsou si také blízká v rámci Normalizované googlovské vzdálenosti. Výpočet pro dva vyhledávané pojmy $x$ a $y$ je:

$\operatorname {NGD} (x,y)={\frac {\max\{\log f(x),\log f(y)\}-\log f(x,y)}{\log N-\min\{\log f(x),\log f(y)\}}}$

Kde $N$ je celkový počet webový stránek, které Google prohledává, vynásoben průměrným počtem výskytu jednotlivých hledaných pojmů na stránkách. $f(x)$ a $f(y)$ značí počet výsledků pro hledané pojmy $x$ a $y$ a $f(x,y)$ je počet stránek, kde se vyskytují oba pojmy.

Pokud $NGD(x,y)=0$ pak jsou pojmy vnímané jako tak podobné, jak jen to lze. Pokud $NGD(x,y)\geq 1$ pak jsou pojmy velmi odlišné. Jestliže se pojmy vyskytují samostatně ale nikdy společně na stejné stránce, jejich vzdálenost bude nekonečno. Pokud se vždy vyskytují spolu, bude nula.

Příklad

Vyhledávání pojmu "Shakespeare" dalo 130 000 000 výsledků, vyhledávání pojmu "Macbeth" dalo 26 000 000 výsledků a vyhledávání "Shakespeare Macbeth" dalo 20 800 000 výsledků. Celkový počet stránek, které Google prohledává byl odhadnut na 25 270 000 000. Za předpokladu, že průměrně je na stránce 1000 hledaných pojmů, dostáváme $N=25270000000000$

Celkový vzorec pak je:

$NGD(Shakespeare,Macbeth)=(26,95-24,31)/(44,52-24,63)=0,13$ .

Pojmy "Shakespeare" a "Macbeth" jsou si velice blízké.

Původ

Vzorec je odvozen od normalizované kompresní vzdálenosti.

Reference

V tomto článku byl použit překlad textu z článku Normalized Google distance na anglické Wikipedii.