Stemming

Z Wikipedie, otevřené encyklopedie
Skočit na: Navigace, Hledání

Stemming, česky vytvoření základního tvaru, je operace, která pro vyskloňované nebo časované slovo (případně odvozené), vrátí kmen slova (nepřesně a úžeji taky kořen). Algoritmus se nazývá stemmer. Tato operace se používá ve vyhledávačích a dovoluje vyhledávat bez ohledu na konkrétní tvar. Podobnou operaci lematizace provádí lemmatizátor - tato operace vrací základní tvar slova (tj. lemma) místo kmene.

Při stemmingu se odstraní morfologické koncovky a případně předpony, např. ne-. Aby vyhledávání fungovalo správně, musí se zpracovat nejen slova v dokumentech, ale stejným způsobem i slova v dotazu.

Stemming je závislý na jazyku. Základ metody je v češtině seznam možných koncovek a jejich odstraňování.

Problémy[editovat | editovat zdroj]

Při stemmingu hrozí, že podobná slova budou zkrácená na stejný základ, např. led/ledem a leda.

Pokud nastává změna při ohýbání v kořeni, tak jednoduchý stemmer, který jenom zkracuje koncovky, neurčí kořen správně.

Pokud vlastní kmen končí na morfologickou koncovku, tak jednoduchý algoritmus může nesprávně utrhnout tuto koncovku a vrátit nesprávný "kratší" kmen.