Úvod Charakteristika Obsah Sponzori konferencie Mediálny partner |
Automatická klasifikace dokumentů do tříd metodou Itemsets, její modifikace a vyhodnocení Jiří Hynek1 a Karel Ježek2 1 inSITE, s.r.o., Knowledge Management Integrator Abstrakt. Motivací pro vznik této metody je snaha o automatizaci časově náročné klasifikace dokumentů v rámci digitální knihovny. Navrhovaná původní metoda je založena na množinách položek (itemsets), čímž rozšiřuje tradiční oblast aplikace Apriori algoritmu, který je v našem případě využit pouze pro generování vstupních dat. Je vhodná zejména pro automatickou klasifikaci krátkých dokumentů (abstraktů, anotací), ve kterých nelze předpokládat opakování slov opravňující použití metod založených na četnosti výskytu termů v dokumentu (metody TF IDF). Příspěvek prezentuje základní principy metody a výsledky dosažené v praxi. Vysoká úspěšnost algoritmu dovoluje reálné nasazení této metody v komerčním prostředí. Metoda Itemsets je určena k integraci do rozsáhlého informačního systému podniku Západočeská energetika, a.s. Klíčová slova: itemset, množina položek, klasifikace, Apriori algoritmus, podobnost dokumentů, elektronická knihovna, digitální knihovna. Annotation: |