DATAKON 2001

Sponzori konferencie
DATAKON 2001
ADASTRA, s.r.o.
AEC, s.r.o.
BERIT, a.s.
DCIT, s.r.o.
IBM Eeská republika, s.r.o.
Oracle Czech, s.r.o.
Progress Software, s.r.o.
Qbizm Technologies, Inc.
SMS, s.r.o.
SYBASE Eeská republika, s.r.o.
TATRA Banka, a.s.
TurboConsult, s.r.o.
Vema, a.s.

Mediálny partner
Softwarové noviny

Automatická klasifikace dokumentů do tříd metodou Itemsets, její modifikace a vyhodnocení

Jiří Hynek¹ a Karel Ježek²

¹ inSITE, s.r.o., Knowledge Management Integrator
Rubešova 29, 326 00 Plzeň
jiri.hynek@insite.cz
² Katedra informatiky a výpočetní techniky, ZČU Plzeň
Univerzitní 22, Plzeň
jezek_ka@kiv.zcu.cz

Abstrakt. Motivací pro vznik této metody je snaha o automatizaci časově náročné klasifikace dokumentů v rámci digitální knihovny. Navrhovaná původní metoda je založena na množinách položek (itemsets), čímž rozšiřuje tradiční oblast aplikace Apriori algoritmu, který je v našem případě využit pouze pro generování vstupních dat. Je vhodná zejména pro automatickou klasifikaci krátkých dokumentů (abstraktů, anotací), ve kterých nelze předpokládat opakování slov opravňující použití metod založených na četnosti výskytu termů v dokumentu (metody TF IDF). Příspěvek prezentuje základní principy metody a výsledky dosažené v praxi. Vysoká úspěšnost algoritmu dovoluje reálné nasazení této metody v komerčním prostředí. Metoda Itemsets je určena k integraci do rozsáhlého informačního systému podniku Západočeská energetika, a.s.

Klíčová slova: itemset, množina položek, klasifikace, Apriori algoritmus, podobnost dokumentů, elektronická knihovna, digitální knihovna.

Annotation:

Automatic Document Classification Using Itemsets

The essential point of this paper is to develop a method for automating time-consuming document classification in a digital library. The original method proposed in this paper is based on itemsets, extending traditional application of the Apriori algorithm. It is suitable for automatic classification of short documents (abstracts, summaries) impeding usage of repeated occurrence of terms, such as in term-frequency-based methods. The paper presents basic principles of this method as well as results of its practical use. High success rate of the classification algorithm allows its usage in real-life environment. The method will become an integral part of the information system of a regional utility company.

<< Obsah