2 Dokumentografické informaèní systémy (DIS)

Tyto systémy vznikly automatizací postupù pou¾ívaných v knihovnictví k archivaci a vyhledávání dokumentù. Dnes se vyu¾ívají ke zpracování informací z dokumentù obsahujících text v pøirozeném jazyce. Hlavním úkolem DIS je vybrat z mno¾iny dokumentù takové, které nejvíce odpovídají po¾adavku u¾ivatele. U¾ivatel svùj dotaz formuluje pomocí vhodného dotazovacího jazyka.
Vìt¹inu DIS lze vnitønì rozdìlit do dvou samostatných podcelkù:

Systém zpøístupnìní dokumentu: Na základì dotazu vyhledá a zpøístupní informace o dokumentech, které nejvíce vyhovují pøání u¾ivatele. Nejèastìji systém dodá u¾ivateli údaje o názvu a autorovi dokumentu, vìt¹inou také podá informaci o umístìní vlastního dokumentu.
Systém dodání dokumentu: Tato èást systému vyu¾ívá informace z èásti první a na u¾ivatelovu ¾ádost poskytne kompletní text dokumentu. V øadì DIS není druhá èást implementována, nebo» kompletní texty nemusí být souèástí DIS.

Proto¾e porovnávání dotazu s plným textem dokumentù je èasovì nároèné, pou¾ívájí se metody, které umo¾nují porovnávat rychleji. Hlavní urychlení porovnávání spoèívá v pou¾ití indexace. Indexací se rozumí proces, pøi kterém se ka¾dému dokumentu pøiøadí jeho index, tj. informace reprezentující dokument pøi jeho porovnávání z dotazem, který se èasto rovnì¾ pøedzpracovává. Nejèastìj¹í reprezentace indexu je zalo¾ena na termech - významných slovech èi souslovích, které nejlépe vystihují obsah dokumentu.

Podle zpùsobu organizace indexu a podle zpùsobu interpretace dotazu lze DIS rozdìlit do nìkolika tøíd, z nich¾ boolský a vektorový systém jsou dvì nejèastìji pou¾ívané.

2.1 Vyhledávací modely

boolský systém: Ka¾dý dokument je v indexu reprezentován mno¾inou termù, které ho z hlediska obsahu co nejlépe vystihují. Dotazem se rozumí logický výraz, ve kterém jsou operandy - termy spojeny pomocí logických operací AND, OR a NOT.
vektorový systém: Ka¾dý dokument je v indexu reprezentován m-slo¾kovým vektorem (pøedpokládáme m termù v databázi), kde ka¾dá z m slo¾ek odpovídá váze dùle¾itosti jednoho z termù pro identifikaci dokumentu. Dotazem se rozumí opìt m-slo¾kový vektor, kde ka¾dá slo¾ka udává dùle¾itost daného termu pro dotazovatele. Pro vyhodnocení, nakolik dokument d_i odpovídá polo¾enému dotazu q se pou¾ívá ohodnocovací funkce sim(d_i,q), co¾ je vlastnì skalární souèin tìchto dvou vektorù. Výsledek této funkce nazvýváme koeficient podobnosti. Výsledek vyhodnocení je nepøíznivì ovlivnìn faktem, ¾e závisí na velikosti vektorù. Z toho plyne, ¾e dokumenty reprezentované del¹ím vektorem jsou upøednostòovány pøed dokumenty s krat¹ími vektorovými reprezentacemi. Del¹í vektory mají pøedev¹ím del¹í dokumenty (které obsahují více rùzných slov a mají proto více nenulových pozic). Øe¹ením je upravená funkce sim, která sni¾uje výsledek podle délky vektorù, nebo (také Agent) normalizace ka¾dého vektoru dokumentu i dotazu pøed poèítáním funkce sim èi jeho ulo¾ením do databáze.

Pro zkvalitnìní funkce tìchto systémù se pou¾ívají dal¹í techniky, z nich¾ Agent poèítá s vyu¾itím následujících:

lematizace

Lematizací se rozumí algoritmus, který pro zadané slovo nalezne jeho základní tvar.

øízení výstupu ve vektorových DIS

Ve vektorovém modelu je snadné øídít velikost výstupu, nebo» dokumenty jsou na výstupu øazeny dle klesajícího koeficientu podobnosti. Na zaèátku seznamu jsou tedy umístìny identifikace nejlep¹ích dokumentù.

zpìtná vazba ve vektorovém DIS

Dotaz je také mo¾no polo¾it ve formì "Najdi dokumenty podobné dokumentùm d1, d2, ..., dn a vyhovující dotazu q". Tím se k dotazu q pøipojí také termy a jejich ohodnocení v dokumentech d1 a¾ dn, které jsou zpravidla výsledkem pøede¹lého, neuspokojivého, dotazu.

indexace ve vektorových DIS

Výpoèet vah termù v dokumentech je velmi úzce spjat s frekvencí, s jakou se term v dokumentu vyskytuje. Èím èastìji se term v dokumentu vyskytuje, tím vìt¹í mìrou dokument identifikuje. Indexace tedy vychází z hodnot TF (z angl. Term Frequency), pøièem¾ TF je podíl poètu výskytù termu t v dokumentu d a celkového poètu termù v dokumentu. Hodnoty TF jsou obvykle velice malé, proto¾e i ty nejèastìj¹í slova se vyskytují v dokumentu jen v omezeném mno¾ství. Èasto se proto zavádí normalizovaná frekvence termu NTF (z angl. Normalised Term Frequency), která se spoète dle následujícího vzorce:

NTF=0 pro TF<=práh
NTF=1/2 + TF/(2*max(TF)) pro TF>práh

Nenulová prahová hodnota zajistí vypu¹tìní málo se vyskytujících termù a tím men¹í pamì»ovou nároènost indexu. Termy, které se vyskytují v pøíli¹ mnoha dokumentech nejsou pøíli¹ dobrými indexovacími termy. Z tohoto dùvodu je mo¾né zavést je¹tì inverzní frekvenci termu ITF. Tato hodnota není závislá na konkrétním dokumentu a je mo¾né ji odhadnout napøíklad následujícím vzorcem: ITF=log(n/k) n - celkový poèet dokumentù, k - poèet dokumentù, ve kterých se daný term vyskytuje.

shluky

Ve vektorovém prostoru vektorù dokumentù se vektory mají tendenci shlukovat do více skupin (shlukù), co¾ je zapøíèinìno tím, ¾e obsahují podobné termy v podobných relativních èetnostech. Toho se dá vyu¾ít zavedením hierarchické struktury. Ka¾dý shluk mù¾e být reprezentován jedním vektorem (tøeba i neexistujícího dokumentu), který le¾í co nejblí¾e tì¾i¹tì a musí si pamatovat své èleny. Shluky le¾ící nedaleko sebe mohou být opìt takto organizovány. Tato organizace umo¾ní rychleji vymezit dokumety, které mají nìjaký vztah k dotazu, a sní¾í tím poèet dokumentù porovnávaných s dotazem.

stoplist

Nìkterá slova se vyskytují témìø ve v¹ech dokumentech a necharakterizují nijak obsah (spojky, pøedlo¾ky, ...), proto je dobré je pøi indexaci dokumentu a vyhodnocování dotazu vypustit. Jejich zapamatování a vypou¹tìní obstarává struktura stoplist. Èasto se pou¾ívá v kombinaci s prahovou hodnotou ITF.

víceslovné termy

Nìkterá slova se èasto vyskytují pohromadì, nebo mají ve spojení jiný význam ne¾ ka¾dé zvlá¹». Proto se schopnosti systému zlep¹í, kdy¾ bude schopen tato slovní spojení najít a pracovat s nimi jako s jedním termem.

1999-02-28

Vaclav Pech