2 Dokumentografické informaèní systémy (DIS)
Tyto systémy vznikly automatizací postupù pou¾ívaných v
knihovnictví k archivaci a vyhledávání dokumentù. Dnes se
vyu¾ívají ke zpracování informací z dokumentù
obsahujících text v pøirozeném jazyce. Hlavním úkolem DIS
je vybrat z mno¾iny dokumentù takové, které nejvíce
odpovídají po¾adavku u¾ivatele. U¾ivatel svùj dotaz
formuluje pomocí vhodného dotazovacího jazyka.
Vìt¹inu DIS lze vnitønì rozdìlit do dvou samostatných
podcelkù:
- Systém zpøístupnìní dokumentu
- Na základì dotazu vyhledá a zpøístupní informace o
dokumentech, které nejvíce vyhovují pøání
u¾ivatele. Nejèastìji systém dodá u¾ivateli údaje
o názvu a autorovi dokumentu, vìt¹inou také podá
informaci o umístìní vlastního dokumentu.
- Systém dodání dokumentu
- Tato èást systému vyu¾ívá informace z èásti
první a na u¾ivatelovu ¾ádost poskytne kompletní
text dokumentu. V øadì DIS není druhá èást
implementována, nebo» kompletní texty nemusí být
souèástí DIS.
Proto¾e porovnávání dotazu s plným textem dokumentù je
èasovì nároèné, pou¾ívájí se metody, které umo¾nují
porovnávat rychleji. Hlavní urychlení porovnávání
spoèívá v pou¾ití indexace. Indexací se rozumí
proces, pøi kterém se ka¾dému dokumentu pøiøadí jeho
index, tj. informace reprezentující dokument pøi jeho
porovnávání z dotazem, který se èasto rovnì¾
pøedzpracovává. Nejèastìj¹í reprezentace indexu je
zalo¾ena na termech - významných slovech èi souslovích,
které nejlépe vystihují obsah dokumentu.
Podle zpùsobu organizace indexu a podle zpùsobu interpretace
dotazu lze DIS rozdìlit do nìkolika tøíd, z nich¾ boolský
a vektorový systém jsou dvì nejèastìji pou¾ívané.
2.1 Vyhledávací modely
- boolský systém
- Ka¾dý dokument je v indexu reprezentován mno¾inou
termù, které ho z hlediska obsahu co nejlépe
vystihují. Dotazem se rozumí logický výraz, ve
kterém jsou operandy - termy spojeny pomocí logických
operací AND, OR a NOT.
- vektorový systém
- Ka¾dý dokument je v indexu reprezentován m-slo¾kovým
vektorem (pøedpokládáme m termù v databázi), kde
ka¾dá z m slo¾ek odpovídá váze dùle¾itosti
jednoho z termù pro identifikaci dokumentu. Dotazem se
rozumí opìt m-slo¾kový vektor, kde ka¾dá slo¾ka
udává dùle¾itost daného termu pro dotazovatele. Pro
vyhodnocení, nakolik dokument di
odpovídá polo¾enému dotazu q se pou¾ívá
ohodnocovací funkce sim(di,q),
co¾ je vlastnì skalární souèin tìchto dvou
vektorù. Výsledek této funkce nazvýváme koeficient
podobnosti. Výsledek vyhodnocení je nepøíznivì
ovlivnìn faktem, ¾e závisí na velikosti vektorù. Z
toho plyne, ¾e dokumenty reprezentované del¹ím
vektorem jsou upøednostòovány pøed dokumenty s
krat¹ími vektorovými reprezentacemi. Del¹í vektory
mají pøedev¹ím del¹í dokumenty (které obsahují
více rùzných slov a mají proto více nenulových
pozic). Øe¹ením je upravená funkce sim, která
sni¾uje výsledek podle délky vektorù, nebo (také Agent)
normalizace ka¾dého vektoru dokumentu i dotazu pøed
poèítáním funkce sim èi jeho ulo¾ením do
databáze.
Pro zkvalitnìní funkce tìchto systémù se pou¾ívají
dal¹í techniky, z nich¾ Agent poèítá s vyu¾itím
následujících:
- lematizace
- Lematizací se rozumí algoritmus, který pro zadané
slovo nalezne jeho základní tvar.
- øízení výstupu ve vektorových DIS
- Ve vektorovém modelu je snadné øídít velikost
výstupu, nebo» dokumenty jsou na výstupu øazeny dle
klesajícího koeficientu podobnosti. Na zaèátku
seznamu jsou tedy umístìny identifikace nejlep¹ích
dokumentù.
- zpìtná vazba ve vektorovém DIS
- Dotaz je také mo¾no polo¾it ve formì "Najdi
dokumenty podobné dokumentùm d1, d2, ..., dn a
vyhovující dotazu q". Tím se k dotazu q
pøipojí také termy a jejich ohodnocení v dokumentech
d1 a¾ dn, které jsou zpravidla výsledkem
pøede¹lého, neuspokojivého, dotazu.
- indexace ve vektorových DIS
- Výpoèet vah termù v dokumentech je velmi úzce spjat s
frekvencí, s jakou se term v dokumentu vyskytuje. Èím
èastìji se term v dokumentu vyskytuje, tím vìt¹í
mìrou dokument identifikuje. Indexace tedy vychází z
hodnot TF (z angl. Term Frequency), pøièem¾ TF
je podíl poètu výskytù termu t v dokumentu
d a celkového poètu termù v dokumentu. Hodnoty TF
jsou obvykle velice malé, proto¾e i ty
nejèastìj¹í slova se vyskytují v dokumentu jen v
omezeném mno¾ství. Èasto se proto zavádí
normalizovaná frekvence termu NTF (z angl.
Normalised Term Frequency), která se spoète dle
následujícího vzorce:
- NTF=0 pro TF<=práh
- NTF=1/2 + TF/(2*max(TF)) pro TF>práh
Nenulová prahová hodnota zajistí vypu¹tìní málo
se vyskytujících termù a tím men¹í pamì»ovou
nároènost indexu. Termy, které se vyskytují v
pøíli¹ mnoha dokumentech nejsou pøíli¹ dobrými
indexovacími termy. Z tohoto dùvodu je mo¾né zavést
je¹tì inverzní frekvenci termu ITF. Tato
hodnota není závislá na konkrétním dokumentu a je
mo¾né ji odhadnout napøíklad následujícím vzorcem:
ITF=log(n/k) n - celkový poèet dokumentù, k - poèet
dokumentù, ve kterých se daný term vyskytuje.
- shluky
- Ve vektorovém prostoru vektorù dokumentù se vektory
mají tendenci shlukovat do více skupin (shlukù), co¾
je zapøíèinìno tím, ¾e obsahují podobné termy v
podobných relativních èetnostech. Toho se dá vyu¾ít
zavedením hierarchické struktury. Ka¾dý shluk mù¾e
být reprezentován jedním vektorem (tøeba i
neexistujícího dokumentu), který le¾í co nejblí¾e
tì¾i¹tì a musí si pamatovat své èleny. Shluky
le¾ící nedaleko sebe mohou být opìt takto
organizovány. Tato organizace umo¾ní rychleji vymezit
dokumety, které mají nìjaký vztah k dotazu, a
sní¾í tím poèet dokumentù porovnávaných s
dotazem.
- stoplist
- Nìkterá slova se vyskytují témìø ve v¹ech
dokumentech a necharakterizují nijak obsah (spojky,
pøedlo¾ky, ...), proto je dobré je pøi indexaci
dokumentu a vyhodnocování dotazu vypustit. Jejich
zapamatování a vypou¹tìní obstarává struktura
stoplist. Èasto se pou¾ívá v kombinaci s prahovou
hodnotou ITF.
- víceslovné termy
- Nìkterá slova se èasto vyskytují pohromadì, nebo
mají ve spojení jiný význam ne¾ ka¾dé zvlá¹».
Proto se schopnosti systému zlep¹í, kdy¾ bude schopen
tato slovní spojení najít a pracovat s nimi jako s
jedním termem.