Heapsov zákon

Z STD
Prejsť na: navigácia, hľadanie

Odporúčaný termín [?]

Oblasť: lingvistika, informačná technológia a spracovanie údajov
Definícia: popisuje ako závisí prírastok typov od prírastku tokenov (tzv. token-type ratio, TTR)
Zdroj: PODĽA: https://wiki.korpus.cz/doku.php/pojmy:heaps.

Cudzojazyčný ekvivalent: cs: Heapsův zákon
Poznámka: Všeobecný vzorec Heapsovho zákona je: V(N) = a × Nᵇ, kde N je počet tokenov a V(N) je veľkosť slovníka, t. j. počet typov na daný počet tokenov. Koeficienty a a b sú pre každý jazyk špecifické. Koeficient b by sa mal nachádzať približne v rozsahu 0,4 < b < 0,6; koeficient a by mal byť v rozsahu 10 < a < 100 (pre český jazyk sú tieto pôvodné odhady príliš úzke).

V podstate rieši úlohu tohto typu: aký veľký musíme mať korpus, pokiaľ chceme, aby obsahoval najmenej určitý počet rôznych jednotiek.