Heapsov zákon
Z STD
Verzia z 11:31, 26. apríl 2021, ktorú vytvoril Kristina.bobekova (diskusia | príspevky)$7
Odporúčaný termín [?]
Oblasť: | lingvistika, informačná technológia a spracovanie údajov |
Definícia: | popisuje ako závisí prírastok typov od prírastku tokenov (tzv. token-type ratio, TTR) |
Zdroj: | PODĽA: https://wiki.korpus.cz/doku.php/pojmy:heaps. |
Poznámka: | Všeobecný vzorec Heapsovho zákona je: V(N) = a × Nᵇ, kde N je počet tokenov a V(N) je veľkosť slovníka, t. j. počet typov na daný počet tokenov. Koeficienty a a b sú pre každý jazyk špecifické. Koeficient b by sa mal nachádzať približne v rozsahu 0,4 < b < 0,6; koeficient a by mal byť v rozsahu 10 < a < 100 (pre český jazyk sú tieto pôvodné odhady príliš úzke).
V podstate rieši úlohu tohto typu: aký veľký musíme mať korpus, pokiaľ chceme, aby obsahoval najmenej určitý počet rôznych jednotiek. |