Termín:Heapsov zákon: Rozdiel medzi revíziami
Z STD
(Vytvorená stránka „{{Term |Name=Heapsov zákon |Definition=popisuje ako závisí prírastok typov od prírastku tokenov (tzv. token-type ratio, TTR) |Field=li…“) |
|||
Riadok 4: | Riadok 4: | ||
|Field=lingvistika, informačná technológia a spracovanie údajov | |Field=lingvistika, informačná technológia a spracovanie údajov | ||
|Bibliography=PODĽA: https://wiki.korpus.cz/doku.php/pojmy:heaps. | |Bibliography=PODĽA: https://wiki.korpus.cz/doku.php/pojmy:heaps. | ||
+ | |Translations={{Translation | ||
+ | |Language=cs | ||
+ | |Localized form=Heapsův zákon | ||
+ | }} | ||
|Acceptability=Odporúčaný | |Acceptability=Odporúčaný | ||
|Comment=Všeobecný vzorec Heapsovho zákona je: ''V(N) = a × Nᵇ'', kde ''N'' je počet tokenov a ''V(N)'' je veľkosť slovníka, t. j. počet typov na daný počet tokenov. Koeficienty ''a'' a ''b'' sú pre každý jazyk špecifické. Koeficient ''b'' by sa mal nachádzať približne v rozsahu 0,4 < b < 0,6; koeficient ''a'' by mal byť v rozsahu 10 < a < 100 (pre český jazyk sú tieto pôvodné odhady príliš úzke). | |Comment=Všeobecný vzorec Heapsovho zákona je: ''V(N) = a × Nᵇ'', kde ''N'' je počet tokenov a ''V(N)'' je veľkosť slovníka, t. j. počet typov na daný počet tokenov. Koeficienty ''a'' a ''b'' sú pre každý jazyk špecifické. Koeficient ''b'' by sa mal nachádzať približne v rozsahu 0,4 < b < 0,6; koeficient ''a'' by mal byť v rozsahu 10 < a < 100 (pre český jazyk sú tieto pôvodné odhady príliš úzke). |
Verzia zo dňa a času 12:36, 26. apríl 2021
Odporúčaný termín [?]
Oblasť: | lingvistika, informačná technológia a spracovanie údajov |
Definícia: | popisuje ako závisí prírastok typov od prírastku tokenov (tzv. token-type ratio, TTR) |
Zdroj: | PODĽA: https://wiki.korpus.cz/doku.php/pojmy:heaps. |
Cudzojazyčný ekvivalent: | cs: Heapsův zákon |
Poznámka: | Všeobecný vzorec Heapsovho zákona je: V(N) = a × Nᵇ, kde N je počet tokenov a V(N) je veľkosť slovníka, t. j. počet typov na daný počet tokenov. Koeficienty a a b sú pre každý jazyk špecifické. Koeficient b by sa mal nachádzať približne v rozsahu 0,4 < b < 0,6; koeficient a by mal byť v rozsahu 10 < a < 100 (pre český jazyk sú tieto pôvodné odhady príliš úzke).
V podstate rieši úlohu tohto typu: aký veľký musíme mať korpus, pokiaľ chceme, aby obsahoval najmenej určitý počet rôznych jednotiek. |