Закон Ципфа

Зако́н Ци́пфа (Зіпфа) — лінгвостатистичний закон, згідно з яким відношення рангу слова в частотному словнику до частотності слова в мові становить постійну величину (константу). Інакше кажучи, якщо всі слова мови (або просто достатньо довгого тексту) впорядкувати за спаданням частоти їхнього використання, то частота n-го слова в такому списку виявиться приблизно обернено пропорційною його порядковому номеру n (так званому рангу цього слова)^[1]. Наприклад, друге за вживаністю слово трапляється приблизно вдвічі рідше, ніж перше, третє — втричі рідше, ніж перше, і так далі.

Загальна характеристика ред.

Американський дослідник Джордж Ципф дійшов висновку, що існує залежність між числом різних значень одного слова і його відносною частотою вживання. Кількість значення наближається до квадратного кореня від частоти слова: т = f , де т — число значень, а f — відносна частота. Інша закономірність, встановлена Ципфом, має таке формулювання: відношення рангу слова в частотному словнику до частотності слова в мові становить постійну величину (константу) rf = с, де r — ранг слова в частотному словнику, f — частота слова, с — постійна величина. Тісний зв'язок існує також між частотними характеристиками слова в пам'яті та в словнику.

Застосування ред.

Закон Ципфа може бути застосований до будь-якого тексту, записаного природною або штучною мовою, коду (наприклад, ДНК) або сигналу, при цьому правила викладення інформації можуть лишатись невідомими. Як наслідок, закон дозволяє визначити наявність інформації в повідомленні навіть у випадках, коли саме повідомлення не може бути дешифроване.

В результаті статистичного аналізу Рукопису Войнича, написаного невідомою мовою, було доведено, що цей рукопис містить осмислену інформацію. Аналіз проводився з використанням методу, що лежить в основі закону Ципфа^[2].

Література ред.

Кочерган М. П. Загальне мовознавство: підручник / Михайло Петрович Кочерган. — Київ: Академія, 2003. — С. 398.
Henri Guiter, Michail V. Arapov (Hrsg.): Studies on Zipf's Law (= Quantitative Linguistics. Bd. 16). Studienverlag Brockmeyer, Bochum 1982, ISBN 3-88339-244-8.

Примітки ред.

↑ Fagan, Stephen; Gençay, Ramazan (2010), An introduction to textual econometrics, у Ullah, Aman; Giles, David E. A. (ред.), Handbook of Empirical Economics and Finance, CRC Press, с. 133—153, ISBN 9781420070361. P. 139: «For example, in the Brown Corpus, consisting of over one million words, half of the word volume consists of repeated uses of only 135 words.»
↑ «Слишком много совпадений» [Архівовано 15 липня 2013 у Wayback Machine.](рос.)

Посилання ред.

[1] Fagan, Stephen; Gençay, Ramazan (2010), An introduction to textual econometrics, у Ullah, Aman; Giles, David E. A. (ред.), Handbook of Empirical Economics and Finance, CRC Press, с. 133—153, ISBN 9781420070361. P. 139: «For example, in the Brown Corpus, consisting of over one million words, half of the word volume consists of repeated uses of only 135 words.»

[2] «Слишком много совпадений» [Архівовано 15 липня 2013 у Wayback Machine.](рос.)

[1]

[2]