Jump to content

Закон Ципфа

(Перенаправлено из дистрибутива Zipf )
Закон Ципфа о войне и мире . [1] Нижний график показывает остаток от разделения закона Ципфа. Это показывает, что сохраняется значительная закономерность, не подпадающая под закон Ципфа.
График частоты каждого слова в зависимости от его частотного ранга для двух англоязычных текстов: « Калпепера Полные травы» (1652 г.) и Герберта Уэллса » «Война миров (1898 г.) в логарифмической шкале. Пунктирная линия — идеальный закон y 1/ x .

Закон Ципфа ( / z ɪ f / , Немецкий: [t͡sɪpf] ) — это эмпирический закон , который часто приблизительно соблюдается, когда список измеренных значений отсортирован в порядке убывания. что значение n- й записи обратно пропорционально n Он утверждает , .

Самый известный пример закона Ципфа применим к таблице частот слов в тексте или корпусе естественного языка : Обычно обнаруживается, что самое употребительное слово встречается примерно в два раза чаще, чем следующее по употреблению, в три раза чаще, чем третье по употреблению, и так далее. Например, в коричневом корпусе американского английского текста слово « the » является наиболее часто встречающимся словом и само по себе составляет почти 7% всех появлений слов (69 971 из чуть более 1 миллиона). В соответствии с законом Ципфа, слово « of » на втором месте составляет чуть более 3,5% слов (36 411 вхождений), за ним следуют « и » (28 852). [2] Его часто используют в следующей форме, называемой законом Ципфа-Мандельброта : где являются подогнанными параметрами, при этом , и . [1]

Этот закон назван в честь американского лингвиста Джорджа Кингсли Зипфа . [3] [4] [5] и до сих пор является важным понятием в количественной лингвистике . Было обнаружено, что это применимо ко многим другим типам данных, изучаемых в физических и социальных науках.

В математической статистике эта концепция была формализована как распределение Ципфа : семейство связанных дискретных распределений вероятностей, чье частотно-ранговое распределение является соотношением обратного степенного закона . Они связаны с законом Бенфорда и распределением Парето .

Некоторые наборы эмпирических данных, зависящих от времени, несколько отклоняются от закона Ципфа. Такие эмпирические распределения называются квазизипфовыми .

В 1913 году немецкий физик Феликс Ауэрбах заметил обратную пропорциональность между численностью населения городов и их рангами при сортировке по убыванию этой переменной. [6]

Закон Ципфа был открыт раньше Ципфа. [а] французского стенографиста Жана-Батиста Эступа » « Gammes Stenographiques (4-е изд.) в 1916 г., [7] с Дж. Дьюи в 1923 г., [8] и с Э. Кондоном в 1928 г. [9]

Такое же соотношение частот слов в текстах на естественном языке наблюдал Джордж Ципф в 1932 году. [4] но он никогда не утверждал, что создал его. На самом деле Ципф не любил математику. В своей публикации 1932 г. [10] автор с пренебрежением отзывается о причастности математики к языкознанию, там же, с. 21: (…) позвольте мне сказать здесь ради любого математика, который может планировать более точно сформулировать последующие данные, способность высокоинтенсивного положительного стать высокоинтенсивным отрицательным, по моему мнению, привносит дьявола в формулу в виде . Единственное математическое выражение, которое использовал Зипф, выглядит . как б 2 = константа, которую он «позаимствовал» из публикации Альфреда Дж. Лотки 1926 года. [11]

Было обнаружено, что такая же взаимосвязь наблюдается во многих других контекстах и ​​для других переменных, помимо частоты. [1] Например, когда корпорации ранжируются по убыванию размера, оказывается, что их размеры обратно пропорциональны рангу. [12] Такое же соотношение наблюдается и для личных доходов (где оно называется принципом Парето). [13] ), количество людей, смотрящих один и тот же телеканал, [14] ноты в музыке, [15] клеток транскриптомы , [16] [17] и многое другое.

В 1992 году биоинформатик Вэньтянь Ли опубликовал небольшую статью. [18] показывая, что закон Ципфа проявляется даже в случайно сгенерированных текстах. Он включал доказательство того, что степенная форма закона Ципфа была побочным продуктом упорядочивания слов по рангу.

Формальное определение

[ редактировать ]
Закон Ципфа
Функция массы вероятности
График PMF Ципфа для N = 10
PMF Zipf для N = 10 в логарифмическом масштабе. Горизонтальная ось — индекс k . (Функция определена только при целочисленных значениях k . Соединительные линии не указывают на непрерывность.)
Кумулятивная функция распределения
График CDF Zipf для N = 10
Zipf CDF для N = 10. Горизонтальная ось — индекс k . (Функция определена только при целочисленных значениях k . Соединительные линии не указывают на непрерывность.)
Параметры ( настоящий )
( целое число )
Поддерживать
ПМФ где H N,s номер N -й обобщенной гармоники.
CDF
Иметь в виду
Режим
Дисперсия
Энтропия
МГФ
CF

Формально распределение Ципфа на N элементах сопоставляет элементу ранга k (считая с 1) вероятность

где H N — нормировочная константа, N- й номер гармоники :

Распределение иногда обобщают до обратно-степенного закона с показателем степени s вместо 1. [19] А именно,

где H N , s номер обобщенной гармоники

Обобщенное распределение Ципфа можно расширить до бесконечного числа элементов ( N = ∞), только если показатель степени s превышает 1. В этом случае константа нормализации H N , s становится дзета-функцией Римана ,

Если показатель степени s равен 1 или меньше, константа нормализации H N , s расходится, когда N стремится к бесконечности.

Эмпирическое тестирование

[ редактировать ]

Эмпирически набор данных можно проверить, чтобы увидеть, применим ли закон Ципфа, проверив степень соответствия эмпирического распределения гипотетическому степенному закону распределения с помощью теста Колмогорова-Смирнова , а затем сравнив (логарифмическое) отношение правдоподобия степенного закона. распределение на альтернативные распределения, такие как экспоненциальное распределение или логнормальное распределение. [20]

Закон Ципфа можно визуализировать, нанеся данные о частоте элементов на логарифмический график, где оси представляют собой логарифм рангового порядка и логарифм частоты. Данные соответствуют закону Ципфа с показателем степени s в той степени, в которой график аппроксимирует линейную (точнее, аффинную ) функцию с наклоном - s . Для показателя степени s = 1 можно также построить график обратной зависимости частоты (среднего межсловного интервала) от ранга или обратной величины ранга от частоты и сравнить результат с линией, проходящей через начало координат, с наклоном 1. [3]

Статистические объяснения

[ редактировать ]

Хотя закон Ципфа справедлив для большинства естественных языков и даже для некоторых неестественных, таких как эсперанто. [21] и Токи Пона , [22] причина до сих пор не совсем понятна. [23] Недавние обзоры генеративных процессов для закона Ципфа включают Митценмахера , «Краткую историю генеративных моделей для степенного закона и логнормального распределения», [24] и Симкин, «Изобретая заново Уиллис». [25]

Однако частично это можно объяснить статистическим анализом случайно сгенерированных текстов. Вэньтянь Ли показал, что в документе, в котором каждый символ выбирается случайным образом из равномерного распределения всех букв (плюс пробел), «слова» разной длины следуют макротенденции закона Ципфа (более вероятные слова являются самыми короткими и имеют одинаковую вероятность). [26] В 1959 году Витольд Белевич с хорошим поведением заметил, что если какое-либо из большого класса статистических распределений (не только нормальное распределение ) выражается через ранги и разлагается в ряд Тейлора , то усечение этого ряда в первом порядке приводит к формуле Ципфа. закон. Далее, усечение ряда Тейлора во втором порядке привело к закону Мандельброта . [27] [28]

Другим возможным объяснением является принцип наименьших усилий :Сам Ципф предположил, что ни говорящие, ни слушающие, использующие данный язык, не хотят работать больше, чем необходимо, чтобы достичь понимания, и процесс, который приводит к примерно равному распределению усилий, приводит к наблюдаемому распределению Ципфа. [5] [29]

Минимальное объяснение предполагает, что слова генерируются обезьянами, печатающими случайным образом . Если язык генерируется случайным набором текста одной обезьяной с фиксированной и ненулевой вероятностью нажатия каждой буквенной клавиши или пробела, то слова (строки букв, разделенные пробелами), создаваемые обезьяной, подчиняются закону Ципфа. [30]

Другой возможной причиной распределения Ципфа является процесс предпочтительной привязанности , при котором ценность x предмета имеет тенденцию расти со скоростью, пропорциональной x (интуитивно, « богатые становятся богаче » или «успех порождает успех»). Такой процесс роста приводит к распределению Юла-Саймона , которое, как было показано, соответствует частоте слов в зависимости от ранга в языке. [31] и население в зависимости от ранга города [32] лучше, чем закон Ципфа. Первоначально он был выведен Юлом для объяснения численности населения в зависимости от ранга вида, а Саймоном применён к городам.

Подобное объяснение основано на моделях атласов — системах сменных положительнозначных диффузионных процессов с параметрами дрейфа и дисперсии, зависящими только от ранга процесса. Математически было показано, что закон Ципфа справедлив для моделей Атласа, удовлетворяющих определенным естественным условиям регулярности. [33] [34]

[ редактировать ]

Обобщением закона Ципфа является закон Ципфа-Мандельброта , предложенный Бенуа Мандельбротом , частоты которого составляют:

[ нужны разъяснения ]

Константа C представляет собой дзета-функцию Гурвица, оцениваемую в s .

Распределения Зипфа можно получить из распределений Парето путем замены переменных. [19]

Распределение Ципфа иногда называют дискретным распределением Парето. [35] потому что оно аналогично непрерывному распределению Парето точно так же, как дискретное равномерное распределение аналогично непрерывному равномерному распределению .

Хвостовые частоты распределения Юла – Саймона примерно равны

для любого выбора ρ > 0.

В параболическом фрактальном распределении логарифм частоты представляет собой квадратичный многочлен от логарифма ранга. Это может заметно улучшить соответствие по сравнению с простым степенным соотношением. [36] Как и фрактальная размерность, можно рассчитать размерность Ципфа, которая является полезным параметром при анализе текстов. [37]

Утверждалось, что закон Бенфорда представляет собой частный ограниченный случай закона Ципфа. [36] причем связь между этими двумя законами объясняется тем, что оба они происходят из масштабно-инвариантных функциональных соотношений статистической физики и критических явлений. [38] Отношения вероятностей в законе Бенфорда не постоянны. Старшие цифры данных, удовлетворяющих закону Ципфа с s = 1, удовлетворяют закону Бенфорда.

Закон Бенфорда:
1 0.30103000
2 0.17609126 −0.7735840
3 0.12493874 −0.8463832
4 0.09691001 −0.8830605
5 0.07918125 −0.9054412
6 0.06694679 −0.9205788
7 0.05799195 −0.9315169
8 0.05115252 −0.9397966
9 0.04575749 −0.9462848

Размеры города

[ редактировать ]

После наблюдения Ауэрбаха 1913 года было проведено тщательное исследование закона Ципфа для размеров городов. [39] Однако более поздние эмпирические [40] [41] и теоретический [42] исследования поставили под сомнение актуальность закона Ципфа для городов.

Частоты слов в естественных языках

[ редактировать ]
График закона Ципфа для первых 10 миллионов слов в 30 Arc.Ask3.Ruх (по состоянию на октябрь 2015 г.) в логарифмическом масштабе.

Во многих текстах на человеческих языках частота слов примерно соответствует распределению Ципфа с показателем степени , близким к 1: то есть наиболее распространенное слово встречается примерно в n раз чаще, чем n -е наиболее распространенное.

Фактический график ранг-частота текста на естественном языке в некоторой степени отклоняется от идеального распределения Ципфа, особенно на двух концах диапазона. Отклонения могут зависеть от языка, темы текста, автора, от того, был ли текст переведен с другого языка, от используемых правил правописания. [ нужна ссылка ] Некоторые отклонения неизбежны из-за ошибки выборки .

На низкочастотном конце, где ранг приближается к N , график принимает форму лестницы, поскольку каждое слово может встречаться только целое число раз.

Логарифмический график частоты слов в Википедии (27 ноября 2006 г.). «Самыми популярными словами являются «the», «of» и «and», как и ожидалось. Закон Ципфа соответствует средней линейной части кривой, примерно следующей зеленой (1/ x ) линии, тогда как ранняя часть ближе к пурпурной (1/ x 0.5 ) линия, а последняя часть ближе к голубому (1/( k + x ) 2.0 ) линия. Эти линии соответствуют трем различным параметризациям распределения Ципфа – Мандельброта, в целом нарушенному степенному закону с тремя сегментами: головой, серединой и хвостом.

В некоторых романских языках частоты примерно дюжины наиболее частых слов значительно отклоняются от идеального распределения Ципфа, поскольку эти слова включают артикли, склоняемые по грамматическому роду и числу . [ нужна ссылка ]

Во многих восточноазиатских языках, таких как китайский , лхасский тибетский и вьетнамский , каждое «слово» состоит из одного слога ; это английское слово часто переводится как соединение двух таких слогов. Таблица частотности рангов для этих «слов» значительно отклоняется от идеального закона Ципфа на обоих концах диапазона. [ нужна ссылка ]

Даже в английском языке отклонения от идеального закона Ципфа становятся более очевидными при изучении больших коллекций текстов. Анализ корпуса из 30 000 английских текстов показал, что только около 15% текстов в нем хорошо соответствуют закону Ципфа. Небольшие изменения в определении закона Ципфа могут увеличить этот процент почти до 50%. [43]

В этих случаях наблюдаемое частотно-ранговое соотношение можно более точно смоделировать с помощью отдельных распределений законов Ципфа – Мандельброта для разных подмножеств или подтипов слов. Так обстоит дело с частотно-ранговым графиком первых 10 миллионов слов английской Википедии. В частности, частоты закрытого класса служебных слов в английском языке лучше описываются значениями s ниже 1, в то время как рост словарного запаса открытого типа с увеличением размера документа и размера корпуса требует s больше 1 для сходимости Обобщенного гармонического ряда . [3]

Уэллса «Война миров» в открытом тексте, в книжном коде и в шифре Виженера.

Когда текст шифруется таким образом, что каждое появление каждого отдельного слова открытого текста всегда отображается в одно и то же зашифрованное слово (как в случае шифров простой замены , таких как шифры Цезаря , или простых шифров кодовой книги ), частотный ранг распространение не затронуто. С другой стороны, если отдельные вхождения одного и того же слова могут быть сопоставлены с двумя или более разными словами (как это происходит с шифром Виженера ), распределение Ципфа обычно будет иметь плоскую часть на высокочастотном конце. [ нужна ссылка ]

Приложения

[ редактировать ]

Закон Ципфа использовался для извлечения параллельных фрагментов текстов из сопоставимых корпусов. [44] Лоранс Дойл и другие предложили применить закон Ципфа для обнаружения инопланетного языка в поисках внеземного разума . [45] [46]

Частотно-ранговое распределение слов часто свойственно автору и мало меняется с течением времени. Эта особенность была использована при анализе текстов на предмет установления авторства. [47] [48]

группы словоподобных знаков в рукописи Войнича XV века удовлетворяют закону Ципфа, предполагая, что текст, скорее всего, не является мистификацией, а скорее написан на непонятном языке или зашифрован. Было обнаружено, что [49] [50]

См. также

[ редактировать ]

Примечания

[ редактировать ]
  1. ^ как признал Ципф [5] : 546 
  1. ^ Перейти обратно: а б с Пиантадоси, Стивен (25 марта 2014 г.). «Закон частоты слов Ципфа на естественном языке: критический обзор и будущие направления» . Психон Булл преп . 21 (5): 1112–1130. дои : 10.3758/s13423-014-0585-6 . ПМЦ   4176592 . ПМИД   24664880 .
  2. ^ Фэган, Стивен; Генчай, Рамазан (2010), «Введение в текстовую эконометрику», в Улле, Аман; Джайлз, Дэвид Э.А. (ред.), Справочник по эмпирической экономике и финансам , CRC Press, стр. 133–153, ISBN  9781420070361 . Стр. 139 : «Например, в Коричневом корпусе, состоящем из более чем миллиона слов, половина объема слов состоит из повторяющихся употреблений всего 135 слов».
  3. ^ Перейти обратно: а б с Пауэрс, Дэвид М.В. (1998). Применение и объяснение закона Ципфа . Совместная конференция по новым методам обработки речи и компьютерному изучению естественного языка. Ассоциация компьютерной лингвистики. стр. 151–160. Архивировано из оригинала 10 сентября 2015 г. Проверено 2 февраля 2015 г.
  4. ^ Перейти обратно: а б Джордж К. Зипф (1935): Психобиология языка . Хоутон-Миффлин.
  5. ^ Перейти обратно: а б с Джордж К. Зипф (1949). Человеческое поведение и принцип наименьшего усилия . Кембридж, Массачусетс: Аддисон-Уэсли. п. 1.
  6. ^ Ауэрбах Ф. (1913) Закон концентрации населения. Географические уведомления Петерманна 59, 74–76.
  7. ^ Кристофер Д. Мэннинг, Хинрих Шютце Основы статистической обработки естественного языка , MIT Press (1999), ISBN   978-0-262-13360-9 , с. 24
  8. ^ Дьюи, Годфри. Относительная частота звуков английской речи . Издательство Гарвардского университета, 1923.
  9. ^ Кондон, ЭДВАРД У. «Статистика словарного запаса». Наука 67.1733 (1928): 300–300.
  10. ^ Джордж К. Зипф (1932): Избранные исследования принципа относительной частоты в языке. Гарвард, Массачусетс: Издательство Гарвардского университета.
  11. ^ Зипф, Джордж Кингсли (1942). «Единство природы, наименьшее действие и естественные социальные науки» . Социометрия . 5 (1): 48–62. дои : 10.2307/2784953 . ISSN   0038-0431 . JSTOR   2784953 . Архивировано из оригинала 20 ноября 2022 г. Проверено 20 ноября 2022 г.
  12. ^ Экстелл, Роберт Л. (2001): Распределение размеров фирм США по Ципфу. Архивировано 17 октября 2023 г. в Wayback Machine , Science, 293, 5536, 1818, Американская ассоциация содействия развитию науки.
  13. ^ Сандмо, Агнар (01 января 2015 г.), Аткинсон, Энтони Б.; Бургиньон, Франсуа (ред.), Глава 1 - Основная проблема политической экономии: распределение доходов в истории экономической мысли , Справочник по распределению доходов, том. 2, Elsevier, стр. 3–65, doi : 10.1016/B978-0-444-59428-0.00002-3 , ISBN.  978-0-444-59430-3 , заархивировано из оригинала 29 октября 2023 г. , получено 11 июля 2023 г.
  14. ^ М. Эрикссон, С. М. Хасибур Рахман, Ф. Фрайль, М. Сьёстрем, Эффективная интерактивная многоадресная рассылка через DVB-T2 - использование динамических SFN и PARPS. Архивировано 2 мая 2014 г. на Wayback Machine , Международная конференция IEEE по компьютерным и информационным технологиям, 2013 г. (BMSB'13), Лондон, Великобритания, июнь 2013 г. Предлагается гетерогенная модель выбора телеканалов по закону Ципфа.
  15. ^ Занетт, Дамиан Х. (7 июня 2004 г.). «Закон Ципфа и создание музыкального контекста». arXiv : cs/0406015 .
  16. ^ Лаццарди, Сильвия; Валле, Филип; Маццолини, Андреа; Скиалдоне, Антонио; Казелле, Мишель; Оселла, Маттео (17 июня 2021 г.). «Новые статистические законы в транскриптомных данных одноклеточных» . bioRxiv : 2021–16.06.448706. дои : 10.1101/2021.06.16.448706 . S2CID   235482777 . Архивировано из оригинала 17 июня 2021 г. Проверено 18 июня 2021 г.
  17. ^ Раму Ченна, Тоби Гибсон; Оценка пригодности модели Зипфиана для парного выравнивания последовательностей. Архивировано 6 марта 2014 г. на Wayback Machine , Международная конференция по биоинформатике, вычислительной биологии: 2011.
  18. ^ Ли, Вэньтянь (1992). «Случайные тексты демонстрируют распределение частот слов, подобное закону Ципфа» . Транзакции IEEE по теории информации . 38 (6): 1842–1845. doi : 10.1109/18.165464 — через IEEE Xplore.
  19. ^ Перейти обратно: а б Адамич, Лада А. (2000). Зипф, степенные законы и Парето - руководство по ранжированию (Отчет). Хьюлетт-Паккард Компания . Архивировано из оригинала 1 апреля 2023 г. Проверено 12 октября 2023 г. «первоначально опубликовано» . www.parc.xerox.com . Корпорация Ксерокс . Архивировано из оригинала 7 ноября 2001 г. Проверено 23 февраля 2016 г.
  20. ^ Клаузет, А., Шализи, CR, и Ньюман, MEJ (2009). Степенные распределения в эмпирических данных. Обзор СИАМ, 51 (4), 661–703. дои : 10.1137/070710111
  21. ^ Билл Манарис; Лука Пелликоро; Джордж Потеринг; Харланд Ходжес (13 февраля 2006 г.). Исследование статистических пропорций эсперанто по сравнению с другими языками с использованием нейронных сетей и закона Ципфа (PDF) . Искусственный интеллект и его приложения . Инсбрук, Австрия. стр. 102–108. Архивировано из оригинала (PDF) 5 марта 2016 года.
  22. ^ Скотарек, Дариуш (2020). Закон Ципфа в Токи Пона (PDF) . Общество ЭксЛинга. doi : 10.36505/ExLing-2020/11/0047/000462 . ISBN  978-618-84585-1-2 .
  23. ^ Леон Бриллюэн , Наука и теория информации , 1959, переиздано в 1988 году, английский перевод переиздан в 2004 году.
  24. ^ Митценмахер, Майкл (январь 2004 г.). «Краткая история генеративных моделей для степенного закона и логнормального распределения» . Интернет-математика . 1 (2): 226–251. дои : 10.1080/15427951.2004.10129088 . ISSN   1542-7951 . S2CID   1671059 . Архивировано из оригинала 22 июля 2023 г. Проверено 25 июля 2023 г.
  25. ^ Симкин, М.В.; Ройчоудхури, вице-президент (1 мая 2011 г.). «Переосмысление Уиллиса» . Отчеты по физике . 502 (1): 1–35. arXiv : физика/0601192 . Бибкод : 2011ФР...502....1С . дои : 10.1016/j.physrep.2010.12.004 . ISSN   0370-1573 . S2CID   88517297 . Архивировано из оригинала 29 января 2012 г. Проверено 25 июля 2023 г.
  26. ^ Вэньтянь Ли (1992). «Случайные тексты демонстрируют распределение частот слов, подобное закону Ципфа». Транзакции IEEE по теории информации . 38 (6): 1842–1845. CiteSeerX   10.1.1.164.8422 . дои : 10.1109/18.165464 .
  27. ^ Белевич V (18 декабря 1959 г.). «О статистических законах лингвистических распределений» (PDF) . Анналы научного общества Брюсселя . 73 : 310–326. Архивировано (PDF) из оригинала 15 декабря 2020 г. Проверено 24 апреля 2020 г.
  28. Нойманн, Питер Г. «Статистическая металингвистика и Ципф/Парето/Мандельброт» , Международная лаборатория компьютерных наук SRI , доступ и архивирование 29 мая 2011 г.
  29. ^ Рамон Феррер и Канчо и Рикар В. Соле (2003). «Наименьшее усилие и истоки масштабирования на человеческом языке» . Труды Национальной академии наук Соединенных Штатов Америки . 100 (3): 788–791. Бибкод : 2003PNAS..100..788C . дои : 10.1073/pnas.0335980100 . ПМК   298679 . ПМИД   12540826 .
  30. ^ Конрад, Б.; Митценмахер, М. (июль 2004 г.). «Степенные законы для обезьян, печатающих наугад: случай неравных вероятностей» . Транзакции IEEE по теории информации . 50 (7): 1403–1414. дои : 10.1109/TIT.2004.830752 . ISSN   1557-9654 . S2CID   8913575 . Архивировано из оригинала 17 октября 2022 г. Проверено 20 августа 2023 г.
  31. ^ Линь, Жуокуан; Ма, Цяньли Д.Ю.; Бянь, Чуньхуа (2014). «Законы масштабирования в человеческой речи, уменьшение появления новых слов и обобщенной модели». arXiv : 1412.4846 [ cs.CL ].
  32. ^ Витанов, Николай К.; Ауслос, Марсель; Бянь, Чуньхуа (2015). «Проверка двух гипотез, объясняющих численность населения в системе городов». Журнал прикладной статистики . 42 (12): 2686–2693. arXiv : 1506.08535 . Бибкод : 2015JApSt..42.2686V . дои : 10.1080/02664763.2015.1047744 . S2CID   10599428 .
  33. ^ Рикардо Т. Фернхольц; Роберт Фернхольц (декабрь 2020 г.). «Закон Ципфа для моделей атласов» . Журнал прикладной вероятности . 57 (4): 1276–1297. дои : 10.1017/января 2020.64 . S2CID   146808080 . Архивировано из оригинала 29 января 2021 г. Проверено 26 марта 2021 г.
  34. ^ Теренс Тао (2012). «E Pluribus Unum: От сложности к универсальности» . Дедал . 141 (3): 23–34. дои : 10.1162/DAED_a_00158 . S2CID   14535989 . Архивировано из оригинала 05 августа 2021 г. Проверено 26 марта 2021 г.
  35. ^ Н.Л. Джонсон; С. Коц и А. В. Кемп (1992). Одномерные дискретные распределения (второе изд.). John Wiley & Sons, Inc. Нью-Йорк: ISBN  978-0-471-54897-3 . , с. 466.
  36. ^ Перейти обратно: а б Йохан Жерар ван дер Галиен (8 ноября 2003 г.). «Факториальная случайность: законы Бенфорда и Ципфа относительно распределения первых цифр факторной последовательности натуральных чисел» . Архивировано из оригинала 5 марта 2007 г. Проверено 8 июля 2016 г.
  37. ^ Эфтехари, Али (2006). «Фрактальная геометрия текстов: первоначальное приложение к произведениям Шекспира». Журнал количественной лингвистики . 13 (2–3): 177–193. дои : 10.1080/09296170600850106 . S2CID   17657731 .
  38. ^ Пьетронеро, Л.; Тосатти, Э.; Тосатти, В.; Веспиньяни, А. (2001). «Объяснение неравномерного распределения чисел в природе: законы Бенфорда и Ципфа». Физика А. 293 (1–2): 297–304. arXiv : cond-mat/9808305 . Бибкод : 2001PhyA..293..297P . дои : 10.1016/S0378-4371(00)00633-6 .
  39. ^ Габай, Ксавье (1999). «Закон Ципфа для городов: объяснение» . Ежеквартальный экономический журнал . 114 (3): 739–767. дои : 10.1162/003355399556133 . ISSN   0033-5533 . JSTOR   2586883 . Архивировано из оригинала 26 октября 2021 г. Проверено 26 октября 2021 г.
  40. ^ Аршад, Сидра; Ху, Сёгенг; Ашраф, Бадар Надим (15 февраля 2018 г.). «Закон Ципфа и распределение городов по размерам: обзор литературы и программа будущих исследований» . Физика А: Статистическая механика и ее приложения . 492 : 75–92. Бибкод : 2018PhyA..492...75A . дои : 10.1016/j.physa.2017.10.005 . ISSN   0378-4371 . Архивировано из оригинала 29 октября 2023 г. Проверено 26 октября 2021 г.
  41. ^ Ган, Ли; Ли, Донг; Сун, Шуньфэн (1 августа 2006 г.). «Является ли закон Ципфа ложным при объяснении распределения городов по размерам?» . Письма по экономике . 92 (2): 256–262. doi : 10.1016/j.econlet.2006.03.004 . ISSN   0165-1765 . Архивировано из оригинала 13 апреля 2019 г. Проверено 26 октября 2021 г.
  42. ^ Вербавац, Винсент; Бартелеми, Марк (ноябрь 2020 г.). «Уравнение роста городов» . Природа . 587 (7834): 397–401. arXiv : 2011.09403 . Бибкод : 2020Природа.587..397В . дои : 10.1038/s41586-020-2900-x . ISSN   1476-4687 . ПМИД   33208958 . S2CID   227012701 . Архивировано из оригинала 29 октября 2021 г. Проверено 26 октября 2021 г.
  43. ^ Морено-Санчес, И.; Фон-Кло, Ф.; Коррал, А. (2016). «Масштабный анализ закона Ципфа в английских текстах» . ПЛОС ОДИН . 11 (1): e0147073. arXiv : 1509.04486 . Бибкод : 2016PLoSO..1147073M . дои : 10.1371/journal.pone.0147073 . ПМК   4723055 . ПМИД   26800025 .
  44. ^ Мохаммади, Мехди (2016). «Параллельная идентификация документов с использованием закона Ципфа» (PDF) . Материалы девятого семинара по построению и использованию сопоставимых корпораций . LREC 2016. Порторож, Словения. стр. 21–25. Архивировано (PDF) из оригинала 23 марта 2018 г.
  45. ^ Дойл, Лоуренс Р. (18 ноября 2016 г.). «Почему инопланетный язык выделялся бы среди всего шума Вселенной» . Наутилус Ежеквартально . Архивировано из оригинала 29 июля 2020 г. Проверено 30 августа 2020 г.
  46. ^ Кершенбаум, Арик (16 марта 2021 г.). Путеводитель зоолога по Галактике: что животные на Земле рассказывают об инопланетянах и нас самих . Пингвин. стр. 251–256. ISBN  978-1-9848-8197-7 . OCLC   1242873084 .
  47. ^ Франс Дж. Ван Дрогенброк (2016): Управление распространением Zipf при компьютеризированном установлении авторства. Архивировано 4 октября 2023 г. в Wayback Machine.
  48. ^ Франс Дж. Ван Дрогенброк (2019): Существенная перефразировка закона Ципфа-Мандельброта для решения приложений об установлении авторства с помощью статистики Гаусса. Архивировано 30 сентября 2023 г. в Wayback Machine.
  49. ^ Бойл, Ребекка. «Языковые шаблоны загадочного текста могут быть тщательно продуманной мистификацией» . Новый учёный . Архивировано из оригинала 18 мая 2022 г. Проверено 25 февраля 2022 г.
  50. ^ Монтемурро, Марсело А.; Занетт, Дамиан Х. (21 июня 2013 г.). «Ключевые слова и закономерности совпадения в рукописи Войнича: теоретико-информационный анализ» . ПЛОС ОДИН . 8 (6): e66344. Бибкод : 2013PLoSO...866344M . дои : 10.1371/journal.pone.0066344 . ISSN   1932-6203 . ПМЦ   3689824 . ПМИД   23805215 .

Дальнейшее чтение

[ редактировать ]
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 26a020b795ae902671086a60ad76bae6__1721676180
URL1:https://arc.ask3.ru/arc/aa/26/e6/26a020b795ae902671086a60ad76bae6.html
Заголовок, (Title) документа по адресу, URL1:
Zipf's law - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)