Закон Ципфа
Закон Ципфа ( / z ɪ f / , Немецкий: [t͡sɪpf] ) — это эмпирический закон , который часто приблизительно соблюдается, когда список измеренных значений отсортирован в порядке убывания. что значение n- й записи обратно пропорционально n Он утверждает , .
Самый известный пример закона Ципфа применим к таблице частот слов в тексте или корпусе естественного языка : Обычно обнаруживается, что самое употребительное слово встречается примерно в два раза чаще, чем следующее по употреблению, в три раза чаще, чем третье по употреблению, и так далее. Например, в коричневом корпусе американского английского текста слово « the » является наиболее часто встречающимся словом и само по себе составляет почти 7% всех появлений слов (69 971 из чуть более 1 миллиона). В соответствии с законом Ципфа, слово « of » на втором месте составляет чуть более 3,5% слов (36 411 вхождений), за ним следуют « и » (28 852). [2] Его часто используют в следующей форме, называемой законом Ципфа-Мандельброта : где являются подогнанными параметрами, при этом , и . [1]
Этот закон назван в честь американского лингвиста Джорджа Кингсли Зипфа . [3] [4] [5] и до сих пор является важным понятием в количественной лингвистике . Было обнаружено, что это применимо ко многим другим типам данных, изучаемых в физических и социальных науках.
В математической статистике эта концепция была формализована как распределение Ципфа : семейство связанных дискретных распределений вероятностей, чье частотно-ранговое распределение является соотношением обратного степенного закона . Они связаны с законом Бенфорда и распределением Парето .
Некоторые наборы эмпирических данных, зависящих от времени, несколько отклоняются от закона Ципфа. Такие эмпирические распределения называются квазизипфовыми .
История
[ редактировать ]В 1913 году немецкий физик Феликс Ауэрбах заметил обратную пропорциональность между численностью населения городов и их рангами при сортировке по убыванию этой переменной. [6]
Закон Ципфа был открыт раньше Ципфа. [а] французского стенографиста Жана-Батиста Эступа » « Gammes Stenographiques (4-е изд.) в 1916 г., [7] с Дж. Дьюи в 1923 г., [8] и с Э. Кондоном в 1928 г. [9]
Такое же соотношение частот слов в текстах на естественном языке наблюдал Джордж Ципф в 1932 году. [4] но он никогда не утверждал, что создал его. На самом деле Ципф не любил математику. В своей публикации 1932 г. [10] автор с пренебрежением отзывается о причастности математики к языкознанию, там же, с. 21: (…) позвольте мне сказать здесь ради любого математика, который может планировать более точно сформулировать последующие данные, способность высокоинтенсивного положительного стать высокоинтенсивным отрицательным, по моему мнению, привносит дьявола в формулу в виде . Единственное математическое выражение, которое использовал Зипф, выглядит . как б 2 = константа, которую он «позаимствовал» из публикации Альфреда Дж. Лотки 1926 года. [11]
Было обнаружено, что такая же взаимосвязь наблюдается во многих других контекстах и для других переменных, помимо частоты. [1] Например, когда корпорации ранжируются по убыванию размера, оказывается, что их размеры обратно пропорциональны рангу. [12] Такое же соотношение наблюдается и для личных доходов (где оно называется принципом Парето). [13] ), количество людей, смотрящих один и тот же телеканал, [14] ноты в музыке, [15] клеток транскриптомы , [16] [17] и многое другое.
В 1992 году биоинформатик Вэньтянь Ли опубликовал небольшую статью. [18] показывая, что закон Ципфа проявляется даже в случайно сгенерированных текстах. Он включал доказательство того, что степенная форма закона Ципфа была побочным продуктом упорядочивания слов по рангу.
Формальное определение
[ редактировать ]Функция массы вероятности PMF Zipf для N = 10 в логарифмическом масштабе. Горизонтальная ось — индекс k . (Функция определена только при целочисленных значениях k . Соединительные линии не указывают на непрерывность.) | |||
Кумулятивная функция распределения Zipf CDF для N = 10. Горизонтальная ось — индекс k . (Функция определена только при целочисленных значениях k . Соединительные линии не указывают на непрерывность.) | |||
Параметры | ( настоящий ) ( целое число ) | ||
---|---|---|---|
Поддерживать | |||
ПМФ | где H N,s — номер N -й обобщенной гармоники. | ||
CDF | |||
Иметь в виду | |||
Режим | |||
Дисперсия | |||
Энтропия | |||
МГФ | |||
CF |
Формально распределение Ципфа на N элементах сопоставляет элементу ранга k (считая с 1) вероятность
где H N — нормировочная константа, N- й номер гармоники :
Распределение иногда обобщают до обратно-степенного закона с показателем степени s вместо 1. [19] А именно,
где H N , s — номер обобщенной гармоники
Обобщенное распределение Ципфа можно расширить до бесконечного числа элементов ( N = ∞), только если показатель степени s превышает 1. В этом случае константа нормализации H N , s становится дзета-функцией Римана ,
Если показатель степени s равен 1 или меньше, константа нормализации H N , s расходится, когда N стремится к бесконечности.
Эмпирическое тестирование
[ редактировать ]Эмпирически набор данных можно проверить, чтобы увидеть, применим ли закон Ципфа, проверив степень соответствия эмпирического распределения гипотетическому степенному закону распределения с помощью теста Колмогорова-Смирнова , а затем сравнив (логарифмическое) отношение правдоподобия степенного закона. распределение на альтернативные распределения, такие как экспоненциальное распределение или логнормальное распределение. [20]
Закон Ципфа можно визуализировать, нанеся данные о частоте элементов на логарифмический график, где оси представляют собой логарифм рангового порядка и логарифм частоты. Данные соответствуют закону Ципфа с показателем степени s в той степени, в которой график аппроксимирует линейную (точнее, аффинную ) функцию с наклоном - s . Для показателя степени s = 1 можно также построить график обратной зависимости частоты (среднего межсловного интервала) от ранга или обратной величины ранга от частоты и сравнить результат с линией, проходящей через начало координат, с наклоном 1. [3]
Статистические объяснения
[ редактировать ]Хотя закон Ципфа справедлив для большинства естественных языков и даже для некоторых неестественных, таких как эсперанто. [21] и Токи Пона , [22] причина до сих пор не совсем понятна. [23] Недавние обзоры генеративных процессов для закона Ципфа включают Митценмахера , «Краткую историю генеративных моделей для степенного закона и логнормального распределения», [24] и Симкин, «Изобретая заново Уиллис». [25]
Однако частично это можно объяснить статистическим анализом случайно сгенерированных текстов. Вэньтянь Ли показал, что в документе, в котором каждый символ выбирается случайным образом из равномерного распределения всех букв (плюс пробел), «слова» разной длины следуют макротенденции закона Ципфа (более вероятные слова являются самыми короткими и имеют одинаковую вероятность). [26] В 1959 году Витольд Белевич с хорошим поведением заметил, что если какое-либо из большого класса статистических распределений (не только нормальное распределение ) выражается через ранги и разлагается в ряд Тейлора , то усечение этого ряда в первом порядке приводит к формуле Ципфа. закон. Далее, усечение ряда Тейлора во втором порядке привело к закону Мандельброта . [27] [28]
Еще одним возможным объяснением является принцип наименьших усилий :Сам Ципф предположил, что ни говорящие, ни слушающие, использующие данный язык, не хотят работать больше, чем необходимо, чтобы достичь понимания, и процесс, который приводит к примерно равному распределению усилий, приводит к наблюдаемому распределению Ципфа. [5] [29]
Минимальное объяснение предполагает, что слова генерируются обезьянами, печатающими случайным образом . Если язык генерируется случайным набором текста одной обезьяной с фиксированной и ненулевой вероятностью нажатия каждой буквенной клавиши или пробела, то слова (строки букв, разделенные пробелами), создаваемые обезьяной, подчиняются закону Ципфа. [30]
Другой возможной причиной распределения Ципфа является процесс предпочтительной привязанности , при котором ценность x предмета имеет тенденцию расти со скоростью, пропорциональной x (интуитивно, « богатые становятся богаче » или «успех порождает успех»). Такой процесс роста приводит к распределению Юла-Саймона , которое, как было показано, соответствует частоте слов в зависимости от ранга в языке. [31] и население в зависимости от ранга города [32] лучше, чем закон Ципфа. Первоначально он был выведен Юлом для объяснения численности населения в зависимости от ранга вида, а Саймоном применен к городам.
Подобное объяснение основано на моделях атласов — системах сменных положительнозначных диффузионных процессов с параметрами дрейфа и дисперсии, зависящими только от ранга процесса. Математически было показано, что закон Ципфа справедлив для моделей Атласа, удовлетворяющих определенным естественным условиям регулярности. [33] [34]
Связанные законы
[ редактировать ]Обобщением закона Ципфа является закон Ципфа-Мандельброта , предложенный Бенуа Мандельбротом , частоты которого составляют:
Константа C представляет собой дзета-функцию Гурвица, оцениваемую в s .
Распределения Зипфа можно получить из распределений Парето путем замены переменных. [19]
Распределение Ципфа иногда называют дискретным распределением Парето. [35] потому что оно аналогично непрерывному распределению Парето точно так же, как дискретное равномерное распределение аналогично непрерывному равномерному распределению .
Хвостовые частоты распределения Юла – Саймона примерно равны
для любого выбора ρ > 0.
В параболическом фрактальном распределении логарифм частоты представляет собой квадратичный многочлен от логарифма ранга. Это может заметно улучшить соответствие по сравнению с простым степенным соотношением. [36] Как и фрактальная размерность, можно рассчитать размерность Ципфа, которая является полезным параметром при анализе текстов. [37]
Утверждалось, что закон Бенфорда представляет собой частный ограниченный случай закона Ципфа. [36] причем связь между этими двумя законами объясняется тем, что оба они происходят из масштабно-инвариантных функциональных соотношений статистической физики и критических явлений. [38] Отношения вероятностей в законе Бенфорда не постоянны. Старшие цифры данных, удовлетворяющих закону Ципфа с s = 1, удовлетворяют закону Бенфорда.
Закон Бенфорда: | ||
---|---|---|
1 | 0.30103000 | |
2 | 0.17609126 | −0.7735840 |
3 | 0.12493874 | −0.8463832 |
4 | 0.09691001 | −0.8830605 |
5 | 0.07918125 | −0.9054412 |
6 | 0.06694679 | −0.9205788 |
7 | 0.05799195 | −0.9315169 |
8 | 0.05115252 | −0.9397966 |
9 | 0.04575749 | −0.9462848 |
События
[ редактировать ]Размеры города
[ редактировать ]После наблюдения Ауэрбаха 1913 года было проведено тщательное исследование закона Ципфа для размеров городов. [39] Однако более поздние эмпирические [40] [41] и теоретический [42] исследования поставили под сомнение актуальность закона Ципфа для городов.
Частоты слов в естественных языках
[ редактировать ]Во многих текстах на человеческих языках частота слов примерно соответствует распределению Ципфа с показателем степени , близким к 1: то есть наиболее распространенное слово встречается примерно в n раз чаще, чем n -е наиболее распространенное.
Реальный график ранг-частоты текста на естественном языке в некоторой степени отклоняется от идеального распределения Ципфа, особенно на двух концах диапазона. Отклонения могут зависеть от языка, темы текста, автора, от того, был ли текст переведен с другого языка, от используемых правил орфографии. [ нужна ссылка ] Некоторые отклонения неизбежны из-за ошибки выборки .
На низкочастотном конце, где ранг приближается к N , график принимает форму лестницы, поскольку каждое слово может встречаться только целое число раз.
- Тексты на немецком (1669 г.), русском (1972 г.), французском (1865 г.), итальянском (1840 г.) и средневековом английском (1460 г.)
- Сервантеса « Дон Кихот, часть I» ( испанский , 1605 г.) и Ассиса « Дом Касмурро» ( португальский , 1899 г.)
- Библейские тексты: Пятикнижие из латинской Вульгаты и русская Синодальная Библия , четыре Евангелия из византийской версии греческого большинства.
- Дон Кихот Сервантеса, часть I (1605 г.) и часть II (1615 г.)
- Первые пять книг Ветхого Завета ( Торы ) на иврите, с гласными.
В некоторых романских языках частоты примерно дюжины наиболее частых слов значительно отклоняются от идеального распределения Ципфа, поскольку эти слова включают артикли, склоняемые по грамматическому роду и числу . [ нужна ссылка ]
Во многих восточноазиатских языках, таких как китайский , лхасский тибетский и вьетнамский , каждое «слово» состоит из одного слога ; это английское слово часто переводится как соединение двух таких слогов. Таблица частотности рангов для этих «слов» значительно отклоняется от идеального закона Ципфа на обоих концах диапазона. [ нужна ссылка ]
Даже в английском языке отклонения от идеального закона Ципфа становятся более очевидными при изучении больших коллекций текстов. Анализ корпуса из 30 000 английских текстов показал, что только около 15% текстов в нем хорошо соответствуют закону Ципфа. Небольшие изменения в определении закона Ципфа могут увеличить этот процент почти до 50%. [43]
В этих случаях наблюдаемое частотно-ранговое соотношение можно более точно смоделировать с помощью отдельных распределений законов Ципфа – Мандельброта для разных подмножеств или подтипов слов. Так обстоит дело с графиком частотного ранга первых 10 миллионов слов английской Википедии. В частности, частоты закрытого класса служебных слов в английском языке лучше описываются значениями s ниже 1, тогда как рост открытого словарного запаса с увеличением размера документа и корпуса требует s больше 1 для сходимости Обобщенного гармонического ряда . [3]
Когда текст шифруется таким образом, что каждое появление каждого отдельного слова открытого текста всегда отображается в одно и то же зашифрованное слово (как в случае шифров простой замены , таких как шифры Цезаря , или простых шифров кодовой книги ), частотный ранг распространение не затронуто. С другой стороны, если отдельные вхождения одного и того же слова могут быть сопоставлены с двумя или более разными словами (как это происходит с шифром Виженера ), распределение Ципфа обычно будет иметь плоскую часть на высокочастотном конце. [ нужна ссылка ]
Приложения
[ редактировать ]Закон Ципфа использовался для извлечения параллельных фрагментов текстов из сопоставимых корпусов. [44] Лоранс Дойл и другие предложили применить закон Ципфа для обнаружения инопланетного языка в поисках внеземного разума . [45] [46]
Частотно-ранговое распределение слов часто свойственно автору и мало меняется с течением времени. Эта особенность была использована при анализе текстов на предмет установления авторства. [47] [48]
группы словоподобных знаков в рукописи Войнича XV века удовлетворяют закону Ципфа, предполагая, что текст, скорее всего, не является мистификацией, а скорее написан на непонятном языке или зашифрован. Было обнаружено, что [49] [50]
См. также
[ редактировать ]- Правило 1% (Интернет-культура) – гипотеза о том, что в виртуальном сообществе будет скрываться больше людей, чем будет участвовать.
- Закон Бенфорда . Наблюдение: во многих реальных наборах данных первая цифра, скорее всего, будет маленькой.
- Закон Брэдфорда - Характер ссылок в научных журналах
- Закон о краткости – Закон о лингвистике
- Демографическая гравитация
- Список частот — пустой список слов языка в корпусной лингвистике.
- Закон Жибрата – Экономический принцип
- Hapax legomenon - слово, которое встречается в данном тексте или записи только один раз.
- Закон Кучи - эвристика для определения отдельных слов в документе
- Эффект Кинга - явление в статистике, когда точки данных с самым высоким рейтингом являются выбросами.
- Длинный хвост - особенность некоторых статистических распределений.
- Кривая Лоренца - графическое изображение распределения дохода или богатства.
- Закон Лотки - применение закона Ципфа, описывающее частоту публикаций авторов в любой данной области.
- Закон Менцерата - Лингвистический закон
- Распределение Парето – Распределение вероятностей
- Принцип Парето - статистический принцип соотношения последствий и причин, также известный как «правило 80–20».
- Закон Прайса - физик и историк науки (1922–1983).
- Принцип наименьших усилий – идея, согласно которой агенты предпочитают делать то, что проще.
- Распределение по размеру — распределение размера по рангу.
- Закон эпонимии Стиглера - наблюдение, что ни одно научное открытие не названо в честь его первооткрывателя.
- Частота букв
- Самые распространенные слова в английском языке
Примечания
[ редактировать ]Ссылки
[ редактировать ]- ^ Перейти обратно: а б с Пиантадоси, Стивен (25 марта 2014 г.). «Закон частоты слов Ципфа на естественном языке: критический обзор и будущие направления» . Психон Булл преп . 21 (5): 1112–1130. дои : 10.3758/s13423-014-0585-6 . ПМЦ 4176592 . ПМИД 24664880 .
- ^ Фэган, Стивен; Генчай, Рамазан (2010), «Введение в текстовую эконометрику», в Улле, Аман; Джайлз, Дэвид Э.А. (ред.), Справочник по эмпирической экономике и финансам , CRC Press, стр. 133–153, ISBN 9781420070361 . Стр. 139 : «Например, в Коричневом корпусе, состоящем из более чем миллиона слов, половина объема слов состоит из повторяющихся употреблений всего 135 слов».
- ^ Перейти обратно: а б с Пауэрс, Дэвид М.В. (1998). Применение и объяснение закона Ципфа . Совместная конференция по новым методам обработки речи и компьютерному изучению естественного языка. Ассоциация компьютерной лингвистики. стр. 151–160. Архивировано из оригинала 10 сентября 2015 г. Проверено 2 февраля 2015 г.
- ^ Перейти обратно: а б Джордж К. Зипф (1935): Психобиология языка . Хоутон-Миффлин.
- ^ Перейти обратно: а б с Джордж К. Зипф (1949). Человеческое поведение и принцип наименьшего усилия . Кембридж, Массачусетс: Аддисон-Уэсли. п. 1.
- ^ Ауэрбах Ф. (1913) Закон концентрации населения. Географические уведомления Петерманна 59, 74–76.
- ^ Кристофер Д. Мэннинг, Хинрих Шютце Основы статистической обработки естественного языка , MIT Press (1999), ISBN 978-0-262-13360-9 , с. 24
- ^ Дьюи, Годфри. Относительная частота звуков английской речи . Издательство Гарвардского университета, 1923.
- ^ Кондон, ЭДВАРД У. «Статистика словарного запаса». Наука 67.1733 (1928): 300–300.
- ^ Джордж К. Зипф (1932): Избранные исследования принципа относительной частоты в языке. Гарвард, Массачусетс: Издательство Гарвардского университета.
- ^ Зипф, Джордж Кингсли (1942). «Единство природы, наименьшее действие и естественные социальные науки» . Социометрия . 5 (1): 48–62. дои : 10.2307/2784953 . ISSN 0038-0431 . JSTOR 2784953 . Архивировано из оригинала 20 ноября 2022 г. Проверено 20 ноября 2022 г.
- ^ Экстелл, Роберт Л. (2001): Распределение размеров фирм США по Ципфу. Архивировано 17 октября 2023 г. в Wayback Machine , Science, 293, 5536, 1818, Американская ассоциация содействия развитию науки.
- ^ Сандмо, Агнар (01 января 2015 г.), Аткинсон, Энтони Б.; Бургиньон, Франсуа (ред.), Глава 1 - Основная проблема политической экономии: распределение доходов в истории экономической мысли , Справочник по распределению доходов, том. 2, Elsevier, стр. 3–65, doi : 10.1016/B978-0-444-59428-0.00002-3 , ISBN. 978-0-444-59430-3 , заархивировано из оригинала 29 октября 2023 г. , получено 11 июля 2023 г.
- ^ М. Эрикссон, С. М. Хасибур Рахман, Ф. Фрайль, М. Сьёстрем, Эффективная интерактивная многоадресная передача через DVB-T2 - использование динамических SFN и PARPS. Архивировано 2 мая 2014 г. на Wayback Machine , Международная конференция IEEE по компьютерным и информационным технологиям, 2013 г. (BMSB'13), Лондон, Великобритания, июнь 2013 г. Предлагается гетерогенная модель выбора телеканалов по закону Ципфа.
- ^ Занетт, Дамиан Х. (7 июня 2004 г.). «Закон Ципфа и создание музыкального контекста». arXiv : cs/0406015 .
- ^ Лаццарди, Сильвия; Валле, Филип; Маццолини, Андреа; Скиалдоне, Антонио; Казелле, Мишель; Оселла, Маттео (17 июня 2021 г.). «Новые статистические законы в транскриптомных данных одноклеточных» . bioRxiv : 2021–16.06.448706. дои : 10.1101/2021.06.16.448706 . S2CID 235482777 . Архивировано из оригинала 17 июня 2021 г. Проверено 18 июня 2021 г.
- ^ Раму Ченна, Тоби Гибсон; Оценка пригодности модели Зипфиана для парного выравнивания последовательностей. Архивировано 6 марта 2014 г. на Wayback Machine , Международная конференция по биоинформатике, вычислительной биологии: 2011.
- ^ Ли, Вэньтянь (1992). «Случайные тексты демонстрируют распределение частот слов, подобное закону Ципфа» . Транзакции IEEE по теории информации . 38 (6): 1842–1845. doi : 10.1109/18.165464 — через IEEE Xplore.
- ^ Перейти обратно: а б Адамич, Лада А. (2000). Зипф, степенные законы и Парето - руководство по ранжированию (Отчет). Хьюлетт-Паккард Компания . Архивировано из оригинала 1 апреля 2023 г. Проверено 12 октября 2023 г. «первоначально опубликовано» . www.parc.xerox.com . Корпорация Ксерокс . Архивировано из оригинала 7 ноября 2001 г. Проверено 23 февраля 2016 г.
- ^ Клаузет, А., Шализи, CR, и Ньюман, MEJ (2009). Степенные распределения в эмпирических данных. Обзор СИАМ, 51 (4), 661–703. дои : 10.1137/070710111
- ^ Билл Манарис; Лука Пелликоро; Джордж Потеринг; Харланд Ходжес (13 февраля 2006 г.). Исследование статистических пропорций эсперанто по отношению к другим языкам с использованием нейронных сетей и закона Ципфа (PDF) . Искусственный интеллект и его приложения . Инсбрук, Австрия. стр. 102–108. Архивировано из оригинала (PDF) 5 марта 2016 года.
- ^ Скотарек, Дариуш (2020). Закон Ципфа в Токи Пона (PDF) . Общество ЭксЛинга. doi : 10.36505/ExLing-2020/11/0047/000462 . ISBN 978-618-84585-1-2 .
- ^ Леон Бриллюэн , Наука и теория информации , 1959, переиздано в 1988 году, английский перевод переиздан в 2004 году.
- ^ Митценмахер, Майкл (январь 2004 г.). «Краткая история генеративных моделей для степенного закона и логнормального распределения» . Интернет-математика . 1 (2): 226–251. дои : 10.1080/15427951.2004.10129088 . ISSN 1542-7951 . S2CID 1671059 . Архивировано из оригинала 22 июля 2023 г. Проверено 25 июля 2023 г.
- ^ Симкин, М.В.; Ройчоудхури, вице-президент (1 мая 2011 г.). «Переосмысление Уиллиса» . Отчеты по физике . 502 (1): 1–35. arXiv : физика/0601192 . Бибкод : 2011ФР...502....1С . дои : 10.1016/j.physrep.2010.12.004 . ISSN 0370-1573 . S2CID 88517297 . Архивировано из оригинала 29 января 2012 г. Проверено 25 июля 2023 г.
- ^ Вэньтянь Ли (1992). «Случайные тексты демонстрируют распределение частот слов, подобное закону Ципфа». Транзакции IEEE по теории информации . 38 (6): 1842–1845. CiteSeerX 10.1.1.164.8422 . дои : 10.1109/18.165464 .
- ^ Белевич V (18 декабря 1959 г.). «О статистических законах лингвистических распределений» (PDF) . Анналы научного общества Брюсселя . 73 : 310–326. Архивировано (PDF) из оригинала 15 декабря 2020 года . Проверено 24 апреля 2020 г.
- ↑ Нойманн, Питер Г. «Статистическая металингвистика и Ципф/Парето/Мандельброт» , Международная лаборатория компьютерных наук SRI , доступ и архивирование 29 мая 2011 г.
- ^ Рамон Феррер и Канчо и Рикар В. Соле (2003). «Наименьшее усилие и истоки масштабирования на человеческом языке» . Труды Национальной академии наук Соединенных Штатов Америки . 100 (3): 788–791. Бибкод : 2003PNAS..100..788C . дои : 10.1073/pnas.0335980100 . ПМЦ 298679 . ПМИД 12540826 .
- ^ Конрад, Б.; Митценмахер, М. (июль 2004 г.). «Степенные законы для обезьян, печатающих наугад: случай неравных вероятностей» . Транзакции IEEE по теории информации . 50 (7): 1403–1414. дои : 10.1109/TIT.2004.830752 . ISSN 1557-9654 . S2CID 8913575 . Архивировано из оригинала 17 октября 2022 г. Проверено 20 августа 2023 г.
- ^ Линь, Жуокуан; Ма, Цяньли Д.Ю.; Бянь, Чуньхуа (2014). «Законы масштабирования в человеческой речи, уменьшение появления новых слов и обобщенной модели». arXiv : 1412.4846 [ cs.CL ].
- ^ Витанов, Николай К.; Ауслос, Марсель; Бянь, Чуньхуа (2015). «Проверка двух гипотез, объясняющих численность населения в системе городов». Журнал прикладной статистики . 42 (12): 2686–2693. arXiv : 1506.08535 . Бибкод : 2015JApSt..42.2686V . дои : 10.1080/02664763.2015.1047744 . S2CID 10599428 .
- ^ Рикардо Т. Фернхольц; Роберт Фернхольц (декабрь 2020 г.). «Закон Ципфа для моделей атласов» . Журнал прикладной вероятности . 57 (4): 1276–1297. дои : 10.1017/января 2020.64 . S2CID 146808080 . Архивировано из оригинала 29 января 2021 г. Проверено 26 марта 2021 г.
- ^ Теренс Тао (2012). «E Pluribus Unum: От сложности к универсальности» . Дедал . 141 (3): 23–34. дои : 10.1162/DAED_a_00158 . S2CID 14535989 . Архивировано из оригинала 05 августа 2021 г. Проверено 26 марта 2021 г.
- ^ Н.Л. Джонсон; С. Коц и А. В. Кемп (1992). Одномерные дискретные распределения (второе изд.). John Wiley & Sons, Inc. Нью-Йорк: ISBN 978-0-471-54897-3 . , с. 466.
- ^ Перейти обратно: а б Йохан Жерар ван дер Галиен (8 ноября 2003 г.). «Факториальная случайность: законы Бенфорда и Ципфа относительно распределения первых цифр факторной последовательности натуральных чисел» . Архивировано из оригинала 5 марта 2007 г. Проверено 8 июля 2016 г.
- ^ Эфтехари, Али (2006). «Фрактальная геометрия текстов: первоначальное приложение к произведениям Шекспира». Журнал количественной лингвистики . 13 (2–3): 177–193. дои : 10.1080/09296170600850106 . S2CID 17657731 .
- ^ Пьетронеро, Л.; Тосатти, Э.; Тосатти, В.; Веспиньяни, А. (2001). «Объяснение неравномерного распределения чисел в природе: законы Бенфорда и Ципфа». Физика А. 293 (1–2): 297–304. arXiv : cond-mat/9808305 . Бибкод : 2001PhyA..293..297P . дои : 10.1016/S0378-4371(00)00633-6 .
- ^ Габай, Ксавье (1999). «Закон Ципфа для городов: объяснение» . Ежеквартальный экономический журнал . 114 (3): 739–767. дои : 10.1162/003355399556133 . ISSN 0033-5533 . JSTOR 2586883 . Архивировано из оригинала 26 октября 2021 г. Проверено 26 октября 2021 г.
- ^ Аршад, Сидра; Ху, Сёгенг; Ашраф, Бадар Надим (15 февраля 2018 г.). «Закон Ципфа и распределение городов по размерам: обзор литературы и программа будущих исследований» . Физика А: Статистическая механика и ее приложения . 492 : 75–92. Бибкод : 2018PhyA..492...75A . дои : 10.1016/j.physa.2017.10.005 . ISSN 0378-4371 . Архивировано из оригинала 29 октября 2023 г. Проверено 26 октября 2021 г.
- ^ Ган, Ли; Ли, Донг; Сун, Шуньфэн (1 августа 2006 г.). «Является ли закон Ципфа ложным при объяснении распределения городов по размерам?» . Письма по экономике . 92 (2): 256–262. doi : 10.1016/j.econlet.2006.03.004 . ISSN 0165-1765 . Архивировано из оригинала 13 апреля 2019 г. Проверено 26 октября 2021 г.
- ^ Вербавац, Винсент; Бартелеми, Марк (ноябрь 2020 г.). «Уравнение роста городов» . Природа . 587 (7834): 397–401. arXiv : 2011.09403 . Бибкод : 2020Природа.587..397В . дои : 10.1038/s41586-020-2900-x . ISSN 1476-4687 . ПМИД 33208958 . S2CID 227012701 . Архивировано из оригинала 29 октября 2021 г. Проверено 26 октября 2021 г.
- ^ Морено-Санчес, И.; Фон-Кло, Ф.; Коррал, А. (2016). «Масштабный анализ закона Ципфа в английских текстах» . ПЛОС ОДИН . 11 (1): e0147073. arXiv : 1509.04486 . Бибкод : 2016PLoSO..1147073M . дои : 10.1371/journal.pone.0147073 . ПМЦ 4723055 . ПМИД 26800025 .
- ^ Мохаммади, Мехди (2016). «Параллельная идентификация документов с использованием закона Ципфа» (PDF) . Материалы девятого семинара по построению и использованию сопоставимых корпораций . LREC 2016. Порторож, Словения. стр. 21–25. Архивировано (PDF) из оригинала 23 марта 2018 г.
- ^ Дойл, Лоуренс Р. (18 ноября 2016 г.). «Почему инопланетный язык выделялся бы среди всего шума Вселенной» . Наутилус Ежеквартально . Архивировано из оригинала 29 июля 2020 г. Проверено 30 августа 2020 г.
- ^ Кершенбаум, Арик (16 марта 2021 г.). Путеводитель зоолога по Галактике: что животные на Земле рассказывают об инопланетянах и нас самих . Пингвин. стр. 251–256. ISBN 978-1-9848-8197-7 . OCLC 1242873084 .
- ^ Франс Дж. Ван Дрогенброк (2016): Управление распространением Zipf при компьютеризированном установлении авторства. Архивировано 4 октября 2023 г. в Wayback Machine.
- ^ Франс Дж. Ван Дрогенброк (2019): Существенная перефразировка закона Ципфа-Мандельброта для решения приложений об установлении авторства с помощью статистики Гаусса. Архивировано 30 сентября 2023 г. в Wayback Machine.
- ^ Бойл, Ребекка. «Языковые шаблоны загадочного текста могут быть тщательно продуманной мистификацией» . Новый учёный . Архивировано из оригинала 18 мая 2022 г. Проверено 25 февраля 2022 г.
- ^ Монтемурро, Марсело А.; Занетт, Дамиан Х. (21 июня 2013 г.). «Ключевые слова и закономерности совпадения в рукописи Войнича: теоретико-информационный анализ» . ПЛОС ОДИН . 8 (6): e66344. Бибкод : 2013PLoSO...866344M . дои : 10.1371/journal.pone.0066344 . ISSN 1932-6203 . ПМЦ 3689824 . ПМИД 23805215 .
Дальнейшее чтение
[ редактировать ]- Александр Гельбух и Григорий Сидоров (2001) «Коэффициенты законов Ципфа и кучи зависят от языка» . Учеб. CICLing -2001, Конференция по интеллектуальной обработке текста и компьютерной лингвистике , 18–24 февраля 2001 г., Мехико. Конспект лекций по информатике N 2004, ISSN 0302-9743 , ISBN 3-540-41687-0 , Springer-Verlag: 332–335.
- Кали Р. (2003) «Город как гигантский компонент: подход к закону Ципфа на основе случайных графов», Applied Economics Letters 10 : 717–720(4)
- Шикло А. (2017); Простое объяснение загадки Ципфа с помощью нового распределения рангов, полученного из комбинаторики процесса ранжирования , доступно на SSRN: https://ssrn.com/abstract=2918642 .
- Клара Московиц , Джен Кристиансен и Ни-Ка Форд , «Клетки по количеству и размеру: чем крупнее тип клеток, тем реже они встречаются в организме – и наоборот», Scientific American , vol. 330, нет. 1 (январь 2024 г.), стр. 94–95. «Когда вы удваиваете объем клетки, частота появления клеток такого размера уменьшается вдвое», — обнаружили эколог Ян А. Хаттон из Университета Макгилла и его коллеги-исследователи закона Ципфа, говорит Хаттон. «Маленькие, безъядерные эритроциты являются, безусловно, наиболее распространенными клетками в нашем организме, тогда как сравнительно гигантские мышечные клетки в наших руках и ногах являются самыми редкими. Возможность использовать размер клетки для оценки ее частоты в организме может помочь врачам лучше понять определенные системы организма и типы клеток, которые трудно подсчитать... Исследование показывает, например, что иммунные клетки , называемые лимфоцитами, встречаются гораздо чаще, чем предполагали биологи». (стр. 94.)
Внешние ссылки
[ редактировать ]- Строгац, Стивен (29 мая 2009 г.). «Гостевая рубрика: Математика и город» . Нью-Йорк Таймс . Архивировано из оригинала 27 сентября 2015 г. Проверено 29 мая 2009 г. -Статья о законе Ципфа применительно к городскому населению.
- Видение за углом (искусственные общества подтверждают закон Ципфа)
- Статья PlanetMath о законе Ципфа
- Распределения типа «фрактальной параболики» в природе (на французском языке, с резюме на английском языке). Архивировано 24 октября 2004 г. в Wayback Machine.
- Анализ распределения доходов
- Список французских слов Zipf. Архивировано 23 июня 2007 г. в Wayback Machine.
- Список Zipf для английского, французского, испанского, итальянского, шведского, исландского, латыни, португальского и финского языков от Gutenberg Project и онлайн-калькулятор для ранжирования слов в текстах. Архивировано 8 апреля 2011 г. на Wayback Machine.
- Цитаты и закон Ципфа – Мандельброта.
- Примеры и моделирование закона Ципфа (1985)
- Сложные системы: распаковка закона Ципфа (2011)
- Закон Бенфорда, закон Ципфа и распределение Парето Теренса Тао.
- «Закон Ципфа» , Математическая энциклопедия , EMS Press , 2001 [1994]