Jump to content

Закон Хипса

(Перенаправлено из закона Гердана )
Проверка закона Хипса о войне и мире , а также его случайно перетасованной версии. случая хорошо соответствуют закону Хипса с очень близкими показателями β , но разными K. Оба
Схематический график закона кучи. Ось X представляет размер текста, а ось Y представляет количество различных словарных элементов, присутствующих в тексте. Сравните значения двух осей.

В лингвистике , закон Хипса (также называемый законом Гердана ) — это эмпирический закон который описывает количество отдельных слов в документе (или наборе документов) как функцию длины документа (так называемое отношение типа-токена). Его можно сформулировать как

где V R — количество отдельных слов в тексте экземпляра размера n . K и β — свободные параметры, определяемые эмпирически. В корпусах английского текста обычно K составляет от 10 до 100, а β — от 0,4 до 0,6.

Этот закон часто приписывают Гарольду Стэнли Хипсу , но первоначально он был открыт Густавом Херданом ( 1960 ). [ 1 ] При мягких предположениях закон Гердана-Хипса асимптотически эквивалентен закону Ципфа о частотах отдельных слов в тексте. [ 2 ] Это следствие того, что отношение тип-токен (вообще) однородного текста может быть выведено из распределения его типов. [ 3 ]

Эмпирически закон Хипса сохраняется даже при случайном перетасовке документа. [ 4 ] это означает, что это зависит не от порядка слов, а только от частоты слов. [ 5 ] Это используется в качестве доказательства для вывода закона Хипса из закона Ципфа. [ 4 ]

Закон Хипса означает, что по мере сбора большего количества экземпляров текста будет уменьшаться отдача с точки зрения открытия полного словаря, из которого взяты отдельные термины.

Отклонения от закона Хипса, которые обычно наблюдаются в корпусах английских текстов, были выявлены в корпусах, созданных с использованием больших языковых моделей. [ 6 ]

Закон Хипса также применим к ситуациям, в которых «словарь» представляет собой всего лишь некоторый набор различных типов, которые являются атрибутами некоторой коллекции объектов. Например, объектами могут быть люди, а типами — страна происхождения человека. Если люди отбираются случайным образом (то есть мы не выбираем на основе страны происхождения), то закон Хипса гласит, что у нас быстро появятся представители из большинства стран (пропорционально их населению), но охватить все население будет все труднее. множества стран, продолжая использовать этот метод выборки. Закон Хипса наблюдался также в одноклеточных транскриптомах. [ 7 ] рассматривая гены как отдельные объекты в «словаре».

См. также

[ редактировать ]
  1. ^ Эгге (2007) : «Закон Гердана в лингвистике и закон Хипса в информационном поиске представляют собой разные формулировки одного и того же явления».
  2. ^ Корнай (1999) ; Баеза-Йейтс и Наварро (2000) ; ван Лейенхорст и ван дер Вейде (2005) .
  3. ^ Миличка (2009)
  4. ^ Jump up to: а б Сано, Юкиэ; Такаясу, Хидеки; Такаясу, Мисако (2012). «Закон Ципфа и закон кучи могут предсказать размер потенциальных слов» . Приложение «Прогресс теоретической физики» . 194 : 202–209. Бибкод : 2012ПТПС.194..202С . дои : 10.1143/PTPS.194.202 . ISSN   0375-9687 .
  5. ^ Наджафи, Эльхам; Даруне, Амир Х. (19 июня 2015 г.). Эстебан, Франсиско Дж. (ред.). «Фрактальные структуры слов в тексте: метод автоматического извлечения ключевых слов» . ПЛОС ОДИН . 10 (6): e0130617. Бибкод : 2015PLoSO..1030617N . дои : 10.1371/journal.pone.0130617 . ISSN   1932-6203 . ПМЦ   4474631 . ПМИД   26091207 .
  6. ^ Лай, Уйен; Рандхава, Гурджит; Шеридан, Пол (12 декабря 2023 г.). «Закон Кучи в модели большого языка GPT-Neo, эмулируемой Corpora» . Материалы Десятого Международного семинара по оценке доступа к информации (EVIA 2023), сопутствующего семинара конференции NTCIR-17 . Токио, Япония. стр. 20–23. дои : 10.20736/0002001352 .
  7. ^ Лаццарди, Сильвия; Валле, Филип; Маццолини, Андреа; Скиалдоне, Антонио; Казелле, Мишель; Оселла, Маттео (17 июня 2021 г.). «Новые статистические законы в транскриптомных данных одноклеточных» . bioRxiv : 2021–16.06.448706. дои : 10.1101/2021.06.16.448706 . S2CID   235482777 . Проверено 18 июня 2021 г.

Источники

[ редактировать ]
  • Баеза-Йейтс, Рикардо; Наварро, Гонсало (2000), «Индексы блочной адресации для приблизительного поиска текста», Журнал Американского общества информатики , 51 (1): 69–82, CiteSeerX   10.1.1.31.4832 , doi : 10.1002/(sici)1097-4571(2000)51:1<69::aid-asi10>3.0.co;2-c .
  • Эгге, Л. (2007), «Распутывание закона Гердана и закона Хипса: математические и информметрические аргументы», Журнал Американского общества информационных наук и технологий , 58 (5): 702–709, doi : 10.1002/asi.20524 .
  • Хипс, Гарольд Стэнли (1978), Информационный поиск: вычислительные и теоретические аспекты , Academic Press . Закон Хипса предложен в разделе 7.5 (стр. 206–208).
  • Хердан, Густав (1960), Математика типовых токенов , Гаага: Мутон .
  • Корнаи, Андрас (1999), «Закон Ципфа за пределами среднего диапазона», Роджерс, Джеймс (ред.), Труды шестого совещания по математике языка , Университет Центральной Флориды, стр. 347–356 .
  • Миличка, Иржи (2009), «Отношения типа-токена и Hapax-токена: комбинаторная модель», Glottotheory. Международный журнал теоретической лингвистики , 1 (2): 99–110, doi : 10.1515/glot-2009-0009 , S2CID   124490442 .
  • ван Лейенхорст, округ Колумбия; ван дер Вейде, Т. П. (2005), «Формальный вывод закона Хипса», Information Sciences , 170 (2–4): 263–272, doi : 10.1016/j.ins.2004.03.006 .
  • Эта статья включает в себя материалы из закона Хипса о PlanetMath , который распространяется по лицензии Creative Commons Attribution/Share-Alike License .
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 8d001f62768bcc164a846d606463bcd4__1719184620
URL1:https://arc.ask3.ru/arc/aa/8d/d4/8d001f62768bcc164a846d606463bcd4.html
Заголовок, (Title) документа по адресу, URL1:
Heaps' law - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)