Закон Хипса


В лингвистике , закон Хипса (также называемый законом Гердана ) — это эмпирический закон который описывает количество отдельных слов в документе (или наборе документов) как функцию длины документа (так называемое отношение типа-токена). Его можно сформулировать как
где V R — количество отдельных слов в тексте экземпляра размера n . K и β — свободные параметры, определяемые эмпирически. В корпусах английского текста обычно K составляет от 10 до 100, а β — от 0,4 до 0,6.
Этот закон часто приписывают Гарольду Стэнли Хипсу , но первоначально он был открыт Густавом Херданом ( 1960 ). [ 1 ] При мягких предположениях закон Гердана-Хипса асимптотически эквивалентен закону Ципфа о частотах отдельных слов в тексте. [ 2 ] Это следствие того, что отношение тип-токен (вообще) однородного текста может быть выведено из распределения его типов. [ 3 ]
Эмпирически закон Хипса сохраняется даже при случайном перетасовке документа. [ 4 ] это означает, что это зависит не от порядка слов, а только от частоты слов. [ 5 ] Это используется в качестве доказательства для вывода закона Хипса из закона Ципфа. [ 4 ]
Закон Хипса означает, что по мере сбора большего количества экземпляров текста будет уменьшаться отдача с точки зрения открытия полного словаря, из которого взяты отдельные термины.
Отклонения от закона Хипса, которые обычно наблюдаются в корпусах английских текстов, были выявлены в корпусах, созданных с использованием больших языковых моделей. [ 6 ]
Закон Хипса также применим к ситуациям, в которых «словарь» представляет собой всего лишь некоторый набор различных типов, которые являются атрибутами некоторой коллекции объектов. Например, объектами могут быть люди, а типами — страна происхождения человека. Если люди отбираются случайным образом (то есть мы не выбираем на основе страны происхождения), то закон Хипса гласит, что у нас быстро появятся представители из большинства стран (пропорционально их населению), но охватить все население будет все труднее. множества стран, продолжая использовать этот метод выборки. Закон Хипса наблюдался также в одноклеточных транскриптомах. [ 7 ] рассматривая гены как отдельные объекты в «словаре».
См. также
[ редактировать ]- Закон Ципфа – Распределение вероятностей
- Закон о краткости – Закон о лингвистике
- Закон Менцерата - Лингвистический закон
- Закон Брэдфорда - Характер ссылок в научных журналах
- Закон Бенфорда . Наблюдение: во многих реальных наборах данных первая цифра, вероятно, будет маленькой.
- Распределение Парето – Распределение вероятностей
- Принцип наименьших усилий – идея, согласно которой агенты предпочитают делать то, что проще.
- Распределение по размеру — распределение размера по рангу.
Ссылки
[ редактировать ]Цитаты
[ редактировать ]- ^ Эгге (2007) : «Закон Гердана в лингвистике и закон Хипса в информационном поиске представляют собой разные формулировки одного и того же явления».
- ^ Корнай (1999) ; Баеза-Йейтс и Наварро (2000) ; ван Лейенхорст и ван дер Вейде (2005) .
- ^ Миличка (2009)
- ^ Jump up to: а б Сано, Юкиэ; Такаясу, Хидеки; Такаясу, Мисако (2012). «Закон Ципфа и закон кучи могут предсказать размер потенциальных слов» . Приложение «Прогресс теоретической физики» . 194 : 202–209. Бибкод : 2012ПТПС.194..202С . дои : 10.1143/PTPS.194.202 . ISSN 0375-9687 .
- ^ Наджафи, Эльхам; Даруне, Амир Х. (19 июня 2015 г.). Эстебан, Франсиско Дж. (ред.). «Фрактальные структуры слов в тексте: метод автоматического извлечения ключевых слов» . ПЛОС ОДИН . 10 (6): e0130617. Бибкод : 2015PLoSO..1030617N . дои : 10.1371/journal.pone.0130617 . ISSN 1932-6203 . ПМЦ 4474631 . ПМИД 26091207 .
- ^ Лай, Уйен; Рандхава, Гурджит; Шеридан, Пол (12 декабря 2023 г.). «Закон Кучи в модели большого языка GPT-Neo, эмулируемой Corpora» . Материалы Десятого Международного семинара по оценке доступа к информации (EVIA 2023), сопутствующего семинара конференции NTCIR-17 . Токио, Япония. стр. 20–23. дои : 10.20736/0002001352 .
- ^ Лаццарди, Сильвия; Валле, Филип; Маццолини, Андреа; Скиалдоне, Антонио; Казелле, Мишель; Оселла, Маттео (17 июня 2021 г.). «Новые статистические законы в транскриптомных данных одноклеточных» . bioRxiv : 2021–16.06.448706. дои : 10.1101/2021.06.16.448706 . S2CID 235482777 . Проверено 18 июня 2021 г.
Источники
[ редактировать ]- Баеза-Йейтс, Рикардо; Наварро, Гонсало (2000), «Индексы блочной адресации для приблизительного поиска текста», Журнал Американского общества информатики , 51 (1): 69–82, CiteSeerX 10.1.1.31.4832 , doi : 10.1002/(sici)1097-4571(2000)51:1<69::aid-asi10>3.0.co;2-c .
- Эгге, Л. (2007), «Распутывание закона Гердана и закона Хипса: математические и информметрические аргументы», Журнал Американского общества информационных наук и технологий , 58 (5): 702–709, doi : 10.1002/asi.20524 .
- Хипс, Гарольд Стэнли (1978), Информационный поиск: вычислительные и теоретические аспекты , Academic Press . Закон Хипса предложен в разделе 7.5 (стр. 206–208).
- Хердан, Густав (1960), Математика типовых токенов , Гаага: Мутон .
- Корнаи, Андрас (1999), «Закон Ципфа за пределами среднего диапазона», Роджерс, Джеймс (ред.), Труды шестого совещания по математике языка , Университет Центральной Флориды, стр. 347–356 .
- Миличка, Иржи (2009), «Отношения типа-токена и Hapax-токена: комбинаторная модель», Glottotheory. Международный журнал теоретической лингвистики , 1 (2): 99–110, doi : 10.1515/glot-2009-0009 , S2CID 124490442 .
- ван Лейенхорст, округ Колумбия; ван дер Вейде, Т. П. (2005), «Формальный вывод закона Хипса», Information Sciences , 170 (2–4): 263–272, doi : 10.1016/j.ins.2004.03.006 .
- Эта статья включает в себя материалы из закона Хипса о PlanetMath , который распространяется по лицензии Creative Commons Attribution/Share-Alike License .
Внешние ссылки
[ редактировать ]СМИ, связанные с законом Хипса, на Викискладе?