Jump to content

Статистически невероятная фраза

( Статистически невероятная фраза SIP ) — это фраза или набор слов, которые встречаются в документе (или коллекции документов) чаще, чем в каком-то более крупном корпусе . [1] [2] [3] Amazon.com использует эту концепцию при определении ключевых слов для данной книги или главы, поскольку ключевые слова книги или главы, скорее всего, будут появляться в этом разделе непропорционально. [4] [5] Кристиан Раддер также использовал эту концепцию с данными из профилей онлайн-знакомств и постов в Твиттере , чтобы определить фразы, наиболее характерные для данной расы или пола, в своей книге Dataclysm . [6] СИПы с языковой плотностью двух-трех слов, прилагательного, прилагательного, существительного или наречия, наречия, глагола будут сигнализировать читателю об отношении автора, посылке или выводах или выражать важную идею.

Другое использование SIP — инструмент обнаружения плагиата. (Почти) уникальные комбинации слов можно искать в Интернете, и если они появились в опубликованном тексте, поиск определит, где именно. Этот метод проверяет только те тексты, которые были опубликованы и оцифрованы в Интернете.

Например, сообщение, скажем, студента, содержащее фразу «садовый стиль, восхваляющий нестандартность дизайна», может быть найдено с помощью Google.com и даст оригинальную статью в Википедии о сэре Уильяме Темпле , английском политическом деятеле и эссеисте. .

В документе о компьютерах наиболее распространенным словом, скорее всего, будет слово «the», но поскольку «the» является наиболее часто используемым словом в английском языке, вполне вероятно, что в любом документе слово «the» будет использоваться очень часто. . Однако фраза типа «явный логический алгоритм» может встречаться в документе гораздо чаще, чем в среднем на английском языке. Следовательно, эта фраза вряд ли встретится в каком-либо документе, но она встречается в данном документе. «Явный логический алгоритм» было бы статистически невероятной фразой.

Дарвина Статистически невероятными фразами из «Происхождения видов» могут быть: умеренное производство, потомки родов, переходные градации, неизвестный прародитель, ископаемые формации, наши домашние породы, модифицированное потомство, сомнительные формы, близкородственные формы, выгодные вариации, чрезвычайно отдаленные, переходные степени. , очень разные виды и полукровные потомки . [7]

См. также

[ редактировать ]
  • Коллокация – любая серия слов, которая встречается чаще, чем можно было бы ожидать случайно.
  • Googlewhack — пара слов, встречающихся на одной веб-странице, индексируемых Google.
  • tf-idf — статистика, используемая при поиске информации и анализе текста.
  • Сложная конкретизированная информация - концепция, используемая в качестве аргумента в пользу теории «разумного замысла».
  1. ^ «Потягивая Википедию» (PDF) . Курсы.cms.caltech.edu . Проверено 1 января 2017 г.
  2. ^ Джонатан Бейли (3 июля 2012 г.). «Какой длины должна быть статистически невероятная фраза?» . Плагиат сегодня .
  3. ^ Эррами, Мунир; Сунь, Чжаохуэй; Джордж, Анджела С.; Лонг, Тара С.; Скиннер, Майкл А.; Рен, Джонатан Д.; Гарнер, Гарольд Р. (1 июня 2010 г.). «Выявление дублированного контента по статистически невероятным фразам» . Биоинформатика . 26 (11): 1453–1457. doi : 10.1093/биоинформатика/btq146 . ПМК   2872002 . PMID   20472545 – через bioinformatics.oxfordjournals.org.
  4. ^ «Что такое статистически невероятные фразы?» . Amazon.com . Проверено 18 декабря 2007 г.
  5. ^ Уикс, Линтон (30 августа 2005 г.). «Жизненная статистика Amazon показывает, как складываются книги» . Вашингтон Пост . Проверено 8 сентября 2015 г.
  6. ^ Руддер, Кристиан (2014). Датаклизм: кто мы, когда думаем, что никто не смотрит . Нью-Йорк: Издательство Crown. ISBN  978-0-385-34737-2 .
  7. ^ Социологически невероятные фразы Crooked Timber, апрель 2005 г.


Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: b278c3e888c095cb14f5c00b0453cbab__1709585100
URL1:https://arc.ask3.ru/arc/aa/b2/ab/b278c3e888c095cb14f5c00b0453cbab.html
Заголовок, (Title) документа по адресу, URL1:
Statistically improbable phrase - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)