Статистически невероятная фраза
( Статистически невероятная фраза SIP ) — это фраза или набор слов, которые встречаются в документе (или коллекции документов) чаще, чем в каком-то более крупном корпусе . [1] [2] [3] Amazon.com использует эту концепцию при определении ключевых слов для данной книги или главы, поскольку ключевые слова книги или главы, скорее всего, будут появляться в этом разделе непропорционально. [4] [5] Кристиан Раддер также использовал эту концепцию с данными из профилей онлайн-знакомств и постов в Твиттере , чтобы определить фразы, наиболее характерные для данной расы или пола, в своей книге Dataclysm . [6] СИПы с языковой плотностью двух-трех слов, прилагательного, прилагательного, существительного или наречия, наречия, глагола будут сигнализировать читателю об отношении автора, посылке или выводах или выражать важную идею.
Другое использование SIP — инструмент обнаружения плагиата. (Почти) уникальные комбинации слов можно искать в Интернете, и если они появились в опубликованном тексте, поиск определит, где именно. Этот метод проверяет только те тексты, которые были опубликованы и оцифрованы в Интернете.
Например, сообщение, скажем, студента, содержащее фразу «садовый стиль, восхваляющий нестандартность дизайна», может быть найдено с помощью Google.com и даст оригинальную статью в Википедии о сэре Уильяме Темпле , английском политическом деятеле и эссеисте. .
Пример
[ редактировать ]В документе о компьютерах наиболее распространенным словом, скорее всего, будет слово «the», но поскольку «the» является наиболее часто используемым словом в английском языке, вполне вероятно, что в любом документе слово «the» будет использоваться очень часто. . Однако фраза типа «явный логический алгоритм» может встречаться в документе гораздо чаще, чем в среднем на английском языке. Следовательно, эта фраза вряд ли встретится в каком-либо документе, но она встречается в данном документе. «Явный логический алгоритм» было бы статистически невероятной фразой.
Дарвина Статистически невероятными фразами из «Происхождения видов» могут быть: умеренное производство, потомки родов, переходные градации, неизвестный прародитель, ископаемые формации, наши домашние породы, модифицированное потомство, сомнительные формы, близкородственные формы, выгодные вариации, чрезвычайно отдаленные, переходные степени. , очень разные виды и полукровные потомки . [7]
См. также
[ редактировать ]- Коллокация – любая серия слов, которая встречается чаще, чем можно было бы ожидать случайно.
- Googlewhack — пара слов, встречающихся на одной веб-странице, индексируемых Google.
- tf-idf — статистика, используемая при поиске информации и анализе текста.
- Сложная конкретизированная информация - концепция, используемая в качестве аргумента в пользу теории «разумного замысла».
Ссылки
[ редактировать ]- ^ «Потягивая Википедию» (PDF) . Курсы.cms.caltech.edu . Проверено 1 января 2017 г.
- ^ Джонатан Бейли (3 июля 2012 г.). «Какой длины должна быть статистически невероятная фраза?» . Плагиат сегодня .
- ^ Эррами, Мунир; Сунь, Чжаохуэй; Джордж, Анджела С.; Лонг, Тара С.; Скиннер, Майкл А.; Рен, Джонатан Д.; Гарнер, Гарольд Р. (1 июня 2010 г.). «Выявление дублированного контента по статистически невероятным фразам» . Биоинформатика . 26 (11): 1453–1457. doi : 10.1093/биоинформатика/btq146 . ПМК 2872002 . PMID 20472545 – через bioinformatics.oxfordjournals.org.
- ^ «Что такое статистически невероятные фразы?» . Amazon.com . Проверено 18 декабря 2007 г.
- ^ Уикс, Линтон (30 августа 2005 г.). «Жизненная статистика Amazon показывает, как складываются книги» . Вашингтон Пост . Проверено 8 сентября 2015 г.
- ^ Руддер, Кристиан (2014). Датаклизм: кто мы, когда думаем, что никто не смотрит . Нью-Йорк: Издательство Crown. ISBN 978-0-385-34737-2 .
- ^ Социологически невероятные фразы Crooked Timber, апрель 2005 г.