Статистически невероятная фраза

( Статистически невероятная фраза SIP ) — это фраза или набор слов, которые встречаются в документе (или коллекции документов) чаще, чем в каком-то более крупном корпусе . ^[1]^[2]^[3] Amazon.com использует эту концепцию при определении ключевых слов для данной книги или главы, поскольку ключевые слова книги или главы, скорее всего, будут появляться в этом разделе непропорционально. ^[4]^[5] Кристиан Раддер также использовал эту концепцию с данными из профилей онлайн-знакомств и постов в Твиттере , чтобы определить фразы, наиболее характерные для данной расы или пола, в своей книге Dataclysm . ^[6] СИПы с языковой плотностью двух-трех слов, прилагательного, прилагательного, существительного или наречия, наречия, глагола будут сигнализировать читателю об отношении автора, посылке или выводах или выражать важную идею.

Другое использование SIP — инструмент обнаружения плагиата. (Почти) уникальные комбинации слов можно искать в Интернете, и если они появились в опубликованном тексте, поиск определит, где именно. Этот метод проверяет только те тексты, которые были опубликованы и оцифрованы в Интернете.

Например, сообщение, скажем, студента, содержащее фразу «садовый стиль, восхваляющий нестандартность дизайна», может быть найдено с помощью Google.com и даст оригинальную статью в Википедии о сэре Уильяме Темпле , английском политическом деятеле и эссеисте. .

Пример

В документе о компьютерах наиболее распространенным словом, скорее всего, будет слово «the», но поскольку «the» является наиболее часто используемым словом в английском языке, вполне вероятно, что в любом документе слово «the» будет использоваться очень часто. . Однако фраза типа «явный логический алгоритм» может встречаться в документе гораздо чаще, чем в среднем на английском языке. Следовательно, эта фраза вряд ли встретится в каком-либо документе, но она встречается в данном документе. «Явный логический алгоритм» было бы статистически невероятной фразой.

Дарвина Статистически невероятными фразами из «Происхождения видов» могут быть: умеренное производство, потомки родов, переходные градации, неизвестный прародитель, ископаемые формации, наши домашние породы, модифицированное потомство, сомнительные формы, близкородственные формы, выгодные вариации, чрезвычайно отдаленные, переходные степени. , очень разные виды и полукровные потомки . ^[7]

См. также

Коллокация – любая серия слов, которая встречается чаще, чем можно было бы ожидать случайно.
Googlewhack — пара слов, встречающихся на одной веб-странице, индексируемых Google.
tf-idf — статистика, используемая при поиске информации и анализе текста.
Сложная конкретизированная информация - концепция, используемая в качестве аргумента в пользу теории «разумного замысла».

Ссылки

^ «Потягивая Википедию» (PDF) . Курсы.cms.caltech.edu . Проверено 1 января 2017 г.
^ Джонатан Бейли (3 июля 2012 г.). «Какой длины должна быть статистически невероятная фраза?» . Плагиат сегодня .
^ Эррами, Мунир; Сунь, Чжаохуэй; Джордж, Анджела С.; Лонг, Тара С.; Скиннер, Майкл А.; Рен, Джонатан Д.; Гарнер, Гарольд Р. (1 июня 2010 г.). «Выявление дублированного контента по статистически невероятным фразам» . Биоинформатика . 26 (11): 1453–1457. doi : 10.1093/биоинформатика/btq146 . ПМК 2872002 . PMID 20472545 – через bioinformatics.oxfordjournals.org.
^ «Что такое статистически невероятные фразы?» . Amazon.com . Проверено 18 декабря 2007 г.
^ Уикс, Линтон (30 августа 2005 г.). «Жизненная статистика Amazon показывает, как складываются книги» . Вашингтон Пост . Проверено 8 сентября 2015 г.
^ Руддер, Кристиан (2014). Датаклизм: кто мы, когда думаем, что никто не смотрит . Нью-Йорк: Издательство Crown. ISBN 978-0-385-34737-2 .
^ Социологически невероятные фразы Crooked Timber, апрель 2005 г.

Эта компьютерной лингвистике статья, посвященная , незавершена . Вы можете помочь Википедии, расширив ее .

[1] «Потягивая Википедию» (PDF) . Курсы.cms.caltech.edu . Проверено 1 января 2017 г.

[2] Джонатан Бейли (3 июля 2012 г.). «Какой длины должна быть статистически невероятная фраза?» . Плагиат сегодня .

[3] Эррами, Мунир; Сунь, Чжаохуэй; Джордж, Анджела С.; Лонг, Тара С.; Скиннер, Майкл А.; Рен, Джонатан Д.; Гарнер, Гарольд Р. (1 июня 2010 г.). «Выявление дублированного контента по статистически невероятным фразам» . Биоинформатика . 26 (11): 1453–1457. doi : 10.1093/биоинформатика/btq146 . ПМК 2872002 . PMID 20472545 – через bioinformatics.oxfordjournals.org.

[4] «Что такое статистически невероятные фразы?» . Amazon.com . Проверено 18 декабря 2007 г.

[5] Уикс, Линтон (30 августа 2005 г.). «Жизненная статистика Amazon показывает, как складываются книги» . Вашингтон Пост . Проверено 8 сентября 2015 г.

[6] Руддер, Кристиан (2014). Датаклизм: кто мы, когда думаем, что никто не смотрит . Нью-Йорк: Издательство Crown. ISBN 978-0-385-34737-2 .

[7] Социологически невероятные фразы Crooked Timber, апрель 2005 г.

[1]

[2]

[3]

[4]

[5]

[6]

[7]