Jump to content

Кластерная гипотеза

В машинном обучении и поиске информации кластерная гипотеза представляет собой предположение о природе данных, обрабатываемых в этих полях, которое принимает различные формы. При поиске информации в нем говорится, что документы, сгруппированные вместе, «ведут себя одинаково в отношении соответствия информационным потребностям». [1] С точки зрения классификации говорится, что если точки находятся в одном кластере, они, скорее всего, принадлежат к одному и тому же классу. [2] Может быть несколько кластеров, образующих один класс.

Поиск информации

[ редактировать ]

Гипотеза кластера была впервые сформулирована ван Рейсбергеном: [3] «тесно связанные документы имеют тенденцию быть релевантными одним и тем же запросам». Таким образом, теоретически поисковая система могла бы попытаться найти только соответствующий кластер для запроса, а затем позволить пользователям просматривать этот кластер. Хотя эксперименты показали, что гипотеза кластера как таковая верна, использование его для поиска не привело к удовлетворительным результатам. [4]

Машинное обучение

[ редактировать ]

Предположение о кластере предполагается во многих алгоритмах машинного обучения, таких как k алгоритм классификации -ближайших соседей и k алгоритм кластеризации -средних . Поскольку в определении появляется слово «вероятно», не существует четкой границы, позволяющей определить, верно ли предположение или нет. Напротив, степень соответствия данных этому предположению можно измерить количественно.

Характеристики

[ редактировать ]

Предположение о кластере эквивалентно предположению о разделении с низкой плотностью, которое утверждает, что граница принятия решения должна лежать в области с низкой плотностью. Чтобы доказать это, предположим, что граница решения пересекает один из кластеров. Тогда этот кластер будет содержать точки из двух разных классов, следовательно, на этом кластере оно нарушено.

Примечания

[ редактировать ]
  1. ^ Мэннинг, Кристофер (2008). «16. Плоская кластеризация». Введение в поиск информации . Нью-Йорк: Издательство Кембриджского университета. ISBN  0-521-86571-9 . OCLC   190786122 .
  2. ^ Шапель, Оливье; Шолькопф, Бернхард; Зиен, Александр, ред. (22 сентября 2006 г.). Полуконтролируемое обучение . Массачусетский технологический институт Пресс. дои : 10.7551/mitpress/9780262033589.001.0001 . ISBN  978-0-262-03358-9 .
  3. ^ ван Рейсберген, CJ (1979). Информационный поиск (PDF) (2-е изд.). Баттервортс. п. 30 и далее . Проверено 11 марта 2022 г.
  4. ^ Вурхис, Эллен М. (1985). Еще раз о кластерной гипотезе .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: d8f38d00901eb28ea183147c8c4fcc1a__1647321060
URL1:https://arc.ask3.ru/arc/aa/d8/1a/d8f38d00901eb28ea183147c8c4fcc1a.html
Заголовок, (Title) документа по адресу, URL1:
Cluster hypothesis - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)