Кластерная гипотеза
Эта статья нуждается в дополнительных цитатах для проверки . ( ноябрь 2011 г. ) |
В машинном обучении и поиске информации кластерная гипотеза представляет собой предположение о природе данных, обрабатываемых в этих полях, которое принимает различные формы. При поиске информации в нем говорится, что документы, сгруппированные вместе, «ведут себя одинаково в отношении соответствия информационным потребностям». [1] С точки зрения классификации говорится, что если точки находятся в одном кластере, они, скорее всего, принадлежат к одному и тому же классу. [2] Может быть несколько кластеров, образующих один класс.
Поиск информации
[ редактировать ]Гипотеза кластера была впервые сформулирована ван Рейсбергеном: [3] «тесно связанные документы имеют тенденцию быть релевантными одним и тем же запросам». Таким образом, теоретически поисковая система могла бы попытаться найти только соответствующий кластер для запроса, а затем позволить пользователям просматривать этот кластер. Хотя эксперименты показали, что гипотеза кластера как таковая верна, использование его для поиска не привело к удовлетворительным результатам. [4]
Машинное обучение
[ редактировать ]Предположение о кластере предполагается во многих алгоритмах машинного обучения, таких как k алгоритм классификации -ближайших соседей и k алгоритм кластеризации -средних . Поскольку в определении появляется слово «вероятно», не существует четкой границы, позволяющей определить, верно ли предположение или нет. Напротив, степень соответствия данных этому предположению можно измерить количественно.
Характеристики
[ редактировать ]Предположение о кластере эквивалентно предположению о разделении с низкой плотностью, которое утверждает, что граница принятия решения должна лежать в области с низкой плотностью. Чтобы доказать это, предположим, что граница решения пересекает один из кластеров. Тогда этот кластер будет содержать точки из двух разных классов, следовательно, на этом кластере оно нарушено.
Примечания
[ редактировать ]- ^ Мэннинг, Кристофер (2008). «16. Плоская кластеризация». Введение в поиск информации . Нью-Йорк: Издательство Кембриджского университета. ISBN 0-521-86571-9 . OCLC 190786122 .
- ^ Шапель, Оливье; Шолькопф, Бернхард; Зиен, Александр, ред. (22 сентября 2006 г.). Полуконтролируемое обучение . Массачусетский технологический институт Пресс. дои : 10.7551/mitpress/9780262033589.001.0001 . ISBN 978-0-262-03358-9 .
- ^ ван Рейсберген, CJ (1979). Информационный поиск (PDF) (2-е изд.). Баттервортс. п. 30 и далее . Проверено 11 марта 2022 г.
- ^ Вурхис, Эллен М. (1985). Еще раз о кластерной гипотезе .