Jump to content

t-распределенное стохастическое встраивание соседей

T-SNE-визуализация вложений слов , созданная с использованием литературы XIX века.
Вложения T-SNE MNIST набора данных

t-распределенное стохастическое внедрение соседей ( t-SNE ) — это статистический метод визуализации многомерных данных путем присвоения каждой точке данных местоположения на двухмерной или трехмерной карте. Он основан на методе стохастического встраивания соседей, первоначально разработанном Джеффри Хинтоном и Сэмом Роуэйсом. [ 1 ] где Лоренс ван дер Маатен предложил t -распределенный вариант. [ 2 ] Это метод нелинейного уменьшения размерности , позволяющий встраивать многомерные данные для визуализации в низкомерное двух- или трехмерное пространство. В частности, он моделирует каждый многомерный объект с помощью двух- или трехмерной точки таким образом, что похожие объекты моделируются близлежащими точками, а разнородные объекты моделируются удаленными точками с высокой вероятностью.

Алгоритм t-SNE состоит из двух основных этапов. Во-первых, t-SNE строит распределение вероятностей по парам многомерных объектов таким образом, что сходным объектам присваивается более высокая вероятность, а разным точкам — меньшая вероятность. Во-вторых, t-SNE определяет аналогичное распределение вероятностей по точкам на низкоразмерной карте и минимизирует расхождение Кульбака-Лейблера (расхождение KL) между двумя распределениями относительно местоположения точек на карте. Хотя исходный алгоритм использует евклидово расстояние между объектами в качестве основы показателя сходства, его можно изменить при необходимости. Риманов вариант UMAP .

t-SNE использовался для визуализации в широком спектре приложений, включая геномику , компьютерной безопасности , исследования [ 3 ] обработка естественного языка , анализ музыки , [ 4 ] исследования рака , [ 5 ] биоинформатика , [ 6 ] интерпретация геологической области, [ 7 ] [ 8 ] [ 9 ] и биомедицинская обработка сигналов. [ 10 ]

Для набора данных из n элементов t-SNE выполняется за O( n 2 ) времени и требует O( n 2 ) космос. [ 11 ]

Подробности

[ редактировать ]

Учитывая набор многомерные объекты , t-SNE сначала вычисляет вероятности пропорциональны сходству объектов и , следующее.

Для , определять

и установить . Обратите внимание, что приведенный выше знаменатель обеспечивает для всех .

Как объяснили ван дер Маатен и Хинтон: «Сходство точек данных к точке данных – условная вероятность, , что выбрал бы в качестве своего соседа, если соседи были выбраны пропорционально их плотности вероятности при гауссовой функции с центром в ." [ 2 ]

Теперь определите


Это мотивировано, потому что и из N выборок оцениваются как 1/N, поэтому условную вероятность можно записать как и . С , вы можете получить предыдущую формулу.

Также обратите внимание, что и .

Пропускная способность гауссовых ядер задается таким образом, чтобы энтропия условного распределения равнялась заранее определенной энтропии с использованием метода деления пополам . В результате полоса пропускания адаптируется к плотности данных: меньшие значения используются в более плотных частях пространства данных.

Поскольку ядро ​​Гаусса использует евклидово расстояние на него влияет проклятие размерности , а в многомерных данных, когда расстояния теряют способность различать, станут слишком похожими (асимптотически они сходятся к константе). Чтобы облегчить эту проблему , было предложено скорректировать расстояния с помощью степенного преобразования на основе внутреннего размера каждой точки. [ 12 ]

t-SNE стремится изучить трехмерная карта и обычно выбирается как 2 или 3), что отражает сходство как можно лучше. С этой целью он измеряет сходство между двумя точками на карте и , используя очень похожий подход. В частности, для , определять как

и установить . с тяжелым хвостом Здесь t-распределение Стьюдента (с одной степенью свободы, которое совпадает с распределением Коши ) используется для измерения сходства между точками низкой размерности, чтобы позволить моделировать разнородные объекты далеко друг от друга на карте. .

Расположение точек на карте определяются путем минимизации (несимметричного) расхождения Кульбака – Лейблера распределения из распределения , то есть:

Минимизация расходимости Кульбака–Лейблера по точкам выполняется с использованием градиентного спуска . Результатом этой оптимизации является карта, отражающая сходство между многомерными входными данными.

Хотя на графиках t-SNE часто отображаются кластеры , на визуальные кластеры может сильно влиять выбранная параметризация, поэтому необходимо хорошее понимание параметров t-SNE. Можно показать, что такие «кластеры» появляются даже в структурированных данных без четкой кластеризации. [ 13 ] и поэтому могут быть ложные выводы. Точно так же размер кластеров, создаваемых t-SNE, не информативен, как и расстояние между кластерами. [ 14 ] Таким образом, для выбора параметров и проверки результатов может потребоваться интерактивное исследование. [ 15 ] [ 16 ] Было показано, что t-SNE часто может восстанавливать хорошо разделенные кластеры и при специальном выборе параметров аппроксимирует простую форму спектральной кластеризации . [ 17 ]

Программное обеспечение

[ редактировать ]
  • Пакет R Rtsne t-SNE в R. реализует
  • ELKI содержит tSNE, также с приближением Барнса-Хата.
  • scikit-learn , популярная библиотека машинного обучения на Python, реализует t-SNE как с точными решениями, так и с приближением Барнса-Хата.
  • Tensorboard, комплект визуализации, связанный с TensorFlow , также реализует t-SNE ( онлайн-версия ).
  • Пакет Julia . TSne реализует t-SNE
  1. ^ Хинтон, Джеффри; Роуэйс, Сэм (январь 2002 г.). Встраивание стохастических соседей (PDF) . Нейронные системы обработки информации .
  2. ^ Перейти обратно: а б ван дер Маатен, LJP; Хинтон, GE (ноябрь 2008 г.). «Визуализация данных с использованием t-SNE» (PDF) . Журнал исследований машинного обучения . 9 : 2579–2605.
  3. ^ Гаши, И.; Станкович, В.; Лейта, К.; Тоннард, О. (2009). «Экспериментальное исследование разнообразия с помощью готовых антивирусных механизмов». Труды Международного симпозиума IEEE по сетевым вычислениям и приложениям : 4–11.
  4. ^ Хамель, П.; Эк, Д. (2010). «Особенности изучения музыкального аудио с помощью Deep Belief Networks». Материалы конференции Международного общества поиска музыкальной информации : 339–344.
  5. ^ Джеймисон, Арканзас; Гигер, ML; Друккер, К.; Луи, Х.; Юань, Ю.; Бхушан, Н. (2010). «Изучение уменьшения размеров нелинейного пространства объектов и представления данных в CADx груди с помощью лапласовых собственных карт и t-SNE» . Медицинская физика . 37 (1): 339–351. дои : 10.1118/1.3267037 . ПМК   2807447 . ПМИД   20175497 .
  6. ^ Уоллах, И.; Лилиан, Р. (2009). «База данных о белках-малых молекулах, неизбыточный структурный ресурс для анализа связывания белка с лигандом» . Биоинформатика . 25 (5): 615–620. doi : 10.1093/биоинформатика/btp035 . ПМИД   19153135 .
  7. ^ Баламурали, Мехала; Сильверсайдс, Кэтрин Л.; Мелкумян, Арман (01.04.2019). «Сравнение t-SNE, SOM и SPADE для определения областей типов материалов в геологических данных» . Компьютеры и геонауки . 125 : 78–89. Бибкод : 2019CG....125...78B . дои : 10.1016/j.cageo.2019.01.011 . ISSN   0098-3004 . S2CID   67926902 .
  8. ^ Баламурали, Мехала; Мелкумян, Арман (2016). Хиросе, Акира; Одзава, Сейичи; Дойя, Кенджи; Икеда, Казуси; Ли, Минхо; Лю, Деронг (ред.). «Визуализация и кластеризация геологической области на основе t-SNE» . Нейронная обработка информации . Конспекты лекций по информатике. 9950 . Чам: Springer International Publishing: 565–572. дои : 10.1007/978-3-319-46681-1_67 . ISBN  978-3-319-46681-1 .
  9. ^ Люнг, Раймонд; Баламурали, Мехала; Мелкумян, Арман (01.01.2021). «Примеры стратегий усечения выборки для удаления выбросов в геохимических данных: подход устойчивого расстояния MCD в сравнении с кластеризацией ансамбля t-SNE» . Математические науки о Земле . 53 (1): 105–130. Бибкод : 2021MaGeo..53..105L . дои : 10.1007/s11004-019-09839-z . ISSN   1874-8953 . S2CID   208329378 .
  10. ^ Бирджандталаб, Дж.; Пуян, МБ; Нурани, М. (01 февраля 2016 г.). «Нелинейное уменьшение размеров для обнаружения эпилептических припадков на основе ЭЭГ». Международная конференция IEEE-EMBS по биомедицинской и медицинской информатике (BHI) , 2016 г. стр. 595–598. дои : 10.1109/BHI.2016.7455968 . ISBN  978-1-5090-2455-1 . S2CID   8074617 .
  11. ^ Пеццотти, Никола. «Приближенный и управляемый пользователем tSNE для прогрессивной визуальной аналитики» (PDF) . Проверено 31 августа 2023 г.
  12. ^ Шуберт, Эрих; Герц, Майкл (04 октября 2017 г.). Внутреннее t-стохастическое встраивание соседей для визуализации и обнаружения выбросов . SISAP 2017 – 10-я Международная конференция по поиску и применению сходства. стр. 188–203. дои : 10.1007/978-3-319-68474-1_13 .
  13. ^ «К-означает кластеризацию на выходе t-SNE» . Крест проверен . Проверено 16 апреля 2018 г.
  14. ^ Ваттенберг, Мартин; Вьегас, Фернанда; Джонсон, Ян (13 октября 2016 г.). «Как эффективно использовать t-SNE» . Дистиллировать . 1 (10): е2. дои : 10.23915/distill.00002 . ISSN   2476-0757 .
  15. ^ Пеццотти, Никола; Лелиевельдт, Будевейн П.Ф.; Маатен, Лоренс ван дер; Холлт, Томас; Эйземанн, Эльмар; Виланова, Анна (01.07.2017). «Приблизительный и управляемый пользователем tSNE для прогрессивной визуальной аналитики» Транзакции IEEE по визуализации и компьютерной графике . 23 (7): 1739–1752. arXiv : 1512.01655 . дои : 10.1109/tvcg.2016.2570755 . ISSN   1077-2626 . ПМИД   28113434 . S2CID   353336 .
  16. ^ Ваттенберг, Мартин; Вьегас, Фернанда; Джонсон, Ян (13 октября 2016 г.). «Как эффективно использовать t-SNE» . Дистиллировать . 1 (10). дои : 10.23915/distill.00002 . Проверено 4 декабря 2017 г.
  17. ^ Линдерман, Джордж К.; Штайнербергер, Стефан (8 июня 2017 г.). «Кластеризация с t-SNE, доказуемо». arXiv : 1706.02582 [ cs.LG ].
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 4a9cdae6a52a3203a61f7baa7069686f__1722217860
URL1:https://arc.ask3.ru/arc/aa/4a/6f/4a9cdae6a52a3203a61f7baa7069686f.html
Заголовок, (Title) документа по адресу, URL1:
t-distributed stochastic neighbor embedding - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)