Модель скрытого класса
В статистике модель скрытого класса ( LCM ) — это модель кластеризации многомерных дискретных данных. Предполагается, что данные возникают из смеси дискретных распределений, внутри каждого из которых переменные независимы. Она называется моделью скрытого класса, поскольку класс, к которому принадлежит каждая точка данных, является ненаблюдаемым или скрытым.
Анализ скрытых классов ( LCA ) представляет собой подмножество моделирования структурными уравнениями , используемое для поиска групп или подтипов случаев в многомерных категориальных данных . Эти подтипы называются «скрытыми классами». [1] [2]
Столкнувшись со следующей ситуацией, исследователь может использовать LCA для понимания данных: представьте, что симптомы были измерены у ряда пациентов с заболеваниями X, Y и Z, и что заболевание X связано с наличием симптомы a, b и c, болезнь Y с симптомами b, c, d и болезнь Z с симптомами a, c и d.
LCA попытается обнаружить наличие скрытых классов (объектов заболевания), создавая закономерности ассоциации в симптомах. Как и в факторном анализе , LCA также можно использовать для классификации случаев в соответствии с их принадлежностью к классу максимального правдоподобия . [1] [3]
Потому что критерием решения LCA является достижение латентных классов, внутри которых уже нет связи одного симптома с другим (поскольку классом является заболевание, вызывающее их ассоциацию), а набор заболеваний, имеющихся у пациента (или класс а случай является членом) вызывает ассоциацию симптомов, симптомы будут «условно независимыми», т. е. обусловленными принадлежностью к классу, они больше не связаны между собой. [1]
Модель
[ редактировать ]Внутри каждого скрытого класса наблюдаемые переменные статистически независимы . Это важный аспект. Обычно наблюдаемые переменные статистически зависимы. Путем введения скрытой переменной независимость восстанавливается в том смысле, что внутри классов переменные являются независимыми ( локальная независимость ). Затем мы говорим, что связь между наблюдаемыми переменными объясняется классами скрытой переменной (McCutcheon, 1987).
В одной из форм модель скрытого класса записывается как
где количество скрытых классов и это так называемая вербовка или безусловные вероятности, сумма которых должна равняться единице. являются предельные или условные вероятности.
Для двусторонней модели скрытого класса форма имеет вид
Эта двусторонняя модель связана с вероятностным скрыто-семантическим анализом и неотрицательной матричной факторизацией .
Вероятностная модель, используемая в LCA, тесно связана с классификатором Наивного Байеса . Основное отличие состоит в том, что в LCA членство индивида в классе является скрытой переменной, тогда как в наивных байесовских классификаторах членство в классе является наблюдаемой меткой.
Связанные методы
[ редактировать ]Существует ряд методов с разными именами и способами использования, которые имеют общие отношения. Кластерный анализ , как и LCA, используется для обнаружения в данных таксоноподобных групп случаев. Многомерная смешанная оценка (MME) применима к непрерывным данным и предполагает, что такие данные возникают в результате сочетания распределений: представьте себе набор ростов, возникающий в результате сочетания мужчин и женщин. Если оценка многомерной смеси ограничена таким образом, что показатели не должны быть коррелированы внутри каждого распределения, это называется анализом скрытого профиля . Этот ограниченный анализ, модифицированный для обработки дискретных данных, известен как LCA. Дискретные модели скрытых черт еще больше ограничивают формирование классов из сегментов одного измерения: по сути, распределение членов по классам в этом измерении: примером может быть распределение дел по социальным классам по измерению способностей или заслуг.
На практике переменными могут быть с несколькими вариантами ответов пункты политического вопросника . Данные в этом случае представляют собой N-стороннюю таблицу сопряженности с ответами на вопросы для ряда респондентов. В этом примере скрытая переменная относится к политическим взглядам, а скрытые классы — к политическим группам. Учитывая членство в группе, условные вероятности определяют вероятность выбора определенных ответов.
Приложение
[ редактировать ]LCA может использоваться во многих областях, таких как: совместная фильтрация , [4] Генетика поведения [5] и Оценка диагностических тестов . [6]
Ссылки
[ редактировать ]- ^ Jump up to: а б с Лазарсфельд П.Ф. и Генри Н.В. (1968) Анализ скрытой структуры . Бостон: Хоутон Миффлин
- ^ Форман , А.К. (1984). Анализ скрытых классов: Введение в теорию и применение . Вайнхайм: Бельц.
- ^ Тейхерт, Торстен (2000). «Скрытый метод Ciass для сегментации объединенных данных на основе выборов. Результаты эмпирического применения» . Маркетинг ZFP . 22 (3): 227–240. дои : 10.15358/0344-1369-2000-3-227 . ISSN 0344-1369 .
- ^ Чунг, Квок-Вай; Цуй, Квок-Чинг; Лю, Цзимин (2004). «Расширенные модели скрытого класса для совместных рекомендаций». Транзакции IEEE о системах, человеке и кибернетике. Часть A: Системы и люди . 34 (1): 143–148. CiteSeerX 10.1.1.6.2234 . дои : 10.1109/TSMCA.2003.818877 . S2CID 11628144 .
- ^ Ивз, Л.Дж., Силберг, Дж.Л., Хьюитт, Дж.К., Раттер, М., Мейер, Дж.М., Нил, М.К., и Пиклз, А. (1993). «Анализ сходства близнецов в мультисимптомных данных: генетическое применение модели латентного класса для выявления симптомов расстройства поведения у мальчиков-подростков». Генетика поведения . 23 (1): 5–19. дои : 10.1007/bf01067550 . ПМИД 8476390 . S2CID 40678009 .
{{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка ) - ^ Бермингем, М.Л., Гендель, И.Г., Гласс, Э.Дж., Вуллиамс, Дж.А., де Клэр Бронсвоорт, Б.М., Макбрайд, С.Х., Скьюс, Р.А., Аллен, А. Р., Макдауэлл, С.В.Дж., и Бишоп, Южная Каролина (2015). «Модель скрытого класса Хуэя и Уолтера расширена для оценки свойств диагностических тестов на основе данных наблюдения: скрытая модель для скрытых данных» . Научные отчеты . 5 : 11861. Бибкод : 2015NatSR...511861B . дои : 10.1038/srep11861 . ПМЦ 4493568 . ПМИД 26148538 .
{{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка )
- Линда М. Коллинз; Стефани Т. Ланца (2010). Анализ скрытого класса и скрытого перехода для социальных, поведенческих и медицинских наук . Нью-Йорк: Уайли . ISBN 978-0-470-22839-5 .
- Аллан Л. Маккатчеон (1987). Скрытый классовый анализ . Количественные приложения в серии социальных наук № 64. Таузенд-Оукс, Калифорния: Публикации SAGE . ISBN 978-0-521-59451-6 .
- Лео А. Гудман (1974). «Исследовательский анализ скрытой структуры с использованием как идентифицируемых, так и неидентифицируемых моделей». Биометрика . 61 (2): 215–231. дои : 10.1093/biomet/61.2.215 .
- Пол Ф. Лазарсфельд , Нил В. Генри (1968). Анализ скрытой структуры .
Внешние ссылки
[ редактировать ]- Статистические инновации, Домашняя страница , 2016. Веб-сайт с программным обеспечением скрытого класса (Latent GOLD 5.1), бесплатными демонстрациями, учебными пособиями, руководствами пользователя и публикациями для загрузки. Также включены: онлайн-курсы, часто задаваемые вопросы и другое сопутствующее программное обеспечение.
- Методологический центр, Анализ скрытых классов , исследовательский центр при Пенсильванском университете , бесплатное программное обеспечение, часто задаваемые вопросы
- Джон Юберсакс, Анализ скрытых классов , 2006. Веб-сайт с библиографией, программным обеспечением, ссылками и часто задаваемыми вопросами по анализу скрытых классов.