Оптимальное соответствие
Оптимальное соответствие — это метод анализа последовательности , используемый в социальных науках для оценки несходства упорядоченных массивов токенов, которые обычно представляют собой упорядоченную по времени последовательность социально-экономических состояний, которые пережили два человека. После того, как такие расстояния рассчитаны для набора наблюдений (например, отдельных лиц в когорте классические инструменты (такие как кластерный анализ ), можно использовать ). Метод был адаптирован для социальных наук. [1] из метода, первоначально внедренного для изучения последовательностей молекулярной биологии (белковых или генетических) (см. Выравнивание последовательностей ). Оптимальное сопоставление использует алгоритм Нидлмана-Вунша .
Алгоритм
[ редактировать ]Позволять быть последовательностью состояний принадлежащий конечному множеству возможных состояний. Обозначим пространство последовательностей, т.е. множество всех возможных последовательностей состояний.
Алгоритмы оптимального сопоставления работают путем определения простых алгебр операторов , которые манипулируют последовательностями, то есть набора операторов. . В самом простом подходе используется набор, состоящий всего из трех основных операций преобразования последовательностей:
- одно государство вставляется в последовательность
- одно состояние удаляется из последовательности и
- государство заменяется (заменяется) состоянием , .
Представьте теперь, что стоимость связанкаждому оператору. Даны две последовательности и ,идея состоит в том, чтобы измерить стоимость получения от с помощью операторов из алгебры. Позволять — последовательность операторов такая, что применение всех операторов этой последовательности к первой последовательности дает вторую последовательность : где обозначает составной оператор. С этим набором связываем стоимость , чтопредставляет собой общую стоимость трансформации. Здесь следует учитывать, что могут существовать разные такие последовательности. которые преобразуют в ; разумный выбор — выбрать самую дешевую из таких последовательностей. Таким образом, мырасстояние вызова
то есть стоимость наименее затратного набора преобразований, которые превращают в . Обратите внимание, что по определению неотрицательен, поскольку представляет собой сумму положительных затрат, и тривиально тогда и только тогда, когда , то есть никаких затрат. Функция расстояния симметрична, если затраты на вставку и удаление равны. ; термин «стоимость удаления» обычно относится к общей стоимости вставки и удаления.
Учитывая набор, состоящий только из трех основных операций, описанных выше, эта мера близости удовлетворяет треугольному неравенству. Однако транзитивность зависит от определения набора элементарных операций.
Критика
[ редактировать ]Хотя методы оптимального сопоставления широко используются в социологии и демографии, такие методы также имеют свои недостатки. Как отмечали ряд авторов (например, Л.Л. Ву [2] ), основная проблема применения оптимального сопоставления состоит в правильном определении затрат .
Программное обеспечение
[ редактировать ]- TDA — мощная программа, предлагающая доступ к некоторым последним разработкам в области анализа данных о переходном периоде.
- STATA внедрила пакет для проведения анализа оптимального соответствия.
- TraMineR -пакет с открытым исходным кодом — это R для анализа и визуализации состояний и последовательностей событий, включая анализ оптимального соответствия.
Ссылки и примечания
[ редактировать ]- ^ А. Эбботт и А. Цай, (2000) Анализ последовательностей и методы оптимального сопоставления в социологии: обзор и перспективы социологических методов и исследований], Vol. 29, 3–33. дои : 10.1177/0049124100029001001
- ^ ЛЛ Ву. (2000) Некоторые комментарии к статье «Анализ последовательностей и методы оптимального сопоставления в социологии: обзор и перспективы». Архивировано 24 октября 2006 г. в Wayback Machine Sociological Methods & Research, 29 41-64. дои : 10.1177/0049124100029001003