Оценка гаплотипа
В генетике ( оценка гаплотипов также известная как «фазировка») относится к процессу статистической оценки гаплотипов на основе данных генотипа . Наиболее распространенная ситуация возникает, когда генотипы собираются по набору полиморфных сайтов от группы особей. Например, в генетике человека полногеномные исследования ассоциаций собирают генотипы тысяч людей в диапазоне от 200 000 до 5 000 000 SNP с использованием микрочипов. Методы оценки гаплотипов используются при анализе этих наборов данных и позволяют определить генотип. [1] [2] аллелей из справочных баз данных, таких как HapMap Project и 1000 Genomes Project .
Генотипы и гаплотипы
[ редактировать ]Генотипы измеряют неупорядоченную комбинацию аллелей в каждом локусе, тогда как гаплотипы представляют генетическую информацию о нескольких локусах, которые были унаследованы вместе от родителей человека. Теоретически количество возможных гаплотипов равно произведению чисел аллелей каждого рассматриваемого локуса. В частности, большинство SNP являются биаллельными; Поэтому при рассмотрении гетерозиготные биаллельные локусы, будут возможные пары гаплотипов, которые могли бы лежать в основе генотипов. Например, при рассмотрении двух биаллельных локусов A и B ( ), из которых генотипами являются a 1 и a 2 , b 1 и b 2 , мы будем иметь следующие гаплотипы: a 1 _b 1 , a 1 _b 2 , a 2 _b 1 и a соответственно 2 _b 2 ( " _» означает, что аллели находятся в одной хромосоме).
Методы оценки гаплотипов
[ редактировать ]Для оценки гаплотипов было предложено множество статистических методов. Некоторые из самых ранних подходов использовали простую полиномиальную модель, в которой каждому возможному гаплотипу, соответствующему выборке, был присвоен неизвестный частотный параметр, и эти параметры оценивались с помощью алгоритма ожидания-максимизации . Эти подходы могли обрабатывать только небольшое количество сайтов одновременно, хотя позже были разработаны последовательные версии, в частности метод SNPHAP.
Наиболее точные и широко используемые методы оценки гаплотипов используют ту или иную форму скрытой модели Маркова (HMM) для выполнения вывода. В течение длительного времени ФАЗА [3] был самый точный метод. PHASE был первым методом, использовавшим идеи теории слияния относительно совместного распределения гаплотипов. В этом методе использовался подход выборки Гиббса , при котором гаплотипы каждого человека обновлялись при условии текущих оценок гаплотипов из всех других выборок. Для условных распределений сэмплера Гиббса использовались аппроксимации распределения гаплотипа, обусловленного набором других гаплотипов. PHASE использовался для оценки гаплотипов из проекта HapMap . PHASE был ограничен своей скоростью и не был применим к наборам данных полногеномных ассоциативных исследований.
Быстрая ФАЗА [4] и методы BEAGLE [5] представила модели кластеров гаплотипов, применимые к наборам данных размером с GWAS . Впоследствии IMPUTE2 [6] и МаЧ [7] были введены методы, похожие на подход PHASE, но намного более быстрые. Эти методы итеративно обновляют оценки гаплотипов каждой выборки в зависимости от подмножества оценок гаплотипов K других выборок. IMPUTE2 представил идею тщательного выбора подмножества гаплотипов для повышения точности. Точность увеличивается с увеличением K, но с квадратичным вычислительная сложность.
Метод SHAPEIT1 значительно продвинулся вперед, введя линейную метод сложности, который работает только с пространством гаплотипов, соответствующих генотипам человека. [8] Впоследствии метод HAPI-UR предложил очень похожий метод. [9] ФОРМА2 [10] сочетает в себе лучшие функции SHAPEIT1 и IMPUTE2 для повышения эффективности и точности.
См. также
[ редактировать ]- Список программного обеспечения для оценки гаплотипов и вменения генотипов
- вменение : предсказать недостающие генотипы, используя известные гаплотипы.
Ссылки
[ редактировать ]- ^ Марчини, Дж.; Хауи, Б. (2010). «Вменение генотипа для полногеномных исследований ассоциаций». Обзоры природы Генетика . 11 (7): 499–511. дои : 10.1038/nrg2796 . ПМИД 20517342 . S2CID 1465707 .
- ^ Хауи, Б.; Фуксбергер, К.; Стивенс, М.; Марчини, Дж.; Абекасис, Гарда (2012). «Быстрое и точное определение генотипа в полногеномных исследованиях ассоциаций посредством предварительной фазы» . Природная генетика . 44 (8): 955–959. дои : 10.1038/ng.2354 . ПМК 3696580 . ПМИД 22820512 .
- ^ Стивенс, М.; Смит, Нью-Джерси; Доннелли, П. (2001). «Новый статистический метод реконструкции гаплотипов на основе популяционных данных» . Американский журнал генетики человека . 68 (4): 978–989. дои : 10.1086/319501 . ПМЦ 1275651 . ПМИД 11254454 .
- ^ Шит, П.; Стивенс, М. (2006). «Быстрая и гибкая статистическая модель для крупномасштабных данных о генотипах населения: приложения для определения недостающих генотипов и гаплотипической фазы» . Американский журнал генетики человека . 78 (4): 629–644. дои : 10.1086/502802 . ПМЦ 1424677 . ПМИД 16532393 .
- ^ Браунинг, SR; Браунинг, Б.Л. (2007). «Быстрое и точное фазирование гаплотипов и вывод недостающих данных для исследований ассоциаций всего генома с использованием локализованной кластеризации гаплотипов» . Американский журнал генетики человека . 81 (5): 1084–1097. дои : 10.1086/521987 . ПМК 2265661 . ПМИД 17924348 .
- ^ Хауи, Б.Н.; Доннелли, П.; Марчини, Дж. (2009). Шорк, Николас Дж (ред.). «Гибкий и точный метод вменения генотипа для следующего поколения исследований полногеномных ассоциаций» . ПЛОС Генетика . 5 (6): e1000529. дои : 10.1371/journal.pgen.1000529 . ПМЦ 2689936 . ПМИД 19543373 .
- ^ Ли, Ю.; Уиллер, CJ; Дин, Дж.; Шит, П.; Абекасис, Гарда (2010). «MaCH: Использование данных о последовательностях и генотипах для оценки гаплотипов и ненаблюдаемых генотипов» . Генетическая эпидемиология . 34 (8): 816–834. дои : 10.1002/gepi.20533 . ПМК 3175618 . ПМИД 21058334 .
- ^ Делано, О.; Марчини, Дж.; Загури, JFO (2011). «Метод поэтапного линейного усложнения для тысяч геномов». Природные методы . 9 (2): 179–181. дои : 10.1038/nmeth.1785 . ПМИД 22138821 . S2CID 13765612 .
- ^ Уильямс, Алабама; Паттерсон, Н.; Глесснер, Дж.; Хаконарсон, Х.; Райх, Д. (2012). «Поэтапное использование многих тысяч генотипированных образцов» . Американский журнал генетики человека . 91 (2): 238–251. дои : 10.1016/j.ajhg.2012.06.013 . ПМЦ 3415548 . ПМИД 22883141 .
- ^ Делано, О.; Загури, Дж. Ф.; Марчини, Дж. (2012). «Улучшенная фазировка полнохромосом для исследований болезней и популяционной генетики». Природные методы . 10 (1): 5–6. дои : 10.1038/nmeth.2307 . ПМИД 23269371 . S2CID 205421216 .