Структура населения (генетика)
Популяционная структура (также называемая генетической структурой и популяционной стратификацией ) — это наличие систематического различия в аллелей частотах между субпопуляциями . Ожидается, что в случайно спаривающейся (или панмиктической ) популяции частоты аллелей в разных группах будут примерно одинаковыми. Однако спаривание в некоторой степени имеет тенденцию быть неслучайным, что приводит к возникновению структуры. Например, такой барьер, как река, может разделить две группы одного и того же вида и затруднить переход потенциальных партнеров; если возникает мутация , в течение многих поколений она может распространяться и становиться обычным явлением в одной субпопуляции, полностью отсутствуя в другой.
Генетические варианты не обязательно вызывают наблюдаемые изменения в организмах, но могут быть коррелированы по совпадению из-за структуры популяции - вариант, который распространен в популяции с высоким уровнем заболеваемости, может ошибочно считаться причиной заболевания. По этой причине структура популяции является частой мешающей переменной в исследованиях медицинской генетики , и учет и контроль ее влияния важны в исследованиях полногеномных ассоциаций (GWAS). Прослеживая происхождение структуры, можно также изучать генетическое происхождение групп и индивидуумов.
Описание
[ редактировать ]Основной причиной структуры популяций видов, размножающихся половым путем , является неслучайное спаривание между группами: если все особи в популяции спариваются случайным образом, то частоты аллелей между группами должны быть одинаковыми. Структура населения обычно возникает в результате физического разделения на расстоянии или барьерами, такими как горы и реки, с последующим генетическим дрейфом . Другие причины включают поток генов в результате миграций, популяций узких мест и расширения , эффекты основателей , эволюционное давление , случайные случайности и (у людей) культурные факторы. Даже несмотря на эти факторы, особи склонны оставаться близко к тому месту, где они родились, а это означает, что аллели не будут распределяться случайным образом по отношению ко всему ареалу вида. [1] [2]
Меры
[ редактировать ]Структура населения представляет собой сложное явление, и ни один показатель не отражает его полностью. Понимание структуры населения требует сочетания методов и показателей. [3] [4] Многие статистические методы основаны на простых популяционных моделях, чтобы сделать выводы об исторических демографических изменениях, таких как наличие узких мест в популяциях, явления примеси или время дивергенции популяций. Часто эти методы основаны на предположении о панмикции или однородности предковой популяции. Неправильная спецификация таких моделей, например, из-за игнорирования существования структуры в предковой популяции, может привести к сильно смещенным оценкам параметров. [5] Моделирование показывает, что историческая структура популяции может даже иметь генетические эффекты, которые легко можно ошибочно истолковать как исторические изменения в численности популяции или существование событий примеси, даже если таких событий не произошло. [6]
Гетерозиготность
[ редактировать ]Одним из результатов структуры популяции является снижение гетерозиготности . Когда популяции разделяются, аллели имеют больше шансов закрепиться внутри субпопуляций, особенно если субпопуляции небольшие или были изолированы в течение длительного периода времени. Это снижение гетерозиготности можно рассматривать как расширение инбридинга , при котором особи в субпопуляциях с большей вероятностью имеют общего недавнего предка . [7] Масштаб важен: человек, у которого оба родителя родились в Соединенном Королевстве, не является инбредным по отношению к населению этой страны, но является более инбредным, чем два человека, выбранные со всего мира. Это мотивирует вывод F -статистики Райта (также называемой «индексами фиксации»), которая измеряет инбридинг через наблюдаемую и ожидаемую гетерозиготность. [8] Например, измеряет коэффициент инбридинга в одном локусе особи относительно некоторой подгруппы населения : [9]
Здесь, это доля особей в субпопуляции которые гетерозиготны. Если предположить, что имеется два аллеля, которые происходят на соответствующих частотах , ожидается, что при случайном спаривании субпопуляция будет иметь уровень гетерозиготности . Затем:
Аналогично, для всего населения , мы можем определить что позволяет нам вычислить ожидаемую гетерозиготность субпопуляции и ценность как: [9]
Если F равен 0, то частоты аллелей между популяциями идентичны, что указывает на отсутствие структуры. Теоретическое максимальное значение 1 достигается, когда аллель достигает полной фиксации, но большинство наблюдаемых максимальных значений намного ниже. [7] F ST является одним из наиболее распространенных показателей структуры популяции, и существует несколько различных формулировок в зависимости от количества популяций и интересующих аллелей. Хотя его иногда используют в качестве генетического расстояния между популяциями, он не всегда удовлетворяет неравенству треугольника и, следовательно, не является метрикой . [10] Это также зависит от разнообразия внутри популяции, что затрудняет интерпретацию и сравнение. [4]
Вывод о примеси
[ редактировать ]Генотип человека можно смоделировать как смесь дискретных кластеров K популяций. [9] Каждый кластер определяется частотами его генотипов, а вклад кластера в генотипы человека измеряется с помощью оценщика . В 2000 году Джонатан К. Притчард представил алгоритм STRUCTURE для оценки этих пропорций с помощью цепи Маркова Монте-Карло , моделируя частоты аллелей в каждом локусе с помощью распределения Дирихле . [11] С тех пор алгоритмы (такие как ADMIXTURE) были разработаны с использованием других методов оценки. [12] [13] Предполагаемые пропорции можно визуализировать с помощью столбчатых графиков — каждый столбец представляет отдельного человека и подразделяется, чтобы представить долю генетического происхождения человека из одной из K- популяций. [9]
Изменение K может иллюстрировать различные масштабы структуры населения; использование маленького значения K для всей человеческой популяции приведет к примерному разделению людей по континентам, а использование большого значения K разделит население на более мелкие подгруппы. [9] Хотя методы кластеризации популярны, они открыты для неправильной интерпретации: для немоделированных данных никогда не существует «истинного» значения K , а скорее приближение, которое считается полезным для данного вопроса. [3] Они чувствительны к стратегиям выборки, размеру выборки и близким родственникам в наборах данных; дискретных популяций может вообще не быть; и может существовать иерархическая структура, в которой субпопуляции вложены друг в друга. [3] Кластеры могут быть смешаны сами по себе, [9] и могут не иметь полезной интерпретации как исходные популяции. [14]
Уменьшение размерности
[ редактировать ]Генетические данные имеют высокую размерность , и методы уменьшения размерности могут отражать структуру популяции. Анализ главных компонентов (PCA) был впервые применен в популяционной генетике в 1978 году Кавалли-Сфорца и его коллегами и возродился благодаря высокопроизводительному секвенированию . [9] [17] Первоначально PCA использовался для определения частот аллелей известных генетических маркеров для популяций, однако позже было обнаружено, что путем кодирования SNP как целых чисел (например, как количество нереференсных аллелей ) и нормализации значений PCA можно применять на уровне лиц. [13] [18] Одна формулировка рассматривает отдельные лица и биаллельные SNP. Для каждого отдельного , значение в локусе является – количество нереференсных аллелей (одного из ). Если частота аллеля в является , то полученный матрица нормализованных генотипов имеет записи: [9]
PCA преобразует данные для максимизации дисперсии; при наличии достаточного количества данных, когда каждый человек визуализируется как точка на графике, могут образовываться дискретные кластеры. [13] Лица со смешанным происхождением будут иметь тенденцию попадать между кластерами, и когда существует однородная изоляция по расстоянию , верхние векторы PC будут отражать географические различия. в данных [19] [13] Собственные векторы , сгенерированные PCA, могут быть явно записаны через среднее время слияния пар особей, что делает PCA полезным для вывода о популяционной истории групп в данной выборке. PCA, однако, не может различать разные процессы, которые приводят к одному и тому же среднему времени слияния. [20]
Многомерное масштабирование и дискриминантный анализ использовались для изучения дифференциации, распределения популяций и анализа генетических расстояний. [21] графам окрестностей Подходы к , такие как t-распределенное стохастическое встраивание соседей (t-SNE) и аппроксимация и проекция равномерного многообразия (UMAP), могут визуализировать континентальную и субконтинентальную структуру человеческих данных. [22] [23] При более крупных наборах данных UMAP лучше отражает структуру населения в различных масштабах; мелкомасштабные закономерности можно скрыть или разделить с помощью других методов, и они представляют интерес, когда диапазон популяций разнообразен, когда имеются смешанные популяции или при изучении взаимосвязей между генотипами, фенотипами и/или географией. [23] [24] Вариационные автокодировщики могут генерировать искусственные генотипы со структурой, репрезентативной для входных данных, хотя они не воссоздают закономерности неравновесия по сцеплению. [25]
Демографический вывод
[ редактировать ]Структура популяции — важный аспект эволюционной и популяционной генетики . Такие события, как миграции и взаимодействия между группами, оставляют генетический отпечаток на популяциях. Смешанные популяции будут иметь фрагменты гаплотипов своих предковых групп, которые со временем постепенно сокращаются из-за рекомбинации . Используя этот факт и сопоставляя общие фрагменты гаплотипов отдельных людей в наборе генетических данных, исследователи могут проследить и датировать причины смешения населения и реконструировать исторические события, такие как взлет и падение империй, работорговля, колониализм и рост населения. [26]
Роль в генетической эпидемиологии
[ редактировать ]Структура популяции может стать проблемой для ассоциативных исследований , таких как исследования «случай-контроль» , где связь между интересующим признаком и локусом может быть неверной. Например, в исследуемой популяции европейцев и жителей Восточной Азии ассоциативное исследование использования палочек для еды может «обнаружить» у азиатов ген, который приводит к использованию палочек для еды. Однако это ложная связь , поскольку генетический вариант просто более распространен у азиатов, чем у европейцев. [27] Кроме того, фактические генетические данные могут быть упущены из виду, если локус менее распространен в популяции, из которой выбраны субъекты. По этой причине в 1990-е годы было обычным использовать семейные данные, где влияние структуры населения можно было легко контролировать с помощью таких методов, как тест на неравновесие передачи (TDT). [28]
Фенотипы (измеримые признаки), такие как рост или риск сердечно-сосудистых заболеваний, являются продуктом некоторой комбинации генов и окружающей среды . Эти черты можно предсказать с помощью полигенных показателей , которые направлены на то, чтобы изолировать и оценить вклад генетики в признак путем суммирования эффектов многих отдельных генетических вариантов. Чтобы составить оценку, исследователи сначала привлекают участников к исследованию ассоциаций, чтобы оценить вклад каждого генетического варианта. Затем они могут использовать предполагаемый вклад каждого генетического варианта для расчета оценки признака для человека, который не участвовал в первоначальном исследовании ассоциации. Если структура исследуемой популяции коррелирует с изменениями окружающей среды, то полигенный показатель больше не измеряет только генетический компонент. [29]
Несколько методов могут, по крайней мере частично, контролировать этот мешающий эффект. Метод геномного контроля был введен в 1999 году и представляет собой относительно непараметрический метод контроля увеличения статистики тестов . [30] Также возможно использовать несвязанные генетические маркеры для оценки пропорций предков каждого человека из некоторых K субпопуляций, которые считаются неструктурированными. [31] В более поздних подходах используется анализ главных компонентов (PCA), как продемонстрировали Алкес Прайс и его коллеги: [32] или путем получения матрицы генетических отношений (также называемой матрицей родства) и включения ее в линейную смешанную модель (LMM). [33] [34]
PCA и LMM стали наиболее распространенными методами контроля влияния структуры популяции. Хотя их, вероятно, достаточно, чтобы избежать ложноположительных результатов в исследованиях ассоциаций, они по-прежнему уязвимы к переоценке величины эффекта маргинально связанных вариантов и могут существенно искажать оценки показателей полигенности и наследственности признаков . [35] [36] Если воздействие на окружающую среду связано с вариантом, существующим только в одном конкретном регионе (например, загрязняющее вещество обнаружено только в одном городе), возможно, вообще невозможно будет скорректировать этот эффект структуры населения. [29] Для многих признаков роль структуры сложна и не до конца понята, и ее включение в генетические исследования остается сложной задачей и является активной областью исследований. [37]
Ссылки
[ редактировать ]- ^ Кардон Л.Р., Палмер Л.Дж. (февраль 2003 г.). «Стратификация населения и ложная аллельная ассоциация». Ланцет . 361 (9357): 598–604. дои : 10.1016/S0140-6736(03)12520-2 . ПМИД 12598158 . S2CID 14255234 .
- ^ Маквин Дж. (2001). «Структура населения» (PDF) . Архивировано из оригинала (PDF) 23 ноября 2018 г. Проверено 14 ноября 2020 г.
- ^ Перейти обратно: а б с Лоусон DJ, ван Дорп Л., Фалуш Д. (2018). «Учебное пособие о том, как не переоценивать гистограммы СТРУКТУРЫ и ПРИМЕШЕНИЯ» . Природные коммуникации . 9 (1): 3258. Бибкод : 2018NatCo...9.3258L . дои : 10.1038/s41467-018-05257-7 . ISSN 2041-1723 . ПМК 6092366 . ПМИД 30108219 .
- ^ Перейти обратно: а б Мейрманс П.Г., Хедрик П.В. (2010). «Оценка структуры населения: FST и связанные с ним меры» . Ресурсы молекулярной экологии . 11 (1): 5–18. дои : 10.1111/j.1755-0998.2010.02927.x . ISSN 1755-098X . ПМИД 21429096 . S2CID 24403040 .
- ^ Скерри Э.М., Томас М.Г., Маника А., Ганц П., Сток Дж.Т., Стрингер С. и др. (август 2018 г.). «Эволюционировал ли наш вид в разделенных популяциях по всей Африке, и почему это имеет значение?» . Тенденции в экологии и эволюции . 33 (8): 582–594. дои : 10.1016/j.tree.2018.05.005 . ПМК 6092560 . ПМИД 30007846 .
- ^ Родригес В., Мазе О., Грусеа С., Арредондо А., Корухо Х.М., Бойтар С., Чихи Л. (декабрь 2018 г.). «IICR и нестационарное структурированное объединение: к демографическому выводу с произвольными изменениями в структуре населения» . Наследственность . 121 (6): 663–678. дои : 10.1038/s41437-018-0148-0 . ПМК 6221895 . ПМИД 30293985 .
- ^ Перейти обратно: а б Хартл Д.Л., Кларк А.Г. (1997). Основы популяционной генетики (3-е изд.). Сандерленд, Массачусетс: Sinauer Associates. стр. 111–163. ISBN 0-87893-306-9 . ОСЛК 37481398 .
- ^ Райт С. (1949). «Генетическая структура популяций». Анналы евгеники . 15 (1): 323–354. дои : 10.1111/j.1469-1809.1949.tb02451.x . ISSN 2050-1420 . ПМИД 24540312 .
- ^ Перейти обратно: а б с д и ж г час Куп Джи (2019). Популяционная и количественная генетика . стр. 22–44.
- ^ Арбиссер И.М., Розенберг Н.А. (2020). «FST и неравенство треугольника для двуаллельных маркеров» . Теоретическая популяционная биология . 133 : 117–129. дои : 10.1016/j.tpb.2019.05.003 . ISSN 0040-5809 . ПМЦ 8448291 . ПМИД 31132375 .
- ^ Причард Дж. К., Стивенс М., Доннелли П. (2000). «Вывод о структуре населения с использованием данных мультилокусного генотипа» . Генетика . 155 (2): 945–959. дои : 10.1093/генетика/155.2.945 . ISSN 1943-2631 . ПМК 1461096 . ПМИД 10835412 .
- ^ Александр Д.Х., Новембре Дж., Ланге К. (2009). «Быстрая оценка происхождения неродственных лиц на основе модели» . Геномные исследования . 19 (9): 1655–1664. дои : 10.1101/гр.094052.109 . ISSN 1088-9051 . ПМЦ 2752134 . ПМИД 19648217 .
- ^ Перейти обратно: а б с д Новембре Дж., Рамачандран С. (2011). «Перспективы структуры человеческой популяции на пороге эры секвенирования». Анну Рев Геномика Хум Генет . 12 (1): 245–74. doi : 10.1146/annurev-genom-090810-183123 . ПМИД 21801023 .
- ^ Ноябрь Дж (2016). «Притчард, Стивенс и Доннелли о структуре населения» . Генетика . 204 (2): 391–393. дои : 10.1534/genetics.116.195164 . ISSN 1943-2631 . ПМК 5068833 . ПМИД 27729489 .
- ^ Хенн Б.М., Ботиге ЛР, Гравель С., Ван В., Брисбин А., Бирнс Дж.К., Фадлауи-Зид К., Заллуа П.А., Морено-Эстрада А., Бертранпети Дж., Бустаманте К.Д., Комас Д. (январь 2012 г.). «Геномное происхождение североафриканцев поддерживает миграцию обратно в Африку» . ПЛОС Генет . 8 (1): e1002397. дои : 10.1371/journal.pgen.1002397 . ПМК 3257290 . ПМИД 22253600 .
- ^ Ван С., Зёлльнер С., Розенберг Н.А. (август 2012 г.). «Количественное сравнение сходства между генами и географией человеческих популяций во всем мире» . ПЛОС Генет . 8 (8): e1002886. дои : 10.1371/journal.pgen.1002886 . ПМЦ 3426559 . ПМИД 22927824 .
- ^ Меноцци П., Пьяцца А., Кавалли-Сфорца Л. (1978). «Синтетические карты частот генов человека у европейцев». Наука . 201 (4358): 786–792. Бибкод : 1978Sci...201..786M . дои : 10.1126/science.356262 . ISSN 0036-8075 . ПМИД 356262 .
- ^ Паттерсон Н., Прайс А.Л., Райх Д. (декабрь 2006 г.). «Структура населения и собственный анализ» . ПЛОС Генетика . 2 (12): е190. дои : 10.1371/journal.pgen.0020190 . ПМЦ 1713260 . ПМИД 17194218 .
- ^ Новембре Дж., Джонсон Т., Брик К., Куталик З., Бойко А.Р., Аутон А., Индап А., Кинг К.С., Бергманн С., Нельсон М.Р., Стивенс М., Бустаманте К.Д. (2008). «Гены отражают географию Европы» . Природа . 456 (7218): 98–101. Бибкод : 2008Natur.456...98N . дои : 10.1038/nature07331 . ISSN 0028-0836 . ПМК 2735096 . ПМИД 18758442 .
- ^ Маквин Дж. (2009). «Генеалогическая интерпретация анализа основных компонентов» . ПЛОС Генетика . 5 (10): e1000686. дои : 10.1371/journal.pgen.1000686 . ISSN 1553-7404 . ПМЦ 2757795 . ПМИД 19834557 .
- ^ Жомбар Т., Понтье Д., Дюфур AB (апрель 2009 г.). «Генетические маркеры на площадке многомерного анализа» . Наследственность (Эдинб) . 102 (4): 330–41. дои : 10.1038/hdy.2008.130 . ПМИД 19156164 . S2CID 10739417 .
- ^ Ли В., Сериз Дж.Э., Ян Ю, Хан Х (август 2017 г.). «Применение t-SNE к генетическим данным человека». Журнал Биоинформ Компьютерная Биол . 15 (4): 1750017. doi : 10.1142/S0219720017500172 . ПМИД 28718343 .
- ^ Перейти обратно: а б Диас-Папкович А, Андерсон-Трокме Л, Бен-Иган С, Гравель С (ноябрь 2019 г.). «UMAP выявляет загадочную популяционную структуру и фенотипическую гетерогенность в больших геномных когортах» . ПЛОС Генет . 15 (11): e1008432. дои : 10.1371/journal.pgen.1008432 . ПМЦ 6853336 . PMID 31675358 .
- ^ Сакауэ С, Хирата Дж, Канаи М, Сузуки К, Акияма М, Лай Тоо С, Арайсси Т, Хаммудэ М, Аль Эмади С, Масри БК, Халаби Х, Бадша Х, Усман И.В., Саксена Р, Падюков Л, Хирата М, Мацуда К., Мураками Ю., Каматани Ю., Окада Ю. (март 2020 г.). «Уменьшение размерности выявляет мелкомасштабную структуру населения Японии, что имеет последствия для прогнозирования полигенного риска» . Нат Коммун 11 (1): 1569. Бибкод : 2020NatCo..11.1569S . дои : 10.1038/s41467-020-15194-z . ПМК 7099015 . ПМИД 32218440 .
- ^ Бэтти С.Дж., Коффинг Г.К., Керн А.Д. (январь 2021 г.). «Визуализация структуры населения с помощью вариационных автоэнкодеров» . G3 (Бетесда) . 11 (1). дои : 10.1093/g3journal/jkaa036 . ПМК 8022710 . ПМИД 33561250 .
- ^ Хеллентал Дж., Басби ГБ, Группа G, Уилсон Дж. Ф., Капелли С., Фалуш Д., Майерс С. (февраль 2014 г.). «Генетический атлас истории примесей человека» . Наука . 343 (6172): 747–751. Бибкод : 2014Sci...343..747H . дои : 10.1126/science.1243518 . ПМК 4209567 . ПМИД 24531965 .
- ^ Хамер Д., Сирота Л. (январь 2000 г.). «Остерегайтесь гена палочек для еды». Молекулярная психиатрия . 5 (1): 11–3. дои : 10.1038/sj.mp.4000662 . ПМИД 10673763 . S2CID 9760182 .
- ^ Притчард Дж. К., Розенберг Н. А. (июль 1999 г.). «Использование несвязанных генетических маркеров для обнаружения расслоения населения в исследованиях ассоциаций» . Американский журнал генетики человека . 65 (1): 220–8. дои : 10.1086/302449 . ПМК 1378093 . ПМИД 10364535 .
- ^ Перейти обратно: а б Блан Дж., Берг Дж.Дж. (декабрь 2020 г.). «Насколько хорошо мы можем отделить генетику от окружающей среды?» . электронная жизнь . 9 : е64948. doi : 10.7554/eLife.64948 . ПМК 7758058 . ПМИД 33355092 .
- ^ Девлин Б., Редер К. (декабрь 1999 г.). «Геномный контроль для изучения ассоциаций». Биометрия . 55 (4): 997–1004. дои : 10.1111/j.0006-341X.1999.00997.x . ПМИД 11315092 . S2CID 6297807 .
- ^ Причард Дж.К., Стивенс М., Розенберг Н.А., Доннелли П. (июль 2000 г.). «Картирование ассоциаций в структурированных популяциях» . Американский журнал генетики человека . 67 (1): 170–81. дои : 10.1086/302959 . ПМК 1287075 . ПМИД 10827107 .
- ^ Прайс А.Л., Паттерсон, Нью-Джерси, Пленге Р.М., Вайнблатт М.Е., Шадик Н.А., Райх Д. (август 2006 г.). «Анализ основных компонентов корректирует стратификацию в полногеномных исследованиях ассоциаций». Природная генетика . 38 (8): 904–9. дои : 10.1038/ng1847 . ПМИД 16862161 . S2CID 8127858 .
- ^ Ю Дж., Прессуар Дж., Бриггс В.Х., Вро Би И., Ямасаки М., Добли Дж.Ф. и др. (февраль 2006 г.). «Единый метод смешанной модели для сопоставления ассоциаций, учитывающий несколько уровней связи». Природная генетика . 38 (2): 203–8. дои : 10.1038/ng1702 . ПМИД 16380716 . S2CID 8507433 .
- ^ Лох П.Р., Такер Дж., Булик-Салливан Б.К., Вильялмссон Б.Дж., Финукейн Х.К. , Салем Р.М. и др. (март 2015 г.). «Эффективный анализ смешанной байесовской модели увеличивает силу ассоциации в больших когортах» . Природная генетика . 47 (3): 284–90. дои : 10.1038/ng.3190 . ПМЦ 4342297 . ПМИД 25642633 .
- ^ Заиди А.А., Мэтисон I (ноябрь 2020 г.). Перри Г.Х., Турчин М.К., Мартин П. (ред.). «Демографическая история опосредует влияние стратификации на полигенные показатели» . электронная жизнь . 9 : е61548. doi : 10.7554/eLife.61548 . ПМЦ 7758063 . ПМИД 33200985 .
- ^ Сохаил М., Майер Р.М., Ганна А., Блумендал А., Мартин А.Р., Турчин М.К. и др. (март 2019 г.). Нордборг М., Маккарти М.И., Бартон Н.Х., Хермиссон Дж. (ред.). «Полигенная адаптация по росту переоценена из-за неисправленной стратификации в полногеномных исследованиях ассоциаций» . электронная жизнь . 8 : е39702. doi : 10.7554/eLife.39702 . ПМК 6428571 . ПМИД 30895926 .
- ^ Лоусон Д.Д., Дэвис Н.М., Хауорт С., Ашраф Б., Хоу Л., Кроуфорд А. и др. (январь 2020 г.). «Структура населения в эпоху генетических биобанков не имеет значения: это вызов или возможность?» . Генетика человека . 139 (1): 23–41. дои : 10.1007/s00439-019-02014-8 . ПМК 6942007 . ПМИД 31030318 .