Коалесцентная теория
Теория слияния — это модель того, как аллели, отобранные из популяции, могли произойти от общего предка . В простейшем случае теория слияния предполагает отсутствие рекомбинации , естественного отбора , потока генов или структуры популяции , а это означает, что каждый вариант с равной вероятностью передавался от одного поколения к другому. Модель смотрит назад во времени, объединяя аллели в единую наследственную копию в соответствии со случайным процессом в событиях слияния. Согласно этой модели, ожидаемое время между последовательными событиями слияния увеличивается почти экспоненциально назад во времени (с большой дисперсией ). Вариация в модели возникает как из-за случайной передачи аллелей от одного поколения к другому, так и из-за случайного возникновения мутаций в этих аллелях.
Математическая теория слияния была независимо разработана несколькими группами в начале 1980-х годов как естественное продолжение классической теории и моделей популяционной генетики . [1] [2] [3] [4] но в первую очередь можно отнести к Джону Кингману . [5] Достижения в теории слияния включают рекомбинацию, отбор, перекрытие поколений и практически любую сколь угодно сложную эволюционную или демографическую модель в популяционном генетическом анализе.
Модель можно использовать для создания множества теоретических генеалогий, а затем сравнивать наблюдаемые данные с этими симуляциями, чтобы проверить предположения о демографической истории населения. Теорию слияния можно использовать для того, чтобы делать выводы о генетических параметрах популяции, таких как миграция, размер популяции и рекомбинация.
Теория [ править ]
Время слияния [ править ]
Рассмотрим один локус гена, взятый у двух гаплоидных особей в популяции. Родословная этого образца прослеживается в обратном направлении во времени до момента, когда эти две линии сливаются в своего самого недавнего общего предка (MRCA). Теория слияния стремится оценить ожидание этого периода времени и его дисперсию.
Вероятность того, что две линии сливаются в непосредственно предшествующем поколении, — это вероятность того, что они имеют общую родительскую последовательность ДНК . В популяции с постоянным эффективным размером популяции с 2 N e копиями каждого локуса имеется 2 N e в предыдущем поколении «потенциальных родителей». Таким образом, в рамках модели случайного спаривания вероятность того, что две аллели происходят от одной и той же родительской копии, равна 1/(2 N e ) и, соответственно, вероятность того, что они не сливаются, равна 1 - 1/(2 N e ).
В каждом последующем предыдущем поколении вероятность слияния геометрически распределена , то есть это вероятность неслияния в t - 1 предыдущих поколениях, умноженная на вероятность слияния в интересующем поколении:
При достаточно больших значениях N e это распределение хорошо аппроксимируется непрерывно определяемым экспоненциальным распределением
Это математически удобно, поскольку стандартное экспоненциальное распределение имеет как математическое ожидание , так и стандартное отклонение, равное 2 N e . Следовательно, хотя ожидаемое время слияния составляет 2 N e , фактическое время слияния варьируется в широком диапазоне. Обратите внимание, что время слияния — это количество предыдущих поколений, в которых произошло слияние, а не календарное время, хотя оценку последнего можно сделать, умножив 2 N e на среднее время между поколениями. Приведенные выше расчеты в равной степени применимы к диплоидной популяции эффективного размера N e (иными словами, для нерекомбинирующего участка ДНК каждую хромосому можно рассматривать как эквивалент независимой гаплоидной особи; при отсутствии инбридинга сестринские хромосомы в один человек не более тесно связан, чем две хромосомы, случайно выбранные из популяции). Однако некоторые эффективно гаплоидные элементы ДНК, такие как митохондриальная ДНК , передаются только одним полом и, следовательно, имеют четверть эффективного размера эквивалентной диплоидной популяции. N e /2)
Математический объект, который формально получается, если N e стремиться к бесконечности, известен как слияние Кингмана . [1]
Нейтральный вариант [ править ]
Теорию слияния также можно использовать для моделирования количества изменений в последовательностях ДНК, ожидаемых в результате генетического дрейфа и мутаций. Эта величина называется средней гетерозиготностью и представлена как . Средняя гетерозиготность рассчитывается как вероятность возникновения мутации в данном поколении, деленная на вероятность любого «события» в этом поколении (либо мутации, либо слияния). Вероятность того, что событие является мутацией, — это вероятность мутации в любой из двух линий: . Таким образом, средняя гетерозиготность равна
Для Подавляющее большинство пар аллелей имеют по крайней мере одно различие в нуклеотидной последовательности.
Расширения [ править ]
Существуют многочисленные расширения коалесцентной модели, такие как Λ-коалесцентная модель, которая допускает возможность мультифуркаций. [6] .
Графическое представление [ править ]
Слияния можно визуализировать с помощью дендрограмм , которые показывают взаимоотношения ветвей популяции друг с другом. Точка встречи двух ветвей указывает на событие слияния.
Приложения [ править ]
генов болезней Картирование
Полезность коалесцентной теории при картировании заболеваний постепенно получает все большее признание; хотя применение теории все еще находится в зачаточном состоянии, ряд исследователей активно разрабатывают алгоритмы анализа генетических данных человека, использующие теорию слияния. [7] [8] [9]
Значительное количество человеческих заболеваний можно объяснить генетикой: от простых менделевских заболеваний, таких как серповидно-клеточная анемия и муковисцидоз , до более сложных заболеваний, таких как рак и психические заболевания. Последние представляют собой полигенные заболевания, контролируемые множеством генов, которые могут встречаться на разных хромосомах, но заболевания, вызванные одной аномалией, относительно легко выявить и отследить – хотя и не настолько просто, чтобы это было достигнуто для всех болезней. Чрезвычайно полезно для понимания этих заболеваний и их процессов знать, где они расположены в хромосомах и как они наследуются из поколения в поколение, что может быть достигнуто с помощью коалесцентного анализа. [2]
Генетические заболевания передаются из поколения в поколение так же, как и другие гены. Хотя любой ген может быть перемещён из одной хромосомы в другую во время гомологичной рекомбинации , маловероятно, что будет сдвинут только один ген. другие гены, которые достаточно близки к гену заболевания и могут быть связаны с ним. Таким образом, для его отслеживания можно использовать [2]
Полигенные заболевания имеют генетическую основу, даже несмотря на то, что они не соответствуют менделевским моделям наследования, и могут иметь относительно высокую распространенность в популяциях и иметь серьезные последствия для здоровья. Такие заболевания могут иметь неполную пенетрантность и склонны к полигенности , что усложняет их изучение. Эти черты могут возникнуть из-за множества небольших мутаций, которые в совокупности оказывают серьезное и пагубное воздействие на здоровье человека. [3]
Методы картирования связей, в том числе теорию слияния, можно применить к этим заболеваниям, поскольку они используют семейные родословные, чтобы выяснить, какие маркеры сопровождают заболевание и как оно наследуется. По крайней мере, этот метод помогает сузить часть или части генома, в которых могут возникнуть вредные мутации. Осложнения этих подходов включают эпистатические эффекты, полигенную природу мутаций и факторы окружающей среды. Тем не менее, гены, эффекты которых являются аддитивными, несут фиксированный риск развития заболевания, и когда они существуют в генотипе заболевания, их можно использовать для прогнозирования риска и картирования гена. [3] Как обычное слияние, так и разрушенное слияние (что позволяет предположить, что в исходном событии могли произойти множественные мутации и что болезнь может иногда быть вызвана факторами окружающей среды) были использованы для понимания генов болезней. [2]
Были проведены исследования, связывающие возникновение заболеваний у разнояйцевых и однояйцевых близнецов, и результаты этих исследований могут быть использованы для моделирования слияния. Поскольку однояйцевые близнецы имеют общий весь свой геном, а разнояйцевые - только половину генома, разницу в корреляции между однояйцевыми и разнояйцевыми близнецами можно использовать, чтобы выяснить, передается ли заболевание по наследству, и если да, то насколько сильно. [3]
Геномное распределение гетерозиготности [ править ]
человека Карта однонуклеотидного полиморфизма (SNP) выявила большие региональные различия в гетерозиготности, большие, чем можно объяснить на основе ( распределенной Пуассона ) случайной случайности. [10] Частично эти различия можно объяснить на основе методов оценки, наличия геномных последовательностей и, возможно, стандартной генетической модели объединенной популяции. Влияние популяционной генетики может иметь большое влияние на эту вариацию: некоторые локусы, по-видимому, будут иметь сравнительно недавних общих предков, другие могут иметь гораздо более древние генеалогии, и поэтому региональное накопление SNP с течением времени может быть совершенно различным. Локальная плотность SNP вдоль хромосом, по-видимому, группируется в соответствии с законом отклонения от средней степени и подчиняется сложному распределению Пуассона Твиди . [11] В этой модели региональные вариации в карте SNP будут объясняться накоплением множества небольших геномных сегментов посредством рекомбинации, где среднее количество SNP на сегмент будет гамма-распределено пропорционально времени гамма-распределения до самого последнего общего предка для каждый сегмент. [12]
История [ править ]
Теория слияния является естественным продолжением более классической популяционной генетики концепции нейтральной эволюции и приближением к модели Фишера-Райта (или Райта-Фишера) для больших популяций. Он был открыт независимо несколькими исследователями в 1980-х годах. [13] [14] [15] [16]
Программное обеспечение [ править ]
Существует большое количество программного обеспечения как для моделирования наборов данных в процессе объединения, так и для определения таких параметров, как размер популяции и темпы миграции, на основе генетических данных.
- BEAST и BEAST 2 — байесовского пакет вывода через MCMC с широким спектром объединенных моделей, включая использование последовательностей с временной выборкой. [17]
- BPP - пакет программного обеспечения для определения времени филогении и дивергенции популяций в процессе слияния нескольких видов.
- CoaSim – программное обеспечение для моделирования генетических данных по коалесцентной модели.
- DIYABC – удобный для пользователя подход к ABC для составления выводов об истории популяции с использованием молекулярных маркеров. [18]
- DendroPy - библиотека Python для филогенетических вычислений с классами и методами для моделирования чистых (неограниченных) сливающихся деревьев, а также ограниченных сливающихся деревьев в рамках модели слияния нескольких видов (т. е. «генных деревьев в деревьях видов»).
- GeneRecon - программное обеспечение для мелкомасштабного картирования неравновесия по сцеплению генов заболеваний с использованием теории слияния, основанной на байесовской структуре MCMC .
- Genetree Архивировано 5 февраля 2012 г. в программном обеспечении Wayback Machine для оценки параметров популяционной генетики с использованием теории слияния и моделирования ( пакет R "popgen"). См. также Оксфордскую группу математической генетики и биоинформатики.
- ГЕНОМ – быстрое моделирование всего генома на основе слияния [19]
- IBDSim – компьютерный пакет для моделирования генотипических данных в условиях общей изоляции с помощью дистанционных моделей. [20]
- IMa – IMa реализует ту же модель изоляции с миграцией, но делает это с использованием нового метода, который обеспечивает оценки совместной апостериорной плотности вероятности параметров модели. IMa также позволяет проводить тесты отношения правдоподобия для вложенных демографических моделей. IMa основан на методе, описанном Hey and Nielsen (2007 PNAS 104:2785–2790). IMa работает быстрее и лучше, чем IM (т.е. обеспечивает доступ к функции задней плотности сустава), и его можно использовать в большинстве (но не во всех) ситуациях и вариантах, для которых можно использовать IM.
- Ламарк – программное обеспечение для оценки темпов роста населения, миграции и рекомбинации.
- Мигрень - программа, реализующая объединенные алгоритмы для анализа максимального правдоподобия (с использованием алгоритмов выборки по важности ) генетических данных с упором на пространственно структурированные популяции. [21]
- Миграция – максимальная вероятность и байесовский вывод о темпах миграции в условиях n -коалесцента. Вывод реализуется с помощью MCMC.
- MaCS – Markovian Coalescent Simulator – пространственно моделирует генеалогии по хромосомам как марковский процесс. Подобен алгоритму SMC МакВина и Кардина и поддерживает все демографические сценарии, найденные в MS Hudson.
- ms & msHOT — оригинальная программа Ричарда Хадсона для генерации образцов по нейтральным моделям. [22] и расширение, которое позволяет создавать горячие точки рекомбинации . [23]
- msms – расширенная версия ms, включающая выборочную развертку. [24]
- msprime — быстрый и масштабируемый MS-совместимый симулятор, позволяющий моделировать демографические ситуации и создавать компактные выходные файлы для тысяч или миллионов геномов.
- PhyloCoalSimulations — пакет Julia для моделирования генных деревьев при слиянии по филогенетической сети/графу примесей. Модель учитывает возможное коррелированное наследование в ретикуляциях, которые представляют собой интрогрессию, поток генов или события гибридизации.
- Recodon и NetRecodon – программное обеспечение для моделирования кодирующих последовательностей с меж/внутрикодоновой рекомбинацией, миграцией, скоростью роста и продольным отбором проб. [25] [26]
- CoalEvol и SGWE – программное обеспечение для моделирования нуклеотидных, кодирующих и аминокислотных последовательностей в сочетании с демографией, рекомбинацией, структурой популяции с миграцией и продольным отбором проб. [27]
- SARG - структура Граф предковой рекомбинации Магнуса Нордборга
- simcoal2 – программное обеспечение для моделирования генетических данных в рамках коалесцентной модели со сложной демографией и рекомбинацией.
- TreesimJ - программное обеспечение для прямого моделирования, позволяющее осуществлять выборку генеалогий и наборов данных в рамках различных выборочных и демографических моделей.
Ссылки [ править ]
- ^ Этеридж, Элисон (7 января 2011 г.). Некоторые математические модели из популяционной генетики: Летняя школа вероятностей Сен-Флура, XXXIX-2009 . Springer Science & Business Media. ISBN 978-3-642-16631-0 .
- ^ Jump up to: Перейти обратно: а б с Моррис А., Уиттакер Дж. и Болдинг Д. (2002). Мелкомасштабное картирование локусов заболеваний посредством раздробленного слитного моделирования генеалогий. Американский журнал генетики человека, 70 (3), 686–707. дои : 10.1086/339271
- ^ Jump up to: Перейти обратно: а б с Раннала, Б. (2001). Поиск генов, влияющих на восприимчивость к сложным заболеваниям в постгеномную эпоху. Американский журнал фармакогеномики , 1 (3), 203–221.
Источники [ править ]
Статьи [ править ]
- ^ Аренас, М. и Посада, Д. (2014) Моделирование полногеномной эволюции в рамках моделей гетерогенного замещения и сложных историй слияния нескольких видов. Молекулярная биология и эволюция 31 (5) : 1295–1301.
- ^ Аренас, М. и Посада, Д. (2007) Рекодон: объединенное моделирование кодирующих последовательностей ДНК с рекомбинацией, миграцией и демографией. БМК Биоинформатика 8 : 458
- ^ Аренас, М. и Посада, Д. (2010) Коалесцентное моделирование интракодонной рекомбинации. Генетика 184 (2) : 429–437.
- ^ Браунинг, С.Р. (2006)Картирование мультилокусных ассоциаций с использованием цепей Маркова переменной длины. Американский журнал генетики человека 78 : 903–913.
- ^ Корнюэ Ж.-М., Пудло П., Вейсье Ж., Дене-Гарсия А., Готье М., Леблуа Р., Марин Ж.-М., Эстоуп А. (2014) DIYABC v2.0: программное обеспечение сделать приблизительные выводы байесовских вычислений об истории популяции, используя однонуклеотидный полиморфизм, последовательность ДНК и микросателлитные данные. Биоинформатика ' 30' : 1187–1189.
- ^ Дегнан, Дж. Х. и Л. А. Солтер. 2005. Распределение генных деревьев в процессе слияния. Эволюция 59 (1): 24–37. PDF с сайта Coaltree.net/
- ^ Доннелли, П., Таваре, С. (1995) Слияния и генеалогическая структура в условиях нейтральности. Ежегодный обзор генетики 29 : 401–421.
- ^ Драммонд А., Сушард М.А., Се Д., Рамбо А. (2012). «Байесовская филогенетика с BEAUti и BEAST 1.7» . Молекулярная биология и эволюция . 29 (8): 1969–1973. дои : 10.1093/molbev/mss075 . ПМК 3408070 . ПМИД 22367748 .
- ^ Юинг, Г. и Хермиссон Дж. (2010), MSMS: программа объединенного моделирования, включая рекомбинацию, демографическую структуру и отбор в одном локусе Биоинформатика 26:15 ,
- ^ Хеллентал, Г., Стивенс М. (2006) msHOT: модификация MS-симулятора Хадсона для включения горячих точек кроссовера и конверсии генов. Биоинформатика AOP
- ^ Хадсон, Ричард Р. (1983a). «Тестирование модели нейтральных аллелей с постоянной скоростью с использованием данных белковой последовательности». Эволюция . 37 (1): 203–17. дои : 10.2307/2408186 . ISSN 1558-5646 . JSTOR 2408186 . ПМИД 28568026 .
- ^ Хадсон Р.Р. (1983b)Свойства модели нейтрального аллеля с внутригенной рекомбинацией. Теоретическая популяционная биология 23 : 183–201.
- ^ Хадсон Р.Р. (1991) Генеалогия генов и процесс слияния. Оксфордские обзоры по эволюционной биологии 7 : 1–44.
- ^ Хадсон Р.Р. (2002) Генерация выборок в соответствии с нейтральной моделью Райта-Фишера. Биоинформатика 18 : 337–338.
- ^ Кендал WS (2003) Модель экспоненциальной дисперсии распределения однонуклеотидных полиморфизмов человека. Мол Биол Эвол 20 : 579–590.
- Хейн Дж., Шируп М., Виуф К. (2004) Генеалогия, вариации и эволюция генов: учебник теории слияния Oxford University Press ISBN 978-0-19-852996-5
- ^ Каплан, Н.Л., Дарден, Т., Хадсон, Р.Р. (1988) Процесс слияния в моделях с отбором. Генетика 120 : 819–829.
- ^ Кингман, JFC (1982). «О генеалогии больших популяций». Журнал прикладной вероятности . 19 : 27–43. CiteSeerX 10.1.1.552.1429 . дои : 10.2307/3213548 . ISSN 0021-9002 . JSTOR 3213548 . S2CID 125055288 .
- ^ Кингман, JFC (2000) Истоки слияния 1974–1982. Генетика 156 : 1461–1463.
- ^ Леблуа Р., Эстоуп А. и Руссе Ф. (2009) IBDSim: компьютерная программа для моделирования генотипических данных в условиях изоляции на расстоянии. Ресурсы молекулярной экологии 9 : 107–109.
- ^ Лян Л., Зёлльнер С., Абекасис Г.Р. (2007) ГЕНОМ: симулятор всего генома на основе быстрого слияния. Биоинформатика 23 : 1565–1567.
- ^ Майлунд, Т., Шируп, М.Х., Педерсен, CNS, Мехленборг, П.Дж.М., Мэдсен, Дж.Н., Шоузер, Л. (2005) CoaSim: гибкая среда для моделирования генетических данных в рамках объединенных моделей BMC Bioinformatics 6 :252
- ^ Мёле М., Сагитов С. (2001) Классификация процессов слияния для моделей гаплоидного сменного населения The Annals of Probability 29 : 1547–1562
- ^ Моррис, А. П., Уиттакер, Дж. К., Болдинг, DJ (2002) Мелкомасштабное картирование локусов заболеваний посредством разрушенного слитного моделирования генеалогий. Американский журнал генетики человека 70 : 686–707.
- ^ Нойхаузер, К. , Кроне, С.М. (1997) Генеалогия образцов в моделях с отбором. Генетика 145 519–534.
- ^ Питман, Дж. (1999) Слияния с множественными столкновениями. Анналы вероятности 27 : 1870–1902.
- ^ Хардинг, Розалинда, М. 1998. Новые филогении: вводный взгляд на слияние. стр. 15–22, в Харви, П.Х., Браун, Эй.Дж.Л, Смит, Дж.М., Ни, С. Новое использование новых филогений. Издательство Оксфордского университета ( ISBN 0198549849 )
- ^ Розенберг, Н.А., Нордборг, М. (2002) Генеалогические деревья, теория слияния и анализ генетических полиморфизмов. Обзоры природы. Генетика 3 : 380–390.
- ^ Сагитов, С. (1999) Общее слияние с асинхронными слияниями наследственных линий Journal of Applied Probability 36 : 1116–1125
- ^ Швайнсберг, Дж. (2000) Коалесценты с одновременными множественными столкновениями Электронный журнал вероятностей 5 : 1–50
- ^ Слаткин, М. (2001) Моделирование генеалогии выбранных аллелей в популяциях переменного размера Genetic Research 145 : 519–534
- ^ Тадзима, Ф. (1983) Эволюционная связь последовательностей ДНК в конечных популяциях. Генетика 105 : 437–460.
- ^ Таваре С., Балдинг DJ, Гриффитс RC и Доннелли П. 1997. Определение времени слияния на основе данных последовательности ДНК. Генетика 145 : 505–518.
- ^ Международная рабочая группа по картам SNP. 2001. Карта вариаций генома человека, содержащая 1,42 миллиона однонуклеотидных полиморфизмов. Природа 409 : 928–933.
- ^ Зёлльнер С. и Притчард Дж. К. (2005) Картирование ассоциаций на основе слияния и точное картирование генетики локусов сложных признаков 169 : 1071–1092
- ^ Руссе Ф. и Леблуа Р. (2007) Анализ правдоподобия и приблизительного правдоподобия генетической структуры в линейной среде обитания: производительность и надежность для моделирования неправильной спецификации молекулярной биологии и эволюции 24 : 2730–2745
Книги [ править ]
- Хейн, Дж; Шируп М.Х. и Виуф К. Генеалогия, вариации и эволюция генов – учебник теории слияния . Издательство Оксфордского университета , 2005. ISBN 0-19-852996-1 .
- Нордборг, М. (2001) Введение в теорию коалесценции
- Глава 7 в книге Болдинг Д., Бишоп М., Каннингс К., редакторы, «Справочник по статистической генетике» . Уайли ISBN 978-0-471-86094-5
- Уэйкли Дж. (2006) Введение в теорию слияния Roberts & Co. ISBN 0-9747077-5-9 Сопровождающий веб-сайт с примерами глав.
- ^ Райс Ш. (2004). Эволюционная теория: математические и концептуальные основы . Sinauer Associates: Сандерленд, Массачусетс. См. особенно. гл. 3 для получения подробных выводов.
- Берестицкий Н. «Последние достижения в теории коалесценции» 2009 ENSAIOS Matematicos vol.16
- Бертуан Дж. «Процессы случайной фрагментации и коагуляции»., 2006. Кембриджские исследования по высшей математике, 102. Издательство Кембриджского университета , Кембридж, 2006. ISBN 978-0-521-86728-3 ;
- Питман Дж. «Комбинаторные случайные процессы» Спрингер (2003).
Внешние ссылки [ править ]
- EvoMath 3: Генетический дрейф и слияние, краткий обзор, с уравнениями вероятности генетического дрейфа и графиками моделирования.