Д Тадзимы
D Тадзимы популяционного генетического теста, — это статистика созданная и названная в честь японского исследователя Фумио Тадзимы . [ 1 ] D Тадзимы рассчитывается как разница между двумя показателями генетического разнообразия: средним количеством парных различий и количеством участков сегрегации, каждый из которых масштабируется так, что ожидается, что они будут одинаковыми в нейтрально развивающейся популяции постоянного размера.
Цель теста Тадзимы D — отличить последовательность ДНК , развивающуюся случайным образом («нейтрально»), от последовательности, развивающейся в результате неслучайного процесса, включая направленный отбор или балансирующий отбор , демографическое расширение или сокращение, генетический автостоп или интрогрессию . Случайно развивающаяся последовательность ДНК содержит мутации, не влияющие на приспособленность и выживаемость организма. Случайно развивающиеся мутации называются «нейтральными», а селекционные мутации — «ненейтральными». Например, ожидается, что мутация, вызывающая внутриутробную смерть или тяжелое заболевание, будет находиться в стадии отбора. В популяции в целом частота нейтральной мутации колеблется случайным образом (т.е. процент особей в популяции с мутацией меняется от одного поколения к другому, и этот процент с одинаковой вероятностью будет увеличиваться или уменьшаться) вследствие генетического дрейфа. .
Сила генетического дрейфа зависит от размера популяции. Если популяция имеет постоянный размер и постоянную скорость мутаций, популяция достигнет равновесия частот генов. Это равновесие имеет важные свойства, в том числе количество мест сегрегации. и количество различий нуклеотидов между выбранными парами (это называется парными различиями ). Для стандартизации парных различий используется среднее или «среднее» количество парных различий. Это просто сумма попарных разностей, деленная на количество пар, и часто обозначается .
Целью теста Тадзимы является выявление последовательностей, которые не соответствуют модели нейтральной теории, находящейся в равновесии между мутацией и генетическим дрейфом . Чтобы провести тест на последовательности ДНК или гене, вам необходимо секвенировать гомологичную ДНК как минимум 3 человек. Статистика Тадзимы вычисляет стандартизированную меру общего количества сайтов сегрегации (это полиморфные сайты ДНК ) в выбранной ДНК и среднее количество мутаций между парами в образце. Обе величины, значения которых сравниваются, представляют собой методом моментов оценку тета-генетического параметра популяции , поэтому ожидается, что они будут равны одному и тому же значению. Если эти два числа различаются лишь настолько, насколько можно было бы случайно ожидать, то нулевую гипотезу нейтральности нельзя отвергнуть. В противном случае нулевая гипотеза нейтральности отвергается.
Научное объяснение
[ редактировать ]Согласно модели нейтральной теории, для популяции постоянного размера в состоянии равновесия:
для диплоидной ДНК и
для гаплоида.
В приведенных выше формулах S — количество участков сегрегации, n — количество образцов, N — эффективный размер популяции, – частота мутаций в исследуемом геномном локусе, и я - индекс суммирования. Но отбор , демографические колебания и другие нарушения нейтральной модели (включая неоднородность ставок и интрогрессию) изменят ожидаемые значения и , так что от них больше не ожидается равенства. Разница в ожиданиях этих двух переменных (которые могут быть положительными или отрицательными) является сутью статистики D- теста Тадзимы.
рассчитывается путем взятия разницы между двумя оценками параметра популяционной генетики . Эта разница называется , а D рассчитывается путем деления квадратным корнем его дисперсии (его стандартное отклонение , по определению).
Фумио Тадзима с помощью компьютерного моделирования продемонстрировал, что Описанную выше статистику можно смоделировать с использованием бета-распределения . Если значение для выборки последовательностей находится за пределами доверительного интервала , то можно отвергнуть нулевую гипотезу нейтральной мутации для рассматриваемой последовательности. Однако в реальных условиях следует быть осторожным, поскольку прошлые изменения численности населения (например, узкое место в численности населения ) могут исказить ценность статистика. [ 2 ]
Математические детали
[ редактировать ]где
и представляют собой две оценки ожидаемого числа однонуклеотидных полиморфизмов (SNP) между двумя последовательностями ДНК в рамках модели нейтральной мутации в размере выборки. от эффективной численности населения .
Первая оценка представляет собой среднее количество SNP, обнаруженных в попарные сравнения последовательностей в образце,
Вторая оценка получена из ожидаемого значения , общее количество полиморфизмов в выборке
Тадзима определяет , тогда как Хартл и Кларк используют другой символ для определения того же параметра .
Пример
[ редактировать ]Предположим, вы генетик, изучающий неизвестный ген. В рамках вашего исследования вы получаете образцы ДНК четырех случайных людей (плюс вы сами). Для простоты вы помечаете свою последовательность строкой нулей, а для остальных четырех человек вы ставите ноль, если их ДНК такая же, как ваша, и единицу, если она отличается. (Для этого примера конкретный тип различия не важен.)
1 2 Position 12345 67890 12345 67890 Person Y 00000 00000 00000 00000 Person A 00100 00000 00100 00010 Person B 00000 00000 00100 00010 Person C 00000 01000 00000 00010 Person D 00000 01000 00100 00010
Обратите внимание на четыре полиморфных сайта (позиции, в которых кто-то отличается от вас, под номерами 3, 7, 13 и 19 выше). Теперь сравните каждую пару последовательностей и получите среднее количество полиморфизмов между двумя последовательностями. «пять, выберите два» (десять). Необходимо провести сравнение
Человек Y — это ты!
Ты против А: 3 полиморфизма
Person Y 00000 00000 00000 00000 Person A 00100 00000 00100 00010Ты против Б: 2 полиморфизма
Person Y 00000 00000 00000 00000 Person B 00000 00000 00100 00010Вы против C: 2 полиморфизма
Person Y 00000 00000 00000 00000 Person C 00000 01000 00000 00010You vs D: 3 полиморфизма
Person Y 00000 00000 00000 00000 Person D 00000 01000 00100 00010A против B: 1 полиморфизм
Person A 00100 00000 00100 00010 Person B 00000 00000 00100 00010A против C: 3 полиморфизма
Person A 00100 00000 00100 00010 Person C 00000 01000 00000 00010A против D: 2 полиморфизма
Person A 00100 00000 00100 00010 Person D 00000 01000 00100 00010B против C: 2 полиморфизма
Person B 00000 00000 00100 00010 Person C 00000 01000 00000 00010B против D: 1 полиморфизм
Person B 00000 00000 00100 00010 Person D 00000 01000 00100 00010C против D: 1 полиморфизм
Person C 00000 01000 00000 00010 Person D 00000 01000 00100 00010
Среднее число полиморфизмов составляет .
Вторая оценка равновесия: M=S/a1
Так как было n=5 особей и S=4 места сегрегации.
а1=1/1+1/2+1/3+1/4=2,08
М =4/2,08=1,92
Описанная выше строчная буква d представляет собой разницу между этими двумя числами — среднее количество полиморфизмов, обнаруженных при парном сравнении (2) и M . Таким образом .
Поскольку это статистический тест, вам необходимо оценить значимость этого значения. Ниже приводится обсуждение того, как это сделать.
Интерпретация D Тадзимы
[ редактировать ]Отрицательное значение D Тадзимы означает превышение низкочастотных полиморфизмов по сравнению с ожидаемым, что указывает на увеличение размера популяции (например, после узкого места или выборочной проверки). Положительный показатель D Тадзимы означает низкие уровни как низкочастотных, так и высокочастотных полиморфизмов, указывая на уменьшение размера популяции и/или балансирующий отбор. Однако вычисление обычного «значения p», связанного с любым значением D Тадзимы, полученным из выборки, невозможно. Вкратце, это связано с тем, что невозможно описать распределение статистики, независимое от истинного и неизвестного тета-параметра (основная величина не существует). Чтобы обойти эту проблему, было предложено несколько вариантов.
Значение D Тадзимы | Математическая причина | Биологическая интерпретация 1 | Биологическая интерпретация 2 |
---|---|---|---|
D Тадзимы = 0 | Тета-Пи эквивалент Тета-к (Наблюдаемое = Ожидаемое). Средняя гетерозиготность = количество участков сегрегации. | Наблюдаемые вариации аналогичны ожидаемым вариациям | Популяция развивается в соответствии с равновесием мутационного дрейфа. Нет доказательств выбора |
D<0 Тадзимы | Тета-Пи меньше, чем Тета-к (Наблюдаемое<Ожидаемое). Меньше гаплотипов (более низкая средняя гетерозиготность), чем количество разделяющихся сайтов. | Обилие редких аллелей (избыток редких аллелей) | Недавнее селективное исследование, расширение популяции после недавнего узкого места, связь с измененным геном. |
D>0 Тадзимы | Тета-Пи больше, чем Тета-к (Наблюдаемое > Ожидаемое). Больше гаплотипов (больше средней гетерозиготности), чем количество разделяющихся сайтов. | Редких аллелей мало (отсутствие редких аллелей) | Балансирующий отбор, внезапное сокращение численности населения |
Однако такую интерпретацию следует делать только в том случае, если значение D считается статистически значимым.
Определение значимости
[ редактировать ]При выполнении статистического теста, такого как D Тадзимы, критический вопрос заключается в том, является ли значение, рассчитанное для статистики, неожиданным для нулевого процесса . Таджимы Для D ожидается, что величина статистики будет увеличиваться по мере того, как данные отклоняются от закономерности, ожидаемой для популяции, развивающейся в соответствии со стандартной коалесцентной моделью.
Таджима (1989) обнаружил эмпирическое сходство между распределением тестовой статистики и бета-распределением с нулевым средним значением и единицей дисперсии. Он оценил тету, взяв оценщик Уоттерсона и разделив его на количество выборок. Моделирование показало, что это распределение консервативно. [ 3 ] и теперь, когда вычислительная мощность более доступна, это приближение используется не часто.
Более тонкий подход был представлен в статье Simonsen et al. [ 4 ] Эти авторы выступали за построение доверительного интервала для истинного значения тета, а затем выполнение поиска по сетке на этом интервале, чтобы получить критические значения, при которых статистика является значимой ниже определенного значения альфа. Альтернативный подход заключается в том, что исследователь выполняет поиск по сетке значений тета, которые, по его мнению, являются правдоподобными на основе его знаний об изучаемом организме. Байесовские подходы являются естественным продолжением этого метода.
Очень грубое эмпирическое правило значимости заключается в том, что значения больше +2 или меньше -2, скорее всего, будут значимыми. Это правило основано на обращении к асимптотическим свойствам некоторых статистических данных, и поэтому +/- 2 на самом деле не представляет собой критическое значение для теста значимости.
Наконец, часто выполняется полногеномное сканирование D Тадзимы в скользящих окнах вдоль хромосомного сегмента. При таком подходе те регионы, значение D которых сильно отклоняется от основной массы эмпирического распределения всех таких окон, считаются значимыми. Этот метод не оценивает значимость в традиционном статистическом смысле, но является достаточно мощным, учитывая большую геномную область, и вряд ли позволит ошибочно идентифицировать интересные области хромосомы, если сообщаются только о наибольших выбросах.
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Таджима, Ф. (ноябрь 1989 г.). «Статистический метод проверки гипотезы нейтральной мутации по полиморфизму ДНК» . Генетика . 123 (3): 585–95. дои : 10.1093/генетика/123.3.585 . ПМЦ 1203831 . ПМИД 2513255 .
- ^ Элгвин, Торе О.; Трир, Кассандра Н.; Торресен, Оле К.; Хаген, Ингерид Дж.; Лиен, Сигбьёрн; Недербрагт, Александр Дж.; Равинет, Марк; Йенсен, Хенрик; Сэтре, Гленн-Питер (2 июня 2017 г.). «Геномный мозаицизм гибридного видообразования» . Достижения науки . 3 (6): e1602996. Бибкод : 2017SciA....3E2996E . дои : 10.1126/sciadv.1602996 . eISSN 2375-2548 . ПМК 5470830 . ПМИД 28630911 .
- ^ Фу, YX.; Ли, В.Х. (март 1993 г.). «Статистические тесты нейтральности мутаций» . Генетика . 133 (3): 693–709. дои : 10.1093/генетика/133.3.693 . ПМК 1205353 . ПМИД 8454210 .
- ^ Симонсен, КЛ.; Черчилль, Джорджия; Аквадро, CF. (сентябрь 1995 г.). «Свойства статистических тестов нейтральности данных о полиморфизме ДНК» . Генетика . 141 (1): 413–29. дои : 10.1093/генетика/141.1.413 . ПМЦ 1206737 . ПМИД 8536987 .
Примечания
[ редактировать ]- Хартл, Дэниел Л.; Кларк, Эндрю Г. (2007). Принципы популяционной генетики (4-е изд.). Синауэр Ассошиэйтс. ISBN 978-0878933082 .
Внешние ссылки
[ редактировать ]Вычислительные инструменты:
- ДНКсп (Windows)
- Варискан (Mac OS X, Linux, Windows)
- Арлекин (Windows)
- Онлайн-просмотр значений D Тадзимы в геноме человека
- Пакет Python3 для вычисления D Тадзимы
- МЕГА4 или МЕГА5
- Bio::PopGen::Статистика в BioPerl
- Видеообъяснение D Таджимы и его применения к последовательностям ДНК доступно в Интернете.