Jump to content

Полногеномный комплексный анализ признаков

Полногеномный комплексный анализ признаков ( GCTA ) на основе генома Ограниченный метод максимального правдоподобия ( GREML ) — это статистический метод оценки наследственности в генетике, который количественно определяет общий аддитивный вклад набора генетических вариантов в признак. GCTA обычно применяется к распространенным однонуклеотидным полиморфизмам ( SNP ) на матрице генотипирования (или «чипе») и, таким образом, называется наследственностью «чипа» или «SNP».

GCTA работает путем прямой количественной оценки случайного генетического сходства неродственных людей и сравнения его с измеренным сходством по признаку; если два неродственных человека относительно схожи генетически и имеют схожие характеристики признаков, то измеренная генетика, вероятно, будет причинно влиять на этот признак, и корреляция может в некоторой степени сказать, насколько сильно. Это можно проиллюстрировать, построив график квадратов парных различий между людьми в зависимости от их предполагаемой степени родства. [1] GCTA делает ряд предположений при моделировании, и вопрос о том, будут ли эти предположения удовлетворены и когда они будут удовлетворены, продолжает обсуждаться.

Структура GCTA также была расширена несколькими способами: количественная оценка вклада нескольких категорий SNP (т.е. функциональное разделение); количественная оценка вклада взаимодействий гена и окружающей среды; количественная оценка вклада неаддитивных/нелинейных эффектов SNP; и двумерный анализ нескольких фенотипов для количественной оценки их генетической ковариации (конаследуемости или генетической корреляции ).

Оценки GCTA имеют значение для потенциальных открытий в рамках полногеномных ассоциативных исследований (GWAS), а также для дизайна и точности полигенных оценок . Оценки GCTA по распространенным вариантам обычно существенно ниже, чем другие оценки общей или узкой наследственности (например, на основе исследований близнецов или родства), что способствовало дискуссиям по поводу проблемы отсутствующей наследственности .

Оценка в биологии/животноводстве с использованием стандартных методов ANOVA / REML компонентов дисперсии, таких как наследственность, общая среда, материнские эффекты и т. д., обычно требует наличия особей известного родства, таких как родитель/ребенок; это часто недоступно или данные о родословных ненадежны, что приводит к невозможности применения методов или требует строгого лабораторного контроля всего разведения (что ставит под угрозу внешнюю достоверность всех оценок), а некоторые авторы отметили, что родство можно измерить непосредственно по генетическим маркерам. (а если бы индивидуумы были разумно связаны, то для статистической достоверности пришлось бы получить мало маркеров с экономической точки зрения), что привело Кермита Ритланда к предположению в 1996 году, что непосредственно измеренное парное родство можно сравнить с измерениями парного фенотипа (Ритланд 1996, «Метод на основе маркеров») . для выводов о количественном наследовании в естественных популяциях». Архивировано 11 июня 2009 г. в Wayback Machine. [2] ).

Поскольку в 2000-е годы затраты на секвенирование генома резко упали, стало возможным приобретение достаточного количества маркеров на достаточном количестве субъектов для надежных оценок с использованием очень отдаленных родственников людей. Раннее применение этого метода на людях было осуществлено Visscher et al. 2006 г. [3] /2007, [4] которые использовали маркеры SNP для оценки фактического родства братьев и сестер и оценки наследственности на основе прямой генетики. У людей, в отличие от первоначальных применений животных/растений, родство обычно известно с высокой степенью достоверности в «дикой популяции», а польза GCTA больше связана с избеганием предположений классических моделей поведенческой генетики и проверкой их результатов, а также разделением наследственности по Класс SNP и хромосомы. Первое использование собственно GCTA у людей было опубликовано в 2010 году, и было обнаружено, что 45% различий в росте человека можно объяснить включенными SNP. [5] [6] (Большие GWAS на высоте с тех пор подтвердили эту оценку. [7] Затем был описан алгоритм GCTA и его программная реализация, опубликованная в 2011 году. [8] С тех пор его использовали для изучения широкого спектра биологических, медицинских, психиатрических и психологических особенностей человека и вдохновили на множество вариантов подходов.

Преимущества

[ редактировать ]

Надежная наследственность

[ редактировать ]

Исследования близнецов и семей уже давно используются для оценки различий, объясняемых определенными категориями генетических и экологических причин. Среди широкого спектра изученных человеческих качеств обычно наблюдается минимальное влияние общей среды, значительное влияние общей среды и большой генетический компонент (в основном аддитивный), который составляет в среднем ~ 50%, а иногда и намного выше для некоторых черт, таких как как рост или интеллект. [9] Однако исследования близнецов и семей подвергались критике за то, что они полагались на ряд предположений, которые трудно или невозможно проверить, таких как предположение о равном окружении (что окружение монозиготных и дизиготных близнецов одинаково похоже), что не существует неправильная классификация зиготности (принятие идентичности за разнояйцевых и наоборот), что близнецы не являются репрезентативными для населения в целом и что не существует ассортативного спаривания . Нарушение этих допущений может привести к смещению оценок параметров как в сторону повышения, так и в сторону понижения. [10] (Эти дебаты и критика были особенно сосредоточены на наследственности IQ .)

Использование SNP или данных всего генома от несвязанных участников-испытуемых (при этом участники слишком родственные, обычно >0,025 или ~ четвертые двоюродные уровни сходства удаляются, а несколько основных компонентов включаются в регрессию, чтобы избежать и контролировать стратификацию популяции ) обходит много критических замечаний по поводу наследственности: близнецы часто вообще не участвуют в этом, не возникает вопросов о равном обращении, родство оценивается точно, а образцы отбираются из самых разных субъектов.

Помимо того, что данные SNP более устойчивы к нарушениям допущений исследования близнецов, их легче собирать, поскольку для этого не требуются редкие близнецы, и, таким образом, также можно оценить наследственность по редким признакам (с должной поправкой на систематическую ошибку установления ).

мощность ГВАС

[ редактировать ]

Оценки GCTA можно использовать для решения проблемы недостающей наследственности и разработки GWAS, которые будут давать статистически значимые совпадения по всему геному. Это делается путем сравнения оценки GCTA с результатами более мелких GWAS. Если GWAS с n=10k, использующий данные SNP, не обнаруживает каких-либо совпадений, но GCTA указывает на высокую наследственность, объясняемую SNP, то это означает, что задействовано большое количество вариантов ( полигенность ) и, следовательно, будут использоваться гораздо более крупные GWAS. потребуется точно оценить эффект каждого SNP и напрямую объяснить часть наследственности GCTA.

Недостатки

[ редактировать ]
  1. Ограниченный вывод: оценки GCTA по своей сути ограничены, поскольку они не могут оценить наследственность в широком смысле, как исследования близнецов / семей, поскольку они оценивают только наследственность, обусловленную SNP. Следовательно, хотя GCTA служат критической проверкой объективности исследований близнецов/семей, они не могут заменить их для оценки общего генетического вклада в признак.
  2. Существенные требования к данным: количество генотипированных SNP на человека должно исчисляться тысячами, а в идеале - сотнями тысяч для разумных оценок генетического сходства (хотя это уже не проблема для современных коммерческих чипов, которые по умолчанию составляют сотни тысяч или миллионы). маркеры); и число людей для достаточно стабильных оценок вероятной наследственности SNP должно быть как минимум n > 1000, а в идеале n > 10 000. [11] Напротив, исследования близнецов могут дать точные оценки при небольшом размере выборки.
  3. Вычислительная неэффективность: исходная реализация GCTA плохо масштабируется с увеличением размера данных ( ), поэтому даже если имеется достаточно данных для точных оценок GCTA, вычислительная нагрузка может оказаться неосуществимой. GCTA может подвергаться метаанализу как стандартный метаанализ с фиксированным эффектом, взвешенный по точности, [12] поэтому исследовательские группы иногда оценивают когорты или подмножества, а затем объединяют их метааналитически (ценой дополнительной сложности и некоторой потери точности). Это побудило создание более быстрых реализаций и вариантов алгоритмов, которые делают другие предположения, например, используют сопоставление моментов . [13]
  4. Потребность в необработанных данных: GCTA требует генетического сходства всех субъектов и, следовательно, их необработанной генетической информации; из соображений конфиденциальности данные отдельных пациентов передаются редко. GCTA нельзя использовать на основе сводной статистики, публично публикуемой многими проектами GWAS, и при объединении нескольких оценок GCTA метаанализ . необходимо выполнить
    Напротив, существуют альтернативные методы, которые работают на сводных данных, представленных GWAS, не требуя необработанных данных. [14] например, « регрессия оценки LD » [15] сравнивает статистику неравновесия по сцеплению (доступную из общедоступных наборов данных, таких как 1000 Genomes ) с общедоступными суммарными размерами эффекта, чтобы сделать вывод о наследственности и оценить генетические корреляции/перекрытия нескольких признаков. Институт Броуда управляет LD Hub, заархивированным 11 мая 2016 г. на Wayback Machine , который предоставляет общедоступный веб-интерфейс для> = 177 признаков с регрессией оценки LD. [16] Другой метод, использующий сводные данные, — HESS. [17]
  5. Доверительные интервалы могут быть неправильными или выходить за пределы диапазона наследуемости 0–1, а также весьма неточными из-за асимптотики. [18]
  6. Недооценка наследственности SNP: GCTA неявно предполагает, что все классы SNP, более редкие или более распространенные, более новые или старые, более или менее находящиеся в неравновесии по сцеплению, в среднем оказывают одинаковые эффекты; у людей более редкие и новые варианты имеют тенденцию иметь более серьезные и негативные последствия. [19] поскольку они представляют собой мутационную нагрузку, очищаемую отрицательным отбором . Как и в случае с ошибкой измерения, это приведет к смещению оценок GCTA в сторону недооценки наследственности.

Интерпретация

[ редактировать ]

GCTA обеспечивает объективную оценку общей дисперсии фенотипа, объясняемой всеми вариантами, включенными в матрицу родства (и любыми вариациями, коррелирующими с этими SNP). Эту оценку также можно интерпретировать как максимальную точность прогнозирования (R^2), которая может быть достигнута с помощью линейного предиктора, использующего все SNP в матрице родства. Последняя интерпретация особенно актуальна для разработки показателей полигенного риска, поскольку она определяет их максимальную точность. Оценки GCTA иногда ошибочно интерпретируются как оценки общей (или узкой, т.е. аддитивной) наследственности, но это не является гарантией эффективности метода. Оценки GCTA также иногда ошибочно интерпретируются как «нижние границы» наследственности в узком смысле, но это также неверно: во-первых, потому что оценки GCTA могут быть смещены (в том числе смещены вверх), если предположения модели нарушаются, и, во-вторых, потому что по определению (и когда предположения модели выполняются), GCTA может предоставить объективную оценку наследственности в узком смысле, если все причинные варианты включены в матрицу родства. Таким образом, интерпретация оценки GCTA в отношении наследственности в узком смысле зависит от вариантов, используемых для построения матрицы родства.

Чаще всего GCTA используется с единой матрицей родства, построенной на основе общих SNP, и не учитывает (или не полностью учитывает) вклад следующих факторов:

  1. Любые редкие или низкочастотные варианты, которые не генотипированы/вменены напрямую.
  2. Любые нелинейные, доминантные или эпистатические генетические эффекты. Обратите внимание, что GCTA можно расширить для оценки вклада этих эффектов с помощью более сложных матриц родства.
  3. Эффекты взаимодействия гена и окружающей среды. Обратите внимание, что GCTA можно расширить для оценки вклада взаимодействий GxE, когда E известно, путем включения дополнительных компонентов дисперсии.
  4. Структурные варианты, которые обычно не генотипируются и не вменяются.
  5. Ошибка измерения: GCTA не моделирует какую-либо неопределенность или ошибку измеряемого признака.

GCTA делает несколько модельных допущений и может давать смещенные оценки при следующих условиях:

  1. Распределение причинных вариантов систематически отличается от распределения вариантов, включенных в матрицу родства (даже если все причинные варианты включены в матрицу родства). Например, если причинные варианты систематически встречаются с более высокой/низкой частотой или с более высокой/низкой корреляцией, чем все генотипированные варианты. Это может привести к смещению как вверх, так и вниз, в зависимости от взаимосвязи между причинными вариантами и используемыми вариантами. Для учета этих сдвигов в распределении были предложены различные расширения GCTA (например, GREML-LDMS).
  2. Стратификация населения не полностью учитывается ковариатами. GCTA (в частности, GREML) учитывает стратификацию путем включения ковариат с фиксированным эффектом, обычно главных компонентов. Если эти ковариаты не полностью отражают стратификацию, оценка GCTA будет смещена, как правило, в сторону повышения. Учет современной популяционной структуры особенно сложен при изучении редких вариантов.
  3. В данных присутствует остаточное генетическое или экологическое родство. GCTA предполагает однородную популяцию с независимым и одинаково распределенным экологическим термином. Это предположение нарушается, если в данные включены связанные лица и/или лица с существенно общим окружением. В этом случае оценка GCTA дополнительно будет учитывать вклад любой генетической вариации, коррелирующей с генетическим родством: либо прямых генетических эффектов, либо коррелирующей среды.
  4. Наличие «косвенных» генетических эффектов. Когда генетические варианты, присутствующие в матрице родства, коррелируют с вариантами, присутствующими у других людей, которые влияют на окружение участника, эти эффекты также будут отражены в оценке GCTA. Например, если варианты, унаследованные участником от матери, повлияли на его фенотип через материнское окружение, то эффект этих вариантов будет включен в оценку GCTA, даже если он является «косвенным» (т.е. опосредованным родительской генетикой). Это можно интерпретировать как предвзятость в сторону повышения, поскольку такие «косвенные» эффекты не являются строго причинными (их изменение у участника не приведет к ожидаемому изменению фенотипа).

Реализации

[ редактировать ]
ГТА
Оригинальный автор(ы) Цзянь Ян
Первоначальный выпуск 30 августа 2010 г .; 13 лет назад ( 30.08.2010 ) [20]
Стабильный релиз(ы)
1.26.0 / 22 июня 2016 г .; 8 лет назад ( 22 июня 2016 ) [20]
Предварительный выпуск(ы)
1.93.2бета / 8 мая 2020 г .; 4 года назад ( 08.05.2020 ) [20]
Написано в С++
Операционная система Линукс
macOS (не полностью протестировано)
Windows (не полностью протестировано) [20]
Платформа x86_64
Доступно в Английский
Тип Генетика
Лицензия GPL v3 (исходный код)
MIT (исполняемые файлы) [20]
Веб-сайт ЦНСгеномика /программное обеспечение /gcta /
По состоянию на 8 апреля 2021 г.

Оригинальный пакет программного обеспечения «GCTA» используется наиболее широко; его основная функциональность охватывает оценку GREML наследственности SNP, но включает в себя и другие функции:

  • Оцените генетическое родство по полногеномным SNP;
  • Оцените коэффициент инбридинга по полногеномным SNP;
  • Оцените дисперсию, объясняемую всеми аутосомными SNP;
  • Разделите генетическую дисперсию на отдельные хромосомы;
  • Оцените генетическую изменчивость, связанную с Х-хромосомой;
  • Проверить влияние дозовой компенсации на генетическую изменчивость Х-хромосомы ;
  • Прогнозировать аддитивные генетические эффекты по всему геному для отдельных субъектов и для отдельных SNP;
  • Оценить структуру LD, включающую список целевых SNP;
  • Моделировать данные GWAS на основе наблюдаемых данных генотипа;
  • Преобразование Illumina необработанных данных генотипа PLINK ; в формат
  • Условный и совместный анализ сводной статистики GWAS без данных о генотипах индивидуального уровня
  • Оценка генетической корреляции между двумя признаками (заболеваниями) с использованием данных SNP
  • смешанной линейной модели Анализ ассоциации

Другие реализации и варианты алгоритмов включают:

См. также

[ редактировать ]
  1. ^ Рисунок 3 Янга и др., 2010 г. или Рисунок 3 Ritland & Ritland 1996 г.
  2. ^ см. также Ritland 1996b, «Оценщики парного родства и индивидуальных коэффициентов инбридинга». Архивировано 16 января 2017 г. в Wayback Machine ; Ритланд и Ритланд, 1996, «Выводы о количественном наследовании, основанные на естественной структуре популяции желтого обезьяньего цветка Mimulus Guttatus ». Архивировано 24 сентября 2016 г. в Wayback Machine ; Линч и Ритланд 1999, «Оценка парного родства с молекулярными маркерами» ; Ритланд 2000, «Родство, выведенное на основе маркеров, как инструмент обнаружения наследственности в природе». Архивировано 25 сентября 2016 г. в Wayback Machine ; Томас 2005, «Оценка генетических взаимоотношений с использованием молекулярных маркеров и их эффективность при оценке наследственности в природных популяциях»
  3. ^ Виссер и др. 2006, «Оценка наследственности без предположений на основе полногеномной идентичности по происхождению между полными братьями и сестрами»
  4. ^ Виссер и др. 2007, «Разделение генома генетических вариаций по росту среди 11 214 пар братьев и сестер»
  5. ^ «Общие SNP объясняют большую часть наследственности человеческого роста» , Ян и др., 2010 г.
  6. ^ « Комментарий к статье «Общие SNP объясняют большую часть наследственности человеческого роста» Янга и др. (2010)» , Виссер и др., 2010 г.
  7. ^ «Определение роли общих вариаций в геномной и биологической архитектуре роста взрослого человека» , Вуд и др., 2014 г.
  8. ^ «GCTA: инструмент для полногеномного анализа сложных признаков» , Ян и др., 2011 г.
  9. ^ «Метаанализ наследственности человеческих черт, основанный на пятидесятилетних исследованиях близнецов» , Полдерман и др., 2015 г.
  10. ^ Барнс, Дж. К.; Райт, Джон Пол; Бутвелл, Брайан Б.; Шварц, Джозеф А.; Коннолли, Эрик Дж.; Неделец, Джозеф Л.; Бивер, Кевин М. (01 ноября 2014 г.). «Демонстрация достоверности двойных исследований в криминологии» . Криминология . 52 (4): 588–626. дои : 10.1111/1745-9125.12049 . ISSN   1745-9125 .
  11. ^ «GCTA в конечном итоге предоставит прямые ДНК-тесты для количественных генетических результатов, основанных на исследованиях близнецов и усыновлений. Одна проблема заключается в том, что для предоставления надежных оценок требуются многие тысячи людей. Другая проблема заключается в том, что требуется больше SNP, чем даже миллион SNP, генотипированных на современные микрочипы SNP, поскольку существует множество вариаций ДНК, не учтенных этими SNP. В результате GCTA не может оценить всю наследственность, возможно, только половину наследственности. Первые отчеты об анализах GCTA оценивают наследственность примерно в половину оценок наследственности у близнецов. и исследования усыновления в отношении роста (Ли, Рэй, Годдард и Виссер, 2011; Ян и др., 2010; Ян, Манолио и др., 2011) и интеллекта (Дэвис и др., 2011), стр. 110, Поведенческая генетика . , Пломин и др., 2012 г.
  12. ^ «Метаанализ результатов GREML из нескольких когорт» , Ян, 2015 г.
  13. ^ Ге, Тянь; Чен, Цзя-Йен; Нил, Бенджамин М.; Сабунку, Мерт Р.; Смоллер, Джордан В. (2016). «Общефеномный анализ наследственности Биобанка Великобритании». bioRxiv   10.1101/070177 .
  14. ^ Пасанюк и Прайс, 2016, «Анализ генетики сложных признаков с использованием сводной статистики ассоциаций»
  15. ^ Булик-Салливан, Британская Колумбия; Лох, пиар; Финукейн, Х.; Рипке, С.; Ян, Дж.; Рабочая группа по шизофрении Консорциума психиатрической геномики; Паттерсон, Н.; Дейли, MJ; Цена, Алабама; Нил, Б.М. (2015). «Регрессия баллов LD отличает смешение от полигенности в исследованиях общегеномных ассоциаций» . Природная генетика . 47 (3): 291–295. дои : 10.1038/ng.3211 . ПМЦ   4495769 . ПМИД   25642630 .
  16. ^ «LD Hub: централизованная база данных и веб-интерфейс для регрессии оценок LD, которая максимизирует потенциал данных GWAS суммарного уровня для анализа наследственности SNP и генетической корреляции» , Чжэн и др., 2016 г.
  17. ^ «Сопоставление генетической архитектуры 30 сложных признаков на основе сводных данных ассоциации» , Ши и др., 2016 г.
  18. ^ Швайгер, Регев; Кауфман, Шачар; Лааксонен, Рейо; Клебер, Маркус Э.; Марш, Винфрид; Эскин, Элеазар; Россет, Шэрон; Гальперин, Эран (2 июня 2016 г.). «Быстрое и точное построение доверительных интервалов наследственности» . Американский журнал генетики человека . 98 (6): 1181–1192. дои : 10.1016/j.ajhg.2016.04.016 . ПМК   4908190 . ПМИД   27259052 .
  19. ^ «Зависимая от неравновесия по сцеплению архитектура сложных признаков человека демонстрирует действие отрицательного отбора» , Газал и др., 2017 г.
  20. ^ Перейти обратно: а б с д и «Документ ГТА» . cnsgenomics.com . Проверено 8 апреля 2021 г.
  21. ^ «Быстрые линейные смешанные модели для полногеномных исследований ассоциаций» , Липперт, 2011 г.
  22. ^ «Улучшенные линейные смешанные модели для полногеномных исследований ассоциаций» , Листгартен и др., 2012 г.
  23. ^ «Преимущества и подводные камни применения методов ассоциации смешанных моделей» , Ян и др., 2014 г.
  24. ^ «Многомаркерная смешанная модель лассо для картирования ассоциаций с коррекцией структуры населения» , Ракитч и др., 2012 г.
  25. ^ «Эффективный полногеномный анализ смешанной модели для исследований ассоциаций» , Чжоу и Стивенс, 2012 г.
  26. ^ «Модель компонента дисперсии для учета структуры выборки в полногеномных исследованиях ассоциаций» , Канг и др., 2012 г.
  27. ^ «Расширенный комплексный анализ признаков» , Грей и др., 2012 г.
  28. ^ «Расширенный комплексный анализ признаков региональной наследственности для графических процессоров и традиционной параллельной архитектуры» , Себаманос и др., 2012 г.
  29. ^ «Эффективный анализ байесовской смешанной модели увеличивает силу ассоциации в больших когортах» , Ло и др., 2012 г.
  30. ^ «Сопоставление генетической архитектуры шизофрении и других сложных заболеваний с использованием быстрого анализа дисперсионных компонентов» , Ло и др., 2015; см. также «Контраст региональной архитектуры шизофрении и других сложных заболеваний с использованием анализа компонентов быстрой дисперсии» , Ло и др., 2015 г.
  31. ^ «Смешанные модели для метаанализа и секвенирования» , Булик-Салливан, 2015 г.
  32. ^ «Массово ускоренный полногеномный анализ наследственности (MEGHA)» , Ge et al 2015
  33. ^ Скорость и др. 2016, «Переоценка наследственности SNP в сложных чертах человека»
  34. ^ Эванс и др. 2017, «Узкая оценка наследственности сложных признаков с использованием информации об идентичности по происхождению».

Дальнейшее чтение

[ редактировать ]
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 5262232e78b07a8c08c48029368612a1__1717596840
URL1:https://arc.ask3.ru/arc/aa/52/a1/5262232e78b07a8c08c48029368612a1.html
Заголовок, (Title) документа по адресу, URL1:
Genome-wide complex trait analysis - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)