Анализ сети взвешенной корреляции
Анализ сети взвешенной корреляции взвешенной совместной экспрессии генов сети , также известный как анализ (WGCNA), является широко используемым методом интеллектуального анализа данных , особенно для изучения биологических сетей, основанных на парных корреляциях между переменными. Хотя его можно применять к большинству наборов многомерных данных, он наиболее широко используется в геномных приложениях. Он позволяет определять модули (кластеры), внутримодульные концентраторы и сетевые узлы с учетом членства в модулях, изучать взаимосвязи между модулями совместного выражения и сравнивать сетевую топологию разных сетей (дифференциальный сетевой анализ). WGCNA может использоваться как метод сокращения данных (связанный с косвенным факторным анализом ), как метод кластеризации (нечеткая кластеризация), как метод выбора признаков (например, как метод скрининга генов), как основа для интеграции дополнительных (геномных) данных ( на основе взвешенных корреляций между количественными переменными), а также в качестве метода исследования данных . [1] Хотя WGCNA включает в себя традиционные методы исследования данных, ее интуитивно понятный сетевой язык и структура анализа превосходят любые стандартные методы анализа. Поскольку он использует сетевую методологию и хорошо подходит для интеграции дополнительных наборов геномных данных, его можно интерпретировать как метод системного биологического или системного генетического анализа данных. Выбирая внутримодульные концентраторы в модулях консенсуса, WGCNA также дает начало сетевым методам метаанализа . [2]
История
[ редактировать ]Метод WGCNA был разработан Стивом Хорватом , профессором генетики человека в Медицинской школе Дэвида Геффена в Калифорнийском университете в Лос-Анджелесе и биостатистики в Школе общественного здравоохранения Калифорнийского университета в Лос-Анджелесе , и его коллегами из Калифорнийского университета в Лос-Анджелесе, а также (бывшими) сотрудниками лаборатории (в частности, Питером Лангфельдер, Бинь Чжан, Цзюнь Донг). Большая часть работы возникла в результате сотрудничества с исследователями-прикладниками. В частности, сети взвешенной корреляции были разработаны в ходе совместных дискуссий с исследователями рака Полом Мишелем , Стэнли Ф. Нельсоном и нейробиологами Дэниелом Х. Гешвиндом и Майклом К. Олдхэмом, согласно разделу благодарностей в. [1]
Сравнение взвешенных и невзвешенных корреляционных сетей
[ редактировать ]Сеть взвешенной корреляции можно интерпретировать как частный случай взвешенной сети , сети зависимостей или корреляционной сети. Анализ сети взвешенной корреляции может быть привлекательным по следующим причинам:
- Конструкция сети (основанная на мягком пороговом значении коэффициента корреляции ) сохраняет непрерывный характер базовой корреляционной информации. Например, сети взвешенной корреляции, построенные на основе корреляций между числовыми переменными, не требуют выбора жесткого порога. Дихотомизация информации и (жесткое) пороговое определение могут привести к потере информации. [3]
- Построение сети дает очень надежные результаты по отношению к различным вариантам мягкого порога. [3] Напротив, результаты, основанные на невзвешенных сетях, построенных путем определения порога меры парной ассоциации, часто сильно зависят от порога.
- Сети взвешенной корреляции облегчают геометрическую интерпретацию, основанную на угловой интерпретации корреляции, глава 6. [4]
- Полученную сетевую статистику можно использовать для улучшения стандартных методов интеллектуального анализа данных, таких как кластерный анализ, поскольку меры (не)сходства часто могут быть преобразованы во взвешенные сети; [5] см. главу 6 в. [4]
- WGCNA предоставляет мощную статистику сохранности модулей, которую можно использовать для количественной оценки сходства с другим состоянием. Также статистика сохранения модулей позволяет изучить различия между модульной структурой сетей. [6]
- Взвешенные сети и корреляционные сети часто можно аппроксимировать «факторизуемыми» сетями. [4] [7] Таких приближений часто трудно достичь для разреженных невзвешенных сетей. Таким образом, взвешенные (корреляционные) сети допускают экономную параметризацию (с точки зрения модулей и членства в модулях) (главы 2, 6 в [1] ) и. [8]
Метод
[ редактировать ]Во-первых, определяется мера сходства совместной экспрессии генов , которая используется для определения сети. Мы обозначаем меру сходства совместной экспрессии генов пары генов i и j через . Во многих исследованиях совместной экспрессии абсолютное значение корреляции используется как беззнаковая мера сходства совместной экспрессии.
где профили экспрессии генов и состоят из экспрессии генов i и j в нескольких образцах. Однако использование абсолютного значения корреляции может запутать биологически значимую информацию, поскольку не проводится различие между репрессией и активацией генов. Напротив, в подписанных сетях сходство между генами отражает знак корреляции профилей их экспрессии. Определить знаковую меру совместной экспрессии между профилями экспрессии генов. и , можно использовать простое преобразование корреляции:
Как беззнаковая мера , знаковое подобие принимает значение от 0 до 1. Обратите внимание, что беззнаковое сходство между двумя противоположно экспрессируемыми генами ( ) равно 1, тогда как для знакового сходства оно равно 0. Аналогично, хотя беззнаковая мера совместной экспрессии двух генов с нулевой корреляцией остается нулевой, знаковое сходство равно 0,5.
Далее матрица смежности (сеть), , используется для количественной оценки того, насколько сильно гены связаны друг с другом. определяется путем определения порога матрицы сходства совместного выражения . «Жесткое» пороговое определение (дихотомизация) меры сходства приводит к созданию невзвешенной сети совместной экспрессии генов. В частности, невзвешенная смежность сети определяется как 1, если и 0 в противном случае.Поскольку жесткая пороговая обработка кодирует генные связи в двоичном виде, она может быть чувствительной к выбору порогового значения и приводить к потере информации о совместной экспрессии. [3] Непрерывный характер информации совместного выражения можно сохранить, используя мягкую пороговую обработку, что приводит к взвешиванию сети. В частности, WGCNA использует следующую функцию мощности для оценки силы соединения:
,
где сила — параметр мягкого порога. Значения по умолчанию и используются для неподписанных и подписанных сетей соответственно. Альтернативно, может быть выбран с использованием критерия безмасштабной топологии , который сводится к выбору наименьшего значения так, что достигается приблизительная безмасштабная топология. [3]
С , взвешенная смежность сети линейно связана со сходством совместного выражения в логарифмическом масштабе. Обратите внимание, что большая мощность преобразует высокое сходство в высокую степень смежности, в то время как низкое сходство приближается к 0. Поскольку эта процедура мягкого порога, примененная к матрице парной корреляции, приводит к взвешенной матрице смежности, последующий анализ называется анализом сети взвешенной совместной экспрессии генов.
Важным шагом в модульно-ориентированном анализе является кластеризация генов в сетевые модули с использованием меры сетевой близости. Грубо говоря, пара генов имеет высокую близость, если она тесно связана между собой. По соглашению максимальная близость между двумя генами равна 1, а минимальная близость равна 0. Обычно WGCNA использует меру топологического перекрытия (TOM) в качестве близости. [9] [10] которое также можно определить для взвешенных сетей. [3] TOM сочетает в себе соседство двух генов и силу связи, которую эти два гена разделяют с другими генами «третьих лиц». TOM — это очень надежный показатель сетевой взаимосвязанности (близости). Эта близость используется в качестве входных данных для иерархической кластеризации средних связей. Модули определяются как ветви результирующего дерева кластеров с использованием подхода динамического обрезки ветвей. [11] Затем гены внутри данного модуля суммируются с помощью модуля eiggenene , который можно рассматривать как лучшее обобщение данных об экспрессии стандартизированного модуля. [4] Собственный модуль данного модуля определяется как первый главный компонент стандартизированных профилей экспрессии. Собственные гены определяют надежные биомаркеры, [12] и могут использоваться в качестве функций в сложных моделях машинного обучения , таких как байесовские сети . [13] Чтобы найти модули, которые относятся к интересующему клиническому признаку, собственные гены модулей коррелируют с интересующим клиническим признаком, что приводит к измерению значимости собственных генов. Собственные гены можно использовать в качестве признаков в более сложных прогнозных моделях, включая деревья решений и байесовские сети. [12] Можно также построить сети коэкспрессии между собственными генами модулей (сети собственных генов), т.е. сети, узлами которых являются модули. [14] Чтобы идентифицировать внутримодульные гены-концентраторы внутри данного модуля, можно использовать два типа мер связности. Первый, называемый , определяется на основе корреляции каждого гена с соответствующим собственным модулем. Второй, называемый kIN, определяется как сумма смежностей по отношению к генам модуля. На практике эти две меры эквивалентны. [4] Чтобы проверить, сохраняется ли модуль в другом наборе данных, можно использовать различную сетевую статистику, например . [6]
Приложения
[ редактировать ]WGCNA широко используется для анализа данных экспрессии генов (т.е. данных транскрипции), например, для поиска внутримодульных генов-концентраторов. [2] [15] Например, исследование WGCNA показывает, что новые факторы транскрипции связаны с бисфенола А (BPA) . дозозависимой реакцией [16]
Он часто используется в качестве этапа сокращения данных в системных генетических приложениях, где модули представлены «собственными генами модулей», например [17] [18] Собственные гены модулей можно использовать для корреляции модулей с клиническими признаками. Сети собственных генов представляют собой сети совместной экспрессии между собственными генами модулей (т.е. сети, узлы которых являются модулями).WGCNA широко используется в нейробиологических приложениях, например [19] [20] и для анализа геномных данных, включая микрочипов , данные [21] одноклеточной РНК-Seq данные [22] [23] метилирования ДНК , данные [24] данные микроРНК, количество пептидов [25] и данные микробиоты (секвенирование гена 16S рРНК). [26] Другие приложения включают данные визуализации мозга, например, функциональной МРТ . данные [27]
пакет программного обеспечения R
[ редактировать ]WGCNA R Программный пакет [28] предоставляет функции для выполнения всех аспектов взвешенного сетевого анализа (построение модуля, выбор хаб-гена, статистика сохранения модуля, дифференциальный сетевой анализ, сетевая статистика). Пакет WGCNA доступен в Comprehensive R Archive Network (CRAN), стандартном репозитории дляДополнительные пакеты R.
Ссылки
[ редактировать ]- ^ Jump up to: а б с Хорват С (2011). Взвешенный сетевой анализ: применение в геномике и системной биологии . Нью-Йорк, штат Нью-Йорк: Спрингер. ISBN 978-1-4419-8818-8 .
- ^ Jump up to: а б Лангфельдер П., Мишель П.С., Хорват С., Раваси Т. (17 апреля 2013 г.). «Когда отбор хаб-генов лучше стандартного мета-анализа?» . ПЛОС ОДИН . 8 (4): е61505. Бибкод : 2013PLoSO...861505L . дои : 10.1371/journal.pone.0061505 . ПМЦ 3629234 . ПМИД 23613865 .
- ^ Jump up to: а б с д и Чжан Б., Хорват С. (2005). «Общая основа анализа сети взвешенной совместной экспрессии генов» (PDF) . Статистические приложения в генетике и молекулярной биологии . 4:17 . CiteSeerX 10.1.1.471.9599 . дои : 10.2202/1544-6115.1128 . ПМИД 16646834 . S2CID 7756201 . Архивировано из оригинала (PDF) 28 сентября 2020 г. Проверено 29 ноября 2013 г.
- ^ Jump up to: а б с д и Хорват С., Донг Дж. (2008). «Геометрическая интерпретация анализа сети коэкспрессии генов» . PLOS Вычислительная биология . 4 (8): e1000117. Бибкод : 2008PLSCB...4E0117H . дои : 10.1371/journal.pcbi.1000117 . ПМЦ 2446438 . ПМИД 18704157 .
- ^ Олдхэм MC, Лангфельдер П., Хорват С. (12 июня 2012 г.). «Сетевые методы описания отношений выборок в наборах геномных данных: применение к болезни Хантингтона» . Системная биология BMC . 6:63 . дои : 10.1186/1752-0509-6-63 . ПМЦ 3441531 . ПМИД 22691535 .
- ^ Jump up to: а б Лангфельдер П., Луо Р., Олдхэм М.К., Хорват С. (20 января 2011 г.). «Сохранен ли и воспроизводится ли мой сетевой модуль?» . PLOS Вычислительная биология . 7 (1): e1001057. Бибкод : 2011PLSCB...7E1057L . дои : 10.1371/journal.pcbi.1001057 . ПМК 3024255 . ПМИД 21283776 .
- ^ Донг Дж., Хорват С. (4 июня 2007 г.). «Понимание сетевых концепций в модулях» . Системная биология BMC . 1:24 . дои : 10.1186/1752-0509-1-24 . ПМЦ 3238286 . ПМИД 17547772 .
- ^ Ранола Дж. М., Лангфельдер П., Ланге К., Хорват С. (14 марта 2013 г.). «Аппроксимация сети на основе кластеров и склонностей» . Системная биология BMC . 7:21 . дои : 10.1186/1752-0509-7-21 . ПМЦ 3663730 . ПМИД 23497424 .
- ^ Равас Э., Сомера А.Л., Монгру Д.А., Олваи З.Н., Барабаси А.Л. (2002). «Иерархическая организация модульности в метаболических сетях». Наука . 297 (5586): 1551–1555. arXiv : cond-mat/0209244 . Бибкод : 2002Sci...297.1551R . дои : 10.1126/science.1073374 . ПМИД 12202830 . S2CID 14452443 .
- ^ Йип А.М., Хорват С. (24 января 2007 г.). «Взаимосвязь генных сетей и обобщенная мера топологического перекрытия» . БМК Биоинформатика . 8:22 . дои : 10.1186/1471-2105-8-22 . ПМК 1797055 . ПМИД 17250769 .
- ^ Лангфельдер П., Чжан Б., Хорват С. (2007). «Определение кластеров из иерархического дерева кластеров: библиотека Dynamic Tree Cut для R». Биоинформатика . 24 (5): 719–20. doi : 10.1093/биоинформатика/btm563 . ПМИД 18024473 . S2CID 1095190 .
- ^ Jump up to: а б Форушани А., Аграхари Р., Докинг Р., Чанг Л., Дунс Г., Худоба М., Карсан А., Заре Х. (16 марта 2017 г.). «Крупномасштабный анализ генной сети показывает значение пути внеклеточного матрикса и гомеобоксных генов при остром миелолейкозе: введение в пакет Pigengene и его применение» . BMC Медицинская Геномика . 10 (1): 16. дои : 10.1186/s12920-017-0253-6 . ПМЦ 5353782 . ПМИД 28298217 .
- ^ Аграхари, Рупеш; Форушани, Амир; Докинг, Т. Родерик; Чанг, Линда; Дунс, Гербен; Худоба, Моника; Карсан, Али; Заре, Хабиль (3 мая 2018 г.). «Применение моделей байесовских сетей для прогнозирования типов гематологических злокачественных новообразований» . Научные отчеты . 8 (1): 6951. Бибкод : 2018НатСР...8.6951А . дои : 10.1038/s41598-018-24758-5 . ISSN 2045-2322 . ПМЦ 5934387 . ПМИД 29725024 .
- ^ Лангфельдер П., Хорват С. (2007). «Собственные сети для изучения взаимоотношений между модулями коэкспрессии» . Системная биология BMC . 2007 (1): 54. doi : 10.1186/1752-0509-1-54 . ПМК 2267703 . ПМИД 18031580 .
- ^ Хорват С., Чжан Б., Карлсон М., Лу К.В., Чжу С., Фельсиано Р.М., Лоранс М.Ф., Чжао В., Шу К., Ли Ю., Шек А.С., Лиау Л.М., Ву Х., Гешвинд Д.Х., Феббо П.Г., Корнблюм Х.И., Клоузи Т.Ф. , Нельсон С.Ф., Мишель П.С. (2006). «Анализ онкогенных сигнальных сетей при глиобластоме идентифицирует ASPM как новую молекулярную мишень» . ПНАС . 103 (46): 17402–17407. Бибкод : 2006PNAS..10317402H . дои : 10.1073/pnas.0608396103 . ПМК 1635024 . ПМИД 17090670 .
- ^ Хартунг, Томас; Клинсанг, Андре; Тран, Вай; Мартенс, Александра (2018). «Анализ сети взвешенной корреляции генов (WGCNA) выявляет новые факторы транскрипции, связанные с доза-реакцией бисфенола А» . Границы генетики . 9 : 508. дои : 10.3389/fgene.2018.00508 . ISSN 1664-8021 . ПМК 6240694 . ПМИД 30483308 .
- ^ Чен Ю, Чжу Дж, Лум ПЮ, Ян Х, Пинто С, МакНил DJ, Чжан С, Лэмб Дж, Эдвардс С, Зибертс С.К., Леонардсон А, Кастеллини Л.В., Ван С., Чампи М.Ф., Чжан Б., Эмильссон В., Досс С. , Газалпур А., Хорват С., Дрейк Т.А., Лусис А.Дж., Шадт Э.Э. (27 марта 2008 г.). «Вариации ДНК проливают свет на молекулярные сети, вызывающие болезни» . Природа . 452 (7186): 429–35. Бибкод : 2008Natur.452..429C . дои : 10.1038/nature06757 . ПМЦ 2841398 . ПМИД 18344982 .
- ^ Плезье К.Л., Хорват С., Уэртас-Васкес А., Крус-Баутиста I, Эррера М.Ф., Туси-Луна Т., Агилар-Салинас К., Паджуканта П., Стори Дж.Д. (11 сентября 2009 г.). «Подход системной генетики предполагает использование USF1, FADS3 и других генов-каузулов, вызывающих семейную комбинированную гиперлипидемию» . ПЛОС Генетика . 5 (9): e1000642. дои : 10.1371/journal.pgen.1000642 . ПМЦ 2730565 . ПМИД 19750004 .
- ^ Войнеагу I, Ван X, Джонстон П., Лоу Дж. К., Тиан Ю., Хорват С., Милл Дж., Кантор Р. М., Бленкоу Б. Дж., Гешвинд Д. Х. (25 мая 2011 г.). «Транскриптомный анализ аутичного мозга выявляет конвергентную молекулярную патологию» . Природа . 474 (7351): 380–4. дои : 10.1038/nature10110 . ПМК 3607626 . ПМИД 21614001 .
- ^ Гаврилич М.Ю., Лейн Э.С., Гийозе-Бонгаартс А.Л., Шен Э.Х., Нг Л., Миллер Дж.А., ван де Лагемаат Л.Н., Смит К.А., Эбберт А., Райли З.Л., Абаджян С., Бекманн К.Ф., Бернард А., Бертаньолли Д., Бо А.Ф., Картахена ПМ, Чакраварти М.М., Чапин М., Чонг Дж., Дэлли Р.А., Дэвид Дейли Б., Данг С., Датта С., Ди Н., Долбир Т.А., Фабер В., Фенг Д., Фаулер Д.Р., Голди Дж., Грегор Б.В., Харадон З., Хейнор Д.Р. , Хоманн Дж.Г., Хорват С., Ховард Р.Э., Джеромин А., Йохим Дж.М., Киннунен М., Лау С., Лазарц Э.Т., Ли С., Лемон Т.А., Ли Л., Ли Ю., Моррис Дж.А., Оверли CC, Паркер П.Д., Парри С.Э., Рединг М, Ройалл Дж.Дж., Шулкин Дж., Секейра П.А., Слотербек Ч.Р., Смит С.С., Содт А.Дж., Санкин С.М., Суонсон Б.Е., Ваутер М.П., Уильямс Д., Воноутка П., Зилке Х.Р., Гешвинд Д.Х., Хоф PR, Смит С.М., Кох С., Грант С., Джонс АР (20 сентября 2012 г.). «Анатомически полный атлас транскриптома мозга взрослого человека» . Природа . 489 (7416): 391–399. Бибкод : 2012Natur.489..391H . дои : 10.1038/nature11405 . ПМК 4243026 . ПМИД 22996553 .
- ^ Кадармидин Х.Н., Уотсон-Хей Н.С., Андроникос Н.М. (2011). «Системная биология устойчивости к кишечным паразитам овец: модули генов болезней и биомаркеры». Молекулярные биосистемы . 7 (1): 235–246. дои : 10.1039/C0MB00190B . ПМИД 21072409 .
- ^ Когельман Л.Дж., Сирера С., Жернакова Д.В., Фредхольм М., Франке Л., Кадармидин Х.Н. (30 сентября 2014 г.). «Идентификация сетей генов совместной экспрессии, регуляторных генов и путей ожирения на основе секвенирования РНК жировой ткани на модели свиньи» . BMC Медицинская Геномика . 7 (1): 57. дои : 10.1186/1755-8794-7-57 . ПМК 4183073 . ПМИД 25270054 .
- ^ Сюэ З, Хуан К, Цай С, Цай Л, Цзян Си, Фэн Ю, Лю Цз, Цзэн Ц, Ченг Л, Сунь Ю, Лю Цзюй, Хорват С, Фань Дж (29 августа 2013 г.). «Генетические программы в ранних эмбрионах человека и мыши, выявленные с помощью секвенирования одноклеточной РНК» . Природа . 500 (7464): 593–7. Бибкод : 2013Natur.500..593X . дои : 10.1038/nature12364 . ПМЦ 4950944 . ПМИД 23892778 .
- ^ Хорват С., Чжан Й., Лангфельдер П., Кан Р.С., Бокс М.П., ван Эйк К., ван ден Берг Л.Х., Офофф Р.А. (3 октября 2012 г.). «Влияние старения на модули метилирования ДНК в мозге и тканях крови человека» . Геномная биология . 13 (10): 97 р. дои : 10.1186/gb-2012-13-10-r97 . ПМЦ 4053733 . ПМИД 23034122 .
- ^ Ширасаки Д.И., Грейнер Э.Р., Аль-Рамахи И., Грей М., Бунтеунг П., Гешвинд Д.Х., Ботас Дж., Коппола Г., Хорват С., Лу Дж.А., Ян XW (12 июля 2012 г.). «Сетевая организация протеомного интерактома хантингтина в мозге млекопитающих» . Нейрон . 75 (1): 41–57. дои : 10.1016/j.neuron.2012.05.024 . ПМЦ 3432264 . ПМИД 22794259 .
- ^ Тонг, Маомэн; Ли, Сяосяо; Вегенер Парфри, Лаура; Рот, Беннетт; Ипполити, Эндрю; Вэй, Бо; Борнман, Джеймс; Макговерн, Дермот П.Б.; Фрэнк, Дэниел Н.; Ли, Эллен; Хорват, Стив; Найт, Роб; Браун, Джонатан (2013). «Модульная организация микробиоты слизистой оболочки кишечника человека и ее связь с воспалительными заболеваниями кишечника» . ПЛОС ОДИН . 8 (11): е80702. doi : 10.1371/JOURNAL.PONE.0080702 . ПМЦ 3834335 . ПМИД 24260458 .
- ^ Мамфорд Дж.А., Хорват С., Олдхэм MC, Лангфельдер П., Гешвинд Д.Х., Полдрак Р.А. (1 октября 2010 г.). «Обнаружение сетевых модулей во временных рядах фМРТ: подход к взвешенному сетевому анализу» . НейроИмидж . 52 (4): 1465–76. doi : 10.1016/j.neuroimage.2010.05.047 . ПМЦ 3632300 . ПМИД 20553896 .
- ^ Лангфельдер П., Хорват С. (29 декабря 2008 г.). «WGCNA: пакет R для анализа сети взвешенной корреляции» . БМК Биоинформатика . 9 : 559. дои : 10.1186/1471-2105-9-559 . ПМЦ 2631488 . ПМИД 19114008 .