Jump to content

Сеть совместной экспрессии генов

Сеть совместной экспрессии генов, созданная на основе набора данных микрочипа, содержащего профили экспрессии 7221 гена для 18 пациентов с раком желудка.

Сеть коэкспрессии генов (GCN) представляет собой неориентированный граф , где каждый узел соответствует гену , а пара узлов соединяется ребром, если коэкспрессии . между ними существует значительная связь [1] Имея профили экспрессии ряда генов для нескольких образцов или условий эксперимента, можно построить сеть совместной экспрессии генов путем поиска пар генов, которые демонстрируют схожий характер экспрессии в образцах, поскольку уровни транскриптов двух совместно экспрессируемых генов одновременно повышаются и падают в разных выборках. Сети совместной экспрессии генов представляют биологический интерес, поскольку совместно экспрессируемые гены контролируются одной и той же программой регуляции транскрипции, функционально связаны или являются членами одного и того же пути или белкового комплекса. [2]

Направление и тип отношений совместной экспрессии не определяются в сетях совместной экспрессии генов; тогда как в сети регуляции генов (GRN) направленное ребро соединяет два гена, представляя биохимический процесс, такой как реакция, трансформация, взаимодействие, активация или ингибирование. [3] По сравнению с GRN, GCN не пытается вывести причинно-следственные связи между генами, а в GCN края представляют собой только отношения корреляции или зависимости между генами. [4] Модули или сильно связанные подграфы в сетях совместной экспрессии генов соответствуют кластерам генов, которые имеют сходную функцию или участвуют в общем биологическом процессе, который вызывает множество взаимодействий между собой. [3]

Направление ребер не учитывается в сетях совместной экспрессии генов. Хотя обнаружено, что три гена X, Y и Z экспрессируются совместно, не определено, активирует ли X Y, а Y активирует Z, или Y активирует X и Z, или другой ген активирует три из них.

Сети совместной экспрессии генов обычно конструируются с использованием наборов данных, созданных с помощью высокопроизводительных технологий профилирования экспрессии генов, таких как Microarray или RNA-Seq . Сети совместной экспрессии используются для анализа данных одноклеточной РНК-Seq, чтобы лучше охарактеризовать отношения генов к генам в когорте клеток определенного типа клеток. [5]

Концепция сетей совместной экспрессии генов была впервые представлена ​​Бьюттом и Кохане в 1999 году как сети релевантности . [6] Они собрали данные измерений медицинских лабораторных тестов (например, уровень гемоглобина) у ряда пациентов и рассчитали корреляцию Пирсона между результатами каждой пары тестов, а пары тестов, которые показали корреляцию выше определенного уровня, были связаны в сети (например, уровень инсулина и уровень сахара в крови). Бьютт и Кохан позже использовали этот подход, используя взаимную информацию в качестве меры совместной экспрессии и используя данные об экспрессии генов для создания первой сети совместной экспрессии генов. [7]

Создание сетей совместной экспрессии генов

[ редактировать ]

Было разработано большое количество методов построения сетей совместной экспрессии генов. В принципе, все они следуют двухэтапному подходу: расчет меры коэкспрессии и выбор порога значимости. На первом этапе выбирается мера совместной экспрессии и с использованием этой меры рассчитывается показатель сходства для каждой пары генов. Затем определяется порог, и пары генов, показатель сходства которых превышает выбранный порог, считаются имеющими значительную взаимосвязь экспрессии и соединенными ребром в сети.

Два общих этапа построения сети совместной экспрессии генов: расчет показателя совместной экспрессии (например, абсолютного значения коэффициента корреляции Пирсона) для каждой пары генов и выбор порога значимости (например, корреляция > 0,8).

Входные данные для построения сети совместной экспрессии генов часто представляются в виде матрицы. Если у нас есть значения экспрессии m генов для n образцов (условий), входными данными будет матрица m × n , называемая матрицей экспрессии. Например, в эксперименте на микрочипах для нескольких образцов измеряются значения экспрессии тысяч генов. На первом этапе рассчитывается показатель сходства (показатель совместного выражения) между каждой парой строк в матрице выражений. Результирующая матрица представляет собой матрицу размера m × m , называемую матрицей подобия. Каждый элемент в этой матрице показывает, насколько одинаково изменяются уровни экспрессии двух генов. На втором этапе элементы в матрице сходства, которые превышают определенный порог (т.е. указывают на значительное совместное выражение), заменяются на 1, а остальные элементы заменяются на 0. Результирующая матрица, называемая матрицей смежности , представляет собой граф построенной сети совместной экспрессии генов. В этой матрице каждый элемент показывает, связаны ли два гена в сети (элементы 1) или нет (элементы 0).

Мера совместной экспрессии

[ редактировать ]

Значения экспрессии гена для разных образцов могут быть представлены в виде вектора, поэтому расчет меры совместной экспрессии между парой генов аналогичен расчету выбранной меры для двух векторов чисел.

Коэффициент корреляции Пирсона , взаимная информация , коэффициент ранговой корреляции Спирмена и евклидово расстояние — четыре наиболее часто используемых показателя совместной экспрессии для построения сетей совместной экспрессии генов. Евклидово расстояние измеряет геометрическое расстояние между двумя векторами и поэтому учитывает как направление, так и величину векторов значений экспрессии генов. Взаимная информация измеряет, насколько знание уровней экспрессии одного гена снижает неопределенность относительно уровней экспрессии другого. Коэффициент корреляции Пирсона измеряет тенденцию двух векторов к совместному увеличению или уменьшению, давая меру их общего соответствия. Ранговая корреляция Спирмена представляет собой корреляцию Пирсона, рассчитанную для рангов значений экспрессии генов в векторе экспрессии генов. [2] Некоторые другие меры, такие как частичная корреляция , [8] регрессия , [9] и сочетание частичной корреляции и взаимной информации [10] также использовались.

Каждая из этих мер имеет свои преимущества и недостатки. Евклидово расстояние не подходит, когда абсолютные уровни функционально связанных генов сильно различаются. Более того, если два гена имеют постоянно низкие уровни экспрессии, но в остальном случайным образом коррелируют, они все равно могут оказаться близкими в евклидовом пространстве. [2] Одним из преимуществ взаимной информации является то, что она может обнаруживать нелинейные связи; однако это может обернуться недостатком из-за обнаружения сложных нелинейных связей, которые не выглядят биологически значимыми. Кроме того, для расчета взаимной информации необходимо оценить распределение данных, для хорошей оценки которого требуется большое количество выборок. Коэффициент ранговой корреляции Спирмена более устойчив к выбросам, но, с другой стороны, он менее чувствителен к значениям выражений и в наборах данных с небольшим количеством выборок может обнаруживать множество ложноположительных результатов.

Коэффициент корреляции Пирсона является наиболее популярной мерой совместной экспрессии, используемой при построении сетей совместной экспрессии генов. Коэффициент корреляции Пирсона принимает значение от -1 до 1, при этом абсолютные значения, близкие к 1, показывают сильную корреляцию. Положительные значения соответствуют механизму активации, при котором экспрессия одного гена увеличивается с увеличением экспрессии его коэкспрессируемого гена и наоборот. Когда значение экспрессии одного гена снижается с увеличением экспрессии его совместно экспрессируемого гена, это соответствует основному механизму подавления и будет иметь отрицательную корреляцию.

У корреляционной меры Пирсона есть два недостатка: она может обнаруживать только линейные зависимости и чувствительна к выбросам. Более того, корреляция Пирсона предполагает, что данные об экспрессии генов подчиняются нормальному распределению. Сонг и др. [11] предложили двухвесовую среднюю корреляцию (бикор) как хорошую альтернативу корреляции Пирсона. «Bicor — это мера корреляции, основанная на медиане, и она более надежна, чем корреляция Пирсона, но часто более мощна, чем корреляция Спирмена». Более того, было показано, что «большинство пар генов удовлетворяют линейным или монотонным отношениям», что указывает на то, что «взаимные информационные сети могут быть безопасно заменены корреляционными сетями, когда дело доходит до измерения отношений совместной экспрессии в стационарных данных». [11] ".

Выбор порога

[ редактировать ]

Для выбора порога при построении сетей совместной экспрессии генов было использовано несколько методов. Простой метод определения порога состоит в том, чтобы выбрать порог совместного выражения и выбрать отношения, совместное выражение которых превышает это ограничение. Другой подход — использовать Z-преобразование Фишера , которое вычисляет z-показатель для каждой корреляции на основе количества выборок. Затем этот z-показатель преобразуется в p-значение для каждой корреляции, и для p-значения устанавливается пороговое значение. Некоторые методы переставляют данные и рассчитывают z-показатель, используя распределение корреляций, обнаруженных между генами в перестановочном наборе данных. [2] Также использовались некоторые другие подходы, такие как выбор порога на основе коэффициента кластеризации. [12] или теория случайных матриц. [13]

Проблема с методами, основанными на p-значении, заключается в том, что окончательное пороговое значение p-значения выбирается на основе статистических процедур (например, p-значение 0,01 или 0,05 считается значимым), а не на основе биологических данных.

WGCNA — это основа для построения и анализа сетей совместной экспрессии взвешенных генов . [14] Метод WGCNA выбирает порог для построения сети на основе безмасштабной топологии сетей совместной экспрессии генов. Этот метод строит сеть для нескольких порогов и выбирает порог, который приводит к сети с безмасштабной топологией. Более того, метод WGCNA создает взвешенную сеть, что означает, что в сети появляются все возможные ребра, но каждое ребро имеет вес, который показывает, насколько значимы отношения совместного выражения, соответствующие этому ребу. Следует отметить, что выбор порогового значения предназначен для приведения сетей к безмасштабной топологии. Однако основная предпосылка о том, что биологические сети не имеют масштаба, является спорной. [15] [16] [17]

lmQCM является альтернативой WGCNA, достигающей той же цели анализа сетей коэкспрессии генов. лмQCM , [18] означает локальное максимальное слияние квази-клик, целью которого является использование локально плотных структур в сети, что позволяет добывать меньшие и плотно совместно выраженные модули, позволяя перекрывать модули. алгоритм lmQCM имеет пакет R и модуль Python (входит в состав Biolearns). Как правило, меньший размер добытых модулей также может генерировать более значимые результаты обогащения онтологии генов (GO).

Проблемы

[ редактировать ]

Сети совместной экспрессии пытаются оценить прямые, а иногда и косвенные корреляции между парами генов. Однако отдельный ген может контролироваться несколькими регуляторами. [19] Во-вторых, как обсуждалось в предыдущих разделах, каждая вычислительная мера совместной экспрессии разработана специально для выявления уникальной функции, которая не обязательно оптимальна для изображения всех типов транскрипционных взаимосвязей между генами, например, корреляция Пирсона для линейной отношений, Спирмена для ранжирования генов и так далее. В-третьих, и последнее, расчет сетей совместной экспрессии генов для всего генома приводит к очень большим матрицам, которые содержат значительное количество шума, что значительно затрудняет изучение их дифференциации между когортами. Эти проблемы следует учитывать при применении передовых методов совместной экспрессии данных об экспрессии генов.

Приложения

[ редактировать ]
  • Секвенирование одной клетки. Сети коэкспрессии генов, созданные с использованием объемных данных РНК-секвенирования, использовались для повышения соотношения сигнал/шум в сценариях с одной клеткой, чтобы получить более точные прогнозы присутствия специфических мутаций в одной клетке с использованием экспрессии генов. профили как независимые переменные [20]
  • Обратная инженерия генных сетей . Существуют сотни методов определения существования сетей регуляции генов, и несколько десятков в настоящее время основаны на анализе совместной экспрессии, основанном на простой корреляции, взаимной информации или байесовских методах. [21]
  • Биология растений . Анализы совместной экспрессии широко используются для поиска новых генов, участвующих в определенных путях развития растений. Одним из примеров является синтез клеточной стенки: характеристика недостающих звеньев в этом метаболическом механизме стала возможной благодаря обнаружению новых генов целлюлозосинтазы (CESA), профили экспрессии которых коррелируют с ранее известными участниками пути. [22]

См. также

[ редактировать ]
  1. ^ Стюарт, Джошуа М; Сигал, Эран; Коллер, Дафна; Ким, Стюарт К. (2003). «Сеть коэкспрессии генов для глобального открытия консервативных генетических модулей». Наука . 302 (5643): 249–55. Бибкод : 2003Sci...302..249S . CiteSeerX   10.1.1.119.6331 . дои : 10.1126/science.1087447 . ПМИД   12934013 . S2CID   3131371 .
  2. ^ Jump up to: а б с д Вейраух, Мэтью Т. (2011). «Сети коэкспрессии генов для анализа данных микрочипов ДНК». Прикладная статистика для сетевой биологии: методы системной биологии . стр. 215–250. дои : 10.1002/9783527638079.ch11 . ISBN  9783527638079 .
  3. ^ Jump up to: а б Рой, Сваруп; Бхаттачарья, Дхруба К; Калита, Джугал К (2014). «Реконструкция сети совместной экспрессии генов на основе данных микрочипов с использованием локальных паттернов экспрессии» . БМК Биоинформатика . 15 (Приложение 7): S10. дои : 10.1186/1471-2105-15-s7-s10 . ПМК   4110735 . ПМИД   25079873 .
  4. ^ Де Смет, Рит; Маршал, Кэтлин (2010). «Преимущества и ограничения современных методов сетевого вывода». Обзоры природы Микробиология . 8 (10): 717–29. дои : 10.1038/nrmicro2419 . ПМИД   20805835 . S2CID   27629033 .
  5. ^ Су, Чанг; Сюй, Цзычунь; Шан, Синьнин; Цай, Бяо; Чжао, Хунъюй; Чжан, Цзинфэй (10 августа 2023 г.). «Вывод о совместной экспрессии в зависимости от типа клеток на основе данных секвенирования РНК одной клетки» . Природные коммуникации . 14 (1): 4846. doi : 10.1038/s41467-023-40503-7 . ISSN   2041-1723 . ПМЦ   10415381 .
  6. ^ Бьютт, Атул Дж; Кохане, Исаак С (1999). «Неконтролируемое обнаружение знаний в медицинских базах данных с использованием релевантных сетей» . Материалы симпозиума AMIA : 711–715. ПМЦ   2232846 . ПМИД   10566452 .
  7. ^ Бьютт, Атул Дж; Кохане, Исаак С (2000). «Сети взаимной релевантности информации: функциональная геномная кластеризация с использованием парных измерений энтропии». Пак Симп Биокомпьют . 5 .
  8. ^ Вилла-Виаланекс, Натали; Лиобе, Лоуренс; Лоран, Тибо; Шерель, Пьер; Гамот, Адриан; СанКристобаль, Магали (2013). «Структура сети совместной экспрессии генов раскрывает биологические функции, лежащие в основе eQTL» . ПЛОС ОДИН . 8 (4): 60045. Бибкод : 2013PLoSO...860045V . дои : 10.1371/journal.pone.0060045 . ПМЦ   3618335 . ПМИД   23577081 .
  9. ^ Перссон, Стаффан; Вэй, Хайронг; Милн, Дженнифер; Пейдж, Грир П.; Сомервилл, Кристофер Р. (2005). «Идентификация генов, необходимых для синтеза целлюлозы, путем регрессионного анализа общедоступных наборов данных микрочипов» . Труды Национальной академии наук Соединенных Штатов Америки . 102 (24): 8633–8. Бибкод : 2005PNAS..102.8633P . дои : 10.1073/pnas.0503392102 . ПМК   1142401 . ПМИД   15932943 .
  10. ^ Ревертер, Антонио; Чан, Ева К.Ф. (2008). «Сочетание частичной корреляции и подхода теории информации к обратной инженерии сетей совместной экспрессии генов» . Биоинформатика . 24 (21): 2491–2497. doi : 10.1093/биоинформатика/btn482 . ПМИД   18784117 .
  11. ^ Jump up to: а б Сун, Лин; Лангфельдер, Питер; Хорват, Стив (2012). «Сравнение мер совместного выражения: взаимная информация, корреляция и индексы на основе моделей» . БМК Биоинформатика . 13 (1): 328. дои : 10.1186/1471-2105-13-328 . ПМЦ   3586947 . ПМИД   23217028 .
  12. ^ Эло, Лаура Л; Ярвенпяя, Хна; Орешич, Матей; Лахесмаа, Риитта; Айттокаллио, Теро (2007). «Систематическое построение сетей коэкспрессии генов с применением к процессу дифференцировки Т-хелперных клеток человека» . Биоинформатика . 23 (16): 2096–2103. doi : 10.1093/биоинформатика/btm309 . ПМИД   17553854 .
  13. ^ Ло, Фэн; Ян, Юньфэн; Чжун, Цзяньсинь; Гао, Хайчунь; Хан, Латифур; Томпсон, Доротея К; Чжоу, Цзичжун (2007). «Построение сетей совместной экспрессии генов и прогнозирование функций неизвестных генов с помощью теории случайных матриц» . БМК Биоинформатика . 8 (1): 299. дои : 10.1186/1471-2105-8-299 . ПМК   2212665 ​​. ПМИД   17697349 .
  14. ^ Чжан, Бинь; Хорват, Стив (2005). «Общая основа анализа сети взвешенной совместной экспрессии генов». Статистические приложения в генетике и молекулярной биологии . 4 (1): Статья 17. CiteSeerX   10.1.1.471.9599 . дои : 10.2202/1544-6115.1128 . ПМИД   16646834 . S2CID   7756201 .
  15. ^ Ханин Р.; Вит, Э. (2006). «Насколько безмасштабны биологические сети». Журнал вычислительной биологии . 13 (3): 810–8. CiteSeerX   10.1.1.104.5347 . дои : 10.1089/cmb.2006.13.810 . ПМИД   16706727 .
  16. ^ Бройдо, Анна Д.; Клаузет, Аарон (2019). «Безмасштабные сети встречаются редко» . Природные коммуникации . 10 (1): 1017. arXiv : 1801.03400 . Бибкод : 2019NatCo..10.1017B . дои : 10.1038/s41467-019-08746-5 . ПМК   6399239 . ПМИД   30833554 . S2CID   24825063 .
  17. ^ Клот, П. (2020). «Являются ли сети РНК безмасштабными?» . Журнал математической биологии . 80 (5): 1291–1321. дои : 10.1007/s00285-019-01463-z . ПМК   7052049 . ПМИД   31950258 .
  18. ^ Чжан, Цзе; Хуан, Кун (2014). «Нормализованный ImQCM: алгоритм обнаружения слабых квазиклик во взвешенном графе с применением в открытии модулей совместной экспрессии генов при раке» . Раковая информатика . 13 (3): 137–46. дои : 10.4137/CIN.S14021 . ПМЦ   4962959 . ПМИД   27486298 .
  19. ^ Алон, Ури (2006). Принципы проектирования биологических цепей . дои : 10.1201/9781420011432 . ISBN  9780429092794 .
  20. ^ Меркателли, Даниэле; Рэй, Форест; Джорджи, Федерико М. (2019). «Панарковое и одноклеточное моделирование геномных изменений посредством экспрессии генов» . Границы генетики . 10 : 671. дои : 10.3389/fgene.2019.00671 . ISSN   1664-8021 . ПМК   6657420 . ПМИД   31379928 .
  21. ^ Меркателли, Даниэле; Скаламбра, Лаура; Триболи, Лука; Рэй, Форест; Джорджи, Федерико М. (2020). «Ресурсы для вывода о сети регуляции генов: практический обзор». Biochimica et Biophysica Acta (BBA) - Механизмы регуляции генов . 1863 (6): 194430. doi : 10.1016/j.bbagrm.2019.194430 . ISSN   1874-9399 . ПМИД   31678629 . S2CID   207895066 .
  22. ^ Узадель, Бьорн; Обаяси, Такеши; Мутвиль, Марек; Джорджи, Федерико М.; Бассель, Джордж В.; Танимото, Мими; Чоу, Аманда; Штайнхаузер, Дирк; Перссон, Стаффан; Проварт, Николас Дж. (2009). «Инструменты совместной экспрессии для биологии растений: возможности для генерации гипотез и предостережения» . Растение, клетка и окружающая среда . 32 (12): 1633–1651. дои : 10.1111/j.1365-3040.2009.02040.x . ISSN   0140-7791 . ПМИД   19712066 .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 27a065db888bc84ef7709b30f484ff5b__1711940460
URL1:https://arc.ask3.ru/arc/aa/27/5b/27a065db888bc84ef7709b30f484ff5b.html
Заголовок, (Title) документа по адресу, URL1:
Gene co-expression network - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)