Картирование архитектуры генома

В молекулярной биологии картирование архитектуры генома (GAM) представляет собой метод криосрезов , позволяющий картировать колокализованные ДНК области независимым от лигирования способом. ^[1]^[2] Он преодолевает некоторые ограничения захвата конформации хромосом (3C), поскольку эти методы основаны на расщеплении и лигировании для захвата взаимодействующих сегментов ДНК . ^[3] GAM — это первый полногеномный метод определения трехмерной близости между любым количеством геномных локусов без лигирования. ^[1]

Срезы, полученные с помощью упомянутого выше метода криосрезов, называются ядерными профилями . Информация, которую они предоставляют, относится к их охвату всего генома. Можно получить большой набор значений, отражающих степень присутствия ядерных профилей в геноме. В зависимости от того, насколько велик или мал охват генома, можно сделать выводы, включающие взаимодействие хроматина, расположение ядерного профиля внутри криосекционируемого ядра и уровни уплотнения хроматина. ^[4]

Чтобы иметь возможность визуализировать эту информацию, некоторые методы могут быть реализованы с использованием необработанных данных, представленных в таблице, которая показывает, обнаруживаются ли ядерные профили в геномном окне, причем геномные окна представлены в определенной хромосоме. Если 1 означает обнаружение в окне, а 0 означает отсутствие обнаружения, подмножества данных можно получать и интерпретировать путем создания графиков, диаграмм, тепловых карт и других методов визуализации, которые позволяют просматривать эти подмножества способами, отличными от методов двоичного обнаружения. . Используя более графический подход к интерпретации данных, полученных с помощью криосрезов, можно увидеть взаимодействия, которые в противном случае не были бы замечены раньше.

Некоторые примеры того, как можно интерпретировать эти визуальные эффекты, включают гистограммы, которые показывают радиальное положение и уровни уплотнения хроматина ядерных профилей. Их можно разделить на категории, чтобы дать общее представление о том, как часто ядерные профили обнаруживаются в геномном окне. представляет Радарная диаграмма собой круговой график, который представляет проценты встречаемости ряда переменных. В смысле геномной информации радиолокационные диаграммы можно использовать, чтобы показать, как геномные окна представлены внутри «особенностей» генома, которые являются частью определенных областей, составляющих его. Эти диаграммы можно составить для сравнения групп ядерных профилей друг с другом, а их различия в том, как они происходят внутри этих функций, показаны графически. Тепловые карты — это еще одна форма визуального представления, где отдельные значения в таблице показаны ячейками, которые окрашиваются в разные цвета в зависимости от их значения. Это позволяет видеть тенденции в таблице путем отображения групп похожих цветов или их отсутствия.

Тепловая карта справа представляет взаимосвязь между ядерными профилями на основе рассчитанного индекса Жаккара , где значения в диапазоне от 0 до 1 представляют собой степень сходства между двумя ядерными профилями. Обнаружение этого сходства может помочь показать, где в геноме более распространены определенные группы ядерных профилей. На этой тепловой карте ожидается диагональная белая линия клеток, поскольку эти клетки указывают места пересечения ядерных профилей и, следовательно, максимально похожи друг на друга, что дает им значение 1. В дополнение к белой диагональной линии клеток, группу других светлоокрашенных ячеек можно наблюдать в правом нижнем углу тепловой карты. Эта группа ядерных профилей демонстрирует высокое сходство с использованием индекса Жаккара. Это означает, что ядерные профили присутствуют в большем количестве геномных окон, чем в других.

Гистограмма справа представляет процент ядерных профилей, принадлежащих к категории радиального положения (5 — сильно экваториальное, а 1 — сильно апикальное). Кластер ядерных профилей рассчитывался на основе их сходства друг с другом с использованием метода кластеризации k-средних . Для начала процесса в качестве «центров» кластера случайным образом были выбраны три ядерных профиля. После того, как центры были выбраны случайным образом, каждый второй ядерный профиль присваивается кластеру на основе его расстояния от каждого центра с использованием рассчитанного значения расстояния. Затем были выбраны новые центры, чтобы лучше представить кластер. Этот процесс повторялся до тех пор, пока центры в начале не совпадали с центрами в конце. Если центры кластеров не изменились, можно предположить, что это означает, что выбраны правильные кластеры. Внутри каждого из этих кластеров ядерным профилям затем присваивается значение от 1 до 5 в зависимости от их радиального положения, и эти данные вводятся в гистограмму для визуализации.

На этой радиолокационной диаграмме справа показаны 3 кластера процентной доли встречаемости ядерных профилей в определенных особенностях генома мыши. Каждый кластер ядерных профилей рассчитывался с использованием метода кластеризации k-средних, описанного выше, относительно гистограммы, показывающей радиальные положения ядерных профилей. Можно сравнивать кластеры и то, как они более или менее проявляются в определенных функциях по сравнению друг с другом. Чтобы вычислить присутствие кластера внутри определенного объекта, определяется, присутствует ли ядерный профиль в окне, обнаруженном внутри объекта. Процент того, как часто ядерные профили в кластере встречаются в тех же окнах, которые обнаружены внутри объекта, затем отображается на радиолокационной диаграмме.

Криосекция и лазерная микродиссекция [ править ]

Криосрезы изготавливают по методу Токуясу, предполагающему жесткую фиксацию для сохранения ядерной и клеточной архитектуры, криозащиту раствором сахарозы-PBS перед замораживанием в жидком азоте. ^[5] При картировании архитектуры генома секционирование является необходимым шагом для изучения трехмерной топологии генома перед лазерной микродиссекцией. Затем лазерная микродиссекция может изолировать каждый ядерный профиль перед экстракцией ДНК и секвенированием.

Анализ данных – биоинформатические инструменты [ править ]

GAMtools [ править ]

GAMtools — это набор программных утилит для картирования данных геномной архитектуры, разработанный Робертом Бигри. ^[6] Bowtie2 требуется перед запуском GAMtools. Ввод, необходимый для этой программы, имеет формат Fastq . Это программное обеспечение имеет множество функций, и точные команды для использования будут зависеть от того, что вы хотите с ним делать, однако большинство функций требуют создания таблицы разделения, поэтому для большинства пользователей первыми шагами будут загрузка или создание входных данных. и выполнить сопоставление последовательности. В результате будет создана таблица разделения, которую затем можно будет использовать для выполнения различных других операций, описанных ниже. Для получения дополнительной информации просмотрите документацию GAMtools. ^[7]

Картирование данных секвенирования [ править ]

команду GAMtools gamtoolsprocess_nps Для выполнения сопоставления можно использовать . Он отображает необработанные данные о последовательностях ядерных профилей. GAMtools также предоставляет возможность выполнять проверки контроля качества NP. Эту опцию можно включить, добавив флаг -c/--do-qc к предыдущей команде. Когда проверка контроля качества включена, GAMtools попытается исключить ядерные профили низкого качества.

Таблица вызовов и разделения Windows [ править ]

После завершения сопоставления GAMtools вычислит количество чтений из каждого ядерного профиля, которые перекрываются с каждым окном в фоновом файле генома. Размер окна по умолчанию составляет 50 КБ. Все это делается одной и той же командойprocess_nps. После этого он генерирует таблицу сегрегации.

близости Создание матриц

Команда для этого процесса — gamtools matrix . Входной файл представляет собой таблицу разделения, рассчитанную на этапе вызова Windows. GAMtools вычисляет эти матрицы, используя нормализованное неравновесие связей, что означает, что он смотрит, сколько раз каждая пара окон обнаруживается одним и тем же NP, а затем нормализует результаты на основе того, сколько раз каждое окно было обнаружено во всех NP. На рисунке ниже показан пример тепловой карты матрицы близости, созданной с помощью GAMtools.

хроматина уплотнения Расчет

Команда GAMtools gamtools Compaction может использоваться для расчета оценки уплотнения хроматина. Уплотнение — это значение, присвоенное гену, которое показывает, насколько велик этот ген. Уровень уплотнения обратно пропорционален объему локуса. Говорят, что геномные локусы с малым объемом имеют высокий уровень компактизации, а локусы с большим объемом имеют низкий уровень компактизации. Как показано на рисунке, ожидается, что локусы с низким уровнем уплотнения будут чаще пересекаться срезами криосрезов. GAMtools использует эту информацию для присвоения значения уплотнения каждому локусу на основе частоты его обнаружения во многих ядерных профилях. Скорость уплотнения этих локусов не статична и будет постоянно меняться на протяжении всей жизни клетки. Считается, что геномные локусы разуплотняются, когда этот ген активен. Это позволяет исследователю делать предположения о том, какие гены в данный момент активны в клетке, используя результаты данных GAMtools. Считается также, что локус с низкой уплотненностью связан с транскрипционная активность . Временная сложность команды уплотнения равна O ( m × n ), где m — количество геномных окон, а n — количество ядерных профилей.

Расчет радиального положения [ править ]

GAMtools можно использовать для расчета радиального положения NP. Радиальное положение НЧ является мерой того, насколько близко или далеко находится НЧ от экватора или центра ядра. НЧ, расположенные ближе к центру ядра, считаются экваториальными, тогда как НЧ, расположенные ближе к краю ядра, считаются апикальными. Команда GAMtools для расчета радиального позиционирования — gamtools radius_pos . Для этого необходимо, чтобы вы предварительно создали таблицу сегрегации. Радиальное положение оценивается по среднему размеру НЧ, содержащих данную область хроматина. Хроматин, расположенный ближе к периферии, обычно пересекается с более мелкими, более апикальными НЧ, тогда как центральный хроматин будет пересекаться с более крупными экваториальными НЧ.

Чтобы оценить размер каждого NP, GAMtools смотрит на количество окон, которые видел каждый NP, поскольку можно предположить, что NP, которые видели больше окон, имеют больший объем. Это очень похоже на метод, используемый для оценки уплотнения хроматина. На рисунке справа показано, как GAMtools смотрит на скорость обнаружения каждого NP для оценки объема и определения уплотнения или радиального положения. Если мы посмотрим на первый NP, то увидим, что он пересекает все три окна, поэтому мы можем оценить, что это один из крупнейших NP. Второй NP пересекает два из трех окон, поэтому мы можем оценить, что он меньше первого NP. Третий NP пересекает только одно из трех окон, поэтому мы можем оценить, что это самый маленький NP. Теперь, когда у нас есть оценка размера каждой NP, мы можем оценить радиальное положение. Если предположить, что более крупные НП являются более экваториальными, то мы обнаружим, что первая НП является наиболее экваториальной, вторая НП — второй наиболее экваториальной, а третья НП — наиболее апикальной.

Вот некоторый псевдокод, который иллюстрирует, как можно вычислить радиальное положение списка NP:

// Suppose we have a 2D matrix called data where the rows correspond to the NPs and the columns correspond to the windows, so if data[1][2] is 1, then that means NP 1 contains window 2
// Use this variable to keep track of the largest number of windows detected by a single NP
LET MAXWINDOW = 0
// Use this array to keep track of the number of windows detected by each NP, so we can later determine the radial position
LET RADIAL_POS = []

// Loop through all NPs
FOR NP FROM 1 TO NUM_NPS:
    LET WINCOUNT = 0

    // Count the number of windows each NP saw
    FOR WIN FROM 1 to NUM_WINDOWS:
        IF ( data[NP][WIN] == 1 )
            WINCOUNT = WINCOUNT + 1

    // See if the current NP has seen the most windows
    IF WINCOUNT > MAXWINDOW:
        MAXWINDOW = WINCOUNT

    // Add the count for the current NP to the array
    RADIAL_POS.APPEND( WINCOUNT )

// Divide the number of windows each NP saw by the largest number of windows any NP saw to get an estimate of the radial position
FOR NP FROM 1 TO NUM_NPS:
    RADIAL_POS[NP] = RADIAL_POS[NP] / MAXWINDOW

Этот псевдокод создаст список радиальных положений в диапазоне от 0 до 1, который обеспечивает оценку радиального положения, где 1 — самое экваториальное, а 0 — самое апикальное. Временная сложность этого псевдокода равна O(n * m), где n — количество NP, а m — количество окон. Первый цикл for проходит n итераций, и у него есть внутренний цикл for, который проходит m итераций, что означает, что временная сложность этого цикла for равна O(n * m). Второй цикл for имеет n итераций, поэтому его временная сложность O(n). Следовательно, общая временная сложность этого кода равна O(n*m + n), которую можно уменьшить до O(n*m).

Методы анализа данных [ править ]

Обзор [ править ]

На приведенной выше блок-схеме показан общий процесс получения данных из анализа GAM. Круги представляют собой процессы, которые могут быть выполнены, а квадраты представляют собой фрагменты данных.

Первым этапом анализа GAM является криосекционирование и исследование клеток. В результате этого процесса образуется набор срезов ядра (ядерных профилей), содержащих фрагменты ДНК (геномные окна). Эти ядерные профили затем исследуются для составления таблицы разделения. Таблицы сегрегации являются основой анализа GAM. Они содержат информацию, подробно описывающую, какие геномные локусы встречаются в каждом ядерном профиле.

Примером анализа данных, не приведенным ниже, может быть кластеризация. Например, ядерные профили, которые содержат схожие геномные локусы, могут быть сгруппированы вместе с помощью кластеризации k-средних или какого-либо другого варианта. K-средние хорошо подходят для этой конкретной задачи в том смысле, что они группируют каждый ядерный профиль в соответствии с мерой сходства , но у него также есть недостатки. Временная сложность кластеризации K-средних равна O(tknd), где t — количество итераций, k — количество средних, n — количество точек данных, а d — количество измерений для каждой точки данных. Такая сложность делает его NP-трудным . ^[8] По существу, он плохо масштабируется для больших наборов данных и больше подходит для подмножеств данных.

Для дальнейшего анализа можно использовать GAMtools. ^[6] GAMtools — это набор программных инструментов, которые можно использовать для экстраполяции данных из таблицы сегрегации, некоторые результаты которой будут обсуждаться ниже.

Косегрегацию, или сцепление, можно определить, наблюдая, как часто два геномных локуса появляются вместе в одном и том же ядерном профиле. Эти данные могут показать, какие локусы физически близки друг к другу в трехмерном пространстве и какие локусы регулярно взаимодействуют друг с другом, что может помочь объяснить транскрипцию ДНК. ^[1]

SLICE — это метод прогнозирования специфических взаимодействий между геномными локусами. Он использует статистические данные, полученные на основе данных косегрегации. ^[1]

Наконец, графический анализ можно применить к таблице сегрегации для определения местонахождения сообществ. Сообщества можно определить несколькими способами, например, кликами , ^[9] но в этой статье анализ сообщества будет сосредоточен на центральной роли . Сообщества, основанные на централизации, можно рассматривать как аналог знаменитостей и их фанатов в социальных сетях. Поклонники, возможно, не очень много взаимодействуют друг с другом, но они взаимодействуют со знаменитостью, которая является «центром».

Существует несколько различных типов центральности, включая, помимо прочего, центральность по степени, центральность по собственному вектору и центральность по посредничеству, которые могут привести к определению разных сообществ. Примечательно, что в приведенной выше аналогии с социальной сетью центральность собственного вектора может быть неточной, поскольку один человек, который следит за многими знаменитостями, может не иметь на них никакого влияния. В этом случае график можно рассматривать как направленный. В GAM-анализе обычно предполагается, что граф неориентированный, поэтому, если бы использовалась центральность собственного вектора, он был бы точным. Вычисления клики и центральности сложны в вычислительном отношении. Подобно кластеризации, упомянутой выше, они плохо масштабируются для решения больших задач.

СЛАЙС [ править ]

SLICE (статистический вывод Co-sEgregation) играет ключевую роль в анализе данных GAM. ^[1] Он был разработан в лаборатории Марио Никодеми для предоставления математической модели для определения наиболее специфических взаимодействий между локусами на основе данных косегрегации GAM. Он оценивает долю специфического взаимодействия для каждой пары локусов в данный момент времени. Это своего рода вероятностный метод. Первым шагом SLICE является предоставление функции ожидаемой доли ядерных профилей GAM. Затем найдите наилучший вероятностный результат, объясняющий экспериментальные данные. ^[1]

Модель SLICE [ править ]

Модель SLICE основана на гипотезе о том, что вероятность попадания невзаимодействующих локусов в один и тот же ядерный профиль предсказуема. Вероятность зависит от расстояния между этими локусами. Модель SLICE рассматривает пару локусов как два типа: один взаимодействующий, другой невзаимодействующий. Согласно гипотезе, пропорции состояния ядерных профилей можно предсказать с помощью математического анализа. Получив функцию вероятности взаимодействия, эти данные GAM также можно использовать для обнаружения заметных взаимодействий и изучения чувствительности GAM.

Рассчитать распределение в одном ядерном профиле [ править ]

SLICE считает, что пара локусов может взаимодействовать или не взаимодействовать в популяции клеток. Первым шагом этого расчета является описание одного локуса. Пара локусов A и B может иметь два возможных состояния: первое состоит в том, что A и B не взаимодействуют друг с другом. Другое дело, что они есть. Первая проблема заключается в том, можно ли найти один локус в ядерном профиле.

Математическое выражение:

Вероятность одного локуса: $v_{0},v_{1}$
- < $v_{1}$ > вероятность того, что локус будет найден в ядерном профиле.
- < $v_{0}$ > $=1-$ < $v_{1}$ > вероятность того, что локус не обнаружен в ядерном профиле.
- < $v_{1}$ >= $V_{NP}/V_{nucleus}$

среднего Оценка радиуса ядерного

Как и в приведенном выше уравнении, объем ядра является необходимой величиной для расчета. Радиусы этих ядерных профилей можно использовать для оценки ядерного радиуса. Прогноз SLICE для радиуса соответствует моделированию Монте-Карло (более подробная информация об этом шаге будет обновлена после получения лицензии на рисунок в оригинальной статье автора). По результату оценки радиуса можно оценить вероятность нахождения двух локусов в невзаимодействующем состоянии и вероятность нахождения этих двух локусов во взаимодействующем состоянии.

Вот математическое выражение невзаимодействия:

< $u_{i}$ >,i = 0, 1, 2 означает: найти 0, 1 или 2 локуса из пары невзаимодействующих локусов.
Два локуса в невзаимодействующем состоянии: $u_{i}$
$<u_{0}>=<v_{0}^{2}>,<u_{1}>=<v_{1}v_{0}>,<u_{2}>=<v_{1}^{2}>$
Вот математическое выражение взаимодействия:
Оценка состояния взаимодействия двух локусов: $t_{i}$ вероятность
$<t_{2}>$ ~ $<v_{1}>$ , $<t_{1}>$ ~0, $<t_{0}>$ ~ $<v_{0}>=1-<v_{1}>$

вероятность пар локусов в одноядерном Рассчитать профиле

По результатам предыдущих процессов вероятность появления пары локусов в одном ядерном профиле может быть рассчитана статистическим методом. Пара локусов может существовать в трех разных состояниях. Каждый из них имеет вероятность $P_{i},i=0,1,2$
Вероятность появления пар локусов в одноядерных профилях: $P_{2},P_{1},P_{0}$
$P_{2}$ : вероятность того, что две пары локусов находятся в состоянии взаимодействия;
$P_{1}$ : вероятность того, что одно взаимодействует с другим, но другое не взаимодействует;
$P_{0}$ : вероятность того, что они не будут взаимодействовать.
Статистический анализ SLICE
$N_{0,0}/N=<t_{0}^{2}>P_{2}+<t_{0}u_{0}>P_{1}+<u_{0}^{2}>P_{0}$
$N_{2,0}/N=N_{0,2}=<t_{1}^{2}>P_{2}+<t_{1}u_{1}>P_{1}+<u_{1}^{2}>P_{0}$
$N_{i,j}$ обозначают: номер i соответствует A. Номер j соответствует B. (i и j равны 0, 1 или 2 локусам).

обнаружения Эффективность

Поскольку количество экспериментов ограничено, должна быть определенная эффективность обнаружения. Учитывая эффективность обнаружения, эту модель SLICE можно расширить, чтобы учесть дополнительные сложности. Это статистический метод улучшения результатов вычислений. В этой части данные GAM делятся на два типа: один — локус в срезе обнаружен в экспериментах, а другой — локус в срезе в экспериментах не обнаружен.

Оценка вероятностей взаимодействия пар [ править ]

На основе предполагаемой эффективности обнаружения и предыдущей вероятности обнаружения $u_{0},u_{1},u_{2}$ , можно рассчитать вероятность взаимодействия пар. Локусы обнаруживаются с помощью секвенирования следующего поколения .

сегрегация и нормализованная Совместная связь

При картировании генома вы можете посмотреть на сегрегацию в различных геномных окнах и ядерных профилях (НП) генома. Взяв срезы и образцы тканей, можно получить ядерные профили и диапазоны окон, обнаруженных в геноме. Совместная сегрегация в этом случае идентифицирует связь между указанными окнами в геноме, а также неравновесие по сцеплению и нормализованное неравновесие по сцеплению. Одним из этапов расчета совместной сегрегации и связи является определение частоты обнаружения каждого окна. Частота обнаружения — это количество NP, присутствующих в указанном окне, деленное на общее количество NP. Каждое из рассчитанных значений идентифицирует важные различия и статистику для анализа генома. Нормализованное неравновесие по сцеплению — это окончательный расчет, который определяет реальную связь между геномными окнами. После расчета каждого из значений каждый результат используется для расчета нормализованного равновесия сцепления для каждого указанного окна в геноме. Нормализованное значение связи может находиться в диапазоне от 1,0 до -1,0, причем 1,0 означает, что связь между ними высокая, а ниже 1,0 связь становится ниже. Объединение каждого значения связи, нормализованного в Windows, в диаграмму или матрицу позволяет картировать и анализировать геном с помощью тепловая карта или другой график. Значения совместной сегрегации и нормализованной связи также можно использовать для дальнейших расчетов и анализа, таких как центральность и обнаружение сообществ, которые обсуждаются в следующем разделе.

Чтобы найти совместное разделение и связи окон, необходимо выполнить следующие расчеты: частота обнаружения, совместное разделение, связь и нормализованная связь.

Расчет связи и частот [ править ]

Каждый шаг расчета, описанный выше, отображается и поясняется в таблице ниже.

Формулы и шаги для расчета совместной сегрегации и связи
Расчеты	Формулы ^[10]	Объяснение
Частота обнаружения	$\left({\frac {A}{N}}\right)$ или $fa$	Учитывая определенное геномное окно в геноме, содержащее 163 ядерных профиля, формула слева будет разбита следующим образом. A = количество ядерных профилей, присутствующих в геномном окне. N = 163 – общее количество ядерных профилей. Чтобы вычислить частоту обнаружения, просто разделите эти два значения.
Совместная сегрегация	$\left({\frac {AB}{N}}\right)$ или $fab$	Учитывая два заданных геномных окна в геноме, содержащем 163 ядерных профиля, формула слева будет разбита следующим образом. AB = количество ядерных профилей, присутствующих в обоих геномных окнах. N = 163 – общее количество ядерных профилей. Чтобы рассчитать сегрегацию, просто разделите эти два значения.
Связь	$\left({\frac {AB}{N}}\right)-(\left({\frac {A}{N}}\right)*\left({\frac {B}{N}}\right))$	Учитывая два заданных геномных окна в геноме, содержащем 163 ядерных профиля, формула слева будет разбита следующим образом. Первый набор круглых скобок рассчитывает совместное разделение двух окон, как показано в строке выше. Второй набор скобок умножает частоту обнаружения первого окна на частоту обнаружения второго окна. Подводя итог, вычислите совместное разделение окон и вычтите произведение частот обнаружения окна.
Нормализованная связь (NL)	Если Linkage меньше 0: $LM=min(fafb,(1-fa)(1-fb))$ $NL=\left({\frac {Linkage}{LM}}\right)$ Если Linkage больше 0: $LM=min(fb(1-fa),fa(1-fb))$ $NL=\left({\frac {Linkage}{LM}}\right)$	Учитывая два заданных геномных окна в геноме, содержащем 163 ядерных профиля, формула слева будет разбита следующим образом. Если значение связи, рассчитанное на предыдущем шаге, меньше 0, сравните два значения в скобках, чтобы найти минимум, который представляет собой максимальное значение связи: произведение частот обнаружения двух окон и произведение одного минус частота обнаружения. каждого окна. Если значение связи, рассчитанное на предыдущем шаге, больше 0, сравните два значения в скобках, чтобы найти минимум, который представляет собой максимальное значение связи: произведение частоты обнаружения одного окна за раз минус частота обнаружения другого и затем тот же расчет с обратными окнами. Подводя итог, вычислите произведения и обратные значения отдельных частот обнаружения окна.

Отображение нормализованной связи [ править ]

После завершения всех этапов расчета на предыдущем этапе можно создать и затем отобразить матрицу. В заданном наборе из 81 окна в геноме нормализованная связь может быть заполнена в матрицу размером 81 на 81. Это связано с тем, что каждое окно будет сравниваться само с собой и с каждым другим окном, чтобы вычислить все нормализованные значения связей. По мере расчета связи каждого окна значение должно быть вставлено в указанное место в матрице. Например, если сравнение выполняется между первым и вторым окном, значение связи будет помещено в первый столбец и вторую строку матрицы. Пример тепловой карты , созданной на основе матрицы такого размера, показан ниже.

При анализе тепловой карты, отображаемой из нормализованной матрицы связей, ключевыми являются цвета каждого блока. Если посмотреть на пример тепловой карты выше, легенда показывает, что значение связи 1,00 соответствует ярко-желтому цвету на тепловой карте. Это наибольшее значение связи, которое отображается диагональной линией из желтых блоков на карте, где каждое окно сравнивается само с собой. Эта легенда и тепловая карта позволяют отображать связи на основе цвета, показывая, что между первым и последними окнами в матрице существует более низкий уровень связи, где используется синий/зеленый цвет. Тепловая карта — это один из самых простых и понятных способов анализа значений связей между каждым окном в указанном разделе окон в геноме. Эту сгенерированную тепловую карту и нормализованную матрицу связей после создания можно использовать для дальнейшего анализа, как описано ниже.

анализу графическому Подход к

После расчета косегрегации всех целевых геномных окон связанные подмножества или «сообщества» внутри набора окон можно аппроксимировать с помощью графического анализа.

Получение матрицы смежности (графика) [ править ]

После создания матрицы косегрегации процесс преобразования ее в матрицу смежности для представления графа становится относительно простым процессом. Каждую ячейку матрицы косегрегации необходимо сравнить с пороговым значением от 0,0 до 1,0. Это значение можно регулировать в зависимости от желаемой специфики графика. Если в качестве порога выбрано более высокое значение, то граф обычно будет иметь меньше ребер, поскольку высокие пороги требуют, чтобы два окна были тесно связаны. Если выбрано более низкое значение, то граф обычно будет иметь больше ребер, поскольку окна не должны быть так сильно связаны, чтобы их можно было классифицировать как ребро. Разумной отправной точкой для установки этого значения является среднее значение графика косегрегации. Однако если используется простое среднее значение, порог может оказаться выше, чем предполагалось. Это связано с тем, что значение косегрегации любого окна само по себе будет равно 1,0. Поскольку создаваемая матрица смежности нерефлексивна, а это означает, что окно не может иметь общий край с самим собой, диагональ смежности должна быть полностью нулевой, а диагональ матрицы косегрегации не имеет значения. Чтобы компенсировать это, можно просто дисконтировать значения по диагонали матрицы косегрегации, чтобы нормализовать среднее значение. Чтобы увидеть эффект этой настройки, см. прилагаемый рисунок. Как только пороговое значение установлено, перевод становится довольно прямым. Если ячейка матрицы косегрегации находится вдоль главной диагонали, то соответствующая ей ячейка в матрице смежности будет равна 0, как упоминалось ранее. В противном случае оно сравнивается с порогом. Если значение ниже порога, то соответствующая ячейка в матрице смежности будет равна 0, в противном случае — 1.

Оцените центральность окон [ править ]

После того, как матрица смежности создана, окна можно оценить с помощью нескольких различных показателей центральности . Одной из таких мер является центральность по степени. Степень централизации рассчитывается путем деления количества ребер, которые имеет данный узел графа (одно из геномных окон), на количество общего количества узлов минус один. См. прилагаемый рисунок для примера этого расчета. Центральность узла может быть хорошим индикатором потенциала этого отдельного узла оказывать сильное влияние на набор данных на основе его относительно большого количества соединений.

Обнаружение сообщества [ править ]

После расчета значений центральности становится возможным сделать выводы о связанных подмножествах данных. Эти связанные подмножества данных называются «сообществами», которые представляют собой кластеры данных, которые тесно связаны внутри, но не так тесно связаны с остальными данными снаружи. Хотя одно из наиболее распространенных применений обнаружения сообществ связано с социальными сетями и картированием социальных связей, ^[11] его можно применить к таким проблемам, как геномные взаимодействия. Относительно простой метод аппроксимации сообществ состоит в том, чтобы изолировать несколько значимых узлов на основе мер центральности, таких как степень центральности, а затем построить на их основе сообщества. Сообществом узла будет полный набор узлов, непосредственно связанных с ним, а также сам узел. Например, на рисунке слева сообщество вокруг узла C будет состоять из всех четырех узлов графа, тогда как сообщество будет состоять только из узлов C и D. D Обнаружение сообществ в геномных окнах может выявить потенциальные взаимодействия хроматина или другие взаимодействия, которые ранее не ожидались или не были поняты, и стать целью для дальнейшего изучения.

Преимущества [ править ]

По сравнению с методами, основанными на 3C, GAM обеспечивает три ключевых преимущества. ^[12]

C-метод использует метод парного взаимодействия, что означает, что он может предоставлять только парные результаты. Но GAM может обнаружить кластеризацию нескольких генных локусов.
Ферменты рестрикции играют существенную роль в С-методе. В этом случае сайты рестрикционных ферментов ограничивают методы, основанные на лигировании. GAM не имеет этого ограничения.
C-методы требуют больше ячеек, чем GAM.

Ссылки [ править ]

^ Jump up to: Перейти обратно: ^а ^б ^с ^д ^и ^ж Бигри Р.А., Скиалдоне А., Шуелер М., Кремер Д.С., Чоталия М., Се С.К., Барбьери М., де Сантьяго И., Лавитас Л.М., Бранко М.Р., Фрейзер Дж., Дости Дж., Гейм Л., Диллон Н., Эдвардс П.А., Никодеми М., Помбо А (март 2017 г.). «Сложные контакты с несколькими энхансерами, зафиксированные с помощью картирования геномной архитектуры (GAM)» . Природа . 543 (7646): 519–524. дои : 10.1038/nature21411 . ПМК 5366070 . ПМИД 28273065 .
^ «Проект 4D-генома» (PDF) .
^ О'Салливан, Дж. М.; Хенди, доктор медицины; Пичугина Т; Уэйк, GC; Ланговски, Дж (2013). «Статистическая механика захвата конформации хромосом» . Ядро . 4 (5): 390–8. дои : 10.4161/nucl.26513 . ПМЦ 3899129 . ПМИД 24051548 .
^ Бигри Р.А., Скиалдоне А., Шулер М., Кремер Д.К., Чоталия М., Се С.К., Барбьери М, де Сантьяго И, Лавитас ЛМ, Бранко М.Р., Фрейзер Дж., Дости Дж., Гейм Л., Диллон Н., Эдвардс П.А., Никодеми М., Помбо А. Сложные контакты между несколькими энхансерами, зафиксированные путем картирования архитектуры генома. Природа. 23 марта 2017 г.; 543 (7646): 519-524.
^ Помбо, Ана (2007). «Достижения в визуализации интерфазного ядра с использованием тонких криосрезов». Гистохимия и клеточная биология . 128 (2): 97–104. дои : 10.1007/s00418-007-0310-x . ПМИД 17636315 . S2CID 7934012 .
^ Jump up to: Перейти обратно: ^а ^б Бигри, Роберт. «ГАМтулс» . GAMtools . Проверено 19 апреля 2022 г.
^ Бигри, Роберт. «Документация GAMtools» . Документация GAMtools . Проверено 19 апреля 2022 г.
^ Дасгупта, Санджой. Твердость кластеризации k-средних (отчет № CS2008-0916). Получено с https://cseweb.ucsd.edu/~dasgupta/papers/kmeans.pdf.
^ Фортунато, Святой; Хрик, Дарко (ноябрь 2016 г.). «Обнаружение сообществ в сетях: Руководство пользователя» . Отчеты по физике . 659 : 1–44. arXiv : 1608.00163 . дои : 10.1016/j.physrep.2016.09.002 .
^ Бигри, Роберт А.; Скиалдоне, Антонио; Шулер, Маркус; Кремер, Дороти, Калифорния; Чоталия, Мита; Се, Шейла К.; Барбьери, Мариано; де Сантьяго, Инес; Лавитас, Лирон-Марк; Уайт, Майкл Р.; Фрейзер, Джеймс (23 марта 2017 г.). «Сложные контакты с несколькими энхансерами, зафиксированные с помощью картирования геномной архитектуры (GAM)» . Природа . 543 (7646): 519–524. дои : 10.1038/nature21411 . ISSN 0028-0836 . ПМК 5366070 . ПМИД 28273065 .
^ Гранжан, Мартин (2016). «Анализ социальной сети Twitter: составление карты сообщества цифровых гуманитарных наук» (PDF) . Cogent Искусства и Гуманитарные науки . 3 (1): 1171458. doi : 10.1080/23311983.2016.1171458 . S2CID 114999767 .
^ Финн, Элизабет Х.; Мистели, Том (2017). «Архитектура генома под другим углом» . Развивающая клетка . 41 (1): 3–4. дои : 10.1016/j.devcel.2017.03.017 . ПМК 6301035 . ПМИД 28399397 .

[Beagrie2017-1] Jump up to: Перейти обратно: ^а ^б ^с ^д ^и ^ж Бигри Р.А., Скиалдоне А., Шуелер М., Кремер Д.С., Чоталия М., Се С.К., Барбьери М., де Сантьяго И., Лавитас Л.М., Бранко М.Р., Фрейзер Дж., Дости Дж., Гейм Л., Диллон Н., Эдвардс П.А., Никодеми М., Помбо А (март 2017 г.). «Сложные контакты с несколькими энхансерами, зафиксированные с помощью картирования геномной архитектуры (GAM)» . Природа . 543 (7646): 519–524. дои : 10.1038/nature21411 . ПМК 5366070 . ПМИД 28273065 .

[2] «Проект 4D-генома» (PDF) .

[3] О'Салливан, Дж. М.; Хенди, доктор медицины; Пичугина Т; Уэйк, GC; Ланговски, Дж (2013). «Статистическая механика захвата конформации хромосом» . Ядро . 4 (5): 390–8. дои : 10.4161/nucl.26513 . ПМЦ 3899129 . ПМИД 24051548 .

[4] Бигри Р.А., Скиалдоне А., Шулер М., Кремер Д.К., Чоталия М., Се С.К., Барбьери М, де Сантьяго И, Лавитас ЛМ, Бранко М.Р., Фрейзер Дж., Дости Дж., Гейм Л., Диллон Н., Эдвардс П.А., Никодеми М., Помбо А. Сложные контакты между несколькими энхансерами, зафиксированные путем картирования архитектуры генома. Природа. 23 марта 2017 г.; 543 (7646): 519-524.

[:0-5] Помбо, Ана (2007). «Достижения в визуализации интерфазного ядра с использованием тонких криосрезов». Гистохимия и клеточная биология . 128 (2): 97–104. дои : 10.1007/s00418-007-0310-x . ПМИД 17636315 . S2CID 7934012 .

[GAMtools-6] Jump up to: Перейти обратно: ^а ^б Бигри, Роберт. «ГАМтулс» . GAMtools . Проверено 19 апреля 2022 г.

[GAMtools_Documentation-7] Бигри, Роберт. «Документация GAMtools» . Документация GAMtools . Проверено 19 апреля 2022 г.

[8] Дасгупта, Санджой. Твердость кластеризации k-средних (отчет № CS2008-0916). Получено с https://cseweb.ucsd.edu/~dasgupta/papers/kmeans.pdf.

[9] Фортунато, Святой; Хрик, Дарко (ноябрь 2016 г.). «Обнаружение сообществ в сетях: Руководство пользователя» . Отчеты по физике . 659 : 1–44. arXiv : 1608.00163 . дои : 10.1016/j.physrep.2016.09.002 .

[10] Бигри, Роберт А.; Скиалдоне, Антонио; Шулер, Маркус; Кремер, Дороти, Калифорния; Чоталия, Мита; Се, Шейла К.; Барбьери, Мариано; де Сантьяго, Инес; Лавитас, Лирон-Марк; Уайт, Майкл Р.; Фрейзер, Джеймс (23 марта 2017 г.). «Сложные контакты с несколькими энхансерами, зафиксированные с помощью картирования геномной архитектуры (GAM)» . Природа . 543 (7646): 519–524. дои : 10.1038/nature21411 . ISSN 0028-0836 . ПМК 5366070 . ПМИД 28273065 .

[11] Гранжан, Мартин (2016). «Анализ социальной сети Twitter: составление карты сообщества цифровых гуманитарных наук» (PDF) . Cogent Искусства и Гуманитарные науки . 3 (1): 1171458. doi : 10.1080/23311983.2016.1171458 . S2CID 114999767 .

[12] Финн, Элизабет Х.; Мистели, Том (2017). «Архитектура генома под другим углом» . Развивающая клетка . 41 (1): 3–4. дои : 10.1016/j.devcel.2017.03.017 . ПМК 6301035 . ПМИД 28399397 .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]