Методы микроматричного анализа

Пример олигомикроматрицы, насчитывающей примерно 40 000 зондов, с увеличенной вставкой для демонстрации деталей.

Методы микроматричного анализа используются для интерпретации данных, полученных в результате экспериментов на ДНК ( анализ генных чипов ), РНК и белковых микрочипах организма , которые позволяют исследователям исследовать состояние экспрессии большого количества генов – во многих случаях всего генома – в одном эксперименте. ^[1] Такие эксперименты могут генерировать очень большие объемы данных, позволяя исследователям оценить общее состояние клетки или организма. Данные в таких больших количествах сложно – если вообще возможно – проанализировать без помощи компьютерных программ.

Введение

Анализ данных микрочипа — это последний этап считывания и обработки данных, полученных с помощью микрочипа. Образцы подвергаются различным процессам, включая очистку и сканирование с помощью микрочипа, который затем генерирует большой объем данных, требующих обработки с помощью компьютерного программного обеспечения. Он включает в себя несколько отдельных шагов, как показано на изображении ниже. Изменение любого из шагов изменит результат анализа, поэтому проект MAQC ^[2] был создан для определения набора стандартных стратегий. Существуют компании, которые используют протоколы MAQC для выполнения полного анализа. ^[3]

Техники

Большинство производителей микроматриц, таких как Affymetrix и Agilent , ^[4] предоставляют коммерческое программное обеспечение для анализа данных вместе со своими микрочипами. Существуют также варианты с открытым исходным кодом, в которых используются различные методы анализа данных микрочипов.

Агрегация и нормализация

Сравнение двух разных массивов или двух разных образцов, гибридизованных с одним и тем же массивом, обычно включает в себя корректировку систематических ошибок, вызванных различиями в процедурах и эффектами интенсивности красителя. Нормализация красителя для двух цветовых массивов часто достигается с помощью локальной регрессии . LIMMA предоставляет набор инструментов для коррекции и масштабирования фона, а также возможность усреднять повторяющиеся места на слайде. ^[5] Распространенный метод оценки того, насколько хорошо нормализован массив, — это построить график MA данных. Графики MA можно создавать с использованием программ и языков, таких как R и MATLAB. ^[6]^[7]

Необработанные данные Affy содержат около двадцати зондов для одной и той же РНК-мишени. Половина из них представляют собой «пятна несоответствия», которые не совсем соответствуют целевой последовательности. Теоретически они могут измерять степень неспецифического связывания с данной мишенью. Надежное многоматричное усреднение (RMA) ^[8] — это подход к нормализации, который не использует преимущества этих мест несоответствия, но все же должен суммировать идеальные совпадения посредством медианной полировки . ^[9] Алгоритм медианной полировки, хотя и является надежным, ведет себя по-разному в зависимости от количества проанализированных образцов. ^[10] Квантильная нормализация , также являющаяся частью RMA, является одним из разумных подходов к нормализации пакета массивов, чтобы сделать дальнейшие сравнения значимыми.

Текущий алгоритм Affymetrix MAS5, который использует пробы как идеального совпадения, так и несоответствия, продолжает пользоваться популярностью и хорошо показывает себя в прямых тестах. ^[11]

Блок-схема, показывающая, как работает алгоритм MAS5 от Agilent.

Факторный анализ для надежного суммирования микрочипов (FARMS) ^[12] — это метод, основанный на модели, для суммирования данных массива на уровне зонда идеального соответствия. Он основан на модели факторного анализа, для которой метод байесовского максимума апостериорно оптимизирует параметры модели в предположении гауссовского шума измерений. По данным бенчмарка Affycomp ^[13] FARMS превзошел все другие методы обобщения по чувствительности и специфичности.

Выявление значимой дифференциальной экспрессии

Существует множество стратегий для идентификации зондов массива, которые демонстрируют необычный уровень сверхэкспрессии или недостаточной экспрессии. Самый простой способ — назвать «значимым» любой зонд, который в среднем различается как минимум в два раза между группами лечения. Более сложные подходы часто связаны с t-тестами или другими механизмами, которые учитывают как величину эффекта, так и вариабельность. Любопытно, что значения p, связанные с конкретными генами, плохо воспроизводятся между повторными экспериментами, а списки, созданные путем прямого изменения, работают намного лучше. ^[14]^[15] Это чрезвычайно важное наблюдение, поскольку цель проведения экспериментов связана с предсказанием общего поведения. Группа MAQC рекомендует использовать оценку кратных изменений плюс нестрогий пороговый показатель p-значения, указывая далее, что изменения в фоновой коррекции и процессе масштабирования оказывают лишь минимальное влияние на порядок ранжирования различий кратных изменений, но существенно влияют на p-значения. ^[14]

Кластеризация

Кластеризация — это метод интеллектуального анализа данных, используемый для группировки генов, имеющих схожие модели экспрессии. Иерархическая кластеризация и кластеризация k-средних широко используются в анализе микрочипов.

Иерархическая кластеризация

Иерархическая кластеризация — это статистический метод поиска относительно однородных кластеров. Иерархическая кластеризация состоит из двух отдельных этапов. Первоначально рассчитывается матрица расстояний , содержащая все попарные расстояния между генами. Корреляция Пирсона и корреляция Спирмена часто используются в качестве оценки несходства, но могут также применяться и другие методы, такие как Манхэттенское расстояние или Евклидово расстояние . Учитывая количество доступных мер расстояния и их влияние на результаты алгоритма кластеризации, в нескольких исследованиях сравнивались и оценивались различные меры расстояния для кластеризации данных микрочипов, учитывая их внутренние свойства и устойчивость к шуму. ^[16]^[17]^[18] После расчета исходной матрицы расстояний алгоритм иерархической кластеризации либо (A) итеративно объединяет два ближайших кластера, начиная с отдельных точек данных (агломеративный восходящий подход, который довольно часто используется), либо (B) итеративно разделяет кластеры. начиная с полного набора (разделительный подход сверху вниз). После каждого шага пересчитывается новая матрица расстояний между вновь образовавшимися кластерами и остальными кластерами. К методам иерархического кластерного анализа относятся:

Одиночная связь (метод минимума, ближайший сосед)
Средняя связь ( UPGMA )
Полная связь (метод максимума, самый дальний сосед)

Различные исследования уже эмпирически показали, что алгоритм кластеризации с одинарной связью дает плохие результаты при использовании для данных микрочипов экспрессии генов, и поэтому его следует избегать. ^[18]^[19]

K-средства кластеризации

Кластеризация K-средних — это алгоритм группировки генов или образцов на основе шаблона в K -группы. Группировка осуществляется путем минимизации суммы квадратов расстояний между данными и соответствующим центроидом кластера . Таким образом, целью кластеризации K-средних является классификация данных на основе схожего выражения. ^[20] алгоритм кластеризации K-средних и некоторые его варианты (включая k-medoids Было показано, что ) дают хорошие результаты для данных об экспрессии генов (по крайней мере, лучше, чем методы иерархической кластеризации). Эмпирические сравнения k-средних , k-медоидов , иерархических методов и различных мер расстояния можно найти в литературе. ^[18]^[19]

Распознавание образов

Коммерческие системы для анализа генных сетей, такие как Ingenuity ^[21] и студия Pathway ^[22] создавать визуальные представления дифференциально экспрессируемых генов на основе современной научной литературы. Некоммерческие инструменты, такие как FunRich, ^[23] GenMAPP и Moksiskaan также помогают в организации и визуализации данных генной сети, полученных в результате одного или нескольких экспериментов на микрочипах. доступен широкий выбор инструментов анализа микрочипов В Bioconductor, написанном на языке программирования R , . Часто упоминаемый модуль SAM и другие инструменты микрочипов. ^[24] доступны через Стэнфордский университет. Другой набор доступен в Гарварде и Массачусетском технологическом институте. ^[25]

Пример вывода инструмента FunRich. На изображении показан результат сравнения 4 разных генов.

Также были разработаны специализированные программные инструменты для статистического анализа с целью определения степени сверх- или недостаточной экспрессии гена в эксперименте на микрочипе по сравнению с эталонным состоянием, чтобы помочь в идентификации генов или наборов генов, связанных с конкретными фенотипами . Один из таких методов анализа, известный как обогащения набора генов анализ (GSEA), использует статистику в стиле Колмогорова-Смирнова для идентификации групп генов, которые регулируются вместе. ^[1] Этот сторонний статистический пакет предлагает пользователю информацию об интересующих генах или наборах генов, включая ссылки на записи в таких базах данных, как GenBank NCBI , и курируемых базах данных, таких как Biocarta. ^[26] и Онтология генов . Инструмент анализа обогащения белковых комплексов (COMPLEAT) обеспечивает аналогичный анализ обогащения на уровне белковых комплексов. ^[27] Инструмент может идентифицировать динамическую регуляцию белкового комплекса в различных условиях или в разные моменты времени. Сопутствующая система, КРАСКА ^[28] и ОБЪЕМ ^[29] выполняет статистический анализ областей промотора гена, выявляя чрезмерное и недостаточное представительство ранее идентифицированных элементов ответа фактора транскрипции . Еще одним инструментом статистического анализа является статистика ранговой суммы для коллекций наборов генов (RssGsc), которая использует функции распределения вероятностей суммы рангов для поиска наборов генов, объясняющих экспериментальные данные. ^[30] Еще одним подходом является контекстуальный метаанализ, то есть выяснение того, как кластер генов реагирует на различные экспериментальные контексты. Genevestigator — это общедоступный инструмент для проведения контекстного метаанализа в таких контекстах, как анатомические части, стадии развития и реакция на заболевания, химические вещества, стрессы и новообразования .

Анализ значимости микрочипов (SAM)

Анализ значимости микрочипов (SAM) — это статистический метод , созданный в 2001 году Вирджинией Ташер, Робертом Тибширани и Гилбертом Чу для определения того, являются ли изменения в экспрессии генов статистически значимыми. С появлением микрочипов ДНК стало возможным измерять экспрессию тысяч генов в одном эксперименте по гибридизации. Генерируемые данные значительны, и метод сортировки того, что важно, а что нет, имеет важное значение. SAM распространяется Стэнфордским университетом в R-пакете . ^[31]

SAM идентифицирует статистически значимые гены, проводя специфичные для генов t-тесты , и вычисляет статистику d _j для каждого гена j , которая измеряет силу связи между экспрессией гена и переменной ответа. ^[32]^[33]^[34] В этом анализе используется непараметрическая статистика , поскольку данные могут не соответствовать нормальному распределению . Переменная ответа описывает и группирует данные на основе экспериментальных условий. В этом методе повторяющиеся перестановки данных используются для определения того, является ли экспрессия какого-либо гена значимой в отношении ответа. Использование анализа на основе перестановок учитывает корреляции в генах и позволяет избежать параметрических предположений о распределении отдельных генов. Это преимущество перед другими методами (например, ANOVA и Bonferroni ), которые предполагают равную дисперсию и/или независимость генов. ^[35]

Основной протокол

Выполняйте эксперименты на микрочипах — микрочип ДНК с олиго- и кДНК-праймерами, массивы SNP, белковые массивы и т. д.
Анализ входных выражений в Microsoft Excel — см. ниже.
Запуск SAM как надстройки Microsoft Excel
Отрегулируйте параметр настройки Дельта, чтобы получить значительное количество генов вместе с приемлемой частотой ложных обнаружений (FDR)) и оцените размер выборки, рассчитав среднюю разницу в экспрессии в контроллере графиков SAM.
Перечислите дифференциально экспрессируемые гены (положительно и отрицательно экспрессируемые гены)

Запуск СЭМ

SAM доступен для загрузки онлайн по адресу http://www-stat.stanford.edu/~tibs/SAM/ для академических и неакадемических пользователей после завершения этапа регистрации.
SAM запускается как надстройка Excel, а контроллер графика SAM позволяет настраивать частоту ложного обнаружения и дельту, а функции графика SAM и вывода SAM создают список значимых генов, таблицу дельты и оценку размеров выборки.
Перестановки рассчитываются на основе количества образцов.
Блочные перестановки
- Блоки представляют собой пакеты микрочипов; например, для восьми образцов, разделенных на две группы (контрольную и затронутую), имеется 4!=24 перестановки для каждого блока, а общее количество перестановок составляет (24)(24)= 576. Рекомендуется минимум 1000 перестановок; ^[32]^[36]^[37]

количество перестановок задается пользователем при вменении правильных значений набора данных для запуска SAM

Форматы ответов

Типы: ^[32]

Количественный — реальный (например, частота сердечных сокращений).
Один класс — проверяет, отличается ли средняя экспрессия гена от нуля.
Два класса — два набора измерений
- Непарные — единицы измерения в двух группах разные; например, контрольная и лечебная группы с образцами от разных пациентов
- Парные — в двух группах измеряются одни и те же экспериментальные единицы; например, образцы до и после лечения от одних и тех же пациентов
Мультикласс — более двух групп, каждая из которых содержит разные экспериментальные единицы; обобщение двухклассового непарного типа
Выживаемость — данные о времени до события (например, смерти или рецидива).
Временной ход — каждая экспериментальная единица измеряется более чем в один момент времени; экспериментальные установки относятся к одно- или двухклассной конструкции
Обнаружение шаблонов — явный параметр ответа не указан; пользователь указывает собственный ген (главный компонент) данных экспрессии и рассматривает его как количественный ответ

Алгоритм

SAM вычисляет тестовую статистику относительной разницы в экспрессии генов на основе анализа перестановок данных об экспрессии и рассчитывает уровень ложного обнаружения. Основные расчеты программы проиллюстрированы ниже. ^[32]^[33]^[34]

Константа s _o выбрана так, чтобы минимизировать коэффициент вариации d _i . r _i равен уровням экспрессии (x) гена i в экспериментальных условиях y.

$\mathrm {False\ discovery\ rate\ (FDR)={\frac {Median\ (or\ 90^{th}\ percentile)\ of\ \#\ of\ falsely\ called\ genes}{Number\ of\ genes\ called\ significant}}}$

Складные изменения (t) указаны для того, чтобы гарантировать генам, называемым значительными изменениями, по крайней мере, заранее определенную величину. Это означает, что абсолютное значение средних уровней экспрессии гена при каждом из двух условий должно быть больше, чем кратное изменение (t), чтобы называться положительным, и меньше, чем обратное кратное изменение (t), чтобы называться отрицательным.

Алгоритм SAM можно сформулировать так:

Упорядочить статистику испытаний по величине ^[33]^[34]
Для каждой перестановки вычислите упорядоченные нулевые (незатронутые) оценки. ^[33]^[34]
Постройте статистику упорядоченного теста против ожидаемых нулевых результатов. ^[33]^[34]
Назовите каждый ген значимым, если абсолютное значение тестовой статистики для этого гена за вычетом средней тестовой статистики для этого гена превышает установленный порог. ^[34]
Оцените уровень ложного обнаружения на основе ожидаемых и наблюдаемых значений. ^[33]^[34]

Выход

Значительные наборы генов
- Положительный набор генов — более высокая экспрессия большинства генов в наборе генов коррелирует с более высокими значениями фенотипа y.
- Отрицательный набор генов — более низкая экспрессия большинства генов в наборе генов коррелирует с более высокими значениями фенотипа y.

Возможности ЗРК

Данные из массивов олиго- или кДНК, массивов SNP, белковых массивов и т. д. могут быть использованы в SAM. ^[33]^[34]
Сопоставляет данные экспрессии с клиническими параметрами ^[35]
Коррелирует данные выражения со временем ^[32]
Использует перестановку данных для оценки уровня ложного обнаружения при множественном тестировании. ^[33]^[34]^[35]^[38]
Сообщает о локальной частоте ложных открытий (FDR для генов, имеющих d _i, аналогичный этому гену) ^[32] и пропустить ставки ^[32]^[33]
Может работать с блокированным дизайном, когда обработка применяется в разных партиях массивов. ^[32]
Можно настроить порог, определяющий количество генов, называемых значимыми. ^[32]

Исправление ошибок и контроль качества

Контроль качества

Целые массивы могут иметь очевидные дефекты, обнаруживаемые при визуальном осмотре, попарном сравнении с массивами в той же экспериментальной группе или при анализе деградации РНК. ^[39] Результаты могут улучшиться, если полностью исключить эти массивы из анализа.

Коррекция фона

В зависимости от типа массива для достижения лучших результатов можно вычесть сигнал, связанный с неспецифическим связыванием флуорофора. Один из подходов предполагает вычитание среднегоинтенсивность сигнала области между пятнами. Компания TIGR предлагает различные инструменты для коррекции фона и дальнейшего анализа. ^[40] Аджилент ( GeneSpring ), ^[41] и Ocimum Bio Solutions (Genowiz). ^[42]

Точечная фильтрация

Визуальная идентификация локальных артефактов, таких как дефекты печати или стирки, также может указывать на удаление отдельных пятен. Это может занять значительное время в зависимости от качества изготовления массива. Кроме того, некоторые процедуры требуют исключения всех пятен со значением экспрессии ниже определенного порога интенсивности.

См. также

Ссылки

^ Jump up to: ^а ^б Субраманиан А., Тамайо П., Мута В.К. и др. (2005). «Анализ обогащения генного набора: основанный на знаниях подход к интерпретации профилей экспрессии в масштабах всего генома» . Учеб. Натл. акад. наук. США . 102 (43): 15545–50. дои : 10.1073/pnas.0506580102 . ПМЦ 1239896 . ПМИД 16199517 .
^ Доктор Леминг Ши, Национальный центр токсикологических исследований. «Проект контроля качества MicroArray (MAQC)» . Управление по контролю за продуктами и лекарствами США . Проверено 26 декабря 2007 г.
^ «GenUs BioSystems – Услуги – Анализ данных» . Проверено 2 января 2008 г.
^ «Agilent | ДНК-микрочипы» . Архивировано из оригинала 22 декабря 2007 года . Проверено 2 января 2008 г.
^ «Библиотека LIMMA: линейные модели для данных микрочипов» . Проверено 1 января 2008 г.
^ Гатто, Лоран; Брекельс, Лиза М.; Нааке, Томас; Гибб, Себастьян (2015). «Визуализация данных протеомики с использованием R и Bioconductor» . Протеомика . 15 (8): 1375–1389. дои : 10.1002/pmic.201400392 . ISSN 1615-9853 . ПМК 4510819 . ПМИД 25690415 .
^ «Создать график рассеяния интенсивности в зависимости от соотношения данных микрочипа — MATLAB mairplot» . Матворкс . Проверено 24 ноября 2023 г.
^ Иризарри, РА ; Хоббс, Б; Коллин, Ф; Бизер-Барклай, Ю.Д.; Антонеллис, К.Дж.; Шерф, У; Скорость, ТП (2003). «Исследование, нормализация и обобщение данных уровня зондов массива олигонуклеотидов высокой плотности» . Биостатистика . 4 (2): 249–64. дои : 10.1093/биостатистика/4.2.249 . ПМИД 12925520 .
^ Болстад Б.М., Иризарри Р.А., Астранд М., Спид ТП (2003). «Сравнение методов нормализации данных массива олигонуклеотидов высокой плотности на основе дисперсии и систематической ошибки» . Биоинформатика . 19 (2): 185–93. дои : 10.1093/биоинформатика/19.2.185 . ПМИД 12538238 .
^ Георгий Ф.М., Болджер А.М., Лозе М., Усадел Б. (2010). «Алгоритмические артефакты при медианном обобщении данных микрочипов» . БМК Биоинформатика . 11 : 553. дои : 10.1186/1471-2105-11-553 . ПМЦ 2998528 . ПМИД 21070630 .
^ Лим В.К., Ван К., Лефевр С., Калифано А. (2007). «Сравнительный анализ процедур нормализации микрочипов: влияние на обратную инженерию генных сетей» . Биоинформатика . 23 (13): i282–8. doi : 10.1093/биоинформатика/btm201 . ПМИД 17646307 .
^ Хохрейтер С., Клеверт Д.А., Обермайер К. (2006). «Новый метод суммирования данных уровня зонда affymetrix» . Биоинформатика . 22 (8): 943–949. doi : 10.1093/биоинформатика/btl033 . ПМИД 16473874 .
^ «Affycomp III: эталон для измерения экспрессии Affymetrix GeneChip» .
^ Jump up to: ^а ^б Ши Л., Рид Л.Х., Джонс В.Д. и др. (2006). «Проект контроля качества MicroArray (MAQC) демонстрирует межплатформенную и внутриплатформенную воспроизводимость измерений экспрессии генов» . Нат. Биотехнология . 24 (9): 1151–61. дои : 10.1038/nbt1239 . ПМК 3272078 . ПМИД 16964229 .
^ Го Л., Лобенхофер Е.К., Ван С. и др. (2006). «Токсигеномное исследование на крысах выявило аналитическую согласованность на всех платформах микрочипов». Нат. Биотехнология . 24 (9): 1162–9. дои : 10.1038/nbt1238 . ПМИД 17061323 . S2CID 8192240 .
^ Джентльмен, Роберт; и др. (2005). Решения для биоинформатики и вычислительной биологии с использованием R и Bioconductor . Нью-Йорк: Springer Science + Business Media. ISBN 978-0-387-29362-2 .
^ Ясковяк, Пабло А.; Кампелло, Рикардо Дж.Г.Б.; Коста, Иван Г. (2013). «Меры близости для кластеризации данных микрочипов экспрессии генов: методология проверки и сравнительный анализ». Транзакции IEEE/ACM по вычислительной биологии и биоинформатике . 10 (4): 845–857. дои : 10.1109/TCBB.2013.9 . ПМИД 24334380 . S2CID 760277 .
^ Jump up to: ^а ^б ^с Ясковяк, Пабло А; Кампелло, Рикардо Дж.Г.Б.; Коста, Иван Г (2014). «О выборе подходящих расстояний для кластеризации данных об экспрессии генов» . БМК Биоинформатика . 15 (Приложение 2): S2. дои : 10.1186/1471-2105-15-S2-S2 . ПМК 4072854 . ПМИД 24564555 .
^ Jump up to: ^а ^б де Соуто, Марсилио КП; Коста, Иван Г.; де Араужо, Даниэль С.А.; Людермир, Тереза Б.; Шлип, Александр (2008). «Кластеризация данных об экспрессии генов рака: сравнительное исследование» . БМК Биоинформатика . 9 (1): 497. дои : 10.1186/1471-2105-9-497 . ПМЦ 2632677 . ПМИД 19038021 .
^ "Дом" . biostat.ucsf.edu .
^ «Системы изобретательности» . Проверено 31 декабря 2007 г.
^ «Ариадна Геномика: Студия Pathway» . Архивировано из оригинала 30 декабря 2007 г. Проверено 31 декабря 2007 г.
^ «FunRich: Анализ функционального обогащения» . Проверено 9 сентября 2014 г.
^ [ «Анализ значимости микрочипов» . Проверено 31 декабря 2007 г. ]
^ «Программное обеспечение – Широкое» . Проверено 31 декабря 2007 г.
^ «БиоКарта – прокладывание путей жизни» . Проверено 31 декабря 2007 г.
^ Винаягам А., Ху Ю., Кулкарни М., Розель С. и др. (2013). «Структура анализа на основе белковых комплексов для наборов данных с высокой пропускной способностью. 6, rs5 (2013)» . наук. Сигнал . 6 (r5): rs5. дои : 10.1126/scisignal.2003629 . ПМЦ 3756668 . ПМИД 23443684 .
^ «ДБИ Веб» . Архивировано из оригинала 5 июля 2007 г. Проверено 31 декабря 2007 г.
^ "ОБЪЕМ" . Архивировано из оригинала 17 августа 2011 г. Проверено 31 декабря 2007 г.
^ «РссГск» . Проверено 15 октября 2008 г.
^ «SAM: Анализ значимости микрочипов» . tibshirani.su.domains . Проверено 24 ноября 2023 г.
^ Jump up to: ^а ^б ^с ^д ^и ^ж ^г ^час ^я Чу, Г., Нарасимхан, Б., Тибширани, Р., Ташер, В. «Руководство пользователя SAM «Анализ значимости микрочипов» и технический документ». [1]
^ Jump up to: ^а ^б ^с ^д ^и ^ж ^г ^час ^я Занг, С.; Го, Р.; и др. (2007). «Интеграция методов статистического вывода и новой меры контроля для повышения чувствительности и специфичности анализа данных в исследованиях профиля экспрессии» . Журнал биомедицинской информатики . 40 (5): 552–560. дои : 10.1016/j.jbi.2007.01.002 . ПМИД 17317331 .
^ Jump up to: ^а ^б ^с ^д ^и ^ж ^г ^час ^я <Чжан С. (2007). «Всесторонняя оценка SAM, пакета SAM R и простая модификация для улучшения его характеристик». БМК Биоинформатика 8: 230.
^ Jump up to: ^а ^б ^с Ташер, В.Г.; Тибширани, Р.; и др. (2001). «Анализ значимости микрочипов, применяемых для реакции на ионизирующее излучение» (PDF) . Труды Национальной академии наук . 98 (9): 5116–5121. Бибкод : 2001PNAS...98.5116G . дои : 10.1073/pnas.091062498 . ПМК 33173 . ПМИД 11309499 .
^ Дину, ИП; Джей Ди; Мюллер, Т; Лю, Кью; Адевале, Эй Джей; Джханри, Г.С.; Эйнеке, Г; Фамульский, К.С.; Холлоран, П; Ясуи, Ю. (2007). «Улучшение анализа набора генов данных микрочипов с помощью SAM-GS» . БМК Биоинформатика . 8 : 242. дои : 10.1186/1471-2105-8-242 . ЧВК 1931607 . ПМИД 17612399 .
^ Джеффри, Айдахо; ДГ; Калхейн, AC. (2006). «Сравнение и оценка методов создания списков дифференциально экспрессируемых генов на основе данных микрочипов» . БМК Биоинформатика . 7 : 359. дои : 10.1186/1471-2105-7-359 . ПМЦ 1544358 . ПМИД 16872483 .
^ Ларссон, OW C; Тиммонс, Дж.А. (2005). «Соображения при использовании алгоритма анализа значимости микрочипов (SAM)» . БМК Биоинформатика . 6 : 129. дои : 10.1186/1471-2105-6-129 . ПМК 1173086 . ПМИД 15921534 .
^ Уилсон CL, Миллер CJ (2005). «Simpleaffy: пакет BioConductor для контроля качества и анализа данных Affymetrix» . Биоинформатика . 21 (18): 3683–5. doi : 10.1093/биоинформатика/bti605 . PMID 16076888 .
^ «Институт Дж. Крейга Вентера – Программное обеспечение» . Проверено 1 января 2008 г.
^ «Аджилент | GeneSpring GX» . Проверено 2 января 2008 г.
^ «Оцимум Биосолюшнс | Геновиз» . Архивировано из оригинала 24 ноября 2009 г. Проверено 2 апреля 2009 г.

Внешние ссылки

ArrayExplorer — сравните микрочипы, чтобы найти тот, который лучше всего соответствует вашим исследовательским потребностям.
FARMS — Факторный анализ для надежного суммирования микрочипов, пакет R — программное обеспечение
StatsArray — онлайн-службы анализа микрочипов — программное обеспечение
ArrayMining.net — веб-приложение для онлайн-анализа данных микрочипов — программное обеспечение
FunRich — выполнение анализа обогащения набора генов — программное обеспечение
Сравнительный транскриптомный анализ в справочном модуле по наукам о жизни
Инструкция по загрузке SAM
Анализ экспрессии GeneChip® — основы анализа данных (от Affymetrix)
Дюк data_anaанализ_fundamentals_manual

[:0-1] Jump up to: ^а ^б Субраманиан А., Тамайо П., Мута В.К. и др. (2005). «Анализ обогащения генного набора: основанный на знаниях подход к интерпретации профилей экспрессии в масштабах всего генома» . Учеб. Натл. акад. наук. США . 102 (43): 15545–50. дои : 10.1073/pnas.0506580102 . ПМЦ 1239896 . ПМИД 16199517 .

[2] Доктор Леминг Ши, Национальный центр токсикологических исследований. «Проект контроля качества MicroArray (MAQC)» . Управление по контролю за продуктами и лекарствами США . Проверено 26 декабря 2007 г.

[3] «GenUs BioSystems – Услуги – Анализ данных» . Проверено 2 января 2008 г.

[4] «Agilent | ДНК-микрочипы» . Архивировано из оригинала 22 декабря 2007 года . Проверено 2 января 2008 г.

[5] «Библиотека LIMMA: линейные модели для данных микрочипов» . Проверено 1 января 2008 г.

[6] Гатто, Лоран; Брекельс, Лиза М.; Нааке, Томас; Гибб, Себастьян (2015). «Визуализация данных протеомики с использованием R и Bioconductor» . Протеомика . 15 (8): 1375–1389. дои : 10.1002/pmic.201400392 . ISSN 1615-9853 . ПМК 4510819 . ПМИД 25690415 .

[7] «Создать график рассеяния интенсивности в зависимости от соотношения данных микрочипа — MATLAB mairplot» . Матворкс . Проверено 24 ноября 2023 г.

[8] Иризарри, РА ; Хоббс, Б; Коллин, Ф; Бизер-Барклай, Ю.Д.; Антонеллис, К.Дж.; Шерф, У; Скорость, ТП (2003). «Исследование, нормализация и обобщение данных уровня зондов массива олигонуклеотидов высокой плотности» . Биостатистика . 4 (2): 249–64. дои : 10.1093/биостатистика/4.2.249 . ПМИД 12925520 .

[9] Болстад Б.М., Иризарри Р.А., Астранд М., Спид ТП (2003). «Сравнение методов нормализации данных массива олигонуклеотидов высокой плотности на основе дисперсии и систематической ошибки» . Биоинформатика . 19 (2): 185–93. дои : 10.1093/биоинформатика/19.2.185 . ПМИД 12538238 .

[10] Георгий Ф.М., Болджер А.М., Лозе М., Усадел Б. (2010). «Алгоритмические артефакты при медианном обобщении данных микрочипов» . БМК Биоинформатика . 11 : 553. дои : 10.1186/1471-2105-11-553 . ПМЦ 2998528 . ПМИД 21070630 .

[11] Лим В.К., Ван К., Лефевр С., Калифано А. (2007). «Сравнительный анализ процедур нормализации микрочипов: влияние на обратную инженерию генных сетей» . Биоинформатика . 23 (13): i282–8. doi : 10.1093/биоинформатика/btm201 . ПМИД 17646307 .

[12] Хохрейтер С., Клеверт Д.А., Обермайер К. (2006). «Новый метод суммирования данных уровня зонда affymetrix» . Биоинформатика . 22 (8): 943–949. doi : 10.1093/биоинформатика/btl033 . ПМИД 16473874 .

[13] «Affycomp III: эталон для измерения экспрессии Affymetrix GeneChip» .

[:1-14] Jump up to: ^а ^б Ши Л., Рид Л.Х., Джонс В.Д. и др. (2006). «Проект контроля качества MicroArray (MAQC) демонстрирует межплатформенную и внутриплатформенную воспроизводимость измерений экспрессии генов» . Нат. Биотехнология . 24 (9): 1151–61. дои : 10.1038/nbt1239 . ПМК 3272078 . ПМИД 16964229 .

[15] Го Л., Лобенхофер Е.К., Ван С. и др. (2006). «Токсигеномное исследование на крысах выявило аналитическую согласованность на всех платформах микрочипов». Нат. Биотехнология . 24 (9): 1162–9. дои : 10.1038/nbt1238 . ПМИД 17061323 . S2CID 8192240 .

[Gentleman-16] Джентльмен, Роберт; и др. (2005). Решения для биоинформатики и вычислительной биологии с использованием R и Bioconductor . Нью-Йорк: Springer Science + Business Media. ISBN 978-0-387-29362-2 .

[Jaskowiak2013-17] Ясковяк, Пабло А.; Кампелло, Рикардо Дж.Г.Б.; Коста, Иван Г. (2013). «Меры близости для кластеризации данных микрочипов экспрессии генов: методология проверки и сравнительный анализ». Транзакции IEEE/ACM по вычислительной биологии и биоинформатике . 10 (4): 845–857. дои : 10.1109/TCBB.2013.9 . ПМИД 24334380 . S2CID 760277 .

[Jaskowiak2014-18] Jump up to: ^а ^б ^с Ясковяк, Пабло А; Кампелло, Рикардо Дж.Г.Б.; Коста, Иван Г (2014). «О выборе подходящих расстояний для кластеризации данных об экспрессии генов» . БМК Биоинформатика . 15 (Приложение 2): S2. дои : 10.1186/1471-2105-15-S2-S2 . ПМК 4072854 . ПМИД 24564555 .

[Souto2011-19] Jump up to: ^а ^б де Соуто, Марсилио КП; Коста, Иван Г.; де Араужо, Даниэль С.А.; Людермир, Тереза Б.; Шлип, Александр (2008). «Кластеризация данных об экспрессии генов рака: сравнительное исследование» . БМК Биоинформатика . 9 (1): 497. дои : 10.1186/1471-2105-9-497 . ПМЦ 2632677 . ПМИД 19038021 .

[20] "Дом" . biostat.ucsf.edu .

[21] «Системы изобретательности» . Проверено 31 декабря 2007 г.

[22] «Ариадна Геномика: Студия Pathway» . Архивировано из оригинала 30 декабря 2007 г. Проверено 31 декабря 2007 г.

[23] «FunRich: Анализ функционального обогащения» . Проверено 9 сентября 2014 г.

[24] [ «Анализ значимости микрочипов» . Проверено 31 декабря 2007 г. ]

[25] «Программное обеспечение – Широкое» . Проверено 31 декабря 2007 г.

[26] «БиоКарта – прокладывание путей жизни» . Проверено 31 декабря 2007 г.

[27] Винаягам А., Ху Ю., Кулкарни М., Розель С. и др. (2013). «Структура анализа на основе белковых комплексов для наборов данных с высокой пропускной способностью. 6, rs5 (2013)» . наук. Сигнал . 6 (r5): rs5. дои : 10.1126/scisignal.2003629 . ПМЦ 3756668 . ПМИД 23443684 .

[28] «ДБИ Веб» . Архивировано из оригинала 5 июля 2007 г. Проверено 31 декабря 2007 г.

[29] "ОБЪЕМ" . Архивировано из оригинала 17 августа 2011 г. Проверено 31 декабря 2007 г.

[30] «РссГск» . Проверено 15 октября 2008 г.

[31] «SAM: Анализ значимости микрочипов» . tibshirani.su.domains . Проверено 24 ноября 2023 г.

[R1-32] Jump up to: ^а ^б ^с ^д ^и ^ж ^г ^час ^я Чу, Г., Нарасимхан, Б., Тибширани, Р., Ташер, В. «Руководство пользователя SAM «Анализ значимости микрочипов» и технический документ». [1]

[R7-33] Jump up to: ^а ^б ^с ^д ^и ^ж ^г ^час ^я Занг, С.; Го, Р.; и др. (2007). «Интеграция методов статистического вывода и новой меры контроля для повышения чувствительности и специфичности анализа данных в исследованиях профиля экспрессии» . Журнал биомедицинской информатики . 40 (5): 552–560. дои : 10.1016/j.jbi.2007.01.002 . ПМИД 17317331 .

[R8-34] Jump up to: ^а ^б ^с ^д ^и ^ж ^г ^час ^я <Чжан С. (2007). «Всесторонняя оценка SAM, пакета SAM R и простая модификация для улучшения его характеристик». БМК Биоинформатика 8: 230.

[R6-35] Jump up to: ^а ^б ^с Ташер, В.Г.; Тибширани, Р.; и др. (2001). «Анализ значимости микрочипов, применяемых для реакции на ионизирующее излучение» (PDF) . Труды Национальной академии наук . 98 (9): 5116–5121. Бибкод : 2001PNAS...98.5116G . дои : 10.1073/pnas.091062498 . ПМК 33173 . ПМИД 11309499 .

[R2-36] Дину, ИП; Джей Ди; Мюллер, Т; Лю, Кью; Адевале, Эй Джей; Джханри, Г.С.; Эйнеке, Г; Фамульский, К.С.; Холлоран, П; Ясуи, Ю. (2007). «Улучшение анализа набора генов данных микрочипов с помощью SAM-GS» . БМК Биоинформатика . 8 : 242. дои : 10.1186/1471-2105-8-242 . ЧВК 1931607 . ПМИД 17612399 .

[R3-37] Джеффри, Айдахо; ДГ; Калхейн, AC. (2006). «Сравнение и оценка методов создания списков дифференциально экспрессируемых генов на основе данных микрочипов» . БМК Биоинформатика . 7 : 359. дои : 10.1186/1471-2105-7-359 . ПМЦ 1544358 . ПМИД 16872483 .

[R5-38] Ларссон, OW C; Тиммонс, Дж.А. (2005). «Соображения при использовании алгоритма анализа значимости микрочипов (SAM)» . БМК Биоинформатика . 6 : 129. дои : 10.1186/1471-2105-6-129 . ПМК 1173086 . ПМИД 15921534 .

[39] Уилсон CL, Миллер CJ (2005). «Simpleaffy: пакет BioConductor для контроля качества и анализа данных Affymetrix» . Биоинформатика . 21 (18): 3683–5. doi : 10.1093/биоинформатика/bti605 . PMID 16076888 .

[40] «Институт Дж. Крейга Вентера – Программное обеспечение» . Проверено 1 января 2008 г.

[41] «Аджилент | GeneSpring GX» . Проверено 2 января 2008 г.

[42] «Оцимум Биосолюшнс | Геновиз» . Архивировано из оригинала 24 ноября 2009 г. Проверено 2 апреля 2009 г.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]