ГЕНСКАН
Разработчик(и) | Кристофер Бердж |
---|---|
Доступно в | Английский |
Тип | биоинформатики Инструмент |
Веб-сайт | гены |
В биоинформатике GENSCAN программу представляет собой для идентификации полных генных структур в геномной ДНК . Это программа, основанная на G HMM , которую можно использовать для прогнозирования местоположения генов и их экзон - интронных границ в геномных последовательностях различных организмов. Веб-сервер GENSCAN можно найти в Массачусетском технологическом институте . [ 1 ]
GENSCAN был разработан Кристофером Берджем в исследовательской группе Сэмюэля Карлина в Стэнфордском университете . [ 2 ] [ 3 ] [ 4 ]
История
[ редактировать ]В 2001 году мир предсказания генов человека вошёл в сравнительную геномику . Это привело к разработке программы под названием TWINSCAN как адаптации GENSCAN с более высокой точностью. Другие программы, такие как N-SCAN, были позже разработаны путем дальнейшей адаптации модели GHMM. [ 5 ]
По состоянию на 2002 год GENSCAN оставался популярным инструментом в биоинформатике, став стандартной функцией для геномов, выпущенных в Калифорнийском университете в Санта-Крус и Ensembl браузере Genome . [ 5 ]
Выполнение
[ редактировать ]Геномная модель
[ редактировать ]Основная цель при разработке модели геномной последовательности для GENSCAN заключалась в выявлении как общих, так и специфических свойств, составляющих отдельные функциональные единицы эукариотических генов (например, экзоны , интроны , сайты сплайсинга , промоторы ). Особое внимание было уделено особенностям, которые распознаются общим механизмом транскрипции, сплайсинга и трансляции, который обрабатывает большинство всех генов, кодирующих белки , в отличие от сигналов, связанных с транскрипцией или сплайсингом генов и семейств генов (например, ТАТА-бокс ). общая трехпериодическая марковская модель кодирующих областей Кроме того, используется пятого порядка, а не модели конкретных белковых мотивов или информация о гомологии в базе данных . Кроме того, модель учитывает структурные различия и различия в плотности между композиционными областями генома человека. [ 3 ]
Благодаря использованию этих элементов GENSCAN работает без необходимости ссылаться на аналогичные гены в базах данных последовательностей белков. Вместо этого прогнозы, полученные с помощью GENSCAN, дополняют прогнозы, полученные с помощью методов идентификации генов на основе гомологии (например, запрос к базам данных белков с помощью BLASTX ). В целом структура модели, используемой в GENSCAN, аналогична общей скрытой марковской модели . [ 3 ]
Функции
[ редактировать ]Реализация GENSCAN во многом отличается от других программ. Заметным отличием является тот факт, что GENSCAN использует модель геномной последовательности, которая фокусируется исключительно на двухцепочечной ДНК , где одновременно анализируются гены, присутствующие на обеих цепях. Кроме того, GENSCAN способен анализировать геномы в ситуациях, когда гены присутствуют частично или вообще отсутствуют, а не только анализировать отдельные и полные последовательности генов, как другие программы того времени. Эти два фактора способствуют тому, что GENSCAN особенно полезен при анализе более длинных геномов человека. Кроме того, GENSCAN использует концепцию разложения максимальной зависимости, позволяющую моделировать функциональные сигналы в последовательностях ДНК и белков, создавая возможность учета зависимостей между положениями сигналов в программе. В GENSCAN это реализовано таким образом, что генерируется модель донорного сигнала сплайсинга, фиксирующая зависимости, связанные с механизмами распознавания донорных сайтов сплайсинга в последовательности пре-мРНК . [ 3 ]
GENSCAN имеет возможность рассчитывать точность каждого из своих прогнозов, используя алгоритм прямого и обратного движения . [ 3 ]
Прогнозирование структуры и общего состава генов человека в отношении расположения экзонов и генов в более длинных последовательностях является дополнительным полезным компонентом GENSCAN. Есть несколько различных функций, которые являются частью этого. Одной из них является возможность улавливать различия в структуре и составе генов между областями C + G в геноме человека с использованием наборов эмпирически сгенерированных параметров модели. Еще одной производной особенностью является, как упоминалось ранее, предсказание нескольких генов в последовательности в дополнение к способности работать с частичными генами и двухцепочечной ДНК. Наконец, это также позволяет GENSCAN фиксировать зависимости между положениями сигналов с помощью новых моделей донорных и акцепторных сайтов сплайсинга. [ 3 ]
Эффективность
[ редактировать ]Время выполнения GENSCAN масштабируется почти линейно, если предоставляются последовательности реалистичного размера (минимум несколько килобит), но в худшем случае оно оказывается квадратичным. [ 3 ]
Дополнительное использование
[ редактировать ]GENSCAN, как и другие программы прогнозирования генома, не дает результатов, полностью соответствующих результатам других программ. Это связано с множеством факторов, включая, помимо прочего: различия в алгоритмах, параметрах и обучающих наборах. Поэтому GENSCAN использовался на практике для объединения результатов двух программ прогнозирования генов, так что, если одна программа в комбинации уверена в предсказании последовательности, используется эта последовательность. С другой стороны, если ни одна из программ не уверена в своих предсказаниях, предсказанная последовательность используется только в том случае, если обе программы согласны с ней. [ 6 ]
Точность
[ редактировать ]Были проведены тесты для оценки точности GENSCAN на коротких наборах данных. Один тест был проведен на наборе данных Берсета/Гиго, содержащем 570 последовательностей мультиэкзонных генов позвоночных. Данные, полученные в результате этого теста, показаны в таблице ниже вместе с данными, полученными в результате тестирования других программ с тем же набором данных. В таблице показано, что GENSCAN в целом более точен, чем его конкуренты, при прогнозировании последовательностей как с нуклеотидами , так и с экзонами. [ 3 ]
Программа | Последовательности | Нуклеотидная чувствительность | Нуклеотидная специфичность | Нуклеотидная приблизительная корреляция | Нуклеотидный коэффициент корреляции | Экзонная чувствительность | Экзонная специфичность | Экзон Средний | Пропущенные экзоны | Неправильные экзоны |
---|---|---|---|---|---|---|---|---|---|---|
ГЕНСКАН | 570 | 0.93 | 0.93 | 0.91 | 0.92 | 0.78 | 0.81 | 0.80 | 0.09 | 0.05 |
ФГЕНЕХ | 569 | 0.77 | 0.88 | 0.78 | 0.80 | 0.61 | 0.64 | 0.64 | 0.15 | 0.12 |
GeneID | 570 | 0.63 | 0.81 | 0.67 | 0.65 | 0.44 | 0.46 | 0.45 | 0.28 | 0.24 |
Джинн | 570 | 0.76 | 0.77 | 0.72 | н/д | 0.55 | 0.48 | 0.51 | 0.17 | 0.33 |
ГенЛанг | 570 | 0.72 | 0.79 | 0.69 | 0.71 | 0.51 | 0.52 | 0.52 | 0.21 | 0.22 |
ГенПарсер2 | 562 | 0.66 | 0.79 | 0.67 | 0.65 | 0.35 | 0.40 | 0.37 | 0.34 | 0.17 |
ГРААЛЬ2 | 570 | 0.72 | 0.87 | 0.75 | 0.76 | 0.36 | 0.43 | 0.40 | 0.25 | 0.11 |
СОРФИНД | 561 | 0.71 | 0.85 | 0.73 | 0.72 | 0.42 | 0.47 | 0.45 | 0.24 | 0.14 |
Xpound | 570 | 0.61 | 0.87 | 0.68 | 0.69 | 0.15 | 0.18 | 0.17 | 0.33 | 0.13 |
ГенИД+ | 478 | 0.91 | 0.91 | 0.88 | 0.88 | 0.73 | 0.70 | 0.71 | 0.07 | 0.13 |
ГенПарсер3 | 478 | 0.86 | 0.91 | 0.86 | 0.85 | 0.56 | 0.58 | 0.57 | 0.14 | 0.09 |
Кроме того, в приведенной ниже таблице конкретно описана точность GENSCAN в отношении геномных последовательностей, организованных по диапазонам C + G и типам организмов. Из предоставленных данных мы видим, что изменение точности GENSCAN было довольно нечувствительно к содержанию C + G и типу организма. Это еще раз демонстрирует независимость GENSCAN от факторов, которые могли бы повлиять на результаты сопоставимых программ прогнозирования генома. [ 3 ]
Подмножество | Последовательности | Нуклеотидная чувствительность | Нуклеотидная специфичность | Нуклеотидная приблизительная корреляция | Нуклеотидный коэффициент корреляции | Экзонная чувствительность | Экзонная специфичность | Экзон Средний | Пропущенные экзоны | Неправильные экзоны |
---|---|---|---|---|---|---|---|---|---|---|
С + Г <40 | 86 | 0.90 | 0.95 | 0.90 | 0.93 | 0.78 | 0.87 | 0.84 | 0.14 | 0.05 |
С+Г 40-50 | 220 | 0.94 | 0.92 | 0.91 | 0.91 | 0.80 | 0.82 | 0.82 | 0.08 | 0.05 |
С + Г 50-60 | 208 | 0.93 | 0.93 | 0.90 | 0.92 | 0.75 | 0.77 | 0.77 | 0.08 | 0.05 |
С + Г >60 | 56 | 0.97 | 0.89 | 0.90 | 0.90 | 0.76 | 0.77 | 0.76 | 0.07 | 0.08 |
Приматы | 237 | 0.96 | 0.94 | 0.93 | 0.94 | 0.81 | 0.82 | 0.82 | 0.07 | 0.05 |
Грызуны | 191 | 0.90 | 0.93 | 0.89 | 0.91 | 0.75 | 0.80 | 0.78 | 0.11 | 0.05 |
Не мама. Вертик. | 72 | 0.93 | 0.93 | 0.90 | 0.93 | 0.81 | 0.85 | 0.84 | 0.11 | 0.06 |
Отдельный тест был проведен для проверки точности GENSCAN с использованием двух наборов данных GeneParser, из которых удалены все гены, которые более чем на 25% совпадают по аминокислотам с генами в предыдущих наборах тестов GeneParser. Результаты этого теста и того же теста, выполненного в других программах, показаны в таблице ниже. Мы видим, что существует небольшая разница между точностью GENSCAN в вышеупомянутом наборе данных Burset/Guigó и наборах данных GeneParser. Однако некоторые точки данных с более высокими колебаниями (например, 98% CC на высоких нуклеотидах C + G в наборе II GeneParser против 90% CC на C + G >60 нуклеотидов в Burset/Guigó) могут быть связаны с тем, что наборы данных GeneParser меньше по размеру выборки. Тесты на трех вышеупомянутых наборах данных предоставили достаточно информации для формирования соответствующих выводов. Однако эти наборы данных не имеют реалистичного размера, поэтому их надежность и объем обоснованно подвергаются сомнению. [ 3 ]
Программа | ГенИД I | ГенИД II | ГРААЛЬ3 Я | ГРААЛЬ3 II | ГенПарсер2 I | ГенПарсер2 II | ГЕНСКАН I | ГЕНСКАН II |
---|---|---|---|---|---|---|---|---|
Все последовательности | ||||||||
Корреляция | 0.69 | 0.55 | 0.83 | 0.75 | 0.78 | 0.80 | 0.93 | 0.93 |
Чувствительность | 0.69 | 0.50 | 0.83 | 0.68 | 0.87 | 0.82 | 0.98 | 0.95 |
Специфика | 0.77 | 0.75 | 0.87 | 0.91 | 0.76 | 0.86 | 0.90 | 0.94 |
Экзоны правильные | 0.42 | 0.33 | 0.52 | 0.31 | 0.47 | 0.46 | 0.79 | 0.76 |
Экзоны перекрываются | 0.73 | 0.64 | 0.81 | 0.58 | 0.87 | 0.76 | 0.96 | 0.91 |
Высокий C + G | ||||||||
Корреляция | 0.65 | 0.73 | 0.88 | 0.80 | 0.89 | 0.71 | 0.94 | 0.98 |
Чувствительность | 0.72 | 0.85 | 0.87 | 0.80 | 0.90 | 0.65 | 1.00 | 0.98 |
Специфика | 0.73 | 0.73 | 0.95 | 0.88 | 0.93 | 0.87 | 0.91 | 0.98 |
Экзоны правильные | 0.38 | 0.43 | 0.67 | 0.50 | 0.64 | 0.57 | 0.76 | 0.64 |
Экзоны перекрываются | 0.80 | 0.86 | 0.89 | 0.79 | 0.96 | 0.79 | 1.00 | 0.93 |
Средний С + G | ||||||||
Корреляция | 0.67 | 0.52 | 0.83 | 0.75 | 0.75 | 0.82 | 0.93 | 0.94 |
Чувствительность | 0.65 | 0.47 | 0.86 | 0.68 | 0.86 | 0.84 | 0.97 | 0.95 |
Специфика | 0.77 | 0.76 | 0.84 | 0.91 | 0.70 | 0.87 | 0.90 | 0.95 |
Экзоны правильные | 0.37 | 0.29 | 0.51 | 0.32 | 0.41 | 0.46 | 0.79 | 0.79 |
Экзоны перекрываются | 0.67 | 0.62 | 0.83 | 0.28 | 0.84 | 0.79 | 0.96 | 0.93 |
Низкий C + G | ||||||||
Корреляция | 0.81 | 0.62 | 0.62 | 0.62 | 0.72 | 0.67 | 0.92 | 0.81 |
Чувствительность | 0.82 | 0.56 | 0.51 | 0.45 | 0.79 | 0.71 | 0.93 | 0.80 |
Специфика | 0.85 | 0.71 | 0.87 | 0.89 | 0.75 | 0.67 | 0.94 | 0.84 |
Экзоны правильные | 0.80 | 0.47 | 0.25 | 0.16 | 0.40 | 0.37 | 0.85 | 0.68 |
Экзоны перекрываются | 0.85 | 0.63 | 0.55 | 0.42 | 0.85 | 0.58 | 0.85 | 0.74 |
В 1997 году было обнаружено, что GENSCAN имеет более высокую точность, чем предыдущие программы прогнозирования генов. Однако работу еще предстоит проделать, поскольку было показано, что GENSCAN точно предсказывает только 10-15% генов на реалистичных наборах данных. [ 5 ] Из-за подобных неточностей любые прогнозы, данные GENSCAN и другими программами, должны быть проверены путем сравнения их с последовательностью комплементарной ДНК , последовательностью метки экспрессируемой последовательности (EST) или известной последовательностью белка. [ 6 ]
Ссылки
[ редактировать ]- ^ http://genes.mit.edu/GENSCAN.html. Архивировано 6 сентября 2013 г. на Wayback Machine. Веб-сервер GENSCAN в Массачусетском технологическом институте.
- ^ Бердж, CB (1998) Моделирование зависимостей в сигналах сплайсинга пре-мРНК. В Зальцберге С. , Сирлсе Д. и Касифе С., ред. Вычислительные методы в молекулярной биологии, Elsevier Science, Амстердам, стр. 127–163. ISBN 978-0-444-50204-9
- ^ Перейти обратно: а б с д и ж г час я дж к л м Бердж, Кристофер ; Карлин, Сэмюэл (1997). «Прогнозирование полных генных структур в геномной ДНК человека» (PDF) . Журнал молекулярной биологии . 268 (1): 78–94. CiteSeerX 10.1.1.115.3107 . дои : 10.1006/jmbi.1997.0951 . ПМИД 9149143 . Архивировано из оригинала (PDF) 20 июня 2015 г.
- ^ Бердж, К. ; Карлин, С. (1998). «Нахождение генов в геномной ДНК» . Современное мнение в области структурной биологии . 8 (3): 346–354. дои : 10.1016/S0959-440X(98)80069-9 . ПМИД 9666331 .
- ^ Перейти обратно: а б с Фличек, Пол (2007). «Генное предсказание: сравнить и КОНТРАСТ» . Геномная биология . 8 (12): 233. doi : 10.1186/gb-2007-8-12-233 . ISSN 1474-760X . ПМК 2246255 . ПМИД 18096089 .
- ^ Перейти обратно: а б Рогич, С.; Уэллетт, лучшая подруга; Макворт, АК (1 августа 2002 г.). «Повышение точности распознавания генов за счет объединения прогнозов двух программ по поиску генов» . Биоинформатика . 18 (8): 1034–1045. дои : 10.1093/биоинформатика/18.8.1034 . ISSN 1367-4803 . ПМИД 12176826 .