База данных последовательностей
В области биоинформатики база данных последовательностей — это тип биологической базы данных , которая состоит из большой коллекции компьютеризированных (« цифровых ») последовательностей нуклеиновых кислот , последовательностей белков или других полимерных последовательностей, хранящихся на компьютере. База данных UniProt является примером базы данных последовательностей белков . По состоянию на 2013 год он содержал более 40 миллионов последовательностей и растет в геометрической прогрессии. [1] Исторически последовательности публиковались в бумажной форме, но по мере роста количества последовательностей этот метод хранения становился неустойчивым.
Поиск [ править ]
Поиск в базе данных последовательностей включает поиск сходства между геномной/белковой последовательностью и строкой запроса и поиск в базе данных последовательности, которая «наилучшим образом» соответствует целевой последовательности (на основе критериев, которые варьируются в зависимости от метода поиска). Количество совпадений/совпадений используется для формирования оценки, которая определяет сходство между запросом последовательности и последовательностями в базе данных последовательностей. [2] Основная цель – найти хороший баланс между этими двумя критериями.
История [ править ]
1950 [ править ]
Потребность в базах данных последовательностей возникла в 1950 году, когда Фредрик Сэнгер сообщил о первичной структуре инсулина. Он получил свою вторую Нобелевскую премию за создание методов секвенирования нуклеиновых кислот, и его сравнительный подход побудил других биохимиков белка начать собирать аминокислотные последовательности. Тем самым положив начало молекулярным базам данных. [3]
1960 [ править ]
В 1965 году Маргарет Дэйхофф и ее команда из Национального фонда биомедицинских исследований (NBRF) опубликовали «Атлас последовательности и структуры белка». Они поместили в Атлас все известные белковые последовательности , даже неопубликованные материалы. Это можно рассматривать как первую попытку создать молекулярную базу данных. Они использовали недавно компьютеризированную (1964 г.) систему анализа и поиска медицинской литературы (MEDLARS) в Национальных институтах здравоохранения (NIH). Команда использовала компьютеры для хранения данных, но им приходилось вручную печатать и корректировать каждую последовательность, что требовало больших затрат времени и денег. [3]
В 1966 году команда выпустила второе издание Атласа , вдвое превышающее первое. Он содержал около 1000 последовательностей и на этот раз был придуман как информационный взрыв. Национальный фонд биомедицинских исследований (NBRF) в то время был на переднем крае использования компьютеров в медицине и биологии. Дэйхофф и ее команда использовали свои возможности для определения аминокислотных последовательностей белковых молекул в мейнфреймах. Число обнаруженных последовательностей продолжало расти, что позволяло проводить более глубокий сравнительный анализ белков, чем когда-либо прежде. Это привело ко многим разработкам, таким как вероятностные модели аминокислотных замен, выравнивание последовательностей и филогенетические деревья эволюционных взаимоотношений белков. [3]
1970 [ править ]
Весь процесс секвенирования стал полностью автоматизированным. [3]
1980 [ править ]
Была создана первая база данных нуклеотидных последовательностей. Ранее известная как Библиотека данных нуклеотидных последовательностей Европейской лаборатории молекулярной биологии (EMBL) (теперь известная как Европейский архив нуклеотидов). Проект «Геном человека» начался в 1988 году. Целью проекта было секвенирование и картирование всех генов человека, что требовало возможности создания и использования большой базы данных последовательностей. [4]
Наши дни [ править ]
Теперь у нас есть множество баз данных последовательностей, инструментов для их использования и легкий доступ к ним. Одним из крупнейших является GenBank , содержащий более 2 миллиардов последовательностей. [3]
Хронология [ править ]

Текущие проблемы [ править ]
Хранение и резервирование [ править ]
Записи в базах данных последовательностей поступают из самых разных источников: от отдельных исследователей до крупных центров секвенирования генома. В результате сами последовательности и особенно биологические аннотации, прикрепленные к этим последовательностям, могут различаться по качеству. Существует большая избыточность, поскольку несколько лабораторий могут предоставлять в базы данных многочисленные последовательности, которые идентичны или почти идентичны другим последовательностям. [5]
Многие аннотации последовательностей основаны не на лабораторных экспериментах, а на результатах поиска сходства последовательностей ранее аннотированных последовательностей. После того как последовательность аннотирована на основе сходства с другими и сама помещена в базу данных, она также может стать основой для будущих аннотаций. Это может привести к проблеме транзитивных аннотаций , поскольку таких переносов аннотаций может быть несколько из-за сходства последовательностей между конкретной записью базы данных и реальной экспериментальной информацией, полученной в мокрой лаборатории . [6] Поэтому необходимо соблюдать осторожность при интерпретации данных аннотации из баз данных последовательностей.
Методы оценки [ править ]
Большинство современных алгоритмов поиска в базе данных ранжируют выравнивание по шкале, которая обычно представляет собой определенную систему оценок. [7] Решение этой проблемы можно найти путем создания различных систем оценки, соответствующих конкретной проблеме.
Статистика выравнивания [ править ]
При использовании алгоритма поиска мы часто создаем упорядоченный список, который часто может не иметь биологического значения. [8]
См. также [ править ]
Ссылки [ править ]
- ^ Кокрейн, Г.; Карш-Мизрачи, И.; Накамура, Ю. (23 ноября 2010 г.). «Международное сотрудничество по базе данных нуклеотидных последовательностей» . Исследования нуклеиновых кислот . 39 (База данных): D15–D18. дои : 10.1093/нар/gkq1150 . ПМК 3013722 . ПМИД 21106499 .
- ^ Сун, Винг-Кин (2010). Алгоритмы в биоинформатике: практическое введение . Бока-Ратон: Chapman & Hall/CRC Press. п. 109. ИСБН 9781420070330 .
- ↑ Перейти обратно: Перейти обратно: а б с д и Хаген, Джоэл Б. (2011), Хамахер, Майкл; Эйзенахер, Мартин; Стефан, Кристиан (ред.), «Происхождение и раннее появление баз данных последовательностей» , Интеллектуальный анализ данных в протеомике: от стандартов к приложениям , Методы молекулярной биологии, том. 696, Тотова, Нью-Джерси: Humana Press, стр. 61–77, doi : 10.1007/978-1-60761-987-1_4 , ISBN. 978-1-60761-987-1 , PMID 21063941 , получено 5 мая 2022 г.
- ^ «История <ЭМБЛ-ЭБИ» . www.ebi.ac.uk. Проверено 5 мая 2022 г.
- ^ Сикич, К.; Каруго, О. (2010). «Уменьшение избыточности белковых последовательностей: сравнение различных методов» . Биоинформация . 5 (6): 234–9. дои : 10.6026/97320630005234 . ПМК 3055704 . ПМИД 21364823 .
- ^ Илиопулос, И.; Цока, С.; Андраде, Массачусетс; Энрайт, Эй Джей; Кэрролл, М.; Пулле, П.; Промпонас, В.; Лиакопулос, Т.; и др. (апрель 2003 г.). «Оценка стратегий аннотации с использованием всей последовательности генома» . Биоинформатика . 19 (6): 717–26. doi : 10.1093/биоинформатика/btg077 . ПМИД 12691983 .
- ^ Альтшул, Стивен; Богуски, Марк; Гиш, Уоррен; Вуттон, Джон (1994). «Проблемы поиска в базах данных молекулярных последовательностей» (PDF) . Природная генетика . 6 (2). Издательская группа «Природа»: 119–129. дои : 10.1038/ng0294-119 . ПМИД 8162065 . S2CID 270160 .
- ^ Альтшул, Стивен; Богуски, Марк; Гиш, Уоррен; Вуттон, Джон (1994). «Проблемы поиска в базах данных молекулярных последовательностей» (PDF) . Природная генетика . 6 (2). Издательская группа «Природа»: 119–129. дои : 10.1038/ng0294-119 . ПМИД 8162065 . S2CID 270160 .
Внешние ссылки [ править ]
- Базы данных Европейского института биоинформатики
- NCBI полностью секвенировал геномы
- Стэнфордская база данных генома Saccharomyces
- Protein , база данных белков NIH , коллекция последовательностей из нескольких источников, включая переводы из аннотированных кодирующих областей в GenBank , RefSeq и TPA , а также записи из SwissProt , PIR , PRF и PDB.