База данных последовательностей

В области биоинформатики база данных последовательностей — это тип биологической базы данных , которая состоит из большой коллекции компьютеризированных (« цифровых ») последовательностей нуклеиновых кислот , последовательностей белков или других полимерных последовательностей, хранящихся на компьютере. База данных UniProt является примером базы данных последовательностей белков . По состоянию на 2013 год он содержал более 40 миллионов последовательностей и растет в геометрической прогрессии. ^[1] Исторически последовательности публиковались в бумажной форме, но по мере роста количества последовательностей этот метод хранения становился неустойчивым.

Поиск [ править ]

Поиск в базе данных последовательностей включает поиск сходства между геномной/белковой последовательностью и строкой запроса и поиск в базе данных последовательности, которая «наилучшим образом» соответствует целевой последовательности (на основе критериев, которые варьируются в зависимости от метода поиска). Количество совпадений/совпадений используется для формирования оценки, которая определяет сходство между запросом последовательности и последовательностями в базе данных последовательностей. ^[2] Основная цель – найти хороший баланс между этими двумя критериями.

История [ править ]

1950 [ править ]

Потребность в базах данных последовательностей возникла в 1950 году, когда Фредрик Сэнгер сообщил о первичной структуре инсулина. Он получил свою вторую Нобелевскую премию за создание методов секвенирования нуклеиновых кислот, и его сравнительный подход побудил других биохимиков белка начать собирать аминокислотные последовательности. Тем самым положив начало молекулярным базам данных. ^[3]

1960 [ править ]

В 1965 году Маргарет Дэйхофф и ее команда из Национального фонда биомедицинских исследований (NBRF) опубликовали «Атлас последовательности и структуры белка». Они поместили в Атлас все известные белковые последовательности , даже неопубликованные материалы. Это можно рассматривать как первую попытку создать молекулярную базу данных. Они использовали недавно компьютеризированную (1964 г.) систему анализа и поиска медицинской литературы (MEDLARS) в Национальных институтах здравоохранения (NIH). Команда использовала компьютеры для хранения данных, но им приходилось вручную печатать и корректировать каждую последовательность, что требовало больших затрат времени и денег. ^[3]

В 1966 году команда выпустила второе издание Атласа , вдвое превышающее первое. Он содержал около 1000 последовательностей и на этот раз был придуман как информационный взрыв. Национальный фонд биомедицинских исследований (NBRF) в то время был на переднем крае использования компьютеров в медицине и биологии. Дэйхофф и ее команда использовали свои возможности для определения аминокислотных последовательностей белковых молекул в мейнфреймах. Число обнаруженных последовательностей продолжало расти, что позволяло проводить более глубокий сравнительный анализ белков, чем когда-либо прежде. Это привело ко многим разработкам, таким как вероятностные модели аминокислотных замен, выравнивание последовательностей и филогенетические деревья эволюционных взаимоотношений белков. ^[3]

1970 [ править ]

Весь процесс секвенирования стал полностью автоматизированным. ^[3]

1980 [ править ]

Была создана первая база данных нуклеотидных последовательностей. Ранее известная как Библиотека данных нуклеотидных последовательностей Европейской лаборатории молекулярной биологии (EMBL) (теперь известная как Европейский архив нуклеотидов). Проект «Геном человека» начался в 1988 году. Целью проекта было секвенирование и картирование всех генов человека, что требовало возможности создания и использования большой базы данных последовательностей. ^[4]

Наши дни [ править ]

Теперь у нас есть множество баз данных последовательностей, инструментов для их использования и легкий доступ к ним. Одним из крупнейших является GenBank , содержащий более 2 миллиардов последовательностей. ^[3]

Хронология [ править ]

Текущие проблемы [ править ]

Хранение и резервирование [ править ]

Записи в базах данных последовательностей поступают из самых разных источников: от отдельных исследователей до крупных центров секвенирования генома. В результате сами последовательности и особенно биологические аннотации, прикрепленные к этим последовательностям, могут различаться по качеству. Существует большая избыточность, поскольку несколько лабораторий могут предоставлять в базы данных многочисленные последовательности, которые идентичны или почти идентичны другим последовательностям. ^[5]

Многие аннотации последовательностей основаны не на лабораторных экспериментах, а на результатах поиска сходства последовательностей ранее аннотированных последовательностей. После того как последовательность аннотирована на основе сходства с другими и сама помещена в базу данных, она также может стать основой для будущих аннотаций. Это может привести к проблеме транзитивных аннотаций , поскольку таких переносов аннотаций может быть несколько из-за сходства последовательностей между конкретной записью базы данных и реальной экспериментальной информацией, полученной в мокрой лаборатории . ^[6] Поэтому необходимо соблюдать осторожность при интерпретации данных аннотации из баз данных последовательностей.

Методы оценки [ править ]

Большинство современных алгоритмов поиска в базе данных ранжируют выравнивание по шкале, которая обычно представляет собой определенную систему оценок. ^[7] Решение этой проблемы можно найти путем создания различных систем оценки, соответствующих конкретной проблеме.

Статистика выравнивания [ править ]

При использовании алгоритма поиска мы часто создаем упорядоченный список, который часто может не иметь биологического значения. ^[8]

См. также [ править ]

Ссылки [ править ]

^ Кокрейн, Г.; Карш-Мизрачи, И.; Накамура, Ю. (23 ноября 2010 г.). «Международное сотрудничество по базе данных нуклеотидных последовательностей» . Исследования нуклеиновых кислот . 39 (База данных): D15–D18. дои : 10.1093/нар/gkq1150 . ПМК 3013722 . ПМИД 21106499 .
^ Сун, Винг-Кин (2010). Алгоритмы в биоинформатике: практическое введение . Бока-Ратон: Chapman & Hall/CRC Press. п. 109. ИСБН 9781420070330 .
↑ Перейти обратно: Перейти обратно: ^а ^б ^с ^д ^и Хаген, Джоэл Б. (2011), Хамахер, Майкл; Эйзенахер, Мартин; Стефан, Кристиан (ред.), «Происхождение и раннее появление баз данных последовательностей» , Интеллектуальный анализ данных в протеомике: от стандартов к приложениям , Методы молекулярной биологии, том. 696, Тотова, Нью-Джерси: Humana Press, стр. 61–77, doi : 10.1007/978-1-60761-987-1_4 , ISBN. 978-1-60761-987-1 , PMID 21063941 , получено 5 мая 2022 г.
^ «История <ЭМБЛ-ЭБИ» . www.ebi.ac.uk. Проверено 5 мая 2022 г.
^ Сикич, К.; Каруго, О. (2010). «Уменьшение избыточности белковых последовательностей: сравнение различных методов» . Биоинформация . 5 (6): 234–9. дои : 10.6026/97320630005234 . ПМК 3055704 . ПМИД 21364823 .
^ Илиопулос, И.; Цока, С.; Андраде, Массачусетс; Энрайт, Эй Джей; Кэрролл, М.; Пулле, П.; Промпонас, В.; Лиакопулос, Т.; и др. (апрель 2003 г.). «Оценка стратегий аннотации с использованием всей последовательности генома» . Биоинформатика . 19 (6): 717–26. doi : 10.1093/биоинформатика/btg077 . ПМИД 12691983 .
^ Альтшул, Стивен; Богуски, Марк; Гиш, Уоррен; Вуттон, Джон (1994). «Проблемы поиска в базах данных молекулярных последовательностей» (PDF) . Природная генетика . 6 (2). Издательская группа «Природа»: 119–129. дои : 10.1038/ng0294-119 . ПМИД 8162065 . S2CID 270160 .
^ Альтшул, Стивен; Богуски, Марк; Гиш, Уоррен; Вуттон, Джон (1994). «Проблемы поиска в базах данных молекулярных последовательностей» (PDF) . Природная генетика . 6 (2). Издательская группа «Природа»: 119–129. дои : 10.1038/ng0294-119 . ПМИД 8162065 . S2CID 270160 .

Внешние ссылки [ править ]

Базы данных Европейского института биоинформатики
NCBI полностью секвенировал геномы
Стэнфордская база данных генома Saccharomyces
Protein , база данных белков NIH , коллекция последовательностей из нескольких источников, включая переводы из аннотированных кодирующих областей в GenBank , RefSeq и TPA , а также записи из SwissProt , PIR , PRF и PDB.

[1] Кокрейн, Г.; Карш-Мизрачи, И.; Накамура, Ю. (23 ноября 2010 г.). «Международное сотрудничество по базе данных нуклеотидных последовательностей» . Исследования нуклеиновых кислот . 39 (База данных): D15–D18. дои : 10.1093/нар/gkq1150 . ПМК 3013722 . ПМИД 21106499 .

[2] Сун, Винг-Кин (2010). Алгоритмы в биоинформатике: практическое введение . Бока-Ратон: Chapman & Hall/CRC Press. п. 109. ИСБН 9781420070330 .

[:0-3] Перейти обратно: Перейти обратно: ^а ^б ^с ^д ^и Хаген, Джоэл Б. (2011), Хамахер, Майкл; Эйзенахер, Мартин; Стефан, Кристиан (ред.), «Происхождение и раннее появление баз данных последовательностей» , Интеллектуальный анализ данных в протеомике: от стандартов к приложениям , Методы молекулярной биологии, том. 696, Тотова, Нью-Джерси: Humana Press, стр. 61–77, doi : 10.1007/978-1-60761-987-1_4 , ISBN. 978-1-60761-987-1 , PMID 21063941 , получено 5 мая 2022 г.

[4] «История <ЭМБЛ-ЭБИ» . www.ebi.ac.uk. Проверено 5 мая 2022 г.

[Sikic-2010-5] Сикич, К.; Каруго, О. (2010). «Уменьшение избыточности белковых последовательностей: сравнение различных методов» . Биоинформация . 5 (6): 234–9. дои : 10.6026/97320630005234 . ПМК 3055704 . ПМИД 21364823 .

[Iliopoulos-2003-6] Илиопулос, И.; Цока, С.; Андраде, Массачусетс; Энрайт, Эй Джей; Кэрролл, М.; Пулле, П.; Промпонас, В.; Лиакопулос, Т.; и др. (апрель 2003 г.). «Оценка стратегий аннотации с использованием всей последовательности генома» . Биоинформатика . 19 (6): 717–26. doi : 10.1093/биоинформатика/btg077 . ПМИД 12691983 .

[7] Альтшул, Стивен; Богуски, Марк; Гиш, Уоррен; Вуттон, Джон (1994). «Проблемы поиска в базах данных молекулярных последовательностей» (PDF) . Природная генетика . 6 (2). Издательская группа «Природа»: 119–129. дои : 10.1038/ng0294-119 . ПМИД 8162065 . S2CID 270160 .

[8] Альтшул, Стивен; Богуски, Марк; Гиш, Уоррен; Вуттон, Джон (1994). «Проблемы поиска в базах данных молекулярных последовательностей» (PDF) . Природная генетика . 6 (2). Издательская группа «Природа»: 119–129. дои : 10.1038/ng0294-119 . ПМИД 8162065 . S2CID 270160 .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

v т и Биоинформатика
Базы данных	Базы данных последовательностей: GenBank , Европейский архив нуклеотидов , Банк данных ДНК Японии и Национальный банк генов Китая. Вторичные базы данных: UniProt , база данных последовательностей белков, группирующихся вместе Swiss-Prot , TrEMBL и ресурс информации о белках. Другие базы данных: BioNumbers , Protein Data Bank , Ensembl , InterPro , KEGG и Gene Ontology. Специализированные геномные базы данных: BOLD , База данных генома Saccharomyces , FlyBase , VectorBase , WormBase , База данных генома крысы , PHI-база , Информационный ресурс Arabidopsis , GISAID и Информационная сеть данио.
Программное обеспечение	ВЗРЫВ Галстук-бабочка Кластал ЭМБОСС ХММЕР МЫШЦЫ ЯЩЕР SAMtools Мыльный пакет Цилиндр
Другой	Сервер: ExPASy Розалинда (образовательная платформа)
Учреждения	Броуд Институт Департамент вычислительной биологии (CBD) Microsoft Research - Центр вычислительной и системной биологии Университета Тренто (COSBI) Центр баз данных по наукам о жизни (DBCLS) Банк данных ДНК Японии (DDBJ) Европейский институт биоинформатики (EMBL-EBI) Европейская лаборатория молекулярной биологии (EMBL) Институт Флэтайрон Институт Дж. Крейга Вентера (JCVI) Институт молекулярно-клеточной биологии и генетики Макса Планка (MPI-CBG) Национальный центр биотехнологической информации США (NCBI) Японский институт генетики Нидерландский центр биоинформатики (NBIC) Филиппинский геномный центр (PGC) Исследования Скриппса Швейцарский институт биоинформатики (SIB) Добро пожаловать в Институт Сэнгера Институт Уайтхеда
Организации	Африканское общество биоинформатики и вычислительной биологии (ASBCB) Австралийский ресурс по биоинформатике (EMBL-AR) Европейская сеть молекулярной биологии (EMBnet) Международное сотрудничество по базам данных нуклеотидных последовательностей (INSDC) Международное общество биокурации (ISB) Международное общество вычислительной биологии (ISCB) Студенческий совет (ISCB-SC) Институт геномики и интегративной биологии (CSIR-IGIB) Японское общество биоинформатики (JSBi)
Встречи	Базельская конференция по вычислительной биологии ‎ ([BC ²]) Европейская конференция по вычислительной биологии (ECCB) Интеллектуальные системы молекулярной биологии (ISMB) Международная конференция по биоинформатике (InCoB) Международная конференция по методам вычислительного интеллекта для биоинформатики и биостатистики (CIBB) ISCB Africa Конференция ABCCB по биоинформатике Тихоокеанский симпозиум по биокомпьютингу (PSB) Исследования в области вычислительной молекулярной биологии (RECOMB)
Форматы файлов	Формат CRAM ФИКСИРОВАННЫЙ формат Формат FASTQ Формат NeXML Формат Нексуса Формат Пайлапа Формат SAM Стокгольмский формат Формат VCF формат GFF формат GTF
Связанные темы	Вычислительная биология Список биобанков Список биологических баз данных Молекулярная филогенетика Секвенирование База данных последовательностей Выравнивание последовательности
Категория Коммонс