Jump to content

База данных последовательностей

В области биоинформатики база данных последовательностей — это тип биологической базы данных , которая состоит из большой коллекции компьютеризированных (« цифровых ») последовательностей нуклеиновых кислот , последовательностей белков или других полимерных последовательностей, хранящихся на компьютере. База данных UniProt является примером базы данных последовательностей белков . По состоянию на 2013 год он содержал более 40 миллионов последовательностей и растет в геометрической прогрессии. [1] Исторически последовательности публиковались в бумажной форме, но по мере роста количества последовательностей этот метод хранения становился неустойчивым.

Поиск [ править ]

Поиск в базе данных последовательностей включает поиск сходства между геномной/белковой последовательностью и строкой запроса и поиск в базе данных последовательности, которая «наилучшим образом» соответствует целевой последовательности (на основе критериев, которые варьируются в зависимости от метода поиска). Количество совпадений/совпадений используется для формирования оценки, которая определяет сходство между запросом последовательности и последовательностями в базе данных последовательностей. [2] Основная цель – найти хороший баланс между этими двумя критериями.

История [ править ]

1950 [ править ]

Потребность в базах данных последовательностей возникла в 1950 году, когда Фредрик Сэнгер сообщил о первичной структуре инсулина. Он получил свою вторую Нобелевскую премию за создание методов секвенирования нуклеиновых кислот, и его сравнительный подход побудил других биохимиков белка начать собирать аминокислотные последовательности. Тем самым положив начало молекулярным базам данных. [3]

1960 [ править ]

В 1965 году Маргарет Дэйхофф и ее команда из Национального фонда биомедицинских исследований (NBRF) опубликовали «Атлас последовательности и структуры белка». Они поместили в Атлас все известные белковые последовательности , даже неопубликованные материалы. Это можно рассматривать как первую попытку создать молекулярную базу данных. Они использовали недавно компьютеризированную (1964 г.) систему анализа и поиска медицинской литературы (MEDLARS) в Национальных институтах здравоохранения (NIH). Команда использовала компьютеры для хранения данных, но им приходилось вручную печатать и корректировать каждую последовательность, что требовало больших затрат времени и денег. [3]

В 1966 году команда выпустила второе издание Атласа , вдвое превышающее первое. Он содержал около 1000 последовательностей и на этот раз был придуман как информационный взрыв. Национальный фонд биомедицинских исследований (NBRF) в то время был на переднем крае использования компьютеров в медицине и биологии. Дэйхофф и ее команда использовали свои возможности для определения аминокислотных последовательностей белковых молекул в мейнфреймах. Число обнаруженных последовательностей продолжало расти, что позволяло проводить более глубокий сравнительный анализ белков, чем когда-либо прежде. Это привело ко многим разработкам, таким как вероятностные модели аминокислотных замен, выравнивание последовательностей и филогенетические деревья эволюционных взаимоотношений белков. [3]

1970 [ править ]

Весь процесс секвенирования стал полностью автоматизированным. [3]

1980 [ править ]

Была создана первая база данных нуклеотидных последовательностей. Ранее известная как Библиотека данных нуклеотидных последовательностей Европейской лаборатории молекулярной биологии (EMBL) (теперь известная как Европейский архив нуклеотидов). Проект «Геном человека» начался в 1988 году. Целью проекта было секвенирование и картирование всех генов человека, что требовало возможности создания и использования большой базы данных последовательностей. [4]

Наши дни [ править ]

Теперь у нас есть множество баз данных последовательностей, инструментов для их использования и легкий доступ к ним. Одним из крупнейших является GenBank , содержащий более 2 миллиардов последовательностей. [3]

Хронология [ править ]

График создания баз данных последовательностей.

Текущие проблемы [ править ]

Хранение и резервирование [ править ]

Записи в базах данных последовательностей поступают из самых разных источников: от отдельных исследователей до крупных центров секвенирования генома. В результате сами последовательности и особенно биологические аннотации, прикрепленные к этим последовательностям, могут различаться по качеству. Существует большая избыточность, поскольку несколько лабораторий могут предоставлять в базы данных многочисленные последовательности, которые идентичны или почти идентичны другим последовательностям. [5]

Многие аннотации последовательностей основаны не на лабораторных экспериментах, а на результатах поиска сходства последовательностей ранее аннотированных последовательностей. После того как последовательность аннотирована на основе сходства с другими и сама помещена в базу данных, она также может стать основой для будущих аннотаций. Это может привести к проблеме транзитивных аннотаций , поскольку таких переносов аннотаций может быть несколько из-за сходства последовательностей между конкретной записью базы данных и реальной экспериментальной информацией, полученной в мокрой лаборатории . [6] Поэтому необходимо соблюдать осторожность при интерпретации данных аннотации из баз данных последовательностей.

Методы оценки [ править ]

Большинство современных алгоритмов поиска в базе данных ранжируют выравнивание по шкале, которая обычно представляет собой определенную систему оценок. [7] Решение этой проблемы можно найти путем создания различных систем оценки, соответствующих конкретной проблеме.

Статистика выравнивания [ править ]

При использовании алгоритма поиска мы часто создаем упорядоченный список, который часто может не иметь биологического значения. [8]

См. также [ править ]

Ссылки [ править ]

  1. ^ Кокрейн, Г.; Карш-Мизрачи, И.; Накамура, Ю. (23 ноября 2010 г.). «Международное сотрудничество по базе данных нуклеотидных последовательностей» . Исследования нуклеиновых кислот . 39 (База данных): D15–D18. дои : 10.1093/нар/gkq1150 . ПМК   3013722 . ПМИД   21106499 .
  2. ^ Сун, Винг-Кин (2010). Алгоритмы в биоинформатике: практическое введение . Бока-Ратон: Chapman & Hall/CRC Press. п. 109. ИСБН  9781420070330 .
  3. Перейти обратно: Перейти обратно: а б с д и Хаген, Джоэл Б. (2011), Хамахер, Майкл; Эйзенахер, Мартин; Стефан, Кристиан (ред.), «Происхождение и раннее появление баз данных последовательностей» , Интеллектуальный анализ данных в протеомике: от стандартов к приложениям , Методы молекулярной биологии, том. 696, Тотова, Нью-Джерси: Humana Press, стр. 61–77, doi : 10.1007/978-1-60761-987-1_4 , ISBN.  978-1-60761-987-1 , PMID   21063941 , получено 5 мая 2022 г.
  4. ^ «История <ЭМБЛ-ЭБИ» . www.ebi.ac.uk. ​Проверено 5 мая 2022 г.
  5. ^ Сикич, К.; Каруго, О. (2010). «Уменьшение избыточности белковых последовательностей: сравнение различных методов» . Биоинформация . 5 (6): 234–9. дои : 10.6026/97320630005234 . ПМК   3055704 . ПМИД   21364823 .
  6. ^ Илиопулос, И.; Цока, С.; Андраде, Массачусетс; Энрайт, Эй Джей; Кэрролл, М.; Пулле, П.; Промпонас, В.; Лиакопулос, Т.; и др. (апрель 2003 г.). «Оценка стратегий аннотации с использованием всей последовательности генома» . Биоинформатика . 19 (6): 717–26. doi : 10.1093/биоинформатика/btg077 . ПМИД   12691983 .
  7. ^ Альтшул, Стивен; Богуски, Марк; Гиш, Уоррен; Вуттон, Джон (1994). «Проблемы поиска в базах данных молекулярных последовательностей» (PDF) . Природная генетика . 6 (2). Издательская группа «Природа»: 119–129. дои : 10.1038/ng0294-119 . ПМИД   8162065 . S2CID   270160 .
  8. ^ Альтшул, Стивен; Богуски, Марк; Гиш, Уоррен; Вуттон, Джон (1994). «Проблемы поиска в базах данных молекулярных последовательностей» (PDF) . Природная генетика . 6 (2). Издательская группа «Природа»: 119–129. дои : 10.1038/ng0294-119 . ПМИД   8162065 . S2CID   270160 .

Внешние ссылки [ править ]

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: a61d81ddde0b742188475c2f458aba1d__1687777140
URL1:https://arc.ask3.ru/arc/aa/a6/1d/a61d81ddde0b742188475c2f458aba1d.html
Заголовок, (Title) документа по адресу, URL1:
Sequence database - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)