Биологическая база данных
Биологические базы данных — это библиотеки биологических наук, собранные на основе научных экспериментов, опубликованной литературы, технологий высокопроизводительных экспериментов и компьютерного анализа. [ нужна ссылка ] Они содержат информацию из областей исследований, включая геномику , протеомику , метаболомику , экспрессию генов микрочипов и филогенетику . [2] Информация, содержащаяся в биологических базах данных, включает функцию генов, структуру, локализацию (как клеточную, так и хромосомную), клинические эффекты мутаций, а также сходство биологических последовательностей и структур.
Биологические базы данных можно классифицировать по данных типу собираемых ими (см. ниже). В широком смысле существуют молекулярные базы данных (для последовательностей, молекул и т. д.), функциональные базы данных (для физиологии, активности ферментов, фенотипов, экологии и т. д.), таксономические базы данных (для видов и других таксономических рангов), изображений и других сред или образцов ( для музейных коллекций и т. д.)
Базы данных являются важными инструментами, помогающими ученым анализировать и объяснять множество биологических явлений, от структуры и их взаимодействия до всего метаболизма организмов и понимания эволюции видов биомолекул . Эти знания помогают облегчить борьбу с болезнями, помогают в разработке лекарств , прогнозировании определенных генетических заболеваний и открытии основных взаимоотношений между видами в истории жизни .
Техническая основа и теоретические концепции
[ редактировать ]реляционных баз данных Концепции в информатике и информационного поиска концепции в цифровых библиотеках важны для понимания биологических баз данных. Проектирование, разработка и долгосрочное управление биологическими базами данных является основной областью дисциплины биоинформатики . [3] Содержимое данных включает последовательности генов, текстовые описания, атрибуты и онтологические классификации, цитаты и табличные данные. Они часто описываются как полуструктурированные данные и могут быть представлены в виде таблиц, записей с разделителями по ключам и XML . структур [ нужна ссылка ]
Доступ
[ редактировать ]Большинство биологических баз данных доступны через веб-сайты, которые систематизируют данные таким образом, что пользователи могут просматривать данные в Интернете. Кроме того, базовые данные обычно доступны для загрузки в различных форматах. Биологические данные поступают во многих форматах. Эти форматы включают текст, данные последовательности, структуру белка и ссылки. Каждый из них можно найти в определенных источниках, например: [ нужна ссылка ]
- Текстовые форматы предоставляются PubMed и OMIM .
- Данные о последовательностях предоставляются GenBank в отношении ДНК и UniProt в отношении белка.
- Белковые структуры предоставляются PDB , SCOP и CATH .
Проблемы и вызовы
[ редактировать ]Биологические знания распределены по бесчисленным базам данных. Иногда это затрудняет обеспечение согласованности информации, например, когда для одного и того же вида используются разные названия или разные форматы данных. Как следствие, совместимость является постоянной проблемой для обмена информацией. Например, если база данных последовательностей ДНК хранит последовательность ДНК вместе с названием вида, изменение названия этого вида может привести к разрыву связей с другими базами данных, которые могут использовать другое название. Интегративная биоинформатика — одна из областей, пытающихся решить эту проблему путем предоставления единого доступа. Одним из решений является то, как биологические базы данных делают перекрестные ссылки на другие базы данных с номерами доступа , чтобы связать связанные между собой знания (например, чтобы номер доступа оставался неизменным даже в случае изменения названия вида). Избыточность является еще одной проблемой, поскольку многие базы данных должны хранить одну и ту же информацию, например, базы данных о структуре белков также содержат последовательность белков, которые они охватывают, их последовательность и их библиографическую информацию.
Базы данных модельных организмов
[ редактировать ]По некоторым видам доступны видоспецифичные базы данных, в основном те, которые часто используются в исследованиях ( модельные организмы ). Например, EcoCyc — это база данных E. coli . Другие популярные базы данных модельных организмов включают «Информатику генома мыши» для лабораторных мышей , Mus musculus , базу данных генома крысы для Rattus , ZFIN для Danio Rerio (рыбки данио), PomBase. [4] для делящихся дрожжей Schizosaccharomyces pombe , FlyBase для дрозофилы , WormBase для нематод Caenorhabditis elegans и Caenorhabditis briggsae , а также Xenbase для Xenopus тропических и Xenopus laevis лягушек .
Базы данных по биоразнообразию и видам
[ редактировать ]Многочисленные базы данных пытаются документировать разнообразие жизни на Земле. Ярким примером является Каталог жизни , впервые созданный в 2001 году организацией Species 2000 и Интегрированной таксономической информационной системой. [6] «Каталог жизни» — это совместный проект, целью которого является документирование таксономической категоризации всех признанных в настоящее время видов в мире. [7] «Каталог жизни» представляет собой консолидированную и последовательную базу данных, на которую могут ссылаться исследователи и политики. Каталог жизни содержит актуальные наборы данных из других источников, таких как база данных Conifer, ICTV MSL (для вирусов) и LepIndex (для бабочек и мотыльков). Всего «Каталог жизни» составлен из 165 баз данных по состоянию на май 2022 года. [8] Эксплуатационные расходы «Каталога жизни» оплачиваются Глобальным информационным фондом по биоразнообразию , Иллинойским исследованием естественной истории , Центром биоразнообразия Naturalis и Смитсоновским институтом . [9]
Некоторые биологические базы данных также документируют географическое распространение различных видов. Шуанг Дай и др. создал новую базу данных из нескольких источников для документирования пространственного/географического распределения 1371 вида птиц в Китае, поскольку в существующих базах данных остро не хватало данных о пространственном распространении многих видов. [10] Источниками для этой новой базы данных были книги, литература, данные GPS-слежения и данные онлайн-веб-страниц. В новой базе данных отображались таксономия, распространение, информация о видах и источники данных для каждого вида. После завершения создания базы данных о пространственном распространении птиц было обнаружено, что 61% известных видов в Китае распространены в регионах за пределами тех, где они были известны ранее. [11]
Медицинские базы данных
[ редактировать ]Медицинские базы данных представляют собой особый случай ресурса биомедицинских данных и могут варьироваться от библиографий, таких как PubMed , до баз данных изображений для разработки диагностического программного обеспечения на основе искусственного интеллекта. Например, одна такая база данных изображений была разработана с целью оказания помощи в разработке алгоритмов мониторинга ран. [13] На основе 79 посещений пациентов было создано более 188 наборов мультимодальных изображений, состоящих из фотографий, тепловых изображений и трехмерных карт глубины сетки. Контуры ран были нарисованы вручную и добавлены в наборы фотоданных. [14] База данных была опубликована в виде программы под названием WoundsDB, которую можно загрузить с веб-сайта базы данных хронической раны.
исследований нуклеиновых кислот Проблема с базой данных
[ редактировать ]Важным ресурсом для поиска биологических баз данных является специальный ежегодный выпуск журнала Nucleic Acids Research (NAR). Выпуск базы данных NAR находится в свободном доступе и классифицирует многие общедоступные биологические базы данных. В сопутствующей базе данных под названием «Онлайн-коллекция баз данных по молекулярной биологии» насчитывается 1380 онлайн-баз данных. [15] Существуют и другие коллекции баз данных, такие как MetaBase и Коллекция ссылок по биоинформатике. [16] [17]
См. также
[ редактировать ]- Биобанк
- Биологические данные
- Химическая база данных
- База данных Домена Смерти
- Европейский институт биоинформатики
- База данных генных заболеваний
- Интегративная биоинформатика
- Список биологических баз данных
- Базы данных модельных организмов
- NCBI
- PubMed (база данных биомедицинской литературы)
Ссылки
[ редактировать ]- ^ Шклярчик Д; Франческини А; Кун М; и др. (январь 2011 г.). «База данных STRING в 2011 году: сети функциональных взаимодействий белков, глобально интегрированные и оцененные» . Нуклеиновые кислоты Рез . 39 (Проблема с базой данных): D561–8. дои : 10.1093/нар/gkq973 . ПМК 3013807 . ПМИД 21045058 .
- ^ Альтман Р.Б. (март 2004 г.). «Создание успешных биологических баз данных» . Краткий. Биоинформатика . 5 (1): 4–5. дои : 10.1093/нагрудник/5.1.4 . ПМИД 15153301 .
- ^ Борн П. (август 2005 г.). «Будет ли биологическая база данных отличаться от биологического журнала?» . ПЛОС Компьютер. Биол . 1 (3): 179–81. Бибкод : 2005PLSCB...1...34B . дои : 10.1371/journal.pcbi.0010034 . ПМК 1193993 . ПМИД 16158097 .
- ^ Лок, А; Резерфорд, К; Харрис, Массачусетс; Хейлс, Дж; Оливер, SG; Бэлер, Дж; Вуд, В. (13 октября 2018 г.). «PomBase 2018: управляемая пользователем повторная реализация базы данных делящихся дрожжей обеспечивает быстрый и интуитивно понятный доступ к разнообразной взаимосвязанной информации» . Исследования нуклеиновых кислот . 47 (Д1): Д821–Д827. дои : 10.1093/nar/gky961 . ПМК 6324063 . ПМИД 30321395 .
- ^ Каталог жизни (2001). «Домашняя страница» . Поиск . Виды 2000. Архивировано из оригинала 05 мая 2022 г. Проверено 5 мая 2022 г.
- ^ Джонс, Эндрю С. (2011). «Идентификация и соотношение биологических концепций в каталоге жизни» . Журнал биомедицинской семантики . 2 (1): 7. дои : 10.1186/2041-1480-2-7 . ПМЦ 3245425 . ПМИД 22004596 .
- ^ Каталог жизни (2001). «Что такое Каталог жизни?» . Наша Миссия . Виды 2000. Архивировано из оригинала 05 мая 2022 г. Проверено 5 мая 2022 г.
- ^ Каталог жизни (2001). «Исходные наборы данных» . Виды 2000. Архивировано из оригинала 14 мая 2022 г. Проверено 5 мая 2022 г.
- ^ Каталог жизни (2001). «Финансирование» . Виды 2000. Архивировано из оригинала 05 мая 2022 г. Проверено 5 мая 2022 г.
- ^ Дай, Шуан (2019). «Пространственная цифровая база данных по всем видам птиц Китая» . Наука Китай Науки о жизни . 62 (5): 661–667. дои : 10.1007/s11427-018-9419-2 . ПМИД 30900164 . S2CID 84845653 . Проверено 5 мая 2022 г.
- ^ Дай, Шуан (2019). «Пространственная цифровая база данных по всем видам птиц Китая» . Наука Китай Науки о жизни . 62 (5): 661–667. дои : 10.1007/s11427-018-9419-2 . ПМИД 30900164 . S2CID 84845653 . Проверено 5 мая 2022 г.
- ^ «База данных хронических ран» . База данных ран . Силезский технологический университет. 2020 . Проверено 5 мая 2022 г.
- ^ Крецихвост, Михал (2021). «База данных мультимодальных изображений хронических ран» . Компьютеризированная медицинская визуализация и графика . 88 : 101844. doi : 10.1016/j.compmedimag.2020.101844 . ПМИД 33477091 . S2CID 231676950 . Проверено 5 мая 2022 г.
- ^ «База данных хронических ран» . База данных ран . Силезский технологический университет. 2020 . Проверено 5 мая 2022 г.
- ^ Гальперин М.Ю.; Фернандес-Суарес XM (январь 2012 г.). «Выпуск базы данных исследований нуклеиновых кислот 2012 года и онлайн-коллекция баз данных по молекулярной биологии» . Нуклеиновые кислоты Рез . 40 (Проблема с базой данных): D1–8. дои : 10.1093/nar/gkr1196 . ПМК 3245068 . ПМИД 22144685 .
- ^ Болсер ДМ; Чибон ПЯ; Палополи Н; и др. (январь 2012 г.). «MetaBase — вики-база биологических баз данных» . Нуклеиновые кислоты Рез . 40 (проблема с базой данных): D1250–4. дои : 10.1093/nar/gkr1099 . ПМК 3245051 . ПМИД 22139927 .
- ^ Бразас, доктор медицинских наук; Йим Д.С.; Ямада Дж.Т.; Уэллетт БФ (июль 2011 г.). «Обновление каталога ссылок по биоинформатике 2011 года: больше ресурсов, инструментов, баз данных и функций для расширения возможностей сообщества биоинформатики» . Нуклеиновые кислоты Рез . 39 (проблема с веб-сервером): W3–7. дои : 10.1093/nar/gkr514 . ПМК 3125814 . ПМИД 21715385 .
Внешние ссылки
[ редактировать ]- Интерактивный список биологических баз данных , классифицированных по категориям, от Nucleic Acids Research , 2010 г.
- DBD: База данных биологических баз данных
- Биошеринг (база биологических баз данных)
- База данных хронических ран WoundsDB
- Каталог жизни Каталог жизни