БиоЯва
Оригинальный автор(ы) | Андреас Прлич |
---|---|
Разработчик(и) | Амр АЛЬХОССАРИ, Андреас Прлич, Дмитрий Гузенко, Ханнес Брандштеттер-Мюллер, Хосе Мануэль Дуарте, Томас Даун, Михаэль Л. Хойер, Питер Трошин, Цзяньцзян Гао, Алейкс Лафита, Питер Роуз, Спенсер Бливен |
Первоначальный выпуск | 2002 год |
Стабильная версия | 6.0.3 / 19 декабря 2021 г |
Репозиторий | github |
Написано в | Ява |
Платформа | Веб-браузер с Java SE |
Доступно в | Английский |
Тип | Биоинформатика |
Лицензия | Меньшая лицензия GPL 2.1 |
Веб-сайт | биоява |
BioJava — это проект программного обеспечения с открытым исходным кодом, предназначенный для предоставления Java инструментов для обработки биологических данных. [1] [2] [3] BioJava — это набор библиотечных функций, написанных на языке программирования Java для управления последовательностями, белковыми структурами, анализаторов файлов, совместимости с архитектурой брокера общих объектных запросов (CORBA), распределенной системы аннотаций (DAS), доступа к AceDB , динамического программирования и простой статистической обработки. процедуры. BioJava поддерживает широкий спектр данных, начиная от последовательностей ДНК и белков и заканчивая уровнем трехмерных белковых структур. Библиотеки BioJava полезны для автоматизации многих повседневных и повседневных задач биоинформатики , таких как анализ файла банка данных белков (PDB), взаимодействие с Jmol и многих других. [4] Этот интерфейс прикладного программирования (API) предоставляет различные анализаторы файлов, модели данных и алгоритмы для облегчения работы со стандартными форматами данных и обеспечивает быструю разработку и анализ приложений.
Дополнительные проекты BioJava включают rcsb-sequenceviewer, biojava-http, biojava-spark и rcsb-viewers.
Функции
[ редактировать ]BioJava предоставляет программные модули для многих типичных задач программирования биоинформатики. К ним относятся:
- Доступ к данным о последовательностях нуклеотидов и пептидов из локальных и удаленных баз данных
- Преобразование форматов записей базы данных/файлов
- Анализ структуры белка и манипуляции с ним
- Управление отдельными последовательностями
- Поиск похожих последовательностей
- и управление ими Создание выравниваний последовательностей
История и публикации
[ редактировать ]Проект BioJava вырос из работы Томаса Дауна и Мэтью Покока по созданию API для упрощения разработки инструментов биоинформатики на основе Java. BioJava — это активный проект с открытым исходным кодом, который разрабатывался более 12 лет более чем 60 разработчиками. BioJava — один из нескольких проектов Bio*, призванных сократить дублирование кода. [5] Примерами таких проектов, подпадающих под Bio*, помимо BioJava, являются BioPython , [6] БиоПерл , [7] БиоРубин , [8] ЭМБОСС [9] и т. д.
В октябре 2012 года была опубликована первая статья о BioJava. [10] В этом документе подробно описаны модули, функциональные возможности и назначение BioJava.
По состоянию на ноябрь 2018 года Google Scholar насчитывает более 130 цитирований. [11]
Последняя статья о BioJava была написана в феврале 2017 года. [12] В этом документе подробно описан новый инструмент под названием BioJava-ModFinder. Этот инструмент можно использовать для идентификации и последующего картирования модификаций белков в 3D в Банке данных белков ( PBD ). Пакет также был интегрирован с веб-приложением RCSB PDB и добавил аннотации о модификациях белков к диаграмме последовательности и отображению структуры. С помощью BioJava-ModFinder было идентифицировано более 30 000 структур с модификациями белка, и их можно найти на веб-сайте RCSB PDB.
В 2008 году были опубликованы первые рекомендации по применению BioJava. [2] Он был перенесен из исходного репозитория CVS на GitHub в апреле 2013 года. [13] Проект был перенесен в отдельный репозиторий BioJava-legacy и до сих пор поддерживается для внесения незначительных изменений и исправлений ошибок. [14]
Версия 3 была выпущена в декабре 2010 года. Это было серьезное обновление предыдущих версий. Целью этого выпуска было переписать BioJava так, чтобы ее можно было разбить на небольшие компоненты многократного использования. Это позволило разработчикам легче вносить свой вклад и уменьшить зависимости. Новый подход, представленный в BioJava 3, был смоделирован по образцу Apache Commons .
Версия 4 была выпущена в январе 2015 года. Эта версия принесла множество новых функций и улучшений в пакеты biojava-core, biojava-structure, biojava-structure-gui, biojava-phylo, а также другие. BioJava 4.2.0 была первой версией, доступной с использованием Maven на Maven Central.
Версия 5 была выпущена в марте 2018 года. Это важная веха в развитии проекта. BioJava 5.0.0 — первая версия, выпущенная на основе Java 8, в которой реализовано использование лямбда -функций и потоковых вызовов API. Также произошли серьезные изменения в модуле biojava-structure. Кроме того, предыдущие модели данных для макромолекулярных структур были адаптированы для более точного представления модели данных mmCIF . Это был первый релиз за более чем два года. Некоторые из других улучшений включают оптимизацию модуля biojava-structure для улучшения обнаружения симметрии и добавленную поддержку форматов MMTF. Другие общие улучшения включают обновления Javadoc, версии зависимостей и все тесты теперь в формате Junit4. Релиз содержит 1170 коммитов от 19 участников.
Модули
[ редактировать ]В течение 2014–2015 годов были переписаны большие части исходной кодовой базы. BioJava 3 явно отличается от серии версий 1. Теперь он состоит из нескольких независимых модулей, созданных с помощью инструмента автоматизации под названием Apache Maven . [15] Эти модули предоставляют современные инструменты для сравнения структуры белков, парного и множественного выравнивания последовательностей, работы с последовательностями ДНК и белков, анализа свойств аминокислот, обнаружения модификаций белков, прогнозирования неупорядоченных областей в белках и анализаторов общих файлов. форматы с использованием биологически значимой модели данных. Исходный код был перенесен в отдельный устаревший проект BioJava, который по-прежнему доступен для обратной совместимости. [16]
BioJava 5 представила новые функции двум модулям: выравнивание биоджавы и структура биоджавы.
В следующих разделах описываются некоторые новые модули и освещаютсянекоторые новые функции, включенные в последнюю версию BioJava.
Основной модуль
[ редактировать ]Java Этот модуль предоставляет классы для моделирования аминокислотных или нуклеотидных последовательностей. Классы были разработаны так, чтобы названия были знакомы и имели смысл для биологов, а также обеспечивали конкретное представление шагов перехода от последовательности гена к последовательности белка для ученых-компьютерщиков и программистов.
Основное различие между устаревшим проектом BioJava и BioJava3 заключается в том, как была разработана среда для использования новых на тот момент инноваций в Java. Последовательность определяется как общий интерфейс, позволяющий остальным модулям создавать любую утилиту, работающую со всеми последовательностями. Конкретные классы для общих последовательностей, таких как ДНК и белки, были определены с целью повышения удобства использования биологами. Механизм перевода действительно эффективно использует эту работу, позволяя осуществлять преобразования между последовательностями ДНК, РНК и аминокислот. Этот механизм может обрабатывать такие детали, как выбор таблицы кодонов, преобразование стартовых кодонов в метионин, обрезку стоп-кодонов, указание рамки считывания и обработку неоднозначных последовательностей.
Особое внимание было уделено проектированию хранилища последовательностей для минимизации занимаемого пространства. Специальные шаблоны проектирования, такие как шаблон Proxy, позволили разработчикам создать структуру, позволяющую хранить последовательности в памяти, извлекать их по требованию из веб-службы, такой как UniProt, или считывать из файла FASTA по мере необходимости. Последние два подхода экономят память, не загружая данные последовательности до тех пор, пока на них не будет ссылки в приложении. Эту концепцию можно расширить для обработки очень больших наборов геномных данных, таких как NCBI GenBank или собственная база данных.
Модули белковой структуры
[ редактировать ]Модули структуры белка предоставляют инструменты для представления и управления трехмерными биомолекулярными структурами. Они сосредоточены на сравнении структуры белков.
Следующие алгоритмы были реализованы и включены в BioJava.
- Алгоритм FATCAT для гибкого и жесткого выравнивания кузова. [17]
- Стандартный алгоритм комбинаторного расширения (CE). [18]
- Новая версия CE, которая может обнаруживать круговые перестановки в белках. [19]
Эти алгоритмы используются для создания банка данных белков RCSB (PDB). [20] Инструмент сравнения белков, а также систематические сравнения всех белков в PDB на еженедельной основе. [21]
Парсеры для PDB [22] и ммКИФ [23] форматы файлов позволяют загружать структурные данные в модель данных многократного использования. Эта функция используется проектом SIFTS для сопоставления последовательностей UniProt и структур PDB. [24] Информацию из PDB RCSB можно получать динамически без необходимости загрузки данных вручную. Для визуализации предусмотрен интерфейс к 3D-просмотрщику Jmol. [4]
Модули генома и секвенирования
[ редактировать ]Этот модуль ориентирован на создание объектов последовательностей генов из основного модуля. Это реализуется за счет поддержки анализа следующих популярных стандартных форматов файлов, созданных приложениями для прогнозирования генов с открытым исходным кодом:
- Файлы GTF, созданные GeneMark [25]
- Файлы GFF2, созданные GeneID [26]
- Файлы GFF3, созданные Glimmer [27]
Затем объекты последовательности генов записываются в формате GFF3 и импортируются в GMOD. [28] Эти форматы файлов четко определены, но то, что записывается в файл, очень гибко.
За обеспечение поддержки ввода-вывода нескольких распространенных вариантов формата файлов FASTQ секвенсоров следующего поколения, [29] предоставляется отдельный модуль секвенирования. Примеры использования этого модуля можно найти по этой ссылке .
Модуль выравнивания
[ редактировать ]Этот модуль содержит несколько классов и методов, которые позволяют пользователям выполнять попарное и множественное выравнивание последовательностей. Последовательности могут быть выровнены как однопоточным, так и многопоточным способом. BioJava реализует метод Нидлмана-Вунша [30] алгоритм оптимального глобального выравнивания и алгоритм Смита и Уотермана. [31] алгоритм локального выравнивания.Результаты как локального, так и глобального выравнивания доступны в стандартных форматах. Помимо этих двух алгоритмов существует реализация алгоритма Гуана – Убербахера. [32] который очень эффективно выполняет глобальное выравнивание последовательностей, поскольку использует только линейную память.
Для множественного выравнивания последовательностей любой из методов, описанных выше, можно использовать для постепенного выполнения множественного выравнивания последовательностей.
Модуль МодФиндер
[ редактировать ]Модуль ModFinder предоставляет новые методы идентификации и классификации модификаций белков в трехмерных структурах белков. Более 400 различных типов модификаций белков, таких как фосфорилирование , гликозилирование , хелатирование металлов дисульфидными связями и т. д., были собраны и обработаны на основе аннотаций в PSI-MOD. [34] РЕЗИД [35] и RCSB PDB. [36] Модуль также предоставляет API для обнаружения пре-, ко- и посттрансляционных модификаций белков в белковых структурах. Этот модуль также может идентифицировать фосфорилирование и распечатать все предварительно загруженные модификации структуры.
Модуль свойств аминокислот
[ редактировать ]Этот модуль пытается предоставить точные физико-химические свойства белков.Свойства, которые можно рассчитать с помощью этого модуля, следующие:
- Молекулярная масса
- Коэффициент вымирания
- Индекс нестабильности
- Алифатический индекс
- Большой средний показатель гидропатии
- Изоэлектрическая точка
- Аминокислотный состав
В этот модуль включены точные молекулярные массы обычных меченых изотопами аминокислот. Также существует гибкость в определении новых молекул аминокислот по их молекулярным массам с использованием простых XML файлов конфигурации . Это может быть полезно там, где точная масса имеет большое значение, например, в экспериментах по масс-спектрометрии .
Модуль белковых расстройств
[ редактировать ]Цель этого модуля — предоставить пользователям способы обнаружения нарушений в белковых молекулах. BioJava включает Java-реализацию предиктора RONN . BioJava 3.0.5 использует поддержку многопоточности Java для повышения производительности до 3,2 раза. [37] на современной четырехъядерной машине по сравнению с устаревшей реализацией C.
Есть два способа использования этого модуля:
- Использование вызовов библиотечных функций
- Использование командной строки
Некоторые особенности этого модуля включают в себя:
- Вычисление вероятности беспорядка для каждого остатка в последовательности
- Расчет вероятности беспорядка для каждого остатка в последовательности для всех белков из входного файла FASTA.
- Получите неупорядоченные области белка для одной последовательности белка или для всех белков из входного файла FASTA.
Модуль доступа к веб-сервису
[ редактировать ]В соответствии с текущими тенденциями в биоинформатике, веб-инструменты набирают популярность. Модуль веб-сервиса обеспечивает доступ к сервисам биоинформатики с использованием протоколов REST . В настоящее время реализованы две службы: NCBI Blast через Blast URLAPI (ранее известный как QBlast) и веб-служба HMMER. [38]
Сравнение с другими альтернативами
[ редактировать ]Потребность в индивидуальном программном обеспечении в области биоинформатики рассматривалась несколькими группами и отдельными людьми. Подобно BioJava, проекты программного обеспечения с открытым исходным кодом, такие как BioPerl , BioPython и BioRuby, предоставляют наборы инструментов с множеством функций, которые упрощают создание индивидуальных конвейеров или анализа.
Как следует из названия, упомянутые выше проекты используют разные языки программирования. Все эти API предлагают схожие инструменты, поэтому на каких критериях следует основывать свой выбор? Для программистов, имеющих опыт работы только с одним из этих языков, выбор очевиден. Однако для разностороннего биоинформатика, который знает все эти языки и хочет выбрать лучший язык для работы, выбор может быть сделан на основе следующих рекомендаций, полученных в результате обзора программного обеспечения, проведенного с помощью наборов инструментов Bio*. [5]
В общем, для небольших программ (<500 строк), которые будут использоваться только одним человеком или небольшой группой, трудно превзойти Perl и BioPerl . Эти ограничения, вероятно, покрывают потребности 90 процентов программ индивидуальной биоинформатики.
Для новичков и для написания более крупных программ в области Bio, особенно тех, которые будут использоваться и поддерживаться другими, ясность и краткость Python делают его очень привлекательным.
Для тех, кто склоняется к карьере в области биоинформатики и хочет выучить только один язык, Java имеет самую широкую поддержку общего программирования, очень хорошую поддержку в области био с помощью BioJava и в настоящее время является фактическим языком бизнеса (новый КОБОЛ, к лучшему или к худшему).
Помимо этих проектов Bio*, существует еще один проект под названием STRAP, который использует Java и преследует аналогичные цели. STRAP-toolbox, аналогичный BioJava, также представляет собой Java-инструментарий для разработки биоинформатических программ и скриптов. Сходства и различия между BioJava и STRAP заключаются в следующем:
Сходства
- Оба предоставляют исчерпывающие коллекции методов исследования белковых последовательностей.
- Оба используются программистами Java для кодирования алгоритмов биоинформатики.
- Как отдельные реализации, так и определения с использованием интерфейсов Java.
- Оба являются проектами с открытым исходным кодом.
- Оба могут читать и записывать файлы многих форматов последовательностей.
Различия
- BioJava применима к нуклеотидным и пептидным последовательностям и может применяться ко всем геномам. STRAP не может обрабатывать отдельные последовательности длиной целую хромосому. Вместо этого STRAP манипулирует пептидными последовательностями и 3D-структурами размером с одиночный белок. Тем не менее, он может хранить в памяти большое количество последовательностей и структур. STRAP предназначен для белковых последовательностей, но может считывать файлы кодирующих нуклеотидов, которые затем транслируются в пептидные последовательности.
- STRAP работает очень быстро, поскольку графический интерфейс пользователя должен быть очень отзывчивым. BioJava используется там, где скорость менее критична.
- BioJava хорошо спроектирована с точки зрения безопасности типов, онтологии и объектного дизайна. BioJava использует объекты для последовательностей, аннотаций и позиций последовательностей. Даже отдельные аминокислоты или нуклеотиды являются объектными ссылками. Для повышения скорости STRAP избегает частого создания экземпляров объектов и вызова нефинальных объектных методов.
- В BioJava пептидные последовательности и нуклеотидные последовательности представляют собой списки символов. Символы могут быть извлечены один за другим с помощью итератора или могут быть получены подпоследовательности. Преимущества заключаются в том, что вся последовательность не обязательно находится в памяти и что программы менее подвержены ошибкам программирования. Объекты- символы — это неизменяемые элементы алфавита. Однако в STRAP для последовательностей используются простые байтовые массивы, а для координат — массивы с плавающей запятой. Помимо скорости важным преимуществом базовых типов данных является низкое потребление памяти. Классы в Strap предоставляют внутренние данные. Таким образом, программисты могут допускать ошибки программирования, например, напрямую манипулировать массивами байтов вместо использования методов установки. Еще одним недостатком является то, что в STRAP не выполняется проверка допустимости символов в последовательностях по отношению к базовому алфавиту.
- В BioJava позиции последовательности реализуются классом Location . Объекты Discontigious Location состоят из нескольких смежных объектов RangeLocation или PointLocation объектов . Однако для класса StrapProtein положения отдельных остатков обозначаются целыми числами от 0 до countResidues()-1 . Несколько позиций задаются логическими массивами. Истина по данному индексу означает, что выбрано, тогда как ложь означает, что не выбрано.
- BioJava генерирует исключения, когда методы вызываются с недопустимыми параметрами. STRAP позволяет избежать трудоемкого создания объектов Throwable. Вместо этого ошибки в методах обозначаются возвращаемыми значениями NaN, -1 или null. Однако с точки зрения дизайна программы объекты Throwable лучше.
- В BioJava объект Sequence представляет собой либо пептидную последовательность, либо нуклеотидную последовательность. StrapProtein может содержать и то, и другое одновременно, если кодирующая нуклеотидная последовательность была прочитана и транслирована в белок. И нуклеотидная последовательность, и пептидная последовательность содержатся в одном и том же объекте StrapProtein. Кодирующие или некодирующие области могут быть изменены, и соответственно изменяется последовательность пептида.
Проекты с использованием BioJava
[ редактировать ]Следующие проекты используют BioJava.
- Metabolic Pathway Builder: пакет программного обеспечения, предназначенный для исследования связей между генами, белками, реакциями и метаболическими путями.
- DengueInfo. Архивировано 8 декабря 2006 г. на Wayback Machine : информационном портале о геноме денге, который использует BioJava в промежуточном программном обеспечении и взаимодействует с базой данных biosql.
- Dazzle : DAS-сервер на базе BioJava.
- BioSense : плагин для InforSense Suite, аналитической программной платформы IDBS, объединяющей BioJava.
- Bioclipse : бесплатная рабочая среда с открытым исходным кодом для химио- и биоинформатики с мощными возможностями редактирования и визуализации молекул, последовательностей, белков, спектров и т. д.
- ПОДСКАЗКА : Бесплатная платформа с открытым исходным кодом и приложение для сравнения и картирования наборов белков. Использует BioJava для обработки большинства форматов входных данных.
- Cytoscape : программная платформа биоинформатики с открытым исходным кодом для визуализации сетей молекулярного взаимодействия.
- BioWeka : приложение для анализа биологических данных с открытым исходным кодом.
- Geneious : набор инструментов для молекулярной биологии.
- MassSieve : приложение с открытым исходным кодом для анализа данных масс-спектрометрии протеомики.
- STRAP : инструмент для множественного выравнивания последовательностей и выравнивания структур на основе последовательностей.
- Jstacs : Java-фреймворк для статистического анализа и классификации биологических последовательностей.
- jLSTM : «Долгая кратковременная память» для классификации белков.
- LaJolla : инструмент структурного выравнивания с открытым исходным кодом для РНК и белков, использующий индексную структуру для быстрого выравнивания тысяч структур; включает простой в использовании интерфейс командной строки.
- GenBeans : богатая клиентская платформа для биоинформатики, ориентированная в первую очередь на молекулярную биологию и анализ последовательностей.
- JEnsembl : Java API с учетом версий для систем данных Ensembl. [39]
- MUSI : Интегрированная система для выявления множественной специфичности на основе очень больших наборов данных по пептидам или нуклеиновым кислотам. [40]
- Bioshell : служебная библиотека для структурной биоинформатики. [41]
См. также
[ редактировать ]- Открытый фонд биоинформатики
- БиоПерл , Биопитон , БиоРуби
- Биоклипс
- Сравнение программного обеспечения для моделирования молекулярной механики
Ссылки
[ редактировать ]- ^ Прлич А., Йейтс А., Бливен С.Е. и др. (октябрь 2012 г.). «BioJava: платформа с открытым исходным кодом для биоинформатики в 2012 году» . Биоинформатика . 28 (20): 2693–5. doi : 10.1093/биоинформатика/bts494 . ПМЦ 3467744 . ПМИД 22877863 .
- ^ Jump up to: а б Холланд Р.К., Даун Т.А., Покок М., Прлич А., Хуэн Д., Джеймс К. и др. (2008). «BioJava: платформа с открытым исходным кодом для биоинформатики» . Биоинформатика . 24 (18): 2096–7. doi : 10.1093/биоинформатика/btn397 . ПМК 2530884 . ПМИД 18689808 .
- ^ В. С. Мата и П. Кангеан, 2009, Биоинформатика: концептуальное введение , 2009. стр. 26.
- ^ Jump up to: а б с Хэнсон, Р.М. (2010) Смена парадигмы в кристаллографической визуализации.
- ^ Jump up to: а б Мангалам Х (2002). «Наборы инструментов Bio* — краткий обзор» . Брифинги по биоинформатике . 3 (3): 296–302. дои : 10.1093/нагрудник/3.3.296 . ПМИД 12230038 .
- ^ Кок ПиДжей, Антао Т., Чанг Дж.Т. и др. (июнь 2009 г.). «Биопитон: свободно доступные инструменты Python для вычислительной молекулярной биологии и биоинформатики» . Биоинформатика . 25 (11): 1422–3. doi : 10.1093/биоинформатика/btp163 . ПМЦ 2682512 . ПМИД 19304878 .
- ^ Стажич Дж.Э., Блок Д., Булез К. и др. (октябрь 2002 г.). «Набор инструментов Bioperl: модули Perl для наук о жизни» . Геном Рез . 12 (10): 1611–8. дои : 10.1101/гр.361602 . ПМК 187536 . ПМИД 12368254 .
- ^ Гото Н., Принс П., Накао М., Боннал Р., Аэртс Дж., Катаяма Т. (октябрь 2010 г.). «BioRuby: биоинформатическое программное обеспечение для языка программирования Ruby» . Биоинформатика . 26 (20): 2617–9. doi : 10.1093/биоинформатика/btq475 . ПМК 2951089 . ПМИД 20739307 .
- ^ Райс П., Лонгден И., Блисби А. (июнь 2000 г.). «EMBOSS: Европейский пакет открытого программного обеспечения для молекулярной биологии». Тенденции Жене . 16 (6): 276–7. дои : 10.1016/S0168-9525(00)02024-2 . ПМИД 10827456 .
- ^ Прлич А., Йейтс А., Бливен С.Е. и др. (октябрь 2012 г.). «BioJava: платформа с открытым исходным кодом для биоинформатики в 2012 году» . Биоинформатика . 28 (20): 2693–5. doi : 10.1093/биоинформатика/bts494 . ПМЦ 3467744 . ПМИД 22877863 .
- ^ «Гугл Академика» . ученый.google.com . Проверено 22 ноября 2018 г.
- ^ Гао, Цзяньцзюн; Прлич, Андреас; Би, Чуньсяо; Блюм, Вольфганг Ф.; Димитропулос, Димитрис; Сюй, Донг; Борн, Филип Э.; Роуз, Питер В. (17 февраля 2017 г.). «BioJava-ModFinder: идентификация модификаций белков в 3D-структурах из банка данных белков» . Биоинформатика . 33 (13): 2047–2049. doi : 10.1093/биоинформатика/btx101 . ISSN 1367-4803 . ПМК 5870676 . ПМИД 28334105 .
- ^ «История» . Проверено 30 января 2015 г.
- ^ BioJava-legacy. Архивировано 9 января 2013 г. на Wayback Machine.
- ^ Мавен, Апач. «Мавен» . Апач.
- ^ Унаследованный проект BioJava. Архивировано 9 января 2013 г. на Wayback Machine.
- ^ Jump up to: а б Йе Ю, Годзик А (октябрь 2003 г.). «Гибкое выравнивание структуры путем объединения пар выровненных фрагментов в цепочку, допускающих повороты» . Биоинформатика . 19 (Приложение 2): ii246–55. doi : 10.1093/биоинформатика/btg1086 . ПМИД 14534198 .
- ^ Шиндялов И.Н., Борн П.Е. (сентябрь 1998 г.). «Выравнивание структуры белка путем постепенного комбинаторного расширения (CE) оптимального пути» . Белок англ . 11 (9): 739–47. дои : 10.1093/протеин/11.9.739 . ПМИД 9796821 .
- ^ Бливен С, Прлич А (2012). «Круговая перестановка в белках» . ПЛОС Компьютер. Биол . 8 (3): e1002445. Бибкод : 2012PLSCB...8E2445B . дои : 10.1371/journal.pcbi.1002445 . ПМК 3320104 . ПМИД 22496628 .
- ^ Роуз П.В., Беран Б., Би С. и др. (январь 2011 г.). «Банк данных белков RCSB: обновленный веб-сайт и веб-сервисы» . Нуклеиновые кислоты Рез . 39 (Проблема с базой данных): D392–401. дои : 10.1093/nar/gkq1021 . ПМК 3013649 . ПМИД 21036868 .
- ^ Прлич А., Бливен С., Роуз П.В. и др. (декабрь 2010 г.). «Предварительно рассчитанное выравнивание структуры белка на веб-сайте RCSB PDB» . Биоинформатика . 26 (23): 2983–5. doi : 10.1093/биоинформатика/btq572 . ПМК 3003546 . ПМИД 20937596 .
- ^ Бернштейн ФК, Кетцле Т.Ф., Уильямс Г.Дж. и др. (май 1977 г.). «Банк данных белков: компьютерный архивный файл макромолекулярных структур». Дж. Мол. Биол . 112 (3): 535–42. дои : 10.1016/s0022-2836(77)80200-3 . ПМИД 875032 .
- ^ Фицджеральд, PMD и др. (2006) Макромолекулярный словарь (mmCIF). Ин Холл, СР
- ^ Веланкар С., МакНил П., Миттард-Рунте В. и др. (январь 2005 г.). «E-MSD: интегрированный ресурс данных для биоинформатики» . Нуклеиновые кислоты Рез . 33 (Проблема с базой данных): D262–5. дои : 10.1093/nar/gki058 . ПМК 540012 . ПМИД 15608192 .
- ^ Бесемер Дж., Бородовский М. (июль 2005 г.). «GeneMark: веб-программное обеспечение для поиска генов у прокариот, эукариот и вирусов» . Нуклеиновые кислоты Рез . 33 (проблема с веб-сервером): W451–4. дои : 10.1093/nar/gki487 . ПМЦ 1160247 . ПМИД 15980510 .
- ^ Бланко Э., Абриль Дж. Ф. (2009). «Вычислительная аннотация генов в новых сборках генома с использованием GeneID». Биоинформатика для анализа последовательностей ДНК . Методы молекулярной биологии. Том. 537. стр. 243–61. дои : 10.1007/978-1-59745-251-9_12 . ISBN 978-1-58829-910-9 . ПМИД 19378148 .
- ^ Келли Д.Р., Лю Б., Делчер А.Л., Поп М., Зальцберг С.Л. (январь 2012 г.). «Прогнозирование генов с помощью Glimmer для метагеномных последовательностей, дополненное классификацией и кластеризацией» . Нуклеиновые кислоты Рез . 40 (1): e9. дои : 10.1093/nar/gkr1067 . ПМК 3245904 . ПМИД 22102569 .
- ^ Штейн Л.Д., Мангалл С., Шу С. и др. (октябрь 2002 г.). «Общий геномный браузер: строительный блок для базы данных системы модельного организма» . Геном Рез . 12 (10): 1599–610. дои : 10.1101/гр.403602 . ПМК 187535 . ПМИД 12368253 .
- ^ Кок Пи Джей, Филдс Си Джей, Гото Н, Хойер МЛ, Райс ПМ (апрель 2010 г.). «Формат файла Sanger FASTQ для последовательностей с показателями качества и варианты Solexa/Illumina FASTQ» . Нуклеиновые кислоты Рез . 38 (6): 1767–71. дои : 10.1093/нар/gkp1137 . ПМЦ 2847217 . ПМИД 20015970 .
- ^ Нидлман С.Б., компакт-диск Вунша (март 1970 г.). «Общий метод, применимый для поиска сходства в аминокислотной последовательности двух белков». Дж. Мол. Биол . 48 (3): 443–53. дои : 10.1016/0022-2836(70)90057-4 . ПМИД 5420325 .
- ^ Смит Т.Ф., Уотерман М.С. (март 1981 г.). «Идентификация общих молекулярных подпоследовательностей». Дж. Мол. Биол . 147 (1): 195–7. CiteSeerX 10.1.1.63.2897 . дои : 10.1016/0022-2836(81)90087-5 . ПМИД 7265238 .
- ^ Гуань X, Uberbacher EC (февраль 1996 г.). «Выравнивание последовательностей ДНК и белков, содержащих ошибки сдвига рамки считывания» . Вычислить. Прил. Биосци . 12 (1): 31–40. дои : 10.1093/биоинформатика/12.1.31 . ПМИД 8670617 .
- ^ Чен К., Юнг Ю.С., Бонагура К.А. и др. (февраль 2002 г.). «Ферредоксин I Azotobacter vinelandii: метод сравнения последовательности и структуры для изменения потенциала восстановления [4Fe-4S]2+/+» . Ж. Биол. Хим . 277 (7): 5603–10. дои : 10.1074/jbc.M108916200 . ПМИД 11704670 .
- ^ Монтекки-Палацци Л., Бивис Р., Бинц П.А. и др. (август 2008 г.). «Стандарт сообщества PSI-MOD для представления данных о модификации белков». Нат. Биотехнология . 26 (8): 864–6. дои : 10.1038/nbt0808-864 . ПМИД 18688235 . S2CID 205270043 .
- ^ Гаравелли Дж.С. (июнь 2004 г.). «База данных модификаций белков RESID как ресурс и инструмент аннотаций» . Протеомика . 4 (6): 1527–33. дои : 10.1002/pmic.200300777 . ПМИД 15174122 . S2CID 25712150 .
- ^ Берман Х.М., Уэстбрук Дж., Фэн З. и др. (январь 2000 г.). «Банк данных о белках» . Нуклеиновые кислоты Рез . 28 (1): 235–42. дои : 10.1093/нар/28.1.235 . ПМЦ 102472 . ПМИД 10592235 .
- ^ Ян З.Р., Томсон Р., МакНил П., Эснуф Р.М. (август 2005 г.). «RONN: метод нейронной сети с биобазисной функцией, применяемый для обнаружения изначально неупорядоченных областей в белках» . Биоинформатика . 21 (16): 3369–76. doi : 10.1093/биоинформатика/bti534 . ПМИД 15947016 .
- ^ Финн Р.Д., Клементс Дж., Эдди С.Р. (июль 2011 г.). «Веб-сервер HMMER: интерактивный поиск сходства последовательностей» . Нуклеиновые кислоты Рез . 39 (проблема с веб-сервером): W29–37. дои : 10.1093/nar/gkr367 . ПМК 3125773 . ПМИД 21593126 .
- ^ Патерсон Т., Закон А (ноябрь 2012 г.). «JEnsembl: API Java с учетом версий для систем данных Ensembl» . Биоинформатика . 28 (21): 2724–31. doi : 10.1093/биоинформатика/bts525 . ПМЦ 3476335 . ПМИД 22945789 .
- ^ Ким Т., Тиндел М.С., Хуан Х. и др. (март 2012 г.). «MUSI: интегрированная система для выявления множественной специфичности на основе очень больших наборов данных о пептидах или нуклеиновых кислотах» . Нуклеиновые кислоты Рез . 40 (6): е47. дои : 10.1093/nar/gkr1294 . ПМК 3315295 . ПМИД 22210894 .
- ^ Гронт Д., Колински А (февраль 2008 г.). «Полезная библиотека для структурной биоинформатики» . Биоинформатика . 24 (4): 584–5. doi : 10.1093/биоинформатика/btm627 . ПМИД 18227118 .