Комбрекс
Эта статья в значительной степени или полностью опирается на один источник . ( май 2020 г. ) |
Содержание | |
---|---|
Описание | функциональная аннотация геномов прокариот . |
Организмы | Прокариоты |
Контакт | |
Исследовательский центр | Бостонский университет |
Авторы | Ричард Дж. Робертс |
Первичное цитирование | ПМИД 21097892 |
Дата выпуска | 2010 |
Доступ | |
Веб-сайт | http://combrex.bu.edu |
COMBREX — это многогранный проект, включающий базу данных аннотаций генов, функциональных прогнозов и рекомендаций, основанных на принципах активного обучения , связанных с миллионами генов в геномах прокариот . [1]
О
[ редактировать ]COMBREX — это многогранный проект, целью которого является объединение вычислительных и экспериментальных сообществ биологов в интересах улучшения нашего понимания функции микробных генов и ускорения аннотации функций микробных генов. Проект COMBREX был основан Саймоном Касифом, Ричардом Робертсом и Мартином Штеффеном как международный консорциум со штаб-квартирой в Бостонском университете и более чем 100 экспериментальными и вычислительными сотрудниками. Проект был вдохновлен призывом к общественным действиям, опубликованным в журнале PLoS Biology Ричардом Дж. Робертсом.
Содержание
[ редактировать ]База данных генов и функций
[ редактировать ]Эта развивающаяся база данных состоит из экспериментально определенных и предсказанных с помощью вычислений функций для более чем трех миллионов микробных генов. Поиск интересующего гена или генов может быть самоцелью или первым шагом на пути предоставления информации или получения гранта от COMBREX. В настоящее время база данных состоит из генов из более чем 1000 полностью секвенированных геномов бактерий и архей, дополненных рядом отдельных генов, биохимическая функция которых определена экспериментально. Гены организованы в сходные последовательности и, вероятно, изофункциональные группы, определяемые NCBI, называемые белковыми кластерами.
Система цветового кодирования используется для определения того, какие гены имеют функции, определенные экспериментально, какие имеют функции, предсказанные вычислениями, а какие не имеют известных или предсказанных функций (информация) . По необходимости «прогнозируемые функции» могут охватывать широкий диапазон специфичности, и одной из наших более долгосрочных целей является количественная оценка этой специфичности. (Например, предсказанная функция «валин-декарбоксилаза» значительно более специфична и легче поддается проверке, чем «лиаза» или даже «карбокси-лиаза».)
Идентификация генов, продукты которых были проверены экспериментально, также не является тривиальной задачей, и поэтому мы приступили к проекту по созданию всеобъемлющего, вручную курируемого набора всех таких генов, который мы называем Базой данных генов Золотого стандарта . Этот кураторский набор в настоящее время является уникальным для базы данных COMBREX, и принадлежащие ему гены отмечены золотым символом.
Прогнозы функции генов
[ редактировать ]База данных COMBREX служит местом, где компьютерные биологи могут публиковать свои наиболее информативные предсказания функций генов. Основным достижением в области биоинформатики было компьютерное предсказание функции генов. За последнее десятилетие или около того в этой области были достигнуты значительные успехи, но многие из этих усилий не реализовали весь свой потенциал для развития биологических знаний из-за того, что предсказания редко проверяются экспериментально, а предсказанные функции отдельных генов делаются конкурирующими методами. методы редко сравниваются напрямую.
База данных COMBREX, помимо получения информации из известных источников, таких как NCBI и UniProtKB, также отображает прогнозы функций генов, представленные отдельными лабораториями. Такие прогнозы могут быть сделаны в больших масштабах с использованием вычислительных алгоритмов или могут быть сделаны для отдельных генов биологами-экспериментаторами или компьютерными биологами, хорошо знакомыми с конкретным семейством белков или биохимическим путем. Таким образом, биологи-экспериментаторы могут легко сравнивать, противопоставлять и проверять предсказания, сделанные разными методами. Это параллельное отображение прогнозов функций из многих источников является основой взаимодействия между вычислительными и экспериментальными сообществами, которое COMBREX надеется способствовать.
Рекомендации и определение приоритетности экспериментов, основанных на принципах активного обучения.
[ редактировать ]COMBREX использует простые принципы, а также более сложные методологии активного обучения , чтобы рекомендовать наиболее информативные эксперименты. Это эксперименты, которые с наибольшей вероятностью дадут наиболее информативные (в математическом смысле максимизации получения информации) прогнозы для наибольшего числа белков в базе данных. Самые основные рекомендации предусматривают ранжирование всех белков в кластере генов с точки зрения их расстояния до других белков. В простейшем случае белки вблизи центра кластера считаются наиболее информативными, поскольку их расстояние до других белков в кластере относительно невелико. В результате функциональная аннотация «центра» кластера, вероятно, приведет к наиболее точным предсказаниям для других белков в кластере. С эволюционной точки зрения эти «кластерные центры» наиболее близки к эволюционному предку всех белков кластера. Активное обучение обобщает этот принцип интуиции, чтобы дать рекомендации для дополнительных экспериментов, которые могут либо дать точные прогнозы, либо идентифицировать белки, которые аннотированы неправильно.
В дополнение к эволюционному анализу и активному обучению COMBREX также указывает на другие критерии, которые можно учитывать при рассмотрении экспериментов. Такие критерии включают наличие доступной структуры, сохранение бактериального гена в геноме человека (например, совместное использование домена), наличие вычислительных или экспериментальных доказательств функции гена, фенотипические соображения (например, присутствие в патогене или связь с устойчивостью к антибиотикам, патогенность или вирулентность) и другие.
Гранты на биохимическую характеристику генов
[ редактировать ]Одной из задач COMBREX является выдача небольших денежных грантов для экспериментальной проверки конкретных предсказаний генов. Экспериментальное определение биохимической функции конкретных генных продуктов служит для подтверждения (или аннулирования) компьютерных предсказаний, сделанных априори. Таким образом, эта экспериментальная работа служит трем целям: (1) она объединяет непосредственно ученых, которые делают прогнозы функций генов, и тех, кто их проверяет, (2) она оценивает вычислительные методы на основе того, насколько точны их прогнозы, чтобы их можно было улучшить, и (3) он расширяет круг экспериментально подтвержденных генов, улучшая наше общее понимание биологии и взаимосвязей последовательность-структура-функция.
Экспериментальное исследование биохимической функции одного гена или небольшого числа генов часто находится в компетенции крупных финансирующих агентств. COMBREX создан для выдачи небольших грантов именно на этот тип работ, и такие гранты особенно подходят для лабораторий, уже знакомых с типами анализов, необходимыми для намеченных экспериментов.
Цели
[ редактировать ]Улучшенная аннотация генов
[ редактировать ]Одной из текущих проблем с аннотациями генов и геномов является отсутствие прозрачности в отношении источника. Часто бывает трудно определить, какие функции были определены экспериментально, а какие предсказаны вычислительным путем. Более того, для функций, предсказанных с помощью вычислений, редко указывается метод, используемый для прогнозирования, и сила доказательств. COMBREX предпринял первые шаги к более прозрачной системе аннотаций с помощью (1) цветного кодирования генов, чтобы отличать наблюдаемые функции от предсказанных, и (2) для многих функций, предсказанных на основе сходства последовательностей, идентифицируя экспериментально подтвержденный «исходный ген», на котором предсказание было основано.
COMBREX работает над более полностью отслеживаемой системой аннотаций, в которой каждая заявленная функциональная аннотация либо определяется экспериментально, либо представляет собой прогноз, явно связанный через цепочку доказательств с конечным источником информации. Этими источниками во многих случаях будут экспериментально подтвержденные гены, но в некоторых случаях это будут аннотации из существующих баз данных, источники которых сами по себе не очевидны сразу.
COMBREX — первая база данных, которая пытается «вычислительным» способом идентифицировать ссылку на экспериментальный источник аннотации, используя гомологию. Другие базы данных предоставляют два типа доказательств: например, полученные непосредственно из экспериментов или полученные путем вычислений. Однако вывод обычно не может быть связан с экспериментальным источником аннотации. COMBREX не может гарантировать, что предоставляемые им «следы» на данный момент точны, но он позволяет биологам сделать это определение непосредственно, исследуя связь.
Эта система идентификации исходных генов и функций, а также доказательных связей позволит создать динамическую систему аннотаций, которая автоматически обновляется по мере определения экспериментальных данных о новых генах и по мере разработки новых методов прогнозирования. Такая динамическая система функциональной аннотации генов может помочь преодолеть относительно высокую частоту неаннотированных и неправильно аннотированных генов, возникающую в результате статической системы, используемой во многих общедоступных базах данных. Кроме того, он прояснит те гены, биохимические функции которых действительно неизвестны, в отличие от тех, которые просто недостаточно аннотированы.
Повышенная точность прогнозирования
[ редактировать ]Важно сделать прогнозы функций генов прозрачными, но не менее важно сделать их максимально точными. Прогнозы должны быть соизмеримы с силой доказательств, чтобы они были настолько конкретными, насколько позволяют доказательства. Те, которые недостаточно конкретны, не поддаются экспериментальной проверке, а те, которые слишком специфичны для лежащих в основе данных, подвергаются высокому риску оказаться неточными. COMBREX активно работает над разработкой алгоритмов функционального прогнозирования, которые смогут идентифицировать гены с новыми или интересными функциями и чьи результаты могут сопутствовать высококачественным прогнозам, полученным от сотрудничающих вычислительных групп. COMBREX Относительно консервативное распространение функции генов на основе BLAST представляет собой простой первый шаг на пути к этой цели.
Целевая экспериментальная проверка
[ редактировать ]Благодаря своим решениям о финансировании COMBREX может помочь расширить и углубить наше понимание биохимической функции генов, поощряя экспериментальное исследование конкретных генов. Выбор генов для проверки является важным: в целом новых знаний мало, что можно получить путем проверки близких родственников изофункциональных генов, а эксперименты по проверке генов, у которых нет конкретных предсказанных функций, вряд ли будут успешными. Более того, ландшафт того, что уже известно, неравномерен: имеется много проверенных примеров одних функций и мало или вообще нет примеров других.
COMBREX хочет разработать новую, интегративную модель исследований, в которой приоритет отдается экспериментам, чтобы закрыть самые большие пробелы в нашем общем прогнозирующем понимании функции генов. Такая модель благоприятствует проверке генов, которые обеспечивают относительно значительный прирост знаний, например, потому, что их проверенная функция приводит к большому количеству новых предсказаний для других генов. На раннем этапе COMBREX представит списки «высокоприоритетных» генов, которые могут быть идентифицированы как имеющие значительную прогностическую или биомедицинскую ценность и для которых члены COMBREX могут выдвигать кандидатов. В качестве долгосрочной цели COMBREX работает над использованием методов машинного обучения, таких как активное обучение, для оптимизации отбора таких генов.
Новые технологии
[ редактировать ]COMBREX поощряет разработку новых технологий и экономически эффективных методов определения функций генов. Описанные выше экспериментальные усилия по проверке представляют собой массовое параллельное применение экспериментов с низкой производительностью посредством множества небольших грантов. Высокопроизводительные анализы, которые позволяют анализировать множество генных продуктов параллельно, могут привести к определению функции многих генов одновременно и могут помочь добиться больших успехов в нашем общем понимании функции генов. [2]
Ссылки
[ редактировать ]- ^ Робертс, Ричард Дж; Чанг И-Чен; Ху Чжэньцзюнь; Рахлин Джон Н; Антон Брайан П; Покжива Ревонда М; Чой Хан-Пиль; Фаллер Лина Л; Гулерия Джётсна; Хаусман Женевьева; Клитгорд Нильс; Мазумдар Варун; МакГеттрик Марк Дж; Османи Лаис; Сваминатан Раджешвари; Тао Кевин Р.; Летовский стан; Виткуп Денис; Сегре Даниэль; Зальцберг Стивен Л; Делизи Чарльз; Штеффен Мартин; Касиф Саймон (январь 2011 г.). «COMBREX: проект по ускорению функциональной аннотации геномов прокариот» . Нуклеиновые кислоты Рез . 39 (Проблема с базой данных). Англия: Д11–4. дои : 10.1093/nar/gkq1168 . ПМК 3013729 . ПМИД 21097892 .
- ^ Антон, Б.; и др. (2013). «Проект COMBREX: дизайн, методология и первые результаты» . ПЛОС Биол . 11 (8): e1001638. дои : 10.1371/journal.pbio.1001638 . ПМЦ 3754883 . ПМИД 24013487 .
Внешние ссылки
[ редактировать ]- ^ Робертс, Ричард (2004). «Определение функции белка – призыв к действиям сообщества» . ПЛОС Биол . 2 (3): Е42. дои : 10.1371/journal.pbio.0020042 . ПМЦ 368155 . ПМИД 15024411 .