Галактика (вычислительная биология)
Разработчик(и) | Галактическое сообщество |
---|---|
Первоначальный выпуск | 16 сентября 2005 г |
Стабильная версия | 24,0 / март 2024 г. |
Репозиторий | github |
Написано в | Питон , JavaScript |
Операционная система | Unix-подобный |
Платформа | Линукс, МакОС |
Доступно в | Английский |
Тип | Научный рабочий процесс , интеграция данных , анализ и публикация данных |
Лицензия | MIT и академическая свободная лицензия [1] |
Веб-сайт | Галактический проект |
Галактика [2] это научный рабочий процесс , интеграция данных , [3] [4] а также платформа для хранения и публикации данных и анализа , целью которой является сделать вычислительную биологию доступной для ученых-исследователей, не имеющих опыта компьютерного программирования или системного администрирования . Хотя изначально он был разработан для исследований в области геномики, он в значительной степени не зависит от предметной области и теперь используется в качестве общей системы управления рабочими процессами биоинформатики . [5]
Функциональность
[ редактировать ]Galaxy — это система научного документооборота . Эти системы предоставляют средства для построения многоэтапного вычислительного анализа, похожего на рецепт. Обычно они предоставляют графический интерфейс пользователя. [6] для указания того, с какими данными работать, какие шаги предпринять и в каком порядке их делать.
Galaxy также является платформой для интеграции биологических данных. Он поддерживает загрузку данных с компьютера пользователя по URL-адресу и напрямую со многих онлайн-ресурсов (таких как UCSC Genome Browser , BioMart и InterMine ). Galaxy поддерживает ряд широко используемых форматов биологических данных и перевод между этими форматами. Galaxy предоставляет веб-интерфейс для многих утилит манипулирования текстом, что позволяет исследователям выполнять собственное переформатирование и манипуляции без необходимости какого-либо программирования . Galaxy включает в себя манипулирования интервалами утилиты для выполнения теоретико-множественных операций (например, пересечение , объединение , ...) с интервалами. Многие форматы биологических файлов включают данные геномных интервалов (систему отсчета, например, имя хромосомы или контига , а также начальную и конечную позиции), что позволяет интегрировать эти данные.
Изначально Galaxy была написана для анализа биологических данных, в частности геномики . Набор доступных инструментов с годами значительно расширился, и теперь Galaxy также используется для экспрессии генов , сборки генома , протеомики , эпигеномики , транскриптомики и множества других дисциплин в науках о жизни. Сама платформа на самом деле не зависит от предметной области и теоретически может быть применена к любой научной области, например, к хеминформатике . [7] Например, существуют серверы Galaxy для анализа изображений , [8] вычислительная химия [9] и дизайн лекарств, [10] космология, моделирование климата, социальные науки, [11] и лингвистика.
Наконец, Galaxy также поддерживает сохранение и публикацию данных и результатов анализа. См. раздел «Воспроизводимость и прозрачность» ниже.
Цели проекта
[ редактировать ]Galaxy — это «открытая веб-платформа для проведения доступных, воспроизводимых и прозрачных геномных исследований». [12]
Доступность
[ редактировать ]Вычислительная биология — это специализированная область, которая часто требует знаний в области компьютерного программирования . Цель Galaxy — предоставить биомедицинским исследователям доступ к вычислительной биологии, не требуя от них понимания компьютерного программирования. [13] [14] Galaxy делает это, делая упор на простой пользовательский интерфейс. [15] над способностью выстраивать сложные рабочие процессы. Такой выбор конструкции делает относительно простым создание типичных анализов, но затрудняет построение сложных рабочих процессов, включающих, например, циклические конструкции. ( см. в Apache Taverna . Пример управляемой данными системы рабочего процесса, поддерживающей циклы, [16] )
Воспроизводимость
[ редактировать ]Воспроизводимость является ключевой целью науки: когда публикуются научные результаты, публикации должны включать достаточно информации, чтобы другие могли повторить эксперимент и получить те же результаты. В последнее время было предпринято множество попыток распространить эту цель не только на стенде (« мокрая лаборатория на вычислительные эксперименты (« сухая лаборатория »), но и »). Это оказалось более сложной задачей, чем первоначально предполагалось. [17]
Galaxy поддерживает воспроизводимость, собирая достаточную информацию о каждом этапе вычислительного анализа, чтобы анализ можно было точно повторить в любой момент в будущем. Это включает в себя отслеживание всех входных, промежуточных и окончательных наборов данных, а также предоставленных параметров и порядка каждого этапа анализа.
Прозрачность
[ редактировать ]Galaxy поддерживает прозрачность научных исследований, позволяя исследователям делиться любыми своими объектами Galaxy публично или с конкретными лицами. Общие элементы можно детально изучить, повторно запустить по желанию, а также скопировать и изменить для проверки гипотез.
Объекты галактики: истории, рабочие процессы, наборы данных и страницы
[ редактировать ]Galaxy Объекты — это все, что можно сохранить, сохранить и использовать в Galaxy:
- Истории
- Истории представляют собой вычислительный анализ (рецепты), выполняемый с указанными входными наборами данных, вычислительными шагами и параметрами. История также включает в себя все промежуточные и выходные наборы данных.
- Рабочие процессы
- Рабочие процессы — это вычислительный анализ, в котором указываются все шаги (и параметры) анализа, но не указываются данные. Рабочие процессы используются для проведения одного и того же анализа для нескольких наборов входных данных.
- Наборы данных
- Наборы данных включают любой входной, промежуточный или выходной набор данных, используемый или созданный в анализе.
- Страницы
- Истории, рабочие процессы и наборы данных могут включать предоставленные пользователем аннотации. Galaxy Pages позволяет создать виртуальный документ, в котором описывается, как и почему проводился эксперимент в целом. Тесная интеграция страниц с историями, рабочими процессами и наборами данных способствует достижению этой цели.
Доступность
[ редактировать ]Галактика доступна:
- Будучи бесплатным общедоступным веб-сервером, [18] при поддержке проекта «Галактика». [19] Этот сервер включает в себя множество инструментов биоинформатики, которые широко полезны во многих областях исследований в области геномики. Пользователи могут создавать логины и сохранять истории , рабочие процессы и наборы данных на сервере. Этими сохраненными элементами также можно поделиться с другими.
- В виде программного обеспечения с открытым исходным кодом , которое можно загружать, устанавливать и настраивать в соответствии с конкретными потребностями. [20] Galaxy можно установить локально или с помощью вычислительного облака . [21]
- Публичные веб-серверы, размещенные другими организациями. [22] Несколько организаций, у которых есть собственная установка Galaxy, также решили сделать эти серверы доступными для других.
Выполнение
[ редактировать ]Galaxy — это программное обеспечение с открытым исходным кодом , реализованное с использованием языка программирования Python . Он разработан командой Galaxy. [23] в Пенсильванском университете , Университете Джона Хопкинса , Орегонском университете здравоохранения и науки и Галактическом сообществе . [24]
Galaxy является расширяемым, поскольку новые инструменты командной строки можно интегрировать и совместно использовать в Galaxy ToolShed . [25]
Примером расширения Galaxy является Galaxy-P от Института суперкомпьютеров Университета Миннесоты , который настроен как платформа анализа данных для протеомики на основе масс-спектрометрии . [26]
Сообщество
[ редактировать ]Galaxy — это проект с открытым исходным кодом, и в сообщество входят пользователи, организации, устанавливающие свои собственные экземпляры, разработчики Galaxy и разработчики инструментов для биоинформатики. В проекте Galaxy есть списки рассылки, [27] общественный центр, [28] и ежегодные собрания. [29]
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ «Проектные лицензии» . Гитхаб .
- ^ Сообщество Галактики (20 мая 2024 г.). «Платформа Galaxy для доступного, воспроизводимого и совместного анализа данных: обновление 2024 года» . Исследования нуклеиновых кислот (выпуск веб-сервера): 1–12. дои : 10.1093/nar/gkae410 . ПМЦ 11223835 .
- ^ Бланкенберг, Д.; Кораор, Н.; Фон Кустер, Г.; Тейлор, Дж.; Некрутенко А.; Гэлакси, Т. (2011). «Интеграция разнообразных баз данных в единую структуру анализа: подход Galaxy» . База данных . 2011 : бар011. дои : 10.1093/база данных/bar011 . ПМК 3092608 . ПМИД 21531983 .
- ^ Бланкенберг, Д.; Гордон, А.; Фон Кустер, Г.; Кораор, Н.; Тейлор, Дж.; Некрутенко А.; Гэлакси, Т. (2010). «Манипулирование данными FASTQ с помощью Galaxy» . Биоинформатика . 26 (14): 1783–1785. doi : 10.1093/биоинформатика/btq281 . ПМЦ 2894519 . ПМИД 20562416 .
- ^ «Центр сообщества Galaxy — Центр сообщества Galaxy» .
- ^ Шац, MC (2010). «Отсутствующий графический интерфейс пользователя для геномики» . Геномная биология . 11 (8): 128–201. дои : 10.1186/gb-2010-11-8-128 . ПМЦ 2945776 . ПМИД 20804568 .
- ^ Брей, Саймон А.; Лукас, Ксавье; Кумар, Ануп; Грюнинг, Бьёрн А. (1 июня 2020 г.). «The ChemicalToolbox: воспроизводимый и удобный для пользователя хемоинформатический анализ на платформе Galaxy» . Журнал хеминформатики . 12 (1): 40. дои : 10.1186/s13321-020-00442-7 . ПМЦ 7268608 . ПМИД 33431029 .
- ^ «Анализ изображений галактик с помощью биоинструментов» .
- ^ Хильдебрандт, А.К.; Штёкель, Д; Фишер, Нью-Мексико; де ла Гарса, Л; Крюгер, Дж; Никель, С; Реттиг, М; резкость, С; Шуман, М; Тиль, П; Ленхоф, HP; Кольбахер, О; Хильдебрандт, А (2014). «Баллакси: Веб-сервисы для структурной биоинформатики» . Биоинформатика . 31 (1): 121–2. doi : 10.1093/биоинформатика/btu574 . ПМИД 25183489 .
- ^ «ОСДДлинукс» . Архивировано из оригинала 7 мая 2016 г. Проверено 17 ноября 2014 г.
- ^ «Галактика» .
- ^ Гёкс, Дж.; Некрутенко А.; Тейлор, Дж.; Команда Галактики, Т. (2010). «Галактика: комплексный подход для поддержки доступных, воспроизводимых и прозрачных вычислительных исследований в области наук о жизни» . Геномная биология . 11 (8): Р86. дои : 10.1186/gb-2010-11-8-r86 . ПМЦ 2945788 . ПМИД 20738864 .
- ^ Бланкенберг, Д.; Тейлор, Дж.; Некрутенко А.; Галактика, Т. (2011). «Сделать множественные выравнивания всего генома пригодными для использования биологами» . Биоинформатика . 27 (17): 2426–8. doi : 10.1093/биоинформатика/btr398 . ПМК 3157923 . ПМИД 21775304 .
- ^ Бланкенберг, Д.; Тейлор, Дж.; Шенк, И.; Он, Дж.; Чжан, Ю.; Гент, М.; Вирарагаван, Н.; Альберт, И.; Миллер, В.; Макова, К.Д.; Хардисон, Колорадо; Некрутенко, А. (2007). «Среда для совместного анализа данных ENCODE: создание крупномасштабного анализа, удобного для биологов» . Геномные исследования . 17 (6): 960–964. дои : 10.1101/гр.5578007 . ЧВК 1891355 . ПМИД 17568012 .
- ^ Шац, MC (2010). «Отсутствующий графический интерфейс пользователя для геномики» . Геномная биология . 11 (8): 128–201. дои : 10.1186/gb-2010-11-8-128 . ПМЦ 2945776 . ПМИД 20804568 .
- ^ Сойланд-Рейес, С. (13 декабря 2010 г.). «Петля» . Блог знаний о тавернах . сайт знанийblog.org. Архивировано из оригинала 30 декабря 2016 года . Проверено 28 января 2015 г.
- ^ Иоаннидис, JPA; Эллисон, Д.Б.; Болл, Калифорния; Кулибали, И.; Кюи, X.; Калхейн, АНК; Фальчи, М.; Фурланелло, К.; Гейм, Л.; Джурман, Г.; Мангион, Дж.; Мехта, Т.; Ницберг, М.; Пейдж, врач общей практики; Петретто, Э.; Ван Ноорт, В. (2008). «Повторяемость опубликованных анализов экспрессии генов на микрочипах». Природная генетика . 41 (2): 149–155. дои : 10.1038/ng.295 . ПМИД 19174838 . S2CID 5153795 .
- ^ "usegalaxy.org: Основной экземпляр Галактики в США"
- ^ "galaxyproject.org: Центр сообщества Galaxy"
- ^ "getgalaxy.org: Как получить Галактику"
- ^ Афган, Э.; Бейкер, Д.; Кораор, Н.; Чепмен, Б.; Некрутенко А.; Тейлор, Дж. (2010). «Galaxy CloudMan: создание кластеров облачных вычислений» . БМК Биоинформатика . 11 (Дополнение 12): S4. дои : 10.1186/1471-2105-11-S12-S4 . ПМК 3040530 . ПМИД 21210983 .
- ^ «Центр сообщества Galaxy — Центр сообщества Galaxy» .
- ^ «Центр сообщества Galaxy — Центр сообщества Galaxy» .
- ^ Лазарус, Р.; Тейлор, Дж.; Цю, В.; Некрутенко, А. (2008). «На пути к коммерциализации трансляционных геномных исследований: особенности проектирования и реализации геномного инструмента Galaxy» . Саммит по трансляционной биоинформатике . 2008 : 56–60. ПМК 3041519 . ПМИД 21347127 .
- ^ Бланкенберг, Дэниел; Фон Кустер, Грегори; Бувье, Эмиль; Бейкер, Дэннон; Афган, Энис; Столер, Николас; Тейлор, Джеймс; Некрутенко, Антон (2014). «Распространение научного программного обеспечения с помощью Galaxy ToolShed» . Геномная биология . 15 (2): 403. дои : 10.1186/gb4161 . ПМЦ 4038738 . ПМИД 25001293 .
- ^ Шейнкман, генеральный директор; Джонсон, Дж. Э.; Джагтап, PD; Шортрид, MR; Онсонго, Дж; Фрей, БЛ; Гриффин, Ти Джей; Смит, LM (22 августа 2014 г.). «Использование Galaxy-P для использования RNA-Seq для открытия новых вариаций белка» . БМК Геномика . 15 (703): 703. дои : 10.1186/1471-2164-15-703 . ПМК 4158061 . ПМИД 25149441 .
- ^ «Списки рассылки Галактики» .
- ^ "galaxyproject.org: Центр сообщества Galaxy
- ^ «Конференции сообщества Галактики (GCCS)» .