Система научного документооборота
Система научных рабочих процессов — это специализированная форма системы управления рабочими процессами, разработанная специально для составления и выполнения серии вычислительных или манипуляционных шагов или рабочего процесса в научном приложении. [1]
Приложения
[ редактировать ]Распределенные ученые могут сотрудничать при проведении крупномасштабных научных экспериментов и приложений для поиска знаний , используя распределенные системы вычислительных ресурсов, наборов данных и устройств. Системы научных рабочих процессов играют важную роль в реализации этого видения.
Более специализированные системы научных рабочих процессов предоставляют интерфейс визуального программирования, позволяющий пользователям легко создавать свои приложения в виде визуального графа, соединяя узлы вместе, а также были разработаны инструменты для создания таких приложений независимым от платформы способом. [2] Каждое направленное ребро графа рабочего процесса обычно представляет собой соединение выходных данных одного приложения со входными данными другого. Последовательность таких ребер можно назвать конвейером .
Система управления рабочими процессами биоинформатики — это специализированная система научных рабочих процессов, ориентированная на биоинформатику .
Научные рабочие процессы
[ редактировать ]Простейшие компьютеризированные научные рабочие процессы — это сценарии, которые вызывают данные, программы и другие входные данные и производят выходные данные, которые могут включать визуализацию и аналитические результаты. Они могут быть реализованы в таких программах, как R или MATLAB , с использованием языка сценариев, такого как Python , с интерфейсом командной строки или, в последнее время, с использованием веб-приложений с открытым исходным кодом, таких как Jupyter Notebook .
Существует множество причин для дифференциации научных рабочих процессов от традиционных рабочих процессов бизнес-процессов. К ним относятся:
- предоставление простой в использовании среды для отдельных специалистов по приложениям, позволяющих им создавать свои собственные рабочие процессы.
- предоставление ученым интерактивных инструментов, позволяющих им выполнять рабочие процессы и просматривать результаты в режиме реального времени.
- упрощение процесса обмена и повторного использования рабочих процессов между учеными.
- позволяя ученым отслеживать происхождение результатов выполнения рабочего процесса и этапов его создания.
Сосредоточив внимание на ученых, акцент при разработке системы научных рабочих процессов смещается от действий по планированию рабочих процессов , которые обычно рассматриваются в средах грид-вычислений для оптимизации выполнения сложных вычислений на заранее определенных ресурсах, к специфичному для предметной области представлению о том, какие типы данных и инструменты и распределенные ресурсы должны быть доступны ученым, и как можно сделать их легко доступными и с особыми требованиями к качеству обслуживания? [3]
Научные рабочие процессы теперь признаны [ кем? ] как важнейший элемент киберинфраструктуры , способствующий развитию электронной науки. Обычно научные рабочие процессы располагаются поверх промежуточного уровня программного обеспечения и представляют собой средства, с помощью которых ученые могут моделировать, проектировать, выполнять, отлаживать, перенастраивать и повторно запускать свои конвейеры анализа и визуализации . Частью общепринятого научного метода является создание записи о происхождении результата, о том, как он был получен, об использованных экспериментальных методах, калибровках и параметрах машин и т. д. То же самое происходит и в электронной науке, за исключением того, что данные о происхождении представляют собой запись запущенные действия рабочего процесса, доступ к службам и базам данных, используемые наборы данных и т. д. Такая информация полезна ученым для интерпретации результатов своего рабочего процесса, а другим ученым - для установления доверия к результатам эксперимента. [4]
Совместное использование рабочих процессов
[ редактировать ]Сообщества социальных сетей, такие как myExperiment, были созданы для облегчения обмена и совместной разработки научных рабочих процессов. Galaxy предоставляет механизмы совместной работы для редактирования и публикации определений рабочих процессов и результатов рабочих процессов непосредственно при установке Galaxy.
Анализ
[ редактировать ]Ключевое предположение, лежащее в основе всех систем научных рабочих процессов, заключается в том, что сами ученые смогут использовать систему рабочих процессов для разработки своих приложений на основе визуальных блок-схем, логических диаграмм или, в крайнем случае, написания кода для описания логики рабочего процесса. Мощные системы рабочих процессов позволяют непрограммистам сначала набросать этапы рабочего процесса с помощью простых инструментов блок-схем, а затем подключить различные инструменты сбора, анализа и составления отчетов. Для максимальной производительности детали базового программного кода обычно должны быть скрыты.
Методы анализа рабочих процессов можно использовать для анализа свойств таких рабочих процессов для проверки определенных свойств перед их выполнением. Пример теоретической структуры формального анализа для проверки и профилирования аспектов потока управления научными рабочими процессами и их аспектов потока данных для системы Discovery Net описан в статье «Разработка и реализация инструмента анализа рабочих процессов», автор: Курчин и др. [5]
Авторы отмечают, что внедрение анализа и верификации программ в мир рабочих процессов требует детального понимания семантики выполнения языка рабочих процессов, включая свойства выполнения узлов и дуг в графе рабочих процессов, понимания функциональной эквивалентности между шаблонами рабочих процессов и многих других вопросов. Проведение такого анализа сложно, и решение этих проблем требует использования формальных методов, используемых в исследованиях в области компьютерных наук (например, сетей Петри ), а также использования этих формальных методов для разработки инструментов пользовательского уровня, позволяющих рассуждать о свойствах как рабочих процессов, так и систем рабочих процессов. Отсутствие таких инструментов в прошлом не позволило решениям для автоматизированного управления рабочими процессами превратиться из приятных академических игрушек в инструменты производственного уровня, используемые за пределами узкого круга первых пользователей и энтузиастов рабочих процессов.
Известные системы
[ редактировать ]Известные системы научного рабочего процесса включают: [6]
- Андурил , биоинформатика и анализ изображений
- Apache Airavata — система управления рабочими процессами общего назначения. [7]
- Apache Airflow — система управления рабочими процессами общего назначения.
- Apache Taverna , широко используется в биоинформатике, астрономии, биоразнообразии.
- BioBIKE , облачная биоинформатическая платформа
- Bioclipse — графическая среда разработки со средой сценариев, позволяющая выполнять сложные действия как своего рода рабочий процесс.
- Коллективные знания , общий рабочий процесс и среда краудсорсинга экспериментов на основе Python с API JSON и кроссплатформенным менеджером пакетов.
- Common Workflow Language — разработанный сообществом язык рабочих процессов на основе YAML , поддерживаемый несколькими реализациями движка.
- Cuneiform — функциональный язык рабочих процессов.
- Discovery Net , один из первых примеров системы научного документооборота.
- Galaxy , изначально ориентированная на геномику
- GenePattern — мощная система научного рабочего процесса, обеспечивающая доступ к сотням инструментов геномного анализа. [8]
- Kepler — система управления научными процессами
- KNIME — платформа для анализа данных с открытым исходным кодом.
- Nextflow — система рабочего процесса анализа биоинформатических данных.
- OnlineHPC , онлайн-разработчик научных рабочих процессов и набор инструментов для высокопроизводительных вычислений.
- Orange , визуализация и анализ данных с открытым исходным кодом
- Pegasus — система управления научными рабочими процессами с открытым исходным кодом. [9]
- Pipeline Pilot — графическое программирование со множеством инструментов для рабочих процессов хеминформатики. [10]
- Язык параллельных сценариев Swift — язык сценариев со многими встроенными возможностями систем научных рабочих процессов.
- VisTrails — система научных рабочих процессов, разработанная на Python.
Было выявлено более 280 систем рабочих процессов анализа вычислительных данных, [11] хотя различие между рабочими процессами анализа данных и научными рабочими процессами невелико, поскольку не все системы рабочих процессов анализа используются в научных целях.
См. также
[ редактировать ]- Системы управления рабочими процессами биоинформатики
- электронная наука
- Грид-вычисления
- Механизм рабочего процесса
Ссылки
[ редактировать ]- ^ Сан, ЛьюЧи; П. АткинсонМалкольм; ГалеаМишель; Фонг, АнгТан; МартинПол; Ван, ХемертЯно И. (12 декабря 2016 г.). «Научные процессы» . Обзоры вычислительной техники ACM . 49 (4): 1–39. дои : 10.1145/3012429 . hdl : 20.500.11820/774ef69e-a499-4bd2-a609-09f050e682ae . S2CID 9408644 .
- ^ Д. Джонсон; и др. (декабрь 2009 г.). «Независимый от промежуточного программного обеспечения построитель рабочих процессов Grid для научных приложений» (PDF) . 2009 г. 5-я Международная конференция IEEE по электронным наукам . стр. 86–91. дои : 10.1109/ESCIW.2009.5407993 . ISBN 978-1-4244-5946-9 . S2CID 3339794 .
- ^ Кириазис, Димосфенис; Церпес, Константинос; Менихтас, Андреас; Литке, Антонис; Варваригу, Теодора (2008). «Инновационный механизм отображения рабочих процессов для сетей в рамках качества обслуживания». Компьютерные системы будущего поколения . 24 (6): 498–511. дои : 10.1016/j.future.2007.07.009 .
- ^ Автоматический сбор и эффективное хранение результатов экспериментов в области электронных наук. Параллельные вычисления: Практик. Экспер. 2008 г.; 20: 419–429
- ^ Курчин, В.; Ганем, М.; Го, Ю. (2010). «Разработка и реализация инструмента анализа рабочего процесса» . Философские труды Королевского общества A: Математические, физические и технические науки . 368 (1926): 4193–4208. Бибкод : 2010RSPTA.368.4193C . дои : 10.1098/rsta.2010.0157 . ПМИД 20679131 .
- ^ Баркер, Адам; Ван Хемерт, Яно (2008), «Научный рабочий процесс: обзор и направления исследований», Параллельная обработка и прикладная математика, 7-я Международная конференция, PPAM 2007, Пересмотренные избранные статьи , Конспекты лекций по информатике, том. 4967, Гданьск, Польша: Springer Berlin / Heidelberg, стр. 746–753, CiteSeerX 10.1.1.105.4605 , doi : 10.1007/978-3-540-68111-3_78 , ISBN 978-3-540-68105-2
- ^ Марру, Суреш; Гардлер, Росс; Сломинский, Александр; Дума, Ате; Перера, Шринатх; Вираварана, Санджива; Гунатилаке, Лахиру; Герат, Чатура; Танчайсин, Патаначай; Пирс, Марлон; Мэттманн, Крис; Сингх, Раминдер; Гунаратне, Тилина; Чинтака, Эран (18 ноября 2011 г.). Материалы семинара ACM 2011 года по шлюзовым вычислительным средам — GCE '11 . п. 21. дои : 10.1145/2110486.2110490 . ISBN 9781450311236 . S2CID 18341808 .
- ^ Райх, Майкл; Лифельд, Тед; Гулд, Джошуа; Лернер, Джим; Тамайо, Пабло; Месиров, Джилл П. (2006). «ГенПаттерн 2.0». Природная генетика . 38 (5): 500–501. дои : 10.1038/ng0506-500 . ПМИД 16642009 . S2CID 5503897 .
- ^ Дилман, Ева ; Вахи, Каран; Жюв, Гидеон; Ринге, Матс; Каллаган, Скотт; Мэхлинг, Филип Дж.; Маяни, Раджив; Чен, Вэйвэй; Феррейра да Силва, Рафаэль; Ливный, Мирон; Венгер, Кент (май 2015 г.). «Pegasus, система управления рабочими процессами для автоматизации науки» . Компьютерные системы будущего поколения . 46 : 17–35. дои : 10.1016/j.future.2014.10.008 .
- ^ «BIOVIA Pipeline Pilot | Приложение для разработки научных рабочих процессов для анализа данных» . Accelrys.com . Проверено 4 декабря 2016 г.
- ^ «Существующие системы документооборота» . Wiki Common Workflow Language . Архивировано из оригинала 17 октября 2019 г.
Внешние ссылки
[ редактировать ]- Ю, Цзя; Буя, Раджкумар (2005). «Таксономия систем научных рабочих процессов для сетевых вычислений». Запись ACM SIGMOD . 34 (3): 44. CiteSeerX 10.1.1.63.3176 . дои : 10.1145/1084805.1084814 . S2CID 538714 .
- Системы научных рабочих процессов: может ли один размер подойти всем? статья на CIBEC'08, в которой сравниваются характеристики нескольких систем научных рабочих процессов.
- Список программных инструментов, связанных с научными рабочими процессами, на DataONE сайте