NCSA Браун Дог
Судя по всему, основной автор этой статьи тесно связан с ее предметом. ( январь 2020 г. ) |
NCSA Brown Dog — это исследовательский проект по разработке метода легкого доступа к историческим исследовательским данным, хранящимся в целях поддержания долгосрочной жизнеспособности больших объемов научных исследований. Он поддерживается Национальным центром суперкомпьютерных приложений (NCSA), который финансируется Национальным научным фондом (NSF). [1]
История
[ редактировать ]Brown Dog является частью партнерской программы DataNet, финансируемой NSF в 2008 году. DataNet была задумана для решения проблемы все более цифровой и интенсивной обработки данных природы науки, техники и образования. Brown Dog является частью последующей работы под названием Data Infrastructure Building Blocks (DIBBs) , направленной на создание программного обеспечения для поддержки DataNet. Проект был предложен исследователями из NCSA и Университета Иллинойса в Урбане-Шампейне, а также исследователями из Бостонского университета и Университета Северной Каролины в Чапел-Хилл .
Неструктурированные, непроверенные данные с длинным хвостом
[ редактировать ]Многие научные данные меньше по размеру, неструктурированы и не проверены, поэтому ими нелегко делиться. Такие данные иногда называют данными «длинного хвоста». Этот термин заимствован из статистики и относится к хвосту распределения размеров проектов. Большинству небольших проектов не хватает ресурсов для надлежащего управления данными, которые они производят. Эти так называемые данные «длинного хвоста», как прошлые, так и настоящие, могут стать основой для будущих исследований во многих областях исследования. Большая часть этих данных стала недоступной из-за устаревшего программного обеспечения и форматов файлов. Возникающая в результате невозможность анализа данных старых исследований подрывает общий научный исследовательский проект. [2]
Подход
[ редактировать ]Brown Dog называет себя «супер-дворнягой» в области программного обеспечения. [3] (отсюда и название «Коричневая собака»), служащий инфраструктурой данных низкого уровня для взаимодействия контента цифровых данных через Интернет. Его подход заключается в том, чтобы использовать все возможные источники автоматизированной помощи (например, программное обеспечение) надежным образом и с сохранением происхождения для создания службы, которая может обрабатывать как можно больше этих данных. [4] Проект видит более широкое влияние своей работы в ее потенциале служить широкой публике в качестве своего рода «DNS для данных» с целью сделать все данные и все форматы файлов такими же доступными, как веб-страницы сегодня.
Технология
[ редактировать ]Brown Dog стремится решить проблемы, связанные с использованием непроверенных и неструктурированных коллекций данных, путем разработки двух служб: прокси-сервера доступа к данным (DAP), помогающего конвертировать форматы файлов, и служб обработки данных (DTS) для автоматического извлечения данных. метаданные из содержимого файла. После разработки исследователи и обычные пользователи смогут загружать плагины для браузера и другие инструменты из каталога инструментов Brown Dog. [1] [5]
Служба обработки данных
[ редактировать ]Служба обработки данных (DTS) позволит пользователям выполнять поиск в коллекциях данных, используя существующий файл, чтобы находить другие похожие файлы в коллекции. Поле поиска DTS будет добавлено к настроенным браузерам, куда можно будет переместить файлы примеров. Это указывает DTS искать во всех файлах по заданному URL-адресу файлы, похожие на удаленный файл. Например, при просмотре онлайн-коллекции изображений пользователь может поместить в поле поиска изображение трех человек, и DTS вернет все изображения в коллекции, которые также содержат трех человек. Если DTS обнаружит внешний формат файла, он будет использовать DAP, чтобы сделать файл доступным. DTS также индексирует данные, извлекает и добавляет метаданные в файлы и коллекции, позволяя пользователям получить некоторое представление о типе данных, с которыми они сталкиваются.
Эта служба работает на порту 9443.
Прокси-сервер доступа к данным
[ редактировать ]Прокси-сервер доступа к данным (DAP) позволяет пользователям получать доступ к файлам данных, которые в противном случае были бы нечитаемы. Подобно интернет-шлюзу или службе доменных имен , конфигурация DAP будет введена в настройки компьютера и браузера пользователя. Запросы данных по HTTP сначала будут проверены DAP, чтобы определить, доступен ли собственный формат файла для чтения на клиентском устройстве. В противном случае DAP преобразует файл в наилучший доступный формат, читаемый клиентским компьютером. Альтернативно, пользователь может сам указать желаемый формат.
Эта служба работает на порту 8184.
Варианты использования
[ редактировать ]Brown Dog нацелен на три варианта использования, предложенные группами исследовательских сообществ EarthCube . Разработчики и исследователи из этих сообществ будут вместе работать над вариантами использования, охватывающими геонауки , инженерное дело , биологию и социальные науки .
Данные о длиннохвостой растительности в экологии и биологии глобальных изменений
[ редактировать ]Этот вариант использования возглавляет Майкл Дитце , Бостонский университет.
Данные о численности, видовом составе и размерной структуре растительности имеют решающее значение для широкого спектра дисциплин в области экологии, охраны природы, управления природными ресурсами и биологии глобальных изменений. Однако решение многих насущных вопросов в этих дисциплинах потребует, чтобы земные биосферные и гидрологические модели были способны ассимилировать большой объем данных «длинного хвоста», которые существуют, но в значительной степени недоступны. Команда Brown Dog в сотрудничестве с исследователями из лаборатории Дитце облегчит сбор огромного количества небольших исследовательских наборов данных о растительности, собранных за многие десятилетия, а также исторических данных о растительности, включенных в данные государственной земельной съемки, начиная с 1785 года. Эти данные будут используются в качестве начальных условий для моделей, для понимания других больших наборов данных, а также для калибровки и проверки модели. [1] [6]
Проектирование зеленой инфраструктуры с учетом ливневых вод и потребностей человека
[ редактировать ]Этот вариант использования возглавляет Барбара Минскер , Университет Иллинойса в Урбана-Шампейн ; Уильям Салливан , Университет Иллинойса в Урбана-Шампейн; Артур Шмидт , Университет Иллинойса в Урбана-Шампейн
Это тематическое исследование включает разработку новых критериев и моделей проектирования зеленой инфраструктуры , которые объединяют требования к управлению ливневыми водами и экосистемой, а также здоровью и благополучию человека. Для решения научных и социальных проблем, связанных с проектированием зеленых насаждений, доступность и доступность данных являются серьезной проблемой. Это исследование будет сосредоточено на выявленных районах региона планирования зеленого и здорового квартала в городе Чикаго, где существующие характеристики местной канализации наиболее неудовлетворительны и где изменения в непроницаемых зонах за счет зеленой инфраструктуры будут полезны для недостаточно обслуживаемых районов. Brown Dog будет использоваться для получения экспериментальных данных с длинным хвостом о предпочтениях человека в отношении ландшафта и воздействии на здоровье. Эти данные будут использованы для разработки модели воздействия на здоровье человека, которая затем будет связана с моделью наземной биосферы и моделью ливневых вод с использованием технологии Brown Dog. [1]
Разработка и применение для исследований критических зон
[ редактировать ]Этот вариант использования возглавляет Правин Кумар из Университета Иллинойса в Урбана-Шампейн.
Критическая зона (CZ) — это «кожа» Земли, простирающаяся от верхушек деревьев до коренных пород, созданная жизненными процессами, происходящими на масштабах от микробов до биомов. Критическая зона поддерживает все наземные живые системы. Верхняя его часть – биомантия. Здесь обитает, размножается, использует и расходует энергию наземная биота, а ее отходы и останки накапливаются и разлагаются. Он охватывает почву, которая действует как геомембрана, через которую вода и растворенные вещества, энергия, газы, твердые вещества и организмы взаимодействуют с атмосферой, биосферой, гидросферой и литосферой. На эту биодинамическую зону влияют самые разные факторы: от климата и вырубки лесов до сельского хозяйства, выпаса скота и человеческого развития. Понимание и прогнозирование этих эффектов имеет решающее значение для управления и поддержания жизненно важных экосистемных услуг , таких как плодородие почвы, очистка воды и производство пищевых ресурсов, а также, в более крупных масштабах, глобального круговорота углерода и связывания углерода . ЦЗ обеспечивает объединяющую основу для интеграции наземной и приземной среды и отражает сложную сеть биологических и химических процессов и антропогенного воздействия, происходящих в совершенно разных временных и пространственных масштабах. Характер этих данных создает серьезные проблемы для междисциплинарных исследований Чехии, поскольку интеграция разнообразия и количества информационных продуктов и моделей была препятствием. С другой стороны, данные CZ предоставляют прекрасную возможность для определения, тестирования и внедрения технологий Brown Dog. В этом контексте «неструктурированные» данные рассматриваются в широком смысле как совокупность разнородных данных в форматах, отражающих временное и дисциплинарное наследие, данных от новых недорогих открытых аппаратных датчиков и встроенных сенсорных сетей, в которых отсутствуют четко определенные метаданные и характеристики датчиков, а также а также данные, доступные в виде карт, изображений и текста. [1]
Премия НФС
[ редактировать ]CIF21 DIBB: награда Brown Dog была вручена зимой 2013 г., дата начала ее действия — 1 октября 2013 г. Предполагаемая дата истечения срока действия — 30 сентября 2018 г. [7]
Сумма награды составила 10 519 716 долларов США, что является крупнейшей наградой DIBB. Главным исследователем является Кентон МакГенри из NCSA Университета Иллинойса в Урбана-Шампейн. Соруководителями являются Чон Ли NCSA/UIUC; Барбара Минскер, инженер гражданского и экологического строительства, Университет Иллинойса в Урбана-Шампейн; Правин Кумар, инженер гражданского и экологического строительства, Университет Иллинойса в Урбана-Шампейн; Майкл Дитце, факультет Земли и окружающей среды, Бостонский университет.
Ссылки
[ редактировать ]- ^ Jump up to: а б с д и «Коричневый пес» . Коричневая собака NCSA . Проверено 31 июля 2014 г.
- ^ «DataUp — курирование данных для длинного хвоста науки» . Блог Microsoft Research Connections . Команда Microsoft Research Connections . Проверено 7 августа 2014 г.
- ^ Вуди, Алекс (6 января 2014 г.). «Проект NCSA направлен на создание DNS-подобной службы для данных» . датанами . Проверено 7 августа 2014 г.
- ^ Плетц, Джон (декабрь 2013 г.). «Исследователи из университета получают миллионы за «супер-дворнягу», который выслеживает тенденции в области больших данных» . Чикагский бизнес . Крэйн Коммуникейшнс, Инк . Проверено 7 августа 2014 г.
- ^ Джуэтт, Барбара. «БЕСПЛАТНЫЙ ДАННЫЙ» . Журнал NCSA Access . НКСА . Проверено 7 августа 2014 г.
- ^ «Ученый BU и сотрудники получают грант в размере 10,5 миллионов долларов на разработку программного обеспечения для непроверенных данных» . www.newswise.com . Колледж искусств и наук Бостонского университета . Проверено 7 августа 2014 г.
- ^ «Награда № 1261582 — DIBB CIF21: коричневая собака» . nsf.gov . Проверено 31 июля 2014 г.