GPFS
В этой статье есть несколько проблем. Пожалуйста, помогите улучшить его или обсудите эти проблемы на странице обсуждения . ( Узнайте, как и когда удалять эти шаблонные сообщения )
|
Разработчик(и) | ИБМ |
---|---|
Полное имя | IBM Спектральная шкала |
Представлено | 1998 год AIX | с
Пределы | |
Максимальный размер тома | 8 лет |
Максимальный размер файла | 8 ЭБ |
Макс нет. файлов | 2 64 на файловую систему |
Функции | |
Файловая система разрешения | ПОСИКС |
Прозрачный шифрование | да |
Другой | |
Поддерживается операционные системы | AIX , Linux , Windows Server |
GPFS ( General Parallel File System , торговая марка IBM Storage Scale и ранее IBM Spectrum Scale ) [1] — это высокопроизводительное программное обеспечение для кластерной файловой системы, разработанное IBM . Его можно развернуть в распределенных параллельных режимах с общим диском или без общего доступа или в их комбинации. Его используют многие крупнейшие коммерческие компании мира, а также некоторые суперкомпьютеры, входящие в список 500 лучших . [2] Например, это файловая система Summit [3] в Национальной лаборатории Ок-Ридж , который был самым быстрым суперкомпьютером в мире в списке 500 лучших суперкомпьютеров за ноябрь 2019 года. [4] Summit — это система производительностью 200 петафлопс, состоящая из более чем 9000 процессоров POWER9 NVIDIA Volta и 27000 графических процессоров . Файловая система хранения называется Alpine. [5]
Как и типичные кластерные файловые системы, GPFS обеспечивает одновременный высокоскоростной доступ к файлам для приложений, выполняющихся на нескольких узлах кластеров. Его можно использовать с AIX кластерами , кластерами Linux , [6] на Microsoft Windows Server или гетерогенном кластере узлов AIX, Linux и Windows, работающих на x86 , Power или IBM Z. процессорных архитектурах
История
[ редактировать ]GPFS началась как файловая система Tiger Shark IBM в , исследовательский проект исследовательского центра Альмадене еще в 1993 году. Первоначально Tiger Shark была разработана для поддержки мультимедийных приложений с высокой пропускной способностью. Эта конструкция оказалась хорошо подходящей для научных вычислений. [7]
Другим предком является файловая система IBM Vesta , разработанная в рамках исследовательского проекта в Исследовательском центре Томаса Дж. Уотсона IBM в период с 1992 по 1995 год. [8] Vesta представила концепцию разделения файлов для удовлетворения потребностей параллельных приложений, работающих на высокопроизводительных мультикомпьютерах с ввода-вывода параллельными подсистемами . При секционировании файл представляет собой не последовательность байтов, а скорее несколько непересекающихся последовательностей, к которым можно обращаться параллельно. Разделение таково, что оно абстрагирует количество и тип узлов ввода-вывода, на которых размещена файловая система, и позволяет создавать различные логически разделенные представления файлов, независимо от физического распределения данных внутри узлов ввода-вывода. Непересекающиеся последовательности организованы так, чтобы соответствовать отдельным процессам параллельного приложения, что обеспечивает улучшенную масштабируемость. [9] [10]
Vesta была коммерциализирована как файловая система PIOFS примерно в 1994 году. [11] и примерно в 1998 году на смену ему пришла GPFS. [12] [13] Основное различие между старой и новой файловыми системами заключалось в том, что GPFS заменила специализированный интерфейс, предлагаемый Vesta/PIOFS, на стандартный Unix API : все функции поддержки высокопроизводительного параллельного ввода-вывода были скрыты от пользователей и реализованы под капотом. [7] [13] GPFS также разделяет многие компоненты с родственными продуктами IBM Multi-Media Server и IBM Video Charger, поэтому многие утилиты GPFS начинаются с префикса mm — мультимедиа. [14] : xi
В 2010 году IBM представила предварительную версию GPFS, которая включала функцию, известную как GPFS-SNC, где SNC означает Shared Nothing Cluster. Он был официально выпущен вместе с GPFS 3.5 в декабре 2012 года и теперь известен как FPO. [15] (Оптимизатор размещения файлов).
Архитектура
[ редактировать ]Этот раздел нуждается в дополнительных цитатах для проверки . ( январь 2020 г. ) |
Это кластерная файловая система . Он разбивает файл на блоки заданного размера, менее 1 мегабайта каждый, которые распределяются по нескольким узлам кластера.
Система хранит данные на стандартных томах блочного хранилища, но включает внутренний уровень RAID, который может виртуализировать эти тома для обеспечения избыточности и параллельного доступа, подобно блочной системе хранения RAID. Он также имеет возможность репликации между томами на более высоком файловом уровне.
К особенностям архитектуры относятся
- Распределенные метаданные, включая дерево каталогов. Не существует единого «контроллера каталогов» или «индексного сервера», отвечающего за файловую систему.
- Эффективное индексирование записей каталогов для очень больших каталогов.
- Распределенная блокировка. Это обеспечивает полную семантику файловой системы POSIX , включая блокировку монопольного доступа к файлам.
- Разделы в курсе. Сбой сети может разделить файловую систему на две или более группы узлов, которые смогут видеть только узлы своей группы. Это можно обнаружить с помощью протокола Heartbeat, и при возникновении раздела файловая система остается активной для самого большого из сформированных разделов. Это обеспечивает постепенное ухудшение файловой системы — некоторые машины продолжат работать.
- Обслуживание файловой системы можно выполнять онлайн. Большую часть работ по обслуживанию файловой системы (добавление новых дисков, перебалансировку данных на дисках) можно выполнять, пока файловая система работает. Это максимизирует доступность файловой системы и, следовательно, доступность самого кластера суперкомпьютеров.
Другие функции включают высокую доступность, возможность использования в гетерогенном кластере, аварийное восстановление, безопасность, DMAPI , HSM и ILM .
По сравнению с распределенной файловой системой Hadoop (HDFS)
[ редактировать ]Файловая система Hadoop HDFS предназначена для хранения аналогичных или больших объемов данных на обычном оборудовании, то есть в центрах обработки данных без RAID- дисков и сети хранения данных (SAN).
- HDFS также разбивает файлы на блоки и сохраняет их на разных узлах файловой системы.
- GPFS имеет полную семантику файловой системы Posix.
- GPFS распределяет индексы каталогов и другие метаданные по файловой системе. Hadoop, напротив, хранит это на первичных и вторичных узлах имен, больших серверах, которые должны хранить всю индексную информацию в оперативной памяти.
- GPFS разбивает файлы на небольшие блоки. Hadoop HDFS предпочитает блоки размером 64 МБ и более, поскольку это снижает требования к хранилищу Namenode. Маленькие блоки или множество маленьких файлов быстро заполняют индексы файловой системы, поэтому ограничьте размер файловой системы.
Управление жизненным циклом информации
[ редактировать ]Пулы хранения позволяют группировать диски в файловой системе. Администратор может создавать уровни хранения, группируя диски на основе характеристик производительности, местоположения или надежности. Например, один пул может состоять из высокопроизводительных дисков Fibre Channel и другого, более экономичного хранилища SATA.
Набор файлов — это поддерево пространства имен файловой системы, позволяющее разделить пространство имен на более мелкие и более управляемые единицы. Наборы файлов предоставляют административную границу, которую можно использовать для установки квот и указывать в политике для управления первоначальным размещением или переносом данных. Данные в одном наборе файлов могут находиться в одном или нескольких пулах хранения. Местонахождение файловых данных и способ их переноса определяется набором правил в определяемой пользователем политике.
Существует два типа определяемых пользователем политик: размещение файлов и управление файлами. Политики размещения файлов направляют данные файлов при их создании в соответствующий пул хранения. Правила размещения файлов выбираются по таким атрибутам, как имя файла, имя пользователя или набор файлов. Политики управления файлами позволяют перемещать или реплицировать данные файла или удалять файлы. Политики управления файлами можно использовать для перемещения данных из одного пула в другой без изменения местоположения файла в структуре каталогов. Политики управления файлами определяются атрибутами файла, такими как время последнего доступа, имя пути или размер файла.
Механизм обработки политик является масштабируемым и может запускаться на многих узлах одновременно. Это позволяет применять политики управления к одной файловой системе с миллиардами файлов и завершить работу за несколько часов. [ нужна ссылка ]
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ «GPFS (Общая параллельная файловая система)» . ИБМ . Проверено 7 апреля 2020 г.
- ^ Шмук, Фрэнк; Роджер Хаскин (январь 2002 г.). «GPFS: файловая система общего диска для больших вычислительных кластеров» (PDF) . Материалы конференции FAST'02 по файловым технологиям и технологиям хранения данных . Монтерей, Калифорния, США: USENIX. стр. 231–244. ISBN 1-880446-03-0 . Проверено 18 января 2008 г.
- ^ «Саммит вычислительных систем» . Окриджская национальная лаборатория . Проверено 7 апреля 2020 г.
- ^ «Список топ-500 ноября 2019 года» . top500.org. Архивировано из оригинала 2 января 2020 г. Проверено 7 апреля 2020 г.
- ^ «Часто задаваемые вопросы по саммиту» . Окриджская национальная лаборатория . Проверено 7 апреля 2020 г.
- ^ Ван, Дэн; Васько, Кевин; Лю, Чжо; Чен, Хуэй; Ю, Вэйкуань (ноябрь 2014 г.). «BPAR: платформа параллельного агрегирования на основе пакетов для разделенного выполнения ввода-вывода». 2014 Международный семинар по масштабируемым вычислительным системам с интенсивным использованием данных . IEEE. стр. 25–32. дои : 10.1109/DISCS.2014.6 . ISBN 978-1-4673-6750-9 . S2CID 2402391 .
- ^ Jump up to: а б Мэй, Джон М. (2000). Параллельный ввод-вывод для высокопроизводительных вычислений . Морган Кауфманн. п. 92. ИСБН 978-1-55860-664-7 . Проверено 18 июня 2008 г.
- ^ Корбетт, Питер Ф.; Фейтельсон, Дрор Г.; Прост, Ж.-П.; Бэйлор, SJ (1993). «Параллельный доступ к файлам файловой системы Весты». Материалы конференции ACM/IEEE 1993 года по суперкомпьютерам — Supercomputing '93 . Портленд, Орегон, США: ACM/IEEE. стр. 472–481. дои : 10.1145/169627.169786 . ISBN 978-0818643408 . S2CID 46409100 .
- ^ Корбетт, Питер Ф.; Фейтельсон, Дрор Г. (август 1996 г.). «Параллельная файловая система Весты» (PDF) . Транзакции по компьютерным системам . 14 (3): 225–264. дои : 10.1145/233557.233558 . S2CID 11975458 . Архивировано из оригинала 12 февраля 2012 г. Проверено 18 июня 2008 г.
{{cite journal}}
: CS1 maint: bot: исходный статус URL неизвестен ( ссылка ) - ^ Тенг Ван; Кевин Васко; Чжо Лю; Хуэй Чен; Вэйкуань Ю (2016). «Расширение возможностей параллельного ввода-вывода с помощью перекрестной агрегации». Международный журнал приложений для высокопроизводительных вычислений . 30 (2): 241–256. дои : 10.1177/1094342015618017 . S2CID 12067366 .
- ^ Корбетт, ПФ; Д.Г. Фейтельсон; Ж.-П. Прост; Г.С. Алмаси; С. Дж. Бэйлор; А.С. Болмарчич; Ю. Сюй; Дж. Сатран; М. Снир; Р. Колао; Б.Д. Герр; Дж. Хорс; Т. Р. Морган; А. Злотек (1995). «Параллельные файловые системы для компьютеров IBM SP» (PDF ) IBM Systems Journal . 34 (2): 222–248. CiteSeerX 10.1.1.381.2988 . дои : 10.1147/sj.342.0222 . Архивировано из оригинала 1 апреля 2004 г. Проверено 1 июня 2008 г.
{{cite journal}}
: CS1 maint: bot: исходный статус URL неизвестен ( ссылка ) - ^ Баррис, Марсело; Терри Джонс; Скотт Киннэйн; Матис Ландзеттель Сафран Аль-Сафран; Джерри Стивенс; Кристофер Стоун; Крис Томас; Ульф Троппенс (сентябрь 1999 г.). Определение размера и настройка GPFS (PDF) . IBM Redbooks, Международная организация технической поддержки. см. стр. 1 ( «GPFS является преемником файловой системы PIOFS» ). Архивировано из оригинала 14 декабря 2010 г. Проверено 06 декабря 2022 г.
{{cite book}}
: CS1 maint: bot: исходный статус URL неизвестен ( ссылка ) - ^ Jump up to: а б Снир, Марк (июнь 2001 г.). «Масштабируемые параллельные системы: вклад 1990–2000 гг.» (PDF) . Семинар по HPC, факультет компьютерной архитектуры, Политехнический университет Каталонии . Проверено 18 июня 2008 г.
- ^ Общий справочник по администрированию и программированию параллельной файловой системы, версия 3.1 (PDF) . ИБМ. Апрель 2006 г.
- ^ «IBM GPFS FPO (DCS03038-USEN-00)» (PDF) . Корпорация IBM. 2013 . Проверено 12 августа 2012 г. [ постоянная мертвая ссылка ]