Иерархическое управление хранилищем
Иерархическое управление хранилищем ( HSM ), также известное как многоуровневое хранилище . [1] — это метод хранения и управления данными , который автоматически перемещает данные между дорогостоящими и недорогими носителями . Системы HSM существуют потому, что высокоскоростные устройства хранения данных, такие как массивы твердотельных накопителей , стоят дороже (в расчете на хранимый байт ), чем более медленные устройства, такие как жесткие диски , оптические диски и накопители на магнитной ленте . Хотя было бы идеально постоянно иметь все данные на высокоскоростных устройствах, для многих организаций это непомерно дорого. Вместо этого системы HSM хранят большую часть корпоративных данных на более медленных устройствах, а затем при необходимости копируют данные на более быстрые диски. Система HSM отслеживает способ использования данных и делает предположения о том, какие данные можно безопасно переместить на более медленные устройства, а какие данные следует оставить на быстрых устройствах.
HSM также можно использовать там, где для долгосрочного архивирования доступно более надежное хранилище, но доступ к нему медленный. Это может быть простое резервное копирование за пределами объекта для защиты от пожара в здании.
HSM — это давно устоявшаяся концепция, зародившаяся еще на заре коммерческой обработки данных. Однако используемые методы значительно изменились по мере появления новых технологий как для хранения, так и для передачи больших наборов данных на большие расстояния. Масштаб таких показателей, как «размер» и «время доступа», кардинально изменился. Несмотря на это, многие из основополагающих концепций продолжают возвращаться в моду спустя годы, хотя и в гораздо больших и быстрых масштабах. [1]
Выполнение
[ редактировать ]В типичном сценарии HSM часто используемые данные хранятся на «теплом» устройстве хранения, например твердотельном диске (SSD). Данные, к которым редко обращаются, через некоторое время переносятся на более медленный уровень холодного хранения большой емкости. Если пользователь получает доступ к данным, которые находятся на уровне холодного хранения, они автоматически перемещаются обратно в теплое хранилище. Преимущество состоит в том, что общий объем хранимых данных может быть намного больше, чем емкость теплого устройства хранения, но поскольку в холодном хранилище находятся лишь редко используемые файлы, большинство пользователей обычно не замечают какого-либо замедления.
Концептуально HSM аналогичен кэшу большинства компьютерных процессоров , где небольшие объемы дорогой памяти SRAM, работающей на очень высоких скоростях, используются для хранения часто используемых данных, а наименее использованные данные вытесняются в более медленную, но гораздо большую основную DRAM. память, когда необходимо загрузить новые данные.
На практике HSM обычно выполняется с помощью специального программного обеспечения, такого как IBM Tivoli Storage Manager или Oracle SAM-QFS .
Удаление файлов с более высокого уровня иерархии (например, магнитного диска) после их перемещения на более низкий уровень (например, оптического носителя) иногда называют очисткой файлов . [2]
История
[ редактировать ]Диспетчер иерархического хранилища (HSM, затем DFHSM и, наконец, DFSMShsm ) был первым. [ нужна ссылка ] реализовано IBM 31 марта 1978 года для MVS , чтобы снизить стоимость хранения данных и упростить извлечение данных с более медленных носителей. Пользователю не нужно будет знать, где хранятся данные и как их вернуть; компьютер автоматически получит данные. Единственная разница для пользователя заключалась в скорости возврата данных. Первоначально HSM мог переносить наборы данных только на дисковые тома и виртуальные тома на IBM 3850 Mass Storage Facility, но последняя версия поддерживала тома на магнитной ленте для уровня миграции 2 (ML2).
Позже IBM портировала HSM на свою операционную систему AIX , а затем и на другие Unix-подобные операционные системы, такие как Solaris , HP-UX и Linux .
Австралийский отдел компьютерных исследований CSIRO внедрил HSM в свою операционную систему DAD (Drums and Display) с областью документов в 1960-х годах, при этом копии документов записывались на 7-дорожечную ленту и автоматически извлекались при доступе к документам.
HSM также был реализован в системах DEC VAX/VMS и Alpha/VMS. Первую дату внедрения следует легко определить из Руководств по внедрению системы VMS или брошюр с описанием продукта VMS.
Совсем недавно развитие дисков Serial ATA (SATA) создало значительный рынок для трехэтапного HSM: файлы переносятся с высокопроизводительных Fibre Channel сетевых устройств хранения данных на несколько более медленные, но гораздо более дешевые дисковые массивы SATA общим объемом несколько терабайт и более. , а затем, в конечном итоге, с дисков SATA на ленту.
Варианты использования
[ редактировать ]HSM часто используется для глубокого архивного хранения данных, которые будут храниться в течение длительного времени при небольших затратах. Автоматизированные ленточные роботы могут эффективно хранить большие объемы данных при низком энергопотреблении.
Некоторые программные продукты HSM позволяют пользователю размещать части файлов данных в высокоскоростном дисковом кэше, а остальные — на ленте. Это используется в приложениях, которые транслируют видео через Интернет: начальная часть видео доставляется немедленно с диска, в то время как робот находит, монтирует и передает остальную часть файла конечному пользователю. Такая система значительно снижает стоимость дисков для крупных систем предоставления контента.
Программное обеспечение HSM сегодня также используется для распределения между жесткими дисками и флэш-памятью , причем флэш-память более чем в 30 раз быстрее, чем магнитные диски, но диски значительно дешевле.
Алгоритмы
[ редактировать ]Ключевым фактором, лежащим в основе HSM, является политика миграции данных, которая контролирует передачу файлов в системе. Точнее, политика решает, на каком уровне должен храниться файл, чтобы вся система хранения была хорошо организована и имела минимальное время ответа на запросы. Существует несколько алгоритмов, реализующих этот процесс, например, «наиболее недавно использованная замена» (LRU), [3] Замена размера и температуры (STP), эвристический порог (STEP) [4] и т. д. В исследованиях последних лет также появляются некоторые интеллектуальные стратегии с использованием технологий машинного обучения. [5]
Многоуровневое хранение и кэширование
[ редактировать ]Хотя решения по многоуровневому хранению и кэшированию на первый взгляд могут выглядеть одинаково, фундаментальные различия заключаются в способе использования более быстрого хранилища и алгоритмах, используемых для обнаружения и ускорения часто используемых данных. [6]
Кэширование осуществляется путем создания копии часто используемых блоков данных, сохранения копии на более быстром устройстве хранения и использования этой копии вместо исходного источника данных в более медленном внутреннем хранилище большой емкости. Каждый раз, когда происходит чтение хранилища, программное обеспечение кэширования проверяет, существует ли уже копия этих данных в кеше, и использует эту копию, если она доступна. В противном случае данные считываются из более медленного хранилища большой емкости. [6]
С другой стороны, многоуровневое распределение работает совсем по-другому. Вместо того, чтобы копировать часто используемые данные в быстрое хранилище, многоуровневое распределение данных перемещает данные между уровнями, например, путем перемещения «холодных» данных на недорогие устройства хранения данных высокой емкости, расположенные рядом с сетью. [7] [6] Основная идея заключается в том, что критически важные данные с высокой степенью доступа или «горячие» данные хранятся на дорогостоящем носителе, таком как твердотельный накопитель, чтобы воспользоваться преимуществами высокой производительности ввода-вывода, в то время как ближайшие к сети или редко используемые или «холодные» данные хранятся на ближайшем носителе данных. такие как HHD и ленты . недорогие [8] Таким образом, «температура данных» или уровни активности определяют иерархию основного хранилища . [9]
Реализации
[ редактировать ]- Аллюксио
- AMASS/DATAMGR от ADIC (был доступен на SGI IRIX, Sun и HP-UX)
- IBM 3850 IBM 3850 Устройство хранения данных большой емкости
- IBM DFSMS для z/VM [10]
- IBM DFSMShsm , первоначально Hierarchical Storage Manager (HSM), 5740-XRB, и более поздняя версия Data Facility Hierarchical Storage Manager Version 2 (DFHSM), 5665-329 [11]
- IBM Tivoli Storage Manager for Space Management (HSM доступен в UNIX ( IBM AIX , HP UX , Solaris ) и Linux )
- IBM Tivoli Storage Manager HSM для Windows (ранее OpenStore для файловых серверов (OS4FS) (HSM доступен на Microsoft Windows Server )
- HPSS благодаря сотрудничеству HPSS
- Infinite Disk — ранняя система ПК (несуществующая)
- EMC DiskXtender , ранее Legato DiskXtender, ранее OTG DiskXtender
- Moonwalk для Windows, NetApp, OES Linux
- Oracle SAM-QFS (с открытым исходным кодом под Opensolaris, [12] тогда фирменный)
- Oracle HSM (собственный, переименован в SAM-QFS)
- Versity Storage Manager для Linux, на модель с открытым ядром лицензия
- Dell Compellent Data Progression
- Zarafa Archiver (компонент ZCP, решения для архивирования конкретных приложений, продаваемого как решение «HSM»)
- HPE Data Management Framework (DMF, ранее SGI Data Migration Facility) для SLES и RHEL
- QuantumСледующий Стор
- Apple Fusion Drive для macOS
- Microsoft Пространства хранения , начиная с версии, поставляемой с Windows Server 2012 R2 . Более старым продуктом Microsoft было Remote Storage , входившее в состав Windows 2000 и Windows 2003 . [13] [14]
См. также
[ редактировать ]- Активный Архивный Альянс
- Архив
- Резервное копирование
- Гибридное облачное хранилище
- Распространение данных
- Дисковое хранилище
- Управление жизненным циклом информации
- Информационный репозиторий
- Хранение данных на магнитной ленте
- Иерархия памяти
- Виртуализация хранилища
- Шлюз облачного хранилища
Ссылки
[ редактировать ]- ^ Jump up to: а б Ларри Фриман. «Что старое, то снова новое: многоуровневое хранение данных» (PDF) .
- ^ Патрик М. Диллон; Дэвид С. Леонард (1998). Мультимедиа и Интернет от А до Я. АВС-КЛИО. п. 116. ИСБН 978-1-57356-132-7 .
- ^ О'Нил, Элизабет Дж.; О'Нил, Патрик Э.; Вейкум, Герхард (1 июня 1993 г.). «Алгоритм замены страниц LRU-K для буферизации диска базы данных» . Запись ACM SIGMOD . 22 (2): 297–306. дои : 10.1145/170036.170081 . ISSN 0163-5808 . S2CID 207177617 .
- ^ Верма, А.; Пиз, Д.; Шарма, У.; Каплан, М.; Рубас, Дж.; Джайн, Р.; Девараконда, М.; Бейги, М. (2005). «Архитектура управления жизненным циклом очень больших файловых систем» . 22-я Годдардская конференция IEEE/НАСА по системам и технологиям хранения данных (MSST'05) . Монтерей, Калифорния, США: IEEE. стр. 160–168. дои : 10.1109/MSST.2005.4 . ISBN 978-0-7695-2318-7 . S2CID 7082285 .
- ^ Чжан, Тяньру; Хелландер, Андреас; Тоор, Салман (2022). «Эффективное иерархическое управление хранилищем на основе обучения с подкреплением» . Транзакции IEEE по знаниям и инженерии данных : 1–1. дои : 10.1109/TKDE.2022.3176753 . ISSN 1041-4347 .
- ^ Jump up to: а б с Бранд, Арон (20 июня 2022 г.). «Горячее хранилище против холодного хранилища: выбор правильного уровня для ваших данных» . Medium.com . Проверено 20 июня 2022 г.
- ^ Поузи, Брайен (8 ноября 2016 г.). «Различия между SSD-кэшированием и многоуровневыми технологиями» . ТехТаржет . Проверено 21 июня 2022 г.
- ^ Виннард и Биондо 2016 , с. 5.
- ^ Виннард и Биондо 2016 , с. 6.
- ^ Корпорация IBM. «Резюме руководства по планированию DFSMS/VM» . IBM.com . Проверено 16 сентября 2021 г.
- ^ Администрирование хранилища z/OS 2.5 DFSMShsm (PDF) . ИБМ. 2022. SC23-6871-50 . Проверено 24 февраля 2022 г.
- ^ [SAM/QFS и OpenSolaris.org [1]
- ^ Рэнд Моримото; Майкл Ноэль; Омар Друби; Росс Мистри; Крис Амарис (2008). Windows Server 2008 выпущен на свободу . Издательство Самс. п. 938. ИСБН 978-0-13-271563-8 .
- ^ «ITPro Today: новости ИТ, инструкции, тенденции, тематические исследования, советы по карьере и многое другое» .
- Виннард, Кейт; Биондо, Джош (6 июня 2016 г.). DFSMS: от разрывов хранилища к уровням хранения . IBM Пресс . ISBN 9780738455372 .