Макет файла Write Anywhere

ВАФЛ
Разработчик(и)	НетАпп
Полное имя	Макет файла Write Anywhere
Пределы
Максимальный размер тома	до 100 ТБ (ограничено совокупным размером; максимальный размер варьируется в зависимости от платформы; ограничено 16 ТБ при использовании дедупликации {ONTAP 8.2 теперь поддерживает дедупликацию до максимального размера тома, поддерживаемого на платформе})
Максимальный размер файла	до 16 ТБ
Функции
Даты записи	время, время, время
Файловая система ; разрешения	Разрешения UNIX и списки ACL
Прозрачный ; сжатие	Да (Ontap 8.0 и более поздние версии)
Прозрачный ; шифрование	Да (начиная с Ontap 9.1; возможно с устройствами сторонних производителей, такими как Decru DataFort для более старых версий)
Дедупликация данных	Да ( FAS Dedup : периодическое онлайн-сканирование, блочное;)
Копирование при записи	Да
Другой
Поддерживается ; операционные системы	ОНТАП

Write Anywhere File Layout ( WAFL ) — это собственная файловая система , которая поддерживает большие высокопроизводительные RAID- массивы, быстрый перезапуск без длительных проверок согласованности в случае сбоя или сбоя питания, а также быстрое увеличение размера файловой системы. Он был разработан NetApp для использования в таких устройствах хранения данных, как NetApp FAS, AFF , Cloud Volumes ONTAP и ONTAP Select .

Его автор утверждает, что WAFL не является файловой системой, хотя и включает ее. ^[3] Он отслеживает изменения аналогично журналированию файловых систем в виде журналов (известных как NVLOG) в выделенной энергонезависимой оперативной памяти устройства хранения данных , называемой NVRAM или NVMEM. WAFL предоставляет механизмы, позволяющие различным файловым системам и технологиям получать доступ к дисковым блокам .

Дизайн

WAFL хранит метаданные, а также данные, в файлах; метаданные, такие как индексные дескрипторы и карты блоков, указывающие, какие блоки в томе выделены, не хранятся в фиксированных местах файловой системы. Файлом верхнего уровня в томе является индексный дескриптор, который содержит индексные дескрипторы для всех остальных файлов; индексный дескриптор самого файла индексного дескриптора, называемый корневым индексным дескриптором, хранится в блоке с фиксированным местоположением. Индексный дескриптор достаточно маленького файла содержит содержимое файла; в противном случае он содержит список указателей на блоки данных файла или список указателей на косвенные блоки, содержащие списки указателей на блоки данных файла, и т. д. с таким количеством слоев косвенных блоков, сколько необходимо, образуя дерево блоков. Все блоки данных и метаданных в файловой системе, кроме блока, содержащего корневой индексный дескриптор, хранятся в файлах файловой системы. Таким образом, корневой индексный дескриптор можно использовать для поиска всех блоков всех файлов, кроме файла индексного дескриптора. ^[4]

Основная память используется как страничный кэш для блоков из файлов. Когда в блок файла вносится изменение, копия в страничном кэше обновляется и помечается как «грязная», а разница регистрируется в энергонезависимой памяти в журнале, называемом NVLOG . Если «грязный» блок страничного кэша должен быть записан в постоянное хранилище, он не перезаписывается в блок, из которого он был прочитан; вместо этого новый блок выделяется в постоянной памяти, содержимое блока записывается в новое место, а индексный дескриптор или косвенный блок, указывающий на рассматриваемый блок, обновляется в основной памяти. Если блок, содержащий индексный дескриптор, или косвенный блок, должен быть записан в постоянное хранилище, он также записывается в новое место, а не перезаписывается в предыдущем месте. Это то, к чему относится «Запись в любом месте» в «Макет файла для записи в любом месте». ^[4]

Поскольку все блоки, кроме блока, содержащего корневой индекс, находятся через корневой индекс, ни одно из изменений, записанных в постоянное хранилище, не отображается в постоянном хранилище до тех пор, пока корневой индекс не будет обновлен. Корневой индекс обновляется с помощью процесса, называемого точкой согласованности , при котором все грязные блоки, еще не записанные в постоянное хранилище, записываются в постоянное хранилище, и записывается новый корневой индекс, указывающий на блоки в новой версии индекса. файл. В этот момент все изменения файловой системы видны в постоянном хранилище с использованием нового корневого индексного дескриптора. Записи NVLOG об изменениях, которые теперь видны, отбрасываются, чтобы освободить место для записей журнала для последующих изменений. Точки согласованности выполняются периодически или если энергонезависимая память почти заполнена записями журнала. ^[4]

Если сервер выходит из строя до того, как все изменения в файловой системе стали видимыми в точке согласованности, невидимые изменения все еще сохраняются в NVLOG; при перезагрузке сервера он воспроизводит все записи в NVLOG, снова внося изменения, записанные в NVLOG, чтобы они не потерялись.

Функции

Как обсуждалось выше, WAFL не хранит данные или метаданные в заранее определенных местах на диске. Вместо этого он автоматически помещает данные, используя временную локальность, для записи метаданных вместе с пользовательскими данными таким образом, чтобы минимизировать количество дисковых операций, необходимых для фиксации данных в стабильном дисковом хранилище с использованием RAID на основе одинарной и двойной четности.

Использование размещения данных на основе временной локальности ссылки может повысить производительность чтения наборов данных, которые считываются аналогично тому, как они были записаны (например, запись базы данных и связанная с ней запись индекса), однако это также может вызвать фрагментацию данных . перспектива пространственной локальности отсчета. На вращающихся жестких дисках это не оказывает негативного влияния на файлы, которые последовательно записываются, произвольно читаются или впоследствии читаются с использованием одного и того же временного шаблона, но влияет на последовательное чтение после произвольной записи шаблонов доступа к пространственным данным, поскольку магнитная головка может находиться только в одном положении при время чтения данных с диска, при этом фрагментация не влияет на SSD -накопители.

Выпуски ONTAP, начиная с 7.3.1, включают ряд методов оптимизации пространственного расположения данных, таких как команда перераспределения для выполнения запланированной и ручной дефрагментации , а также опция записи после чтения тома, которая обнаруживает и автоматически исправляет неоптимальные шаблоны доступа к данным, вызванные пространственной фрагментацией. . Выпуски ONTAP 8.1.1 включают другие методы автоматической оптимизации непрерывного свободного пространства в файловой системе, что также помогает поддерживать оптимальное расположение данных для большинства шаблонов доступа к данным. До появления 7G команду перераспределения сканирования wafl нужно было вызывать с расширенным уровнем привилегий, и ее нельзя было запланировать. Выпуски ONTAP , начиная с версии 9.1, включают ряд методов оптимизации использования SSD, таких как Inline Data Compaction (в версии 9.1), начиная с функции ONTAP 9.2 FabricPool SSD для автоматического многоуровневого хранения холодных данных для замедления хранения S3 и обратно, если это необходимо для агрегатов , и Кросс-томная дедупликация внутри агрегата с максимальным объемом 800 ТиБ для каждого агрегата. ^[5]

Снимки

WAFL поддерживает снимки , которые представляют собой копии файловой системы, доступные только для чтения. Снимки создаются путем выполнения тех же операций, которые выполняются в точке согласованности, но вместо обновления корневого индекса, соответствующего текущему состоянию файловой системы, сохраняется копия корневого индекса. Поскольку все данные и метаданные в файловой системе можно найти в корневом индексном дескрипторе, все данные и метаданные в файловой системе на момент создания моментального снимка можно найти в копии моментального снимка корневого индексного дескриптора. Для создания моментального снимка не требуется копировать никакие другие данные. ^[4]

Блоки выделяются при записи с использованием карты блоков, которая отслеживает, какие блоки используются, а какие свободны. Запись в карте блоков содержит бит, указывающий, используется ли блок в текущей версии файловой системы, и несколько битов, по одному на каждый снимок, указывающих, используется ли блок в снимке. Это гарантирует, что данные в снимке не будут перезаписаны до тех пор, пока снимок не будет удален. Используя карту блоков, все новые записи и перезаписи записываются в новые пустые блоки. WAFL сообщает только об успешной перезаписи блоков, но перезаписи фактически не происходит. Этот подход называется методом перенаправления при записи (ROW). ^[4] ROW намного быстрее выполняет операции перезаписи по сравнению с копированием при записи , где старый блок данных, который будет перезаписан на месте и зафиксирован в снимке, необходимо сначала скопировать в пространство, выделенное для резерва снимка, чтобы сохранить исходные данные. дополнительные операции копирования данных после того, как система перезапишет этот блок.

Снимки обеспечивают онлайн-резервные копии, к которым можно быстро получить доступ через специальные скрытые каталоги в файловой системе, что позволяет пользователям восстанавливать файлы, которые были случайно удалены или изменены. ^[4]

Операционная система NetApp Data ONTAP Release 7G поддерживает моментальный снимок чтения и записи под названием FlexClone . Снимки являются основой для таких технологий, как SnapMirror , SnapVault и Online Volume Move , а такие функции, как FlexClone , SnapLock , SnapRestore, представляют собой технологии, подобные снимкам, которые используют возможности и свойства WAFL, такие как манипуляции с индексными дескрипторами. Начиная с ONTAP 9.4 максимальное количество поддерживаемых снимков для каждого FlexVol составляет 1024, тогда как для предыдущих версий максимальный предел составлял 255.

Начиная с версии ONTAP 9.5, были добавлены функции совместного использования снимков для запуска сканирования дедупликации активной файловой системы и снимков, а экономия при дедупликации определяется количеством снимков. До версии 9.5 недедуплицированные данные, заблокированные в снимке, не могли использоваться процессом дедупликации и выполнялись только в активной файловой системе.

Модель файлов и каталогов

Важной особенностью WAFL является поддержка как Unix модели файлов и каталогов в стиле NFS для клиентов , так и модели файлов и каталогов в стиле Microsoft Windows для клиентов SMB . WAFL также поддерживает обе модели безопасности, включая режим, в котором разные файлы на одном томе могут иметь разные атрибуты безопасности. Unix может использовать либо ^[6] списки управления доступом (ACL) или простую битовую маску, тогда как более поздняя модель Windows основана на списках управления доступом. Эти две функции позволяют записать файл в сетевую файловую систему типа SMB и получить к нему доступ позже через NFS с рабочей станции Unix. Помимо обычных файлов, WAFL может содержать файловые контейнеры, называемые LUN, с необходимыми специальными атрибутами, такими как серийный номер LUN для блочных устройств, доступ к которым можно получить с помощью протоколов SAN , работающих в программном обеспечении ОС ONTAP .

FlexVol

Каждый гибкий том (FlexVol) представляет собой отдельную файловую систему WAFL, расположенную в агрегате и распределенную по всем дискам в агрегате. Каждый агрегат может содержать и обычно имеет несколько томов FlexVol. ONTAP во время процесса оптимизации данных, включая «Тетрис», который заканчивается точками согласованности (см. NVRAM ), запрограммирован на максимально возможное равномерное распределение блоков данных в каждом томе FlexVol по всем дискам в совокупности, чтобы каждый FlexVol потенциально мог использовать всю доступную производительность всех диски данных в совокупности. Благодаря подходу равномерного распределения блоков данных по всем дискам данных в совокупности регулирование производительности FlexVol может выполняться динамически с помощью QoS хранилища и не требует выделенных агрегатов или групп RAID для каждого FlexVol, чтобы гарантировать производительность и предоставлять неиспользуемую производительность для том FlexVol, который этого требует. Каждый FlexVol может быть настроен как пространство с толстым или тонким выделением , а затем в любое время может быть изменен на лету. Заблокируйте доступ к устройству с помощью Протоколы сети хранения данных (SAN), такие как iSCSI , Fibre Channel (FC) и Fibre Channel over Ethernet (FCoE), выполняются с помощью эмуляции LUN, аналогичной методу устройства Loop, поверх тома FlexVol; таким образом, каждый LUN в файловой системе WAFL отображается как файл, но имеет дополнительные свойства, необходимые для блочных устройств. LUN также можно настроить как с толстым или тонким выделением и изменить позже на лету. Благодаря архитектуре WAFL FlexVols и LUN могут увеличивать или уменьшать использование настроенного пространства на лету. Если FlexVol содержит данные, внутреннее пространство может быть уменьшено не меньше, чем используемое пространство. Несмотря на то, что размер LUN с данными на нем может быть уменьшен в файловой системе WAFL, ONTAP не знает о структуре блоков верхнего уровня из-за архитектуры SAN, поэтому он может обрезать данные и повредить файловую систему на этом LUN, поэтому хосту необходимо выполнить миграцию. блоки, содержащие данные, в новую границу LUN, чтобы предотвратить потерю данных. Каждый FlexVol может иметь собственные QoS , FlashPool , FlasCache или FabricPool политики .

Если созданы два тома FlexVol, каждый на двух агрегатах, и эти агрегаты принадлежат двум разным контроллерам, и системному администратору необходимо использовать пространство этих томов через протокол NAS. Затем они создавали две общие папки, по одной на каждом томе. В этом случае администратор, скорее всего, даже создаст разные IP-адреса; каждый из них будет использоваться для доступа к выделенному файловому ресурсу. Каждый том будет иметь одну запись и два сегмента пространства. Хотя даже если два тома находятся на одном контроллере и, например, на одном агрегате (таким образом, если второй агрегат существует, он не будет использоваться в этом случае) и доступ к обоим томам будет осуществляться через один IP-адрес, все равно будет будет две привязки записи, по одной на каждый том, и всегда будет два отдельных сегмента пространства. Следовательно, чем больше у вас томов, тем больше у вас будет возможностей записи (лучшее распараллеливание и, следовательно, лучшая загрузка ЦП), но тогда у вас будет несколько томов (и несколько сегментов для пространства, следовательно, несколько общих файловых ресурсов).

Плексы

Подобно RAID 1 , сплетения в системах ONTAP могут хранить зеркальные данные в двух местах, но хотя обычный RAID-1 должен существовать в пределах одной системы хранения, два сплетения могут быть распределены между двумя системами хранения. Каждый агрегат состоит из одного или двух сплетений. Обычные системы хранения высокой доступности имеют только один сплетение для каждого агрегата, тогда как локальные конфигурации SyncMirror или MetroCluster могут иметь два сплетения для каждого агрегата. С другой стороны, каждый сплетение включает в себя базовое пространство хранения из одной или нескольких групп NetApp RAID или LUN из сторонних систем хранения (см. FlexArray ) в одном сплетении, аналогично RAID 0 . Если агрегат состоит из двух плексов, один плекс считается ведущим, а второй – ведомым; подчиненные устройства должны состоять из точно такой же конфигурации RAID и дисков. Например, если у нас есть агрегат, состоящий из двух сплетений, где главный сплет состоит из 21 диска данных и 3 дисков SAS с четностью по 1,8 ТБ в RAID-TEC, то подчиненный сплет должен состоять из 21 диска с данными и 3 дисков с четностью SAS по 1,8 ТБ в RAID. -ТЕК. Второй пример, если у нас есть агрегат, состоящий из двух сплетений, где главный сплет состоит из одного RAID 17 с данными и 3 дисков SAS с контролем четности 1,8 ТБ, настроенных как RAID-TEC, а второй RAID в главном сплетении — это RAID-DP с 2 данными и 2 паритет SSD 960 ГБ. Второй плекс должен иметь такую же конфигурацию: один RAID 17 для данных и 3 диска SAS с контролем четности по 1,8 ТБ, настроенный как RAID-TEC, а второй RAID в подчиненном плексе — RAID-DP с 2 дисками данных и 2 твердотельными накопителями четности по 960 ГБ. Конфигурации MetroCluster используют технологию SyncMirror для синхронной репликации данных. Существует два варианта SyncMirror: MetroCluster и Local SyncMirror, оба используют один и тот же метод плексирования для синхронной репликации данных между двумя плексами. Local SyncMirror создает оба сплетения в одном контроллере и часто используется для дополнительной безопасности, чтобы предотвратить сбой всей дисковой полки в системе хранения. MetroCluster позволяет реплицировать данные между двумя системами хранения. Каждая система хранения может состоять из одного контроллера или быть настроена как пара высокой доступности с двумя контроллерами. В одной паре HA возможно размещение двух контроллеров в отдельных шасси и расстояние друг от друга может составлять десятки метров, тогда как в конфигурации MetroCluster расстояние может достигать 300 км.

Энергонезависимая память

Зеркальное отображение кэша энергонезависимой памяти в MetroCluster и HA

Как и многие конкуренты, системы NetApp ONTAP используют память как гораздо более быстрый носитель данных для приема и кэширования данных с хостов и, что наиболее важно, для оптимизации данных перед записью, что значительно повышает производительность таких систем хранения. В то время как конкуренты широко используют энергонезависимую память с произвольным доступом (NVRAM) для сохранения данных в ней во время непредвиденных событий, таких как перезагрузка, как для кэширования записи, так и для оптимизации данных, системы NetApp ONTAP используют обычную память с произвольным доступом (RAM) для оптимизации данных и выделенную память. NVRAM или NVDIMM для регистрации исходных данных в неизмененном состоянии, как они поступили от хостов, аналогично регистрации транзакций, выполняемой в реляционных базах данных . Поэтому в случае аварии, естественно, оперативная память будет автоматически очищена после перезагрузки, а данные, хранящиеся в энергонезависимой памяти в виде журналов, называемых NVLOG, сохранятся после перезагрузки и будут использоваться для восстановления согласованности. Все изменения и оптимизации в системах ONTAP выполняются только в оперативной памяти, что помогает уменьшить размер энергонезависимой памяти для систем ONTAP. После оптимизации данные с хостов структурированы в стиле Тетрис, оптимизированы и подготовлены с прохождением нескольких этапов (например, WAFL и RAID) для записи на нижележащие диски в RAID-группах на совокупность , в которой будут храниться данные. После оптимизации данные будут последовательно записываться на диски в рамках транзакции Consistency Point (CP). Данные, записанные в агрегаты, будут содержать необходимые метаданные WAFL и контроль четности RAID , поэтому не будет выполняться никаких дополнительных операций чтения с дисков данных, вычислений и записи на диски четности, как в традиционных группах RAID-6 и RAID-4. CP сначала создает снимок системы на агрегате, куда будут записываться данные, затем оптимизирует и подготавливает данные из ОЗУ, записываемые последовательно в виде одной транзакции в агрегат, в случае сбоя вся транзакция завершается с ошибкой в случае внезапной перезагрузки, что позволяет Файловая система WAFL всегда должна быть согласованной. В случае успешной транзакции CP распространяется новая активная точка файловой системы и соответствующие NVLOG очищаются. Все данные всегда будут записываться в новое место, и перезапись невозможна. Блоки данных, удаленные хостами, помеченными как свободные, чтобы их можно было использовать позже в следующих циклах CP, и системе не будет не хватать места благодаря политике WAFL «всегда записывать новые данные в новое место». Только NVLOG в системах хранения высокой доступности реплицируются синхронно между двумя контроллерами для обеспечения возможности аварийного восстановления системы хранения высокой доступности, что помогает снизить общие затраты на защиту системной памяти. В системе хранения данных с двумя контроллерами в конфигурации HA или MetroCluster с одним контроллером на каждой площадке, каждый из двух контроллеров делит собственную энергонезависимую память на две части: локальную и свою партнерскую. В конфигурации MetroCluster с четырьмя узлами каждая энергонезависимая память разделена на следующие части: локальную, локальную партнерскую и удаленную партнерскую. ^[7]

Начиная с системы All-Flash FAS A800, NetApp заменила модуль NVRAM PCI на модули NVDIMM, подключенные к шине памяти, что повысило производительность.

См. также

Сравнение файловых систем
Список файловых систем
НетАпп
НетАпп ФАС
ONTAP , используемая в системах хранения данных NetApp. Операционная система

Примечания

^ «Ограничения хранения» . библиотека.netapp.com .
^ «Шифрование тома NetApp, подробности | IOPS.ca» . 30 ноября 2016 г.
^ «Является ли WAFL файловой системой?» . Блоги.netapp.com. Архивировано из оригинала 15 июля 2014 года.
^ Jump up to: ^а ^б ^с ^д ^и ^ж Дэйв Хитц ; Джеймс Лау; Майкл Малкольм (19 января 1994 г.). Проект файловой системы для устройства файлового сервера NFS (PDF) . УСЕНИКС, зима 1994 г.
^ Паризи, Джастин (14 июля 2017 г.). «Использование VMware на ONTAP? Почему вам следует рассмотреть возможность обновления до ONTAP 9.2» .
^ «Списки управления доступом POSIX в Linux» . Suse.de. Архивировано из оригинала 24 января 2007 г.
^ «Кластерные данные ONTAP® 8.3. Руководство по управлению MetroCluster™ и аварийному восстановлению: зеркалирование кэша NVRAM и NVMEM в конфигурации MetroCluster» . НетАпп. 1 сентября 2015 г. Архивировано из оригинала (url) 24 января 2018 г. Проверено 24 января 2018 г.

Внешние ссылки

Официальный сайт
Проект файловой системы для устройства файлового сервера NFS (PDF)
Патент США 5 819 292 - Способ поддержания согласованного состояния файловой системы и создания доступных пользователю копий файловой системы только для чтения - 6 октября 1998 г.

[1] «Ограничения хранения» . библиотека.netapp.com .

[2] «Шифрование тома NetApp, подробности | IOPS.ca» . 30 ноября 2016 г.

[3] «Является ли WAFL файловой системой?» . Блоги.netapp.com. Архивировано из оригинала 15 июля 2014 года.

[wafl-fs-design-4] Jump up to: ^а ^б ^с ^д ^и ^ж Дэйв Хитц ; Джеймс Лау; Майкл Малкольм (19 января 1994 г.). Проект файловой системы для устройства файлового сервера NFS (PDF) . УСЕНИКС, зима 1994 г.

[5] Паризи, Джастин (14 июля 2017 г.). «Использование VMware на ONTAP? Почему вам следует рассмотреть возможность обновления до ONTAP 9.2» .

[6] «Списки управления доступом POSIX в Linux» . Suse.de. Архивировано из оригинала 24 января 2007 г.

[7] «Кластерные данные ONTAP® 8.3. Руководство по управлению MetroCluster™ и аварийному восстановлению: зеркалирование кэша NVRAM и NVMEM в конфигурации MetroCluster» . НетАпп. 1 сентября 2015 г. Архивировано из оригинала (url) 24 января 2018 г. Проверено 24 января 2018 г.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

v т и НетАпп
People	David Hitz
Products	NetApp FAS NetCache ONTAP Write Anywhere File Layout
Related	Red Bull-Bora-Hansgrohe