Обработка на месте
Обработка на месте, также известная как обработка в хранилище ( ISP ), — это термин информатики, который относится к обработке данных там, где они находятся. In-situ означает «находящийся в исходном, естественном или существующем месте или положении». Процесс на месте обрабатывает данные там, где они хранятся, например, на твердотельных накопителях (SSD) или устройствах памяти, таких как NVDIMM (ЦП) компьютера , вместо того, чтобы отправлять данные в центральный процессор .
В технологии используются встроенные механизмы обработки внутри устройств хранения, позволяющие им запускать пользовательские приложения на месте, поэтому данным не нужно покидать устройство для обработки. Технология не нова, но современная архитектура SSD, а также наличие мощных встроенных процессоров делают запуск пользовательских приложений на месте более привлекательным. [ 1 ] SSD-накопители обеспечивают более высокую пропускную способность данных по сравнению с жесткими дисками (HDD). Кроме того, в отличие от жестких дисков, твердотельные накопители могут одновременно обрабатывать несколько команд ввода-вывода.
SSD-накопители обладают значительной вычислительной мощностью для управления массивом флэш-памяти и обеспечения высокоскоростного интерфейса с хост-машинами. Эти возможности обработки могут обеспечить среду для запуска пользовательских приложений на месте. Термин «вычислительное устройство хранения данных » ( CSD ) относится к твердотельному накопителю, на котором можно запускать пользовательские приложения на месте. В эффективной архитектуре CSD встроенная подсистема обработки данных имеет доступ к данным, хранящимся в массиве флэш-памяти, через маломощное и высокоскоростное соединение. Развертывание таких CSD в кластерах может повысить общую производительность и эффективность приложений больших данных и высокопроизводительных вычислений (HPC). [ 1 ]
Устранение узких мест при передаче данных
[ редактировать ]Проектировщики центров обработки данных Webscale пытаются разработать архитектуры хранения данных, которые отдают предпочтение хостам высокой емкости. На следующем рисунке (из [ 1 ] ), показана такая система хранения, в которой к хосту подключено 64 твердотельных накопителя. Для простоты показаны только детали одного SSD. Современные твердотельные накопители обычно содержат 16 или более каналов флэш-памяти, которые можно использовать одновременно для операций ввода-вывода массива флэш-памяти. Учитывая пропускную способность 512 МБ/с на канал, внутренняя пропускная способность SSD с 16 каналами флэш-памяти составляет около 8 ГБ/с. Эта огромная пропускная способность уменьшается примерно до 1 ГБ/с из-за сложности программного обеспечения и аппаратной архитектуры хост-интерфейса. Другими словами, совокупная пропускная способность всех внутренних каналов 64 SSD достигает умножения количества SSD, количества каналов на SSD и 512 МБ/с (пропускная способность каждого канала), что равно 512 ГБ/с. . Хотя совокупная пропускная способность внешних интерфейсов SSD равна 64, умножьте на 1 ГБ/с (пропускная способность хост-интерфейса каждого SSD), что составит 64 ГБ/с. Однако для связи с хостом все твердотельные накопители должны быть подключены к коммутатору PCIe. Следовательно, доступная пропускная способность хоста ограничена 32 ГБ/с.

В целом существует 16-кратный разрыв между совокупной внутренней пропускной способностью всех твердотельных накопителей и пропускной способностью, доступной хосту. Другими словами, для чтения 32 ТБ данных хосту требуется 16 минут, тогда как внутренние компоненты SSD могут прочитать тот же объём данных примерно за 1 минуту. Кроме того, в таких системах хранения данные должны постоянно перемещаться через сложный аппаратный и программный стек между хостами и устройствами хранения, что приводит к значительному потреблению энергии и резко снижает энергоэффективность крупных центров обработки данных. Следовательно, архитекторам систем хранения необходимо разработать методы уменьшения перемещения данных, и технология ISP была внедрена для преодоления вышеупомянутых проблем путем перевода процесса на данные.
Эффективность и использование
[ редактировать ]Технология вычислительного хранения сводит к минимуму перемещение данных в кластере, а также увеличивает вычислительную мощность кластера за счет добавления энергоэффективных процессоров во всю систему. Эту технологию потенциально можно применять как к жестким дискам, так и к твердотельным накопителям; однако современная архитектура твердотельных накопителей предоставляет лучшие инструменты для разработки таких технологий. SSD-накопители, на которых можно запускать пользовательские приложения, называются вычислительными устройствами хранения данных (CSD). Эти блоки хранения представляют собой расширяемые вычислительные ресурсы, а это значит, что они не предназначены для замены высокопроизводительных процессоров современных серверов. Вместо этого они могут сотрудничать с процессором хоста и увеличивать эффективную вычислительную мощность системы. Научная статья «Вычислительное хранилище: эффективная и масштабируемая платформа для больших данных и приложений HPC» [ 1 ] который публикуется Springer Publishing в соответствии с политикой открытого доступа (бесплатный для всеобщего доступа), показывает преимущества использования CSD в кластерах.
Примеры обработки на складе можно увидеть в таких областях, как визуализация, [ 2 ] биология [ 3 ] и химия. Это демонстрирует, как эта технология позволяет видеть действия и результаты более эффективно, чем при перемещении данных, независимо от перемещаемых данных. Следующие цифры (из [ 1 ] ) показывают, как можно использовать CSD в кластере Apache Hadoop и в распределенной среде на основе интерфейса передачи сообщений .


Промышленность
[ редактировать ]В сфере хранения данных сейчас доступны реализации от нескольких компаний, в том числе от NGD Systems, [ 4 ] МасштабПоток [ 5 ] и Эйдетиком. [ 6 ] Другие компании пытались проделать подобную работу в прошлом, в том числе Micron Technology. [ 7 ] и Самсунг . Все они имеют один и тот же подход: управление или обработку данных там, где они находятся.
NGD Systems была первой компанией, создавшей хранилище для обработки данных на месте, и с 2017 года выпустила две версии устройства. Catalina-1 представлял собой автономный твердотельный накопитель, который помимо обработки предлагал 24 ТБ флэш-памяти. [ 4 ] Второй продукт под названием Newport был выпущен в 2018 году и предлагал до 32 ТБ флэш-памяти . [ 8 ] [ 9 ]
CSS-1000 ScaleFlux использует устройство NVMe , которое использует ресурсы хоста и изменения ядра для адресации устройства и использования ресурсов хоста для управления флэш-памятью объемом до 6,4 ТБ на устройстве или базовым твердотельным накопителем. [ 10 ] Eideticom использует устройство под названием No-Load DRAM (только NVMe) в качестве ускорителя без фактического флэш-накопителя для постоянных данных. [ 11 ] Micron назвала свою версию «Scale In» на мероприятии Flash Memory Summit (FMS) в 2013 году, но так и не смогла ее выпустить, и она была основана на находящемся в производстве твердотельном накопителе SATA . [ 7 ] Компания Samsung работала над различными версиями устройств из KV Store и других. [ 12 ]
Ссылки
[ редактировать ]- ^ Jump up to: а б с д и Торабзадекаши, Махди; Резаи, Сиаваш; Гейдари Горджи, Али; Бобаршад, Хосейн; Алвес, Владимир; Багерзаде, Надер (15 ноября 2019 г.). «Вычислительное хранилище: эффективная и масштабируемая платформа для больших данных и приложений HPC» . Журнал больших данных . 6 (100). дои : 10.1186/s40537-019-0265-5 .
- ^ Раффин, Бруно (декабрь 2014 г.). «На месте_2014» (PDF) .
- ^ «Структурная биология in situ» . Утрехтский университет . 17 марта 2016 г. Проверено 4 июня 2018 г.
- ^ Jump up to: а б «Вычислительная система хранения данных находится в центре внимания в новом SSD-накопителе NGD Systems» . Техническая цель . 13 февраля 2020 г. Проверено 7 марта 2019 г.
- ^ «Что, если я скажу вам, что флэш-накопители могут выполнять собственную обработку?» . Регистр . 13 февраля 2020 г. Проверено 13 февраля 2018 г.
- ^ «Инноваторы IDC: вычислительное хранилище, 2019» . ИДЦ . 13 февраля 2020 г. Проверено 1 августа 2019 г.
- ^ Jump up to: а б Доллер, Эд (14 августа 2013 г.). «Микронный масштаб в Keynote - FMS 2013» (PDF) . www.FlashMemorySummit.com .
- ^ «NGD Systems выпускает первый вычислительный твердотельный накопитель NVMe U.2 емкостью 16 ТБ» . Обзор хранилища . 13 февраля 2020 г. Проверено 31 октября 2018 г.
- ^ «20 миллионов долларов для компании Upstart, занимающейся устройствами хранения данных NGD» . Деловой журнал округа Ориндж . 13 февраля 2020 г. Проверено 10 февраля 2020 г.
- ^ «Решение для вычислительного сервера хранения данных (решение для ускорения вычислений и хранения данных): Inspur» . xeonscalable.inspursystems.com . Проверено 4 июня 2018 г.
- ^ «Современные технологии хранения данных в 2020 году: что нужно знать» . Бигстеп . 13 февраля 2020 г. Проверено 10 января 2020 г.
- ^ До, Джеён; Ки, Ян-Сук; Патель, Джигнеш М.; Парк, Чаник; Пак, Кванхён; ДеВитт, Дэвид Дж. (22 июня 2013 г.). «Обработка запросов на интеллектуальных твердотельных накопителях». Обработка запросов на умных SSD: возможности и проблемы . АКМ. стр. 1221–1230. дои : 10.1145/2463676.2465295 . ISBN 9781450320375 . S2CID 12496095 .