NEC SX-Аврора ЦУБАСА
NEC SX-Aurora TSUBASA — векторный процессор семейства архитектуры NEC SX . [1] [2] SX В отличие от предыдущих суперкомпьютеров , SX-Aurora TSUBASA поставляется в виде карты PCIe, называемой NEC «Vector Engine» (VE). [2] Восемь карт VE можно вставить в векторный хост (VH), который обычно представляет собой сервер x86-64 под управлением операционной системы Linux . [2] О продукте было объявлено в пресс-релизе 25 октября 2017 года, а NEC начала его продажу в феврале 2018 года. [3] Продукт пришел на смену SX-ACE .
Аппаратное обеспечение
[ редактировать ]SX-Aurora TSUBASA является преемником серий NEC SX и SUPER-UX , векторных компьютерных систем, на которых Earth Simulator основан суперкомпьютер . Его аппаратное обеспечение состоит из хостов Linux x86 с векторными механизмами (VE), подключенными через PCI Express (PCIe). соединение [4]
Высокая пропускная способность памяти (0,75–1,2 ТБ/с) обеспечивается за счет восьми ядер и шести модулей памяти HBM2 на кремниевом переходнике, реализованном в форм-факторе карты PCIe. [5] Функциональность операционной системы для VE переносится на VH и обрабатывается в основном демонами пользовательского пространства, на которых работает VEOS. [6]
В зависимости от тактовой частоты (1,4 или 1,6 ГГц) каждый процессор VE имеет восемь ядер и пиковую производительность 2,15 или 2,45 терафлопс в двойной точности. Процессор впервые в мире оснащен шестью модулями HBM2 на кремниевом переходнике с общим объемом памяти 24 или 48 ГБ с высокой пропускной способностью. Он интегрирован в форм-фактор стандартной карты PCIe полной длины, полной высоты и двойной ширины, которая размещается на сервере x86_64, Vector Host (VH). На сервере может размещаться до восьми VE, кластеры VH могут масштабироваться до произвольного количества узлов. [1] [7] [2]
Релизы продуктов
[ редактировать ]Векторный движок версии 2 [8]
Артикул | 20А | 20Б |
---|---|---|
Тактовая частота (в ГГц) | 1.6 | 1.6 |
Количество ядер | 10 | 8 |
Пиковая производительность ядра (ГФЛОПС двойной точности) | 307 | 307 |
Пиковая производительность ядра (гигафлопс одинарной точности) | 614 | 614 |
Пиковая производительность процессора (терафлопс двойной точности) | 3.07 | 2.45 |
Пиковая производительность процессора (терафлопс одинарной точности) | 6.14 | 4.91 |
Пропускная способность памяти (ТБ/с) | 1.53 | 1.53 |
Объем памяти (ГБ) | 48 | 48 |
Векторный движок версии 1
Версия 1.0 Vector Engine производилась по 16-нм техпроцессу FinFET (от TSMC ) и выпускалась в трёх SKU (в последующих версиях добавляется буква E в конце): [9]
Артикул | 10А | 10Б | 10С | 10АЭ | 10BE | 10 н.э. |
---|---|---|---|---|---|---|
Тактовая частота (в ГГц) | 1.6 | 1.4 | 1.4 | 1.584 | 1.408 | 1.400 |
Количество ядер | 8 | 8 | 8 | 8 | 8 | 8 |
Пиковая производительность ядра (ГФЛОПС двойной точности) | 307.2 | 268.8 | 268.8 | 304 | 270 | 268 |
Пиковая производительность ядра (гигафлопс одинарной точности) | 537 | 608 | 540 | 537 | ||
Пиковая производительность процессора (терафлопс двойной точности) | 2.45 | 2.15 | 2.15 | 2.43 | 2.16 | 2.15 |
Пиковая производительность процессора (терафлопс одинарной точности) | 4.9 | 4.3 | 4.3 | 4.86 | 4.32 | 4.30 |
Пропускная способность памяти (ТБ/с) | 1.2 | 1.2 | 0.75 | 1.35 | 1.35 | 1.00 |
Объем памяти (ГБ) | 48 | 48 | 24 | 48 | 48 | 24 |
Функциональные единицы
[ редактировать ]Каждое из восьми ядер SX-Aurora имеет 64 логических векторных регистра. [10] Они имеют длину 256 x 64 бита и реализованы как сочетание конвейерных и 32-кратных параллельных модулей SIMD. Регистры подключены к трем блокам умножения и сложения с плавающей запятой FMA, которые могут работать параллельно, а также к двум арифметико-логическим блокам ALU, обрабатывающим операции с фиксированной запятой, а также каналу деления и квадратного корня. [10] Учитывая только блоки FMA и их 32-кратный SIMD-параллелизм, векторное ядро способно выполнять 192 операции двойной точности за цикл. [10] В «упакованных» векторных операциях, когда два значения одинарной точности загружаются в пространство одного слота двойной точности в векторных регистрах, векторный модуль выполняет вдвое больше операций за такт по сравнению с двойной точностью.
Скалярный процессор (SPU) обрабатывает невекторные инструкции на каждом из ядер.
Память и кэши
[ редактировать ]Память процессора SX-Aurora TSUBASA состоит из шести HBM2 высокоскоростных модулей памяти второго поколения, реализованных в том же корпусе, что и ЦП, с помощью технологии Chip-on-Wafer-on-Substrate. В зависимости от модели процессора модули HBM2 представляют собой 4 или 8 3D-модулей емкостью 4 или 8 ГБ каждый. Таким образом, процессоры SX-Aurora имеют память HBM2 объемом 24 или 48 ГБ. Модели, оснащенные большими модулями HBM2, имеют пропускную способность памяти 1,2 ТБ/с. [11]
Ядра векторного движка совместно используют 16 МБ кэша последнего уровня (LLC), кэша обратной записи, напрямую подключенного к векторным регистрам, и кэша L2 SPU. Размер строки кэша LLC составляет 128 байт. Приоритет хранения данных в LLC можно в некоторой степени контролировать программно, что позволяет программисту указать, какие переменные или массивы должны сохраняться в кеше, что сравнимо с функцией Advanced Data Buffer (ADB) NEC . SX-ACE .
Платформы
[ редактировать ]В настоящее время NEC продает векторный движок SX-Aurora TSUBASA, интегрированный в четыре платформы: [12] [9]
- A111-1: ПК в корпусе Tower с одной картой VE типа 10B.
- A101-1: ПК в корпусе Tower с одной картой VE типа 10CE.
- A311-4: масштабируемый сервер Xeon высотой 1U высотой 19 дюймов с двумя сокетами, монтируемый в стойку, оснащенный до четырех карт VE типа BE.
- A311-8: масштабируемый сервер Xeon высотой 4U высотой 19 дюймов с двумя сокетами и возможностью установки до восьми карт VE типа BE.
- А511-64: 19-дюймовая стойка, оснащенная 64 ВЭ типа АЕ. Это единственная конфигурация, которая продается явно как суперкомпьютер.
Внутри узла VH виртуальные устройства могут взаимодействовать друг с другом через PCIe. Большие параллельные системы, построенные с помощью SX-Aurora, используют Infiniband в настройке PeerDirect в качестве межсоединения.
NEC также продавала векторный движок SX-Aurora TSUBASA, интегрированный в пять платформ:
- A100-1: ПК в корпусе Tower с одной картой VE типа 10C.
- A300-2: однопроцессорный сервер Skylake высотой 1U, монтируемый в стойку, оснащенный двумя картами VE типа 10B или 10C.
- A300-4: сервер Skylake высотой 1U с двумя сокетами, монтируемый в стойку, оснащенный четырьмя картами VE типа 10B или 10C.
- A300-8: сервер Skylake высотой 4U с двумя сокетами, монтируемый в стойку, с поддержкой до восьми карт VE типа 10B или 10C.
- A500-64: стойка, оснащенная процессорами семейства Intel Xeon Silver 4100 или семейства Intel Xeon Gold 6100 и 32, 48 или 64 виртуальными процессорами типа 10A или 10B. [13]
Все типы имеют исключительно воздушное охлаждение, за исключением серии A500, в которой также используется водяное охлаждение.
Программное обеспечение
[ редактировать ]Операционная система
[ редактировать ]Операционная система векторного механизма (VE) называется «VEOS» и полностью перенесена на хост-систему, векторный хост (VH). [14] VEOS состоит из модулей ядра и демонов пользовательского пространства, которые:
- управлять процессами VE и их планированием на VE
- управлять адресными пространствами виртуальной памяти процессов VE
- обрабатывать передачи между памятью VH и VE с помощью механизмов VE DMA
- обрабатывать прерывания и исключения процессов VE, а также их системные вызовы. [15]
VEOS поддерживает многозадачность в VE, и почти все системные вызовы Linux поддерживаются в библиотеке VE libc. [15] Разгрузка служб операционной системы на VH устраняет дрожание ОС от VE за счет увеличения задержек. [15] Все пакеты, связанные с операционной системой VE, лицензируются по лицензии GNU General Public License и опубликованы на github.
Разработка программного обеспечения
[ редактировать ]Для разработчиков и клиентов компания NEC предлагает комплект средств разработки программного обеспечения. Он содержит запатентованные продукты и должен быть приобретен у NEC. SDK содержит:
- Компиляторы C, C++ и Fortran, поддерживающие автоматическую векторизацию и автоматическое распараллеливание, а также OpenMP. [16]
- Инструменты оптимизации производительности: ftraceviewer и veperf. [17]
- Оптимизированные числовые библиотеки для VE: BLAS, SBLAS, LAPACK, SCALAPACK, ASL, Heterosolver. [18]
NEC MPI также является собственной реализацией и соответствует спецификации стандарта MPI-3.1. [19]
Могут быть созданы гибридные программы, которые используют VE в качестве ускорителя для определенных функций ядра хоста, используя разгрузку VE C-API. [20] В некоторой степени разгрузка VE сравнима с OpenCL и CUDA, но обеспечивает более простой API и позволяет разрабатывать ядра на обычном C, C++ или Fortran и использовать практически любой системный вызов в VE. [ нужна ссылка ] Привязки Python к VEO доступны на github.
Сравнение математических функций
[ редактировать ]НЛК 1 | МКЛ | ДРУГОЙ | ||
---|---|---|---|---|
Линейная алгебра | Плотная матрица | ✓ | ✓ | ✓ |
Разреженная матрица | ✓ | ✓ | ✓ | |
Функция Преобразование | Фурье | ✓ | ✓ | ✓ |
Реальное-реальное (DCT, …) | ✓ | ✓ | ||
Лаплас , Вейвлет, … | ✓ | |||
Статистика | Генератор случайных чисел | ✓ | ✓ без MPI | ✓ без MPI |
Многомерность, регрессия,… | ✓ | |||
Другой | Сортировка | ✓ | ||
Специальные функции | ✓ | |||
Интегралы, производные, … | ✓ | |||
Код трафарета | ✓ | |||
Глубокое обучение | ✗ (планируется) | ✓ | ✓ |
1 NEC Numerical Library Collection — это коллекция математических библиотек, которые поддерживают разработку программ численного моделирования.
Ссылки
[ редактировать ]- ^ Jump up to: а б «NEC SX-Aurora TSUBASA — векторный двигатель» . www.nec.com . Проверено 20 марта 2018 г.
- ^ Jump up to: а б с д Морган, Тимоти Прикетт (27 октября 2017 г.). «Можно ли возродить векторные суперкомпьютеры?» . Следующая платформа .
- ^ «NEC выпускает новую линейку продуктов высокого класса для высокопроизводительных вычислений SX-Aurora TSUBASA» . НЭК . Проверено 21 марта 2018 г.
- ^ Имаи, Теруюки (2019), Герофи, Балаж; Исикава, Ютака; Ризен, Рольф; Вишневски, Роберт В. (ред.), «NEC Earth Simulator и SX-Aurora TSUBASA», Операционные системы для суперкомпьютеров и высокопроизводительных вычислений , Серия высокопроизводительных вычислений, том. 1, Сингапур: Springer, стр. 139–160, doi : 10.1007/978-981-13-6624-6_9 , ISBN. 978-981-13-6624-6 , S2CID 204811906
- ^ Морган, Тимоти Прикетт (22 ноября 2017 г.). «Глубокое погружение в векторный движок Aurora от NEC» . Следующая платформа . Проверено 2 июля 2020 г.
- ^ Фохт, Эрих. «Первые шаги с векторным движком SX-Aurora TSUBASA» . sx-aurora.github.io . Проверено 2 июля 2020 г.
- ^ Брошюра SX-Aurora TSUBASA
- ^ «Модели векторных двигателей NEC» . www.nec.com . Проверено 15 сентября 2020 г.
- ^ Jump up to: а б «SX-Аврора ЦУБАСА» (PDF) . Корпорация НЭК . февраль 2020.
- ^ Jump up to: а б с «Архитектура NEC SX-Aurora TSUBASA» . www.nec.com . Проверено 20 марта 2018 г.
- ^ «SX-Aurora — Микроархитектуры — NEC — WikiChip» . ru.wikichip.org . Проверено 2 июля 2020 г.
- ^ «NEC SX-Аврора ЦУБАСА» .
- ^ «NEC SX-Aurora TSUBASA A500-64» . www.nec.com .
- ^ «NEC SX Aurora TSUBASA — документация VSC 1.0» . vlaams-supercomputing-centrum-vscdocumentation.readthedocs-hosted.com . Проверено 2 июля 2020 г.
- ^ Jump up to: а б с «Взгляд на новейший векторный процессор NEC, SX-Aurora» . Викичип-предохранитель . 09.12.2018 . Проверено 27 августа 2020 г.
- ^ «NEC SX Aurora TSUBASA — документация VSC 1.0» . vlaams-supercomputing-centrum-vscdocumentation.readthedocs-hosted.com . Проверено 27 августа 2020 г.
- ^ «Документация NEC SX-Aurora TSUBASA» .
- ^ «Векторная система NEC SX-Aurora TSUBASA» . Дата-центр ЦАУ . Проверено 27 августа 2020 г.
- ^ «Руководство пользователя NEC MPI» .
- ^ "SX-Аврора/veoffload" . Гитхаб . Проверено 21 марта 2018 г.
Внешние ссылки
[ редактировать ]- NEC SX-Аврора ЦУБАСА
- Новости и статьи для SX-Aurora Vector Engine.
- Форум НЭК Аврора
- VEOS для SX-Aurora TSUBASA
- SX-Aurora: Сборник инструментов и проектов