QPACE2
QPACE 2 ( QCD Parallel Computing Engine) — это с массовым параллелизмом масштабируемый суперкомпьютер . Он был разработан для приложений в решеточной квантовой хромодинамике , но также подходит для более широкого круга приложений.
Обзор
[ редактировать ]QPACE 2 — это продолжение QPACE. суперкомпьютера [1] и iDataCool . проект охлаждения горячей водой [2] Это совместная работа группы физики элементарных частиц Регенсбургского университета и итальянской компании Eurotech . Академическая проектная группа состояла примерно из 10 младших и старших физиков. Подробности проекта описаны в . [3]
QPACE 2 использует процессоры Intel Xeon Phi (также известные как KNC), соединенные между собой комбинацией PCI Express (сокращенно PCIe) и FDR InfiniBand . Основные особенности прототипа QPACE 2, установленного в Регенсбургском университете:
- масштабируемость
- высокая плотность упаковки
- охлаждение теплой водой (чиллеры не требуются)
- высокая энергоэффективность
- экономичный дизайн
Прототип представляет собой одностоечную установку, состоящую из 64 узлов с общим числом физических ядер 15 872 и пиковой производительностью 310 терафлопс/с. Он был развернут летом 2015 года. [4] и используется для моделирования решеточной квантовой хромодинамики . В ноябре 2015 года QPACE 2 занял 500-е место в списке Top500 самых мощных суперкомпьютеров. [5] и 15-е место в списке Green 500 самых энергоэффективных суперкомпьютеров мира. [6]
QPACE 2 финансировался Немецким исследовательским фондом (DFG) в рамках SFB/TRR-55 и компанией Eurotech .
Архитектура
[ редактировать ]Многие современные суперкомпьютеры имеют гибридную архитектуру, в которой для повышения производительности вычислений используются карты-ускорители с интерфейсом PCIe. Как правило, серверные процессоры поддерживают лишь ограниченное количество ускорителей из-за ограниченного количества линий PCIe (обычно 40 для архитектуры Intel Haswell ). Обычный подход к интеграции нескольких плат-ускорителей в хост-систему заключается в организации нескольких серверных процессоров, обычно двух или четырех, в качестве распределенных систем с общей памятью. Этот подход позволяет использовать большее количество ускорителей на вычислительный узел из-за большего количества линий PCIe. Однако он также имеет ряд недостатков:
- Серверные процессоры, их межсоединения ( QPI для процессоров Intel) и микросхемы памяти значительно увеличивают занимаемую площадь хост-системы.
- Затраты на разработку мультипроцессора обычно высоки.
- Серверные процессоры вносят значительный вклад в общую мощность гибридных компьютерных архитектур и требуют соответствующих мощностей охлаждения.
- Соединение с процессором сервера может препятствовать эффективной связи внутри узла и налагать ограничения на производительность связи между узлами через внешнюю сеть.
- Вычислительная производительность серверных процессоров обычно на порядок ниже, чем у карт-ускорителей, поэтому их вклад в общую производительность может быть весьма небольшим.
- Архитектуры набора команд и аппаратные ресурсы серверных процессоров и ускорителей существенно различаются. Поэтому не всегда возможно разработать код и выполнить его на обеих архитектурах.
Архитектура QPACE 2 устраняет эти недостатки за счет конструкции узла, в которой один хост-процессор Intel Haswell E3 с низким энергопотреблением вмещает четыре карты ускорителя Xeon Phi 7120X для вычислительной мощности и одну двухпортовую FDR InfiniBand сетевую карту для внешней связи. Для этого компоненты внутри узла соединяются между собой коммутатором PCIe с 96 линиями.
Стойка QPACE 2 содержит 64 вычислительных узла (и, следовательно, Xeon Phi всего 256 ускорителей ). По 32 узла находятся на передней и задней стороне стойки. Подсистема электропитания состоит из 48 источников питания, которые обеспечивают суммарную пиковую мощность 96 кВт. QPACE 2 использует решение для охлаждения теплой водой для достижения такой компоновки и плотности мощности.
Вычислительный узел
[ редактировать ]Узел QPACE 2 состоит из обычного оборудования, соединенного между собой посредством PCIe . На соединительной панели установлен 96-канальный коммутатор PCIe (PEX8796 от Avago, ранее PLX Technology), шесть 16-канальных слотов PCIe Gen3 и подается питание на все слоты. Один слот используется для карты ЦП , которая представляет собой карту форм-фактора PCIe, содержащую один серверный процессор Intel Haswell E3-1230L v3 с 16 ГБ памяти DDR3, а также микроконтроллер для мониторинга и управления узлом. Четыре слота используются для карт Xeon Phi 7120X с 16 ГБ GDDR5 каждая и один слот для двухпортовой FDR InfiniBand сетевой карты (Connect-IB от Mellanox).
Соединительная плата и плата ЦП были разработаны для проекта QPACE 2, но их можно повторно использовать для других проектов или продуктов.
Серверный процессор Intel E3-1230L v3 с низким энергопотреблением является энергоэффективным, но слабым по вычислительной мощности по сравнению с другими серверными процессорами, доступными примерно в 2015 году (и, в частности, слабее, чем большинство карт-ускорителей). ЦП не вносит существенного вклада в вычислительную мощность узла. Он просто запускает операционную систему и соответствующие системные драйверы. Технически ЦП служит корневым комплексом структуры PCIe. Коммутатор PCIe расширяет ограниченное количество линий PCIe центрального процессора до 80, что позволяет подключать множество компонентов (4 Xeon Phi и 1 InfiniBand, каждый x16 PCIe) к ЦП в качестве конечных точек PCIe . Эта архитектура также позволяет Xeon Phis осуществлять одноранговую связь через PCIe и напрямую обращаться к внешней сети без необходимости использования центрального процессора.
Каждый узел QPACE 2 содержит 248 физических ядер (хост-ЦП: 4, Xeon Phi: 61 каждое). Хост-процессор и ускорители поддерживают многопоточность . Количество логических ядер на узел — 984.
Конструкция узла не ограничивается компонентами, используемыми в QPACE 2. В принципе, можно использовать любые карты, поддерживающие PCIe, например ускорители, такие как графические процессоры , и другие сетевые технологии, кроме InfiniBand, при условии соблюдения форм-фактора и характеристик мощности. .
Сети
[ редактировать ]Внутриузловая связь осуществляется через коммутатор PCIe без участия ЦП хоста. Межузловая связь основана на FDR InfiniBand. Топология сети InfiniBand представляет собой двумерную гиперперемычку. Это означает, что строится двумерная сетка коммутаторов InfiniBand, и два порта InfiniBand узла подключаются к одному коммутатору в каждом из измерений. Топология гиперперекладин была впервые представлена японской коллаборацией физиков элементарных частиц CP-PACS. [7]
Сеть InfiniBand также используется для ввода-вывода в файловую систему Lustre .
Карта ЦП предоставляет два интерфейса Gigabit Ethernet , которые используются для управления узлами и загрузки операционной системы.
Охлаждение
[ редактировать ]Узлы суперкомпьютера QPACE 2 охлаждаются водой с использованием инновационной концепции, основанной на технологии Roll-Bond . [8] Вода протекает через пластину, изготовленную из алюминия, которая термически соединена с горячими компонентами через алюминиевые или медные прокладки и термопасту или материал термоинтерфейса. Таким образом охлаждаются все компоненты узла. Эффективность концепции охлаждения обеспечивает естественное охлаждение круглый год.
Потребляемая мощность узла в синтетических тестах составила до 1400 Вт. Для типичных вычислений в решеточной квантовой хромодинамике необходимо около 1000 Вт.
Системное программное обеспечение
[ редактировать ]Бездисковые узлы работают с использованием стандартного дистрибутива Linux ( CentOS 7 ), который загружается по сети Ethernet. На Xeon Phs используется свободно доступный стек программного обеспечения платформы Intel Manycore (MPSS). Связь InfiniBand основана на стеке OFED , который также доступен бесплатно.
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Х. Байер и др., PoS LAT2009 (2009) 001 , ( arXiv : 0911.2174 )
- ^ Н. Мейер и др., Конспекты лекций по информатике 7905 (2013) 383 , ( arXiv : 1309.4887 )
- ^ П. Артс и др., PoS LAT2014 (2014) 021 , ( arXiv : 1502.04025 )
- ^ Пресс-релиз Евротех
- ^ Список Top500, ноябрь 2015 г., http://top500.org/system/178607.
- ^ Список Green500, ноябрь 2015 г., http://green500.org/lists/green201511&green500from=1&green500to=100.
- ^ Ю. Ивасаки, Nucl. Физ. Учеб. Доп. 34 (1994) 78 , ( arXiv : hep-lat/9401030 )
- ^ Дж. Беддос и М. Бибби, Принципы процессов производства металлов , Elsevier Science (1999).