Когерентный интерфейс процессора-ускорителя

Когерентный интерфейс процессора-ускорителя
Год создания	2014 год ; 10 лет назад
Создано	ИБМ ;

Coherent Accelerator Processor Interface ( CAPI ) — это стандарт высокоскоростной шины расширения процессора для использования в больших компьютерах центров обработки данных , изначально предназначенный для наложения поверх PCI Express для прямого подключения центральных процессоров (ЦП) к внешним ускорителям, таким как графика. процессоры (GPU), ASIC , FPGA или быстрое хранилище. ^[1]^[2] Он обеспечивает низкую задержку, высокую скорость и прямой доступ к памяти между устройствами с различными архитектурами набора команд .

История

Масштабирование производительности, традиционно связанное с законом Мура , начиная с 1965 года, начало снижаться примерно в 2004 году, когда и архитектура Prescott от IBM от Intel, и процессор Cell приблизились к рабочей частоте 4 ГГц. Здесь оба проекта столкнулись с проблемой теплового накипи, из-за которой проблемы отвода тепла, связанные с дальнейшим увеличением рабочей частоты, в значительной степени перевешивали выгоды от более короткого времени цикла.

В последующее десятилетие лишь немногие коммерческие продукты ЦП превышали частоту 4 ГГц, при этом большая часть улучшений производительности теперь достигается за счет постепенного улучшения микроархитектуры, лучшей системной интеграции и более высокой плотности вычислений — в основном в форме упаковки большего количества независимых ядер в процессоры. один и тот же кристалл, часто за счет пиковой рабочей частоты (24-ядерный процессор Intel Xeon E7-8890 с июня 2016 года имеет базовую рабочую частоту всего 2,2 ГГц, что позволяет работать в пределах однопроцессорного энергопотребления 165 Вт). и бюджет охлаждения).

Там, где был достигнут значительный прирост производительности, это часто было связано со все более специализированными вычислительными блоками, такими как блоки графического процессора, добавленные к кристаллу процессора, или внешние ускорители на основе графического процессора или FPGA. Во многих приложениях ускорители сталкиваются с ограничениями производительности межсоединения (пропускная способность и задержка) или с ограничениями, связанными с архитектурой межсоединения (например, отсутствием согласованности памяти). Особенно в центрах обработки данных улучшение межсоединений стало первостепенным при переходе к гетерогенной архитектуре, в которой оборудование все больше адаптируется к конкретным вычислительным нагрузкам.

CAPI был разработан, чтобы компьютеры могли более легко и эффективно подключать специализированные ускорители. Работы с интенсивным использованием памяти и вычислений, такие как умножение матриц для глубоких нейронных сетей, можно выгрузить на платформы с поддержкой CAPI. ^[3] Он был разработан IBM для использования в своих системах на базе POWER8 , которые вышли на рынок в 2014 году. В то же время IBM и несколько других компаний основали OpenPOWER Foundation для создания экосистемы вокруг технологий на базе Power , включая CAPI. В октябре 2016 года несколько партнеров OpenPOWER сформировали консорциум OpenCAPI вместе с разработчиками графических процессоров и процессоров AMD и системными разработчиками Dell EMC и Hewlett Packard Enterprise, чтобы распространить технологию за пределы OpenPOWER и IBM. ^[4]

1 августа 2022 года спецификации и активы OpenCAPI были переданы консорциуму Compute Express Link (CXL). ^[5]

Выполнение

НАЧАЛЬНИКИ

CAPI реализован как функциональный блок внутри ЦП, называемый прокси-сервером процессора когерентного ускорителя (CAPP), с соответствующим блоком на ускорителе, называемым уровнем обслуживания мощности (PSL). Модули CAPP и PSL действуют как каталог кэша, поэтому подключенное устройство и ЦП могут использовать одно и то же согласованное пространство памяти, а ускоритель становится функциональным блоком ускорителя (AFU), равноправным по отношению к другим функциональным блокам, интегрированным в ЦП. ^[6]^[7]

Поскольку ЦП и AFU используют одно и то же пространство памяти, можно достичь низкой задержки и высоких скоростей, поскольку ЦП не нужно выполнять преобразование памяти и перетасовку памяти между основной памятью ЦП и пространствами памяти ускорителя. Приложение может использовать ускоритель без специальных драйверов устройств, поскольку все включено общим расширением ядра CAPI в операционной системе хоста. ЦП и PSL могут читать и записывать непосредственно в память и регистры друг друга, как того требует приложение.

НАЧАЛЬНИКИ

CAPI расположен поверх PCIe Gen 3 , использует 16 линий PCIe и представляет собой дополнительную функциональность для слотов PCIe в системах с поддержкой CAPI. Обычно на таких машинах имеются специальные слоты PCIe с поддержкой CAPI. Поскольку на каждый процессор POWER8 приходится только один CAPP, количество возможных блоков CAPI определяется количеством процессоров POWER8, независимо от количества слотов PCIe. В некоторых системах POWER8 IBM использует двухчиповые модули, тем самым удваивая емкость CAPI на процессорный разъем.

Традиционные транзакции между устройством PCIe и ЦП могут выполнять около 20 000 операций, тогда как устройство, подключенное к CAPI, будет использовать только около 500, что значительно снижает задержку и эффективно увеличивает пропускную способность за счет уменьшения накладных расходов на операции. ^[7]

Общая пропускная способность порта CAPI определяется базовой технологией PCIe 3.0 x16 и достигает максимальной скорости около 16 ГБ/с в двунаправленном режиме. ^[8]

ГЛАВА 2

CAPI-2 — это постепенное развитие технологии, представленной в процессоре IBM POWER9. ^[8] Он работает на базе PCIe Gen 4, что эффективно удваивает производительность до 32 ГБ/с. Он также представляет некоторые новые функции, такие как поддержка DMA и Atomics из ускорителя.

OpenCAPI

Технология, лежащая в основе OpenCAPI, регулируется Консорциумом OpenCAPI , основанным в октябре 2016 года компаниями AMD , Google , IBM , Mellanox и Micron совместно с партнерами Nvidia , Hewlett Packard Enterprise , Dell EMC и Xilinx . ^[9]

ОпенКАПИ 3

OpenCAPI, ранее известный как New CAPI или CAPI 3.0 , не является надстройкой над PCIe и поэтому не будет использовать слоты PCIe. В процессоре IBM POWER9 он будет использовать механизм ввода-вывода Bluelink 25G , который используется совместно с NVLink 2.0 , с максимальной скоростью 50 ГБ/с. ^[10] OpenCAPI не нуждается в модуле PSL (необходимом для CAPI 1 и 2) в ускорителе, поскольку он не расположен поверх PCIe, а использует собственный протокол транзакций. ^[11]

ОпенКАПИ 4

Планируется для будущего чипа после общего выпуска POWER9. ^[12]

ВОДА

Интерфейс памяти OpenCAPI (OMI) — это технология последовательного подключения оперативной памяти, основанная на OpenCAPI, обеспечивающая соединение с низкой задержкой и высокой пропускной способностью для основной памяти. OMI использует микросхему контроллера в модулях памяти, которая позволяет применять независимый от технологии подход к тому, что используется в модулях, будь то DDR4 , DDR5 , HBM или энергонезависимое ОЗУ класса хранения . Таким образом, ЦП на базе OMI может изменить тип ОЗУ путем замены модулей памяти.

Последовательное соединение занимает меньше места для интерфейса на кристалле ЦП, поэтому потенциально позволяет использовать больше их по сравнению с использованием обычной памяти DDR.

OMI реализован в процессоре IBM Power10 , который имеет 8 встроенных контроллеров памяти OMI, что позволяет использовать 4 ТБ ОЗУ и пропускную способность памяти 410 ГБ/с на процессор. Эти модули DDIMM (модуль дифференциальной динамической памяти) включают в себя контроллер OMI и буфер памяти и могут адресовать отдельные микросхемы памяти в целях отказоустойчивости и резервирования.

Microchip Technology производит контроллер OMI на модулях DDIMM. Их память SMC 1000 OpenCAPI описывается как «следующий прогресс на рынке, использующий память с последовательным подключением». ^[13]

См. также

Наследие

Современный

Ссылки

^ Агам Шах (17 декабря 2014 г.). «Новый Power8 от IBM удваивает производительность чипа Watson» . Мир ПК . Архивировано из оригинала 1 февраля 2018 года . Проверено 17 декабря 2014 г.
^ «Подробное описание процессора IBM Power8: 22-нм техпроцесс, 12 ядер, 96 МБ кэш-памяти eDRAM L3 и тактовая частота 4 ГГц» . WCCFtech . 27 августа 2013 года . Проверено 17 декабря 2014 г.
^ Доктор Сиадус Сефат, Семих Аслан, Джеффри В. Келлингтон, Апан Касем (03 октября 2019 г.). «Ускорение горячих точек в глубоких нейронных сетях на FPGA на основе CAPI» . 21-я Международная конференция IEEE по высокопроизводительным вычислениям и коммуникациям, 2019 г.; 17-я Международная конференция IEEE по «умному городу»; 5-я Международная конференция IEEE по науке о данных и системам (HPCC/Smart City /DSS) . IEEE. стр. 248–256. doi : 10.1109/HPCC/SmartCity/DSS.2019.00048 . ISBN 978-1-7281-2058-4 . S2CID 203656070 . {{cite book}}: CS1 maint: несколько имен: список авторов ( ссылка )
^ Представление OpenCAPI: AMD, IBM, Google, Xilinx, Micron и Mellanox объединяют усилия в эпоху гетерогенных вычислений
^ Консорциум CXL и Консорциум OpenCAPI подписывают письмо о намерении передать спецификации OpenCAPI в CXL
^ Интерфейс когерентного ускорителя процессора (CAPI) для систем POWER8 — технический документ
^ Перейти обратно: ^а ^б Реконфигурируемые ускорители для больших данных и облака – RAW 2016
^ Перейти обратно: ^а ^б Открытие серверной шины для когерентного ускорения
^ Технические лидеры объединяются, чтобы реализовать новые конструкции серверов облачных центров обработки данных для больших данных, машинного обучения, аналитики и других новых рабочих нагрузок.
^ Big Blue стремится к небу с силой9
^ OpenCAPI берет на себя PCIe и обещает десятикратное улучшение
^ Стючели, Джефф (26 января 2017 г.). «Вебинар POWER9» (Видеозапись/слайды) . Группа виртуальных пользователей AIX. - Слайды _(PDF) - на странице AIX VUG есть ссылки на слайды и видео.
^ Патрик Кеннеди (5 августа 2019 г.), Microchip SMC 1000 для будущего последовательной памяти , Servethehome

Внешние ссылки

[pcworld-1] Агам Шах (17 декабря 2014 г.). «Новый Power8 от IBM удваивает производительность чипа Watson» . Мир ПК . Архивировано из оригинала 1 февраля 2018 года . Проверено 17 декабря 2014 г.

[wccftech-2] «Подробное описание процессора IBM Power8: 22-нм техпроцесс, 12 ядер, 96 МБ кэш-памяти eDRAM L3 и тактовая частота 4 ГГц» . WCCFtech . 27 августа 2013 года . Проверено 17 декабря 2014 г.

[3] Доктор Сиадус Сефат, Семих Аслан, Джеффри В. Келлингтон, Апан Касем (03 октября 2019 г.). «Ускорение горячих точек в глубоких нейронных сетях на FPGA на основе CAPI» . 21-я Международная конференция IEEE по высокопроизводительным вычислениям и коммуникациям, 2019 г.; 17-я Международная конференция IEEE по «умному городу»; 5-я Международная конференция IEEE по науке о данных и системам (HPCC/Smart City /DSS) . IEEE. стр. 248–256. doi : 10.1109/HPCC/SmartCity/DSS.2019.00048 . ISBN 978-1-7281-2058-4 . S2CID 203656070 . {{cite book}}: CS1 maint: несколько имен: список авторов ( ссылка )

[4] Представление OpenCAPI: AMD, IBM, Google, Xilinx, Micron и Mellanox объединяют усилия в эпоху гетерогенных вычислений

[5] Консорциум CXL и Консорциум OpenCAPI подписывают письмо о намерении передать спецификации OpenCAPI в CXL

[6] Интерфейс когерентного ускорителя процессора (CAPI) для систем POWER8 — технический документ

[RAWkeynote-7] Перейти обратно: ^а ^б Реконфигурируемые ускорители для больших данных и облака – RAW 2016

[nextplatform-capi-8] Перейти обратно: ^а ^б Открытие серверной шины для когерентного ускорения

[9] Технические лидеры объединяются, чтобы реализовать новые конструкции серверов облачных центров обработки данных для больших данных, машинного обучения, аналитики и других новых рабочих нагрузок.

[10] Big Blue стремится к небу с силой9

[11] OpenCAPI берет на себя PCIe и обещает десятикратное улучшение

[power9_webinar-12] Стючели, Джефф (26 января 2017 г.). «Вебинар POWER9» (Видеозапись/слайды) . Группа виртуальных пользователей AIX. - Слайды _(PDF) - на странице AIX VUG есть ссылки на слайды и видео.

[13] Патрик Кеннеди (5 августа 2019 г.), Microchip SMC 1000 для будущего последовательной памяти , Servethehome

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

v т и Технические и фактические стандарты для проводных компьютерных шин
Общий	Системная шина Фронтальный автобус Задняя сторона автобуса Цепочка гирлянд Шина управления Адресная шина Разногласия в автобусе Освоение автобусов Сеть на чипе Подключи и играй Список пропускной способности шины
Стандарты	Автобус СС-50 Автобус С-100 Для многих Юнибус ВАКСБИ МБус Автобус STD SMBus Q-шина Европейский карточный автобус ОДИН STEbus Фокс II Зорро III КАМАК ФАСТБУС ЛПК Прецизионная шина HP ЕИСА УМЭ VXI VXS ВПХ Нубус ТУРБОканал МКА SBus ВЛБ Автобус HP GSC ИнфиниБэнд Ethernet УПА PCI Расширенный PCI (PCI-X) PXI PCI Express (PCIe) АГП Вычислительная экспресс-ссылка (CXL) Прямой медиаинтерфейс (DMI) РапидИО Межблочное соединение Intel QuickPath НВЛинк ГиперТранспорт Бесконечная ткань Межблочное соединение Intel Ultra Path Когерентный интерфейс процессора-ускорителя (CAPI) SpaceWire
Хранилище	СТ-506 ЭСДИ ИПИ СМД Параллельный ATA (PATA) Автобус и тег ДССИ HIPPI Последовательный АТА (SATA) SCSI Параллельно САС ЭСКОН оптоволоконный канал ССА САТА PCI Express (через AHCI или NVMe ) интерфейс логического устройства
Периферийное устройство	Настольная шина Apple Атари НЕ DCB Коммодорский автобус HP-IL УМИРАТЬ МИДИ РС-232 РС-422 РС-423 RS-485 Молния DMX512-А IEEE-488 (GPIB) IEEE-1284 (параллельный порт) IEEE-1394 (FireWire) УНИ/О 1-проводной I²C ( ACCESS.bus , PMBus , SMBus ) I3C СПИ D²B Параллельный SCSI Профибус USB Ссылка на камеру Внешний PCIe Удар молнии
Аудио	Световая трубка ADAT AES3 Intel HD Аудио I²S МАДИ МакАСП S/PDIF ТОСЛИНК
Портативный	ПК-карта ЭкспрессКарта
Встроенный	Многоточечный автобус CoreConnect АМБА ( Акси ) Поперечный рычаг БОЛЬНОЙ
Интерфейсы перечислены по их скорости (примерно) в порядке возрастания, поэтому интерфейс в конце каждого раздела должен быть самым быстрым. Категория