Когерентный интерфейс процессора-ускорителя
Год создания | 2014 год |
---|---|
Создано |
Coherent Accelerator Processor Interface ( CAPI ) — это стандарт высокоскоростной шины расширения процессора для использования в больших компьютерах центров обработки данных , изначально предназначенный для наложения поверх PCI Express для прямого подключения центральных процессоров (ЦП) к внешним ускорителям, таким как графика. процессоры (GPU), ASIC , FPGA или быстрое хранилище. [1] [2] Он обеспечивает низкую задержку, высокую скорость и прямой доступ к памяти между устройствами с различными архитектурами набора команд .
История
[ редактировать ]Масштабирование производительности, традиционно связанное с законом Мура , начиная с 1965 года, начало снижаться примерно в 2004 году, когда и архитектура Prescott от IBM от Intel, и процессор Cell приблизились к рабочей частоте 4 ГГц. Здесь оба проекта столкнулись с проблемой теплового накипи, из-за которой проблемы отвода тепла, связанные с дальнейшим увеличением рабочей частоты, в значительной степени перевешивали выгоды от более короткого времени цикла.
В последующее десятилетие лишь немногие коммерческие продукты ЦП превышали частоту 4 ГГц, при этом большая часть улучшений производительности теперь достигается за счет постепенного улучшения микроархитектуры, лучшей системной интеграции и более высокой плотности вычислений — в основном в форме упаковки большего количества независимых ядер в процессоры. один и тот же кристалл, часто за счет пиковой рабочей частоты (24-ядерный процессор Intel Xeon E7-8890 с июня 2016 года имеет базовую рабочую частоту всего 2,2 ГГц, что позволяет работать в пределах однопроцессорного энергопотребления 165 Вт). и бюджет охлаждения).
Там, где был достигнут значительный прирост производительности, это часто было связано со все более специализированными вычислительными блоками, такими как блоки графического процессора, добавленные к кристаллу процессора, или внешние ускорители на основе графического процессора или FPGA. Во многих приложениях ускорители сталкиваются с ограничениями производительности межсоединения (пропускная способность и задержка) или с ограничениями, связанными с архитектурой межсоединения (например, отсутствием согласованности памяти). Особенно в центрах обработки данных улучшение межсоединений стало первостепенным при переходе к гетерогенной архитектуре, в которой оборудование все больше адаптируется к конкретным вычислительным нагрузкам.
CAPI был разработан, чтобы компьютеры могли более легко и эффективно подключать специализированные ускорители. Работы с интенсивным использованием памяти и вычислений, такие как умножение матриц для глубоких нейронных сетей, можно выгрузить на платформы с поддержкой CAPI. [3] Он был разработан IBM для использования в своих системах на базе POWER8 , которые вышли на рынок в 2014 году. В то же время IBM и несколько других компаний основали OpenPOWER Foundation для создания экосистемы вокруг технологий на базе Power , включая CAPI. В октябре 2016 года несколько партнеров OpenPOWER сформировали консорциум OpenCAPI вместе с разработчиками графических процессоров и процессоров AMD и системными разработчиками Dell EMC и Hewlett Packard Enterprise, чтобы распространить технологию за пределы OpenPOWER и IBM. [4]
1 августа 2022 года спецификации и активы OpenCAPI были переданы консорциуму Compute Express Link (CXL). [5]
Выполнение
[ редактировать ]НАЧАЛЬНИКИ
[ редактировать ]CAPI реализован как функциональный блок внутри ЦП, называемый прокси-сервером процессора когерентного ускорителя (CAPP), с соответствующим блоком на ускорителе, называемым уровнем обслуживания мощности (PSL). Модули CAPP и PSL действуют как каталог кэша, поэтому подключенное устройство и ЦП могут использовать одно и то же согласованное пространство памяти, а ускоритель становится функциональным блоком ускорителя (AFU), равноправным по отношению к другим функциональным блокам, интегрированным в ЦП. [6] [7]
Поскольку ЦП и AFU используют одно и то же пространство памяти, можно достичь низкой задержки и высоких скоростей, поскольку ЦП не нужно выполнять преобразование памяти и перетасовку памяти между основной памятью ЦП и пространствами памяти ускорителя. Приложение может использовать ускоритель без специальных драйверов устройств, поскольку все включено общим расширением ядра CAPI в операционной системе хоста. ЦП и PSL могут читать и записывать непосредственно в память и регистры друг друга, как того требует приложение.
НАЧАЛЬНИКИ
[ редактировать ]CAPI расположен поверх PCIe Gen 3 , использует 16 линий PCIe и представляет собой дополнительную функциональность для слотов PCIe в системах с поддержкой CAPI. Обычно на таких машинах имеются специальные слоты PCIe с поддержкой CAPI. Поскольку на каждый процессор POWER8 приходится только один CAPP, количество возможных блоков CAPI определяется количеством процессоров POWER8, независимо от количества слотов PCIe. В некоторых системах POWER8 IBM использует двухчиповые модули, тем самым удваивая емкость CAPI на процессорный разъем.
Традиционные транзакции между устройством PCIe и ЦП могут выполнять около 20 000 операций, тогда как устройство, подключенное к CAPI, будет использовать только около 500, что значительно снижает задержку и эффективно увеличивает пропускную способность за счет уменьшения накладных расходов на операции. [7]
Общая пропускная способность порта CAPI определяется базовой технологией PCIe 3.0 x16 и достигает максимальной скорости около 16 ГБ/с в двунаправленном режиме. [8]
ГЛАВА 2
[ редактировать ]CAPI-2 — это постепенное развитие технологии, представленной в процессоре IBM POWER9. [8] Он работает на базе PCIe Gen 4, что эффективно удваивает производительность до 32 ГБ/с. Он также представляет некоторые новые функции, такие как поддержка DMA и Atomics из ускорителя.
OpenCAPI
[ редактировать ]Технология, лежащая в основе OpenCAPI, регулируется Консорциумом OpenCAPI , основанным в октябре 2016 года компаниями AMD , Google , IBM , Mellanox и Micron совместно с партнерами Nvidia , Hewlett Packard Enterprise , Dell EMC и Xilinx . [9]
ОпенКАПИ 3
[ редактировать ]OpenCAPI, ранее известный как New CAPI или CAPI 3.0 , не является надстройкой над PCIe и поэтому не будет использовать слоты PCIe. В процессоре IBM POWER9 он будет использовать механизм ввода-вывода Bluelink 25G , который используется совместно с NVLink 2.0 , с максимальной скоростью 50 ГБ/с. [10] OpenCAPI не нуждается в модуле PSL (необходимом для CAPI 1 и 2) в ускорителе, поскольку он не расположен поверх PCIe, а использует собственный протокол транзакций. [11]
ОпенКАПИ 4
[ редактировать ]Планируется для будущего чипа после общего выпуска POWER9. [12]
ВОДА
[ редактировать ]Интерфейс памяти OpenCAPI (OMI) — это технология последовательного подключения оперативной памяти, основанная на OpenCAPI, обеспечивающая соединение с низкой задержкой и высокой пропускной способностью для основной памяти. OMI использует микросхему контроллера в модулях памяти, которая позволяет применять независимый от технологии подход к тому, что используется в модулях, будь то DDR4 , DDR5 , HBM или энергонезависимое ОЗУ класса хранения . Таким образом, ЦП на базе OMI может изменить тип ОЗУ путем замены модулей памяти.
Последовательное соединение занимает меньше места для интерфейса на кристалле ЦП, поэтому потенциально позволяет использовать больше их по сравнению с использованием обычной памяти DDR.
OMI реализован в процессоре IBM Power10 , который имеет 8 встроенных контроллеров памяти OMI, что позволяет использовать 4 ТБ ОЗУ и пропускную способность памяти 410 ГБ/с на процессор. Эти модули DDIMM (модуль дифференциальной динамической памяти) включают в себя контроллер OMI и буфер памяти и могут адресовать отдельные микросхемы памяти в целях отказоустойчивости и резервирования.
Microchip Technology производит контроллер OMI на модулях DDIMM. Их память SMC 1000 OpenCAPI описывается как «следующий прогресс на рынке, использующий память с последовательным подключением». [13]
См. также
[ редактировать ]Наследие
Современный
Ссылки
[ редактировать ]- ^ Агам Шах (17 декабря 2014 г.). «Новый Power8 от IBM удваивает производительность чипа Watson» . Мир ПК . Архивировано из оригинала 1 февраля 2018 года . Проверено 17 декабря 2014 г.
- ^ «Подробное описание процессора IBM Power8: 22-нм техпроцесс, 12 ядер, 96 МБ кэш-памяти eDRAM L3 и тактовая частота 4 ГГц» . WCCFtech . 27 августа 2013 года . Проверено 17 декабря 2014 г.
- ^ Доктор Сиадус Сефат, Семих Аслан, Джеффри В. Келлингтон, Апан Касем (03 октября 2019 г.). «Ускорение горячих точек в глубоких нейронных сетях на FPGA на основе CAPI» . 21-я Международная конференция IEEE по высокопроизводительным вычислениям и коммуникациям, 2019 г.; 17-я Международная конференция IEEE по «умному городу»; 5-я Международная конференция IEEE по науке о данных и системам (HPCC/Smart City /DSS) . IEEE. стр. 248–256. doi : 10.1109/HPCC/SmartCity/DSS.2019.00048 . ISBN 978-1-7281-2058-4 . S2CID 203656070 .
{{cite book}}
: CS1 maint: несколько имен: список авторов ( ссылка ) - ^ Представление OpenCAPI: AMD, IBM, Google, Xilinx, Micron и Mellanox объединяют усилия в эпоху гетерогенных вычислений
- ^ Консорциум CXL и Консорциум OpenCAPI подписывают письмо о намерении передать спецификации OpenCAPI в CXL
- ^ Интерфейс когерентного ускорителя процессора (CAPI) для систем POWER8 — технический документ
- ^ Перейти обратно: а б Реконфигурируемые ускорители для больших данных и облака – RAW 2016
- ^ Перейти обратно: а б Открытие серверной шины для когерентного ускорения
- ^ Технические лидеры объединяются, чтобы реализовать новые конструкции серверов облачных центров обработки данных для больших данных, машинного обучения, аналитики и других новых рабочих нагрузок.
- ^ Big Blue стремится к небу с силой9
- ^ OpenCAPI берет на себя PCIe и обещает десятикратное улучшение
- ^ Стючели, Джефф (26 января 2017 г.). «Вебинар POWER9» (Видеозапись/слайды) . Группа виртуальных пользователей AIX. - Слайды (PDF) - на странице AIX VUG есть ссылки на слайды и видео.
- ^ Патрик Кеннеди (5 августа 2019 г.), Microchip SMC 1000 для будущего последовательной памяти , Servethehome