Jump to content

Когерентный интерфейс процессора-ускорителя

Когерентный интерфейс процессора-ускорителя
Год создания 2014 год ; 10 лет назад ( 2014 )
Создано

Coherent Accelerator Processor Interface ( CAPI ) — это стандарт высокоскоростной шины расширения процессора для использования в больших компьютерах центров обработки данных , изначально предназначенный для наложения поверх PCI Express для прямого подключения центральных процессоров (ЦП) к внешним ускорителям, таким как графика. процессоры (GPU), ASIC , FPGA или быстрое хранилище. [1] [2] Он обеспечивает низкую задержку, высокую скорость и прямой доступ к памяти между устройствами с различными архитектурами набора команд .

Масштабирование производительности, традиционно связанное с законом Мура , начиная с 1965 года, начало снижаться примерно в 2004 году, когда и архитектура Prescott от IBM от Intel, и процессор Cell приблизились к рабочей частоте 4 ГГц. Здесь оба проекта столкнулись с проблемой теплового накипи, из-за которой проблемы отвода тепла, связанные с дальнейшим увеличением рабочей частоты, в значительной степени перевешивали выгоды от более короткого времени цикла.

В последующее десятилетие лишь немногие коммерческие продукты ЦП превышали частоту 4 ГГц, при этом большая часть улучшений производительности теперь достигается за счет постепенного улучшения микроархитектуры, лучшей системной интеграции и более высокой плотности вычислений — в основном в форме упаковки большего количества независимых ядер в процессоры. один и тот же кристалл, часто за счет пиковой рабочей частоты (24-ядерный процессор Intel Xeon E7-8890 с июня 2016 года имеет базовую рабочую частоту всего 2,2 ГГц, что позволяет работать в пределах однопроцессорного энергопотребления 165 Вт). и бюджет охлаждения).

Там, где был достигнут значительный прирост производительности, это часто было связано со все более специализированными вычислительными блоками, такими как блоки графического процессора, добавленные к кристаллу процессора, или внешние ускорители на основе графического процессора или FPGA. Во многих приложениях ускорители сталкиваются с ограничениями производительности межсоединения (пропускная способность и задержка) или с ограничениями, связанными с архитектурой межсоединения (например, отсутствием согласованности памяти). Особенно в центрах обработки данных улучшение межсоединений стало первостепенным при переходе к гетерогенной архитектуре, в которой оборудование все больше адаптируется к конкретным вычислительным нагрузкам.

CAPI был разработан, чтобы компьютеры могли более легко и эффективно подключать специализированные ускорители. Работы с интенсивным использованием памяти и вычислений, такие как умножение матриц для глубоких нейронных сетей, можно выгрузить на платформы с поддержкой CAPI. [3] Он был разработан IBM для использования в своих системах на базе POWER8 , которые вышли на рынок в 2014 году. В то же время IBM и несколько других компаний основали OpenPOWER Foundation для создания экосистемы вокруг технологий на базе Power , включая CAPI. В октябре 2016 года несколько партнеров OpenPOWER сформировали консорциум OpenCAPI вместе с разработчиками графических процессоров и процессоров AMD и системными разработчиками Dell EMC и Hewlett Packard Enterprise, чтобы распространить технологию за пределы OpenPOWER и IBM. [4]

1 августа 2022 года спецификации и активы OpenCAPI были переданы консорциуму Compute Express Link (CXL). [5]

Выполнение

[ редактировать ]

НАЧАЛЬНИКИ

[ редактировать ]

CAPI реализован как функциональный блок внутри ЦП, называемый прокси-сервером процессора когерентного ускорителя (CAPP), с соответствующим блоком на ускорителе, называемым уровнем обслуживания мощности (PSL). Модули CAPP и PSL действуют как каталог кэша, поэтому подключенное устройство и ЦП могут использовать одно и то же согласованное пространство памяти, а ускоритель становится функциональным блоком ускорителя (AFU), равноправным по отношению к другим функциональным блокам, интегрированным в ЦП. [6] [7]

Поскольку ЦП и AFU используют одно и то же пространство памяти, можно достичь низкой задержки и высоких скоростей, поскольку ЦП не нужно выполнять преобразование памяти и перетасовку памяти между основной памятью ЦП и пространствами памяти ускорителя. Приложение может использовать ускоритель без специальных драйверов устройств, поскольку все включено общим расширением ядра CAPI в операционной системе хоста. ЦП и PSL могут читать и записывать непосредственно в память и регистры друг друга, как того требует приложение.

НАЧАЛЬНИКИ

[ редактировать ]

CAPI расположен поверх PCIe Gen 3 , использует 16 линий PCIe и представляет собой дополнительную функциональность для слотов PCIe в системах с поддержкой CAPI. Обычно на таких машинах имеются специальные слоты PCIe с поддержкой CAPI. Поскольку на каждый процессор POWER8 приходится только один CAPP, количество возможных блоков CAPI определяется количеством процессоров POWER8, независимо от количества слотов PCIe. В некоторых системах POWER8 IBM использует двухчиповые модули, тем самым удваивая емкость CAPI на процессорный разъем.

Традиционные транзакции между устройством PCIe и ЦП могут выполнять около 20 000 операций, тогда как устройство, подключенное к CAPI, будет использовать только около 500, что значительно снижает задержку и эффективно увеличивает пропускную способность за счет уменьшения накладных расходов на операции. [7]

Общая пропускная способность порта CAPI определяется базовой технологией PCIe 3.0 x16 и достигает максимальной скорости около 16 ГБ/с в двунаправленном режиме. [8]

CAPI-2 — это постепенное развитие технологии, представленной в процессоре IBM POWER9. [8] Он работает на базе PCIe Gen 4, что эффективно удваивает производительность до 32 ГБ/с. Он также представляет некоторые новые функции, такие как поддержка DMA и Atomics из ускорителя.

Технология, лежащая в основе OpenCAPI, регулируется Консорциумом OpenCAPI , основанным в октябре 2016 года компаниями AMD , Google , IBM , Mellanox и Micron совместно с партнерами Nvidia , Hewlett Packard Enterprise , Dell EMC и Xilinx . [9]

ОпенКАПИ 3

[ редактировать ]

OpenCAPI, ранее известный как New CAPI или CAPI 3.0 , не является надстройкой над PCIe и поэтому не будет использовать слоты PCIe. В процессоре IBM POWER9 он будет использовать механизм ввода-вывода Bluelink 25G , который используется совместно с NVLink 2.0 , с максимальной скоростью 50 ГБ/с. [10] OpenCAPI не нуждается в модуле PSL (необходимом для CAPI 1 и 2) в ускорителе, поскольку он не расположен поверх PCIe, а использует собственный протокол транзакций. [11]

ОпенКАПИ 4

[ редактировать ]

Планируется для будущего чипа после общего выпуска POWER9. [12]

Интерфейс памяти OpenCAPI (OMI) — это технология последовательного подключения оперативной памяти, основанная на OpenCAPI, обеспечивающая соединение с низкой задержкой и высокой пропускной способностью для основной памяти. OMI использует микросхему контроллера в модулях памяти, которая позволяет применять независимый от технологии подход к тому, что используется в модулях, будь то DDR4 , DDR5 , HBM или энергонезависимое ОЗУ класса хранения . Таким образом, ЦП на базе OMI может изменить тип ОЗУ путем замены модулей памяти.

Последовательное соединение занимает меньше места для интерфейса на кристалле ЦП, поэтому потенциально позволяет использовать больше их по сравнению с использованием обычной памяти DDR.

OMI реализован в процессоре IBM Power10 , который имеет 8 встроенных контроллеров памяти OMI, что позволяет использовать 4 ТБ ОЗУ и пропускную способность памяти 410 ГБ/с на процессор. Эти модули DDIMM (модуль дифференциальной динамической памяти) включают в себя контроллер OMI и буфер памяти и могут адресовать отдельные микросхемы памяти в целях отказоустойчивости и резервирования.

Microchip Technology производит контроллер OMI на модулях DDIMM. Их память SMC 1000 OpenCAPI описывается как «следующий прогресс на рынке, использующий память с последовательным подключением». [13]

См. также

[ редактировать ]

Наследие

Современный

  1. ^ Агам Шах (17 декабря 2014 г.). «Новый Power8 от IBM удваивает производительность чипа Watson» . Мир ПК . Архивировано из оригинала 1 февраля 2018 года . Проверено 17 декабря 2014 г.
  2. ^ «Подробное описание процессора IBM Power8: 22-нм техпроцесс, 12 ядер, 96 МБ кэш-памяти eDRAM L3 и тактовая частота 4 ГГц» . WCCFtech . 27 августа 2013 года . Проверено 17 декабря 2014 г.
  3. ^ Доктор Сиадус Сефат, Семих Аслан, Джеффри В. Келлингтон, Апан Касем (03 октября 2019 г.). «Ускорение горячих точек в глубоких нейронных сетях на FPGA на основе CAPI» . 21-я Международная конференция IEEE по высокопроизводительным вычислениям и коммуникациям, 2019 г.; 17-я Международная конференция IEEE по «умному городу»; 5-я Международная конференция IEEE по науке о данных и системам (HPCC/Smart City /DSS) . IEEE. стр. 248–256. doi : 10.1109/HPCC/SmartCity/DSS.2019.00048 . ISBN  978-1-7281-2058-4 . S2CID   203656070 . {{cite book}}: CS1 maint: несколько имен: список авторов ( ссылка )
  4. ^ Представление OpenCAPI: AMD, IBM, Google, Xilinx, Micron и Mellanox объединяют усилия в эпоху гетерогенных вычислений
  5. ^ Консорциум CXL и Консорциум OpenCAPI подписывают письмо о намерении передать спецификации OpenCAPI в CXL
  6. ^ Интерфейс когерентного ускорителя процессора (CAPI) для систем POWER8 — технический документ
  7. ^ Перейти обратно: а б Реконфигурируемые ускорители для больших данных и облака – RAW 2016
  8. ^ Перейти обратно: а б Открытие серверной шины для когерентного ускорения
  9. ^ Технические лидеры объединяются, чтобы реализовать новые конструкции серверов облачных центров обработки данных для больших данных, машинного обучения, аналитики и других новых рабочих нагрузок.
  10. ^ Big Blue стремится к небу с силой9
  11. ^ OpenCAPI берет на себя PCIe и обещает десятикратное улучшение
  12. ^ Стючели, Джефф (26 января 2017 г.). «Вебинар POWER9» (Видеозапись/слайды) . Группа виртуальных пользователей AIX. - Слайды (PDF) - на странице AIX VUG есть ссылки на слайды и видео.
  13. ^ Патрик Кеннеди (5 августа 2019 г.), Microchip SMC 1000 для будущего последовательной памяти , Servethehome
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: d4b36a99a12285ff36b2faabd1660945__1706665260
URL1:https://arc.ask3.ru/arc/aa/d4/45/d4b36a99a12285ff36b2faabd1660945.html
Заголовок, (Title) документа по адресу, URL1:
Coherent Accelerator Processor Interface - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)