SXM (розетка)
![]() | В этой статье есть несколько проблем. Пожалуйста, помогите улучшить его или обсудите эти проблемы на странице обсуждения . ( Узнайте, как и когда удалять эти шаблонные сообщения )
|


SXM (серверный модуль PCI Express) [1] — это с высокой пропускной способностью сокет для подключения вычислительных ускорителей Nvidia к системе. Каждое поколение Nvidia Tesla, начиная с моделей P100, серии компьютеров DGX и плат HGX, поставляется с разъемом типа SXM, который обеспечивает высокую пропускную способность, подачу питания и многое другое для соответствующих дочерних карт графического процессора. [2] Nvidia предлагает эти комбинации в качестве продукта для конечного пользователя, например, в своих моделях серии систем DGX . Текущие поколения сокетов: SXM для графических процессоров на базе Pascal , SXM2 и SXM3 для графических процессоров на базе Volta , SXM4 для графических процессоров на базе Ampere и SXM5 для графических процессоров на базе Hopper . Эти разъемы используются для определенных моделей этих ускорителей и обеспечивают более высокую производительность на карту, чем PCIe . эквиваленты [2] Система DGX-1 была первой системой, оснащенной разъемами SXM-2, и, таким образом, была первой системой, в которой были установлены совместимые по форм-фактору модули SXM с графическими процессорами P100, а позже была представлена возможность обновления (или предварительного оснащения) ) Модули SXM2 с графическими процессорами V100. [3] [4]
Платы SXM обычно имеют четыре или восемь слотов для графических процессоров, хотя некоторые решения, такие как Nvidia DGX-2, подключают несколько плат для обеспечения высокой производительности. Хотя существуют сторонние решения для плат SXM, большинство системных интеграторов, таких как Supermicro, используют готовые платы Nvidia HGX, которые выпускаются в конфигурациях с четырьмя или восемью разъемами. [5] Это решение значительно снижает стоимость и сложность серверов с графическим процессором на базе SXM, а также обеспечивает совместимость и надежность всех плат одного поколения.
Модули SXM, например, на платах HGX, особенно последних поколений, могут иметь переключатели NVLink , обеспечивающие более быструю связь между графическими процессорами. Это также уменьшает узкие места, которые обычно возникают в процессорах и PCIe . [2] [6] Графические процессоры на дочерних картах используют NVLink в качестве основного протокола связи. Например, графический процессор H100 SXM5 на базе Hopper может использовать пропускную способность до 900 ГБ/с по 18 каналам NVLink 4, каждый из которых обеспечивает пропускную способность 50 ГБ/с; [7] Это по сравнению с PCIe 5.0, который может обрабатывать пропускную способность до 64 ГБ/с в слоте x16. [8] Такая высокая пропускная способность также означает, что графические процессоры могут совместно использовать память по шине NVLink, позволяя всей плате HGX представлять хост-системе как один массивный графический процессор. [9]
Подача питания также осуществляется через разъем SXM, что устраняет необходимость во внешних кабелях питания, например тех, которые необходимы в эквивалентных картах PCIe. Это, в сочетании с горизонтальным монтажом, обеспечивает более эффективное охлаждение, что, в свою очередь, позволяет графическим процессорам на базе SXM работать с гораздо более высоким TDP . Например, H100 на базе Hopper может потреблять до 700 Вт исключительно от розетки SXM. [10] Отсутствие кабелей также значительно упрощает сборку и ремонт крупных систем, а также уменьшает возможные точки отказа. [2]
Ранняя Nvidia Tegra автомобильная оценочная плата , Drive PX2, имела два разъема MXM (Mobile PCI Express Module) с обеих сторон карты. Эту двойную конструкцию MXM можно считать предшественником реализации разъема SXM от Nvidia Tesla.
Сравнение ускорителей, используемых в DGX: [11] [12] [13]
Модель | Архитектура | Розетка | ФП32 ДРУГОЙ ядра | Ядра FP64 (без тензора) | Смешанный ИНТ32/ФП32 ядра | ИНТ32 ядра | Способствовать росту часы | Память часы | Память ширина автобуса | Память пропускная способность | видеопамять | Одинокий точность (ФП32) | Двойной точность (ФП64) | INT8 (нетензорный) | INT8 плотный тензор | ИНТ32 | РП4 плотный тензор | РП16 | РП16 плотный тензор | bfloat16 плотный тензор | ТензорFloat-32 (ТФ32) плотный тензор | ФП64 плотный тензор | Межсоединение (НВЛинк) | графический процессор | Кэш L1 | Кэш L2 | TDP | Размер матрицы | Транзистор считать | Процесс |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Б200 | Блэквелл | Н/Д | Н/Д | Н/Д | Н/Д | Н/Д | Н/Д | 8 Гбит/с HBM3e | 8192-битный | 8 ТБ/сек. | 192 ГБ HBM3e | Н/Д | Н/Д | Н/Д | 4,5 ПОПС | Н/Д | 9 ПФЛОПС | Н/Д | 2,25 Пфлопс | 2,25 Пфлопс | 1,2 Пфлопс | 40 терафлопс | 1,8 ТБ/сек. | 100 ГБ | Н/Д | Н/Д | 1000 Вт | Н/Д | 208 Б | ТСМЦ 4НП |
Б100 | Блэквелл | Н/Д | Н/Д | Н/Д | Н/Д | Н/Д | Н/Д | 8 Гбит/с HBM3e | 8192-битный | 8 ТБ/сек. | 192 ГБ HBM3e | Н/Д | Н/Д | Н/Д | 3,5 ПОПС | Н/Д | 7 ПФЛОПС | Н/Д | 1,98 Пфлопс | 1,98 Пфлопс | 989 терафлопс | 30 терафлопс | 1,8 ТБ/сек. | 100 ГБ | Н/Д | Н/Д | 700 Вт | Н/Д | 208 Б | ТСМЦ 4НП |
Н200 | Хоппер | SXM5 | 16896 | 4608 | 16896 | Н/Д | 1980 МГц | 6,3 Гбит/с HBM3e | 6144-битный | 4,8 ТБ/сек. | 141 ГБ HBM3e | 67 терафлопс | 34 терафлопс | Н/Д | 1,98 ПОПС | Н/Д | Н/Д | Н/Д | 990 терафлопс | 990 терафлопс | 495 терафлопс | 67 терафлопс | 900 ГБ/сек. | ГХ100 | 25344 КБ (192 КБ × 132) | 51200 КБ | 1000 Вт | 814 мм 2 | 80 Б | ТСМЦ 4Н |
Н100 | Хоппер | SXM5 | 16896 | 4608 | 16896 | Н/Д | 1980 МГц | 5,2 Гбит/с HBM3 | 5120-битный | 3,35 ТБ/сек. | 80 ГБ ХБМ3 | 67 терафлопс | 34 терафлопс | Н/Д | 1,98 ПОПС | Н/Д | Н/Д | Н/Д | 990 терафлопс | 990 терафлопс | 495 терафлопс | 67 терафлопс | 900 ГБ/сек. | ГХ100 | 25344 КБ (192 КБ × 132) | 51200 КБ | 700 Вт | 814 мм 2 | 80 Б | ТСМЦ 4Н |
А100 80 ГБ | Ампер | SXM4 | 6912 | 3456 | 6912 | Н/Д | 1410 МГц | 3,2 Гбит/с HBM2e | 5120-битный | 1,52 ТБ/сек. | 80 ГБ HBM2e | 19,5 терафлопс | 9,7 терафлопс | Н/Д | 624 ТОПОВ | 19,5 ТОПОВ | Н/Д | 78 терафлопс | 312 терафлопс | 312 терафлопс | 156 терафлопс | 19,5 терафлопс | 600 ГБ/сек. | GA100 | 20736 КБ (192 КБ × 108) | 40960 КБ | 400 Вт | 826 мм 2 | 54,2 Б | ТСМК N7 |
А100 40 ГБ | Ампер | SXM4 | 6912 | 3456 | 6912 | Н/Д | 1410 МГц | 2,4 Гбит/с HBM2 | 5120-битный | 1,52 ТБ/сек. | 40 ГБ HBM2 | 19,5 терафлопс | 9,7 терафлопс | Н/Д | 624 ТОПОВ | 19,5 ТОПОВ | Н/Д | 78 терафлопс | 312 терафлопс | 312 терафлопс | 156 терафлопс | 19,5 терафлопс | 600 ГБ/сек. | GA100 | 20736 КБ (192 КБ × 108) | 40960 КБ | 400 Вт | 826 мм 2 | 54,2 Б | ТСМК N7 |
В100 32 ГБ | Время | СХМ3 | 5120 | 2560 | Н/Д | 5120 | 1530 МГц | 1,75 Гбит/с HBM2 | 4096-битный | 900 ГБ/сек. | 32 ГБ HBM2 | 15,7 терафлопс | 7,8 терафлопс | 62 ТОПСА | Н/Д | 15,7 ТОПОВ | Н/Д | 31,4 терафлопс | 125 терафлопс | Н/Д | Н/Д | Н/Д | 300 ГБ/сек. | ГВ100 | 10240 КБ (128 КБ × 80) | 6144 КБ | 350 Вт | 815 мм 2 | 21,1 Б | ТСМК 12ФФН |
В100 16 ГБ | Время | СХМ2 | 5120 | 2560 | Н/Д | 5120 | 1530 МГц | 1,75 Гбит/с HBM2 | 4096-битный | 900 ГБ/сек. | 16 ГБ HBM2 | 15,7 терафлопс | 7,8 терафлопс | 62 ТОПСА | Н/Д | 15,7 ТОПОВ | Н/Д | 31,4 терафлопс | 125 терафлопс | Н/Д | Н/Д | Н/Д | 300 ГБ/сек. | ГВ100 | 10240 КБ (128 КБ × 80) | 6144 КБ | 300 Вт | 815 мм 2 | 21,1 Б | ТСМК 12ФФН |
Р100 | Паскаль | СХМ/СХМ2 | Н/Д | 1792 | 3584 | Н/Д | 1480 МГц | 1,4 Гбит/с HBM2 | 4096-битный | 720 ГБ/сек. | 16 ГБ HBM2 | 10,6 терафлопс | 5,3 терафлопс | Н/Д | Н/Д | Н/Д | Н/Д | 21,2 терафлопс | Н/Д | Н/Д | Н/Д | Н/Д | 160 ГБ/сек. | ГП100 | 1344 КБ (24 КБ × 56) | 4096 КБ | 300 Вт | 610 мм 2 | 15,3 Б | ТСМК 16ФФ+ |
Ссылки
[ редактировать ]- ^ Майкл Браун, В.; и др. (2012). «Оценка производительности молекулярной динамики на гибридном суперкомпьютере Cray XK6» . Procedia Информатика . 9 : 186–195. дои : 10.1016/j.procs.2012.04.020 .
- ^ Jump up to: а б с д Горжусь, Мэтт. «Достижение максимальной производительности вычислений: PCIe против SXM2» . Следующая платформа . Проверено 31 марта 2022 г.
- ^ Технический документ по архитектуре Volta nvidia.com
- ^ Руководство пользователя DGX 1 nvidia.com
- ^ служить дому (14 мая 2020 г.). «Платформа NVIDIA A100 с 4 графическими процессорами HGX Redstone» . Сервис TheHome . Проверено 31 марта 2022 г.
- ^ «NVLink и NVSwitch для расширенной связи между несколькими графическими процессорами» . NVIDIA .
- ^ «Nvidia H100 — что это такое, что он делает и почему это важно» . Знания о центрах обработки данных | Новости и аналитика индустрии центров обработки данных . 23 марта 2022 г. Проверено 31 марта 2022 г.
- ^ «Стоит ли использовать PCIe 5.0? Преимущества PCIe 5.0 (2022 г.)» . www.techreviewer.com . Проверено 31 марта 2022 г.
- ^ «NVIDIA HGX A100: на базе графических процессоров A100 и NVSwitch» . NVIDIA . Проверено 31 марта 2022 г.
- ^ «Полная информация о графическом процессоре NVIDIA H100: TSMC N4, HBM3, PCIe 5.0, TDP 700 Вт и т. д.» . ТвикТаун . 23 марта 2022 г. Проверено 31 марта 2022 г.
- ^ Смит, Райан (22 марта 2022 г.). «Анонсирована архитектура графического процессора NVIDIA Hopper и ускоритель H100: работайте умнее и усерднее» . АнандТех.
- ^ Смит, Райан (14 мая 2020 г.). «NVIDIA Ampere Unleashed: NVIDIA анонсирует новую архитектуру графического процессора, графический процессор A100 и ускоритель» . АнандТех.
- ^ «Протестировано NVIDIA Tesla V100: почти невероятная мощность графического процессора» . ТвикТаун . 17 сентября 2017 г.