Хоппер (микроархитектура)
Запущен | 20 сентября 2022 г |
---|---|
Разработано | Нвидиа |
Производитель | |
Процесс изготовления | ТСМЦ 4Н |
Серия продуктов | |
Сервер/центр обработки данных |
|
Технические характеристики | |
Кэш L1 | 256 КБ (на SM) |
Кэш L2 | 50 МБ |
Поддержка памяти | НБМ3 |
PCIe Поддержка | PCI Экспресс 5.0 |
Медиа-движок | |
Поддерживаемые кодировщики | НВЕНК |
История | |
Предшественник | Ампер |
Вариант | Ада Лавлейс (потребитель и профессионал) |
Преемник | Блэквелл |
Hopper — это графического процессора (GPU), микроархитектура разработанная Nvidia . Он предназначен для центров обработки данных и является параллельным Ada Lovelace . Это последнее поколение линейки продуктов, ранее выпускавшихся под брендом Nvidia Tesla , а затем переименованных в графические процессоры Nvidia Data Center.
Архитектура Hopper , названная в честь ученого-компьютерщика и ВМС США контр-адмирала Грейс Хоппер , просочилась в ноябре 2019 года и официально была представлена в марте 2022 года. Она совершенствует свои предшественники, микроархитектуры Turing и Ampere , отличаясь новым потоковым мультипроцессором и более быстрой подсистемой памяти. .
Архитектура
[ редактировать ]Графический процессор Nvidia Hopper H100 реализован с использованием процесса TSMC 4N с 80 миллиардами транзисторов. Он состоит из 144 потоковых мультипроцессоров . [1] В SXM5 [ нужны разъяснения ] Nvidia Hopper H100 обеспечивает лучшую производительность, чем PCIe . [2]
Потоковый мультипроцессор
[ редактировать ]Потоковые мультипроцессоры для Hopper улучшают микроархитектуры Turing и Ampere , хотя максимальное количество одновременных деформаций на потоковый мультипроцессор (SM) остается одинаковым для архитектур Ampere и Hopper — 64. [3] Архитектура Hopper предоставляет тензорный ускоритель памяти (TMA), который поддерживает двунаправленную асинхронную передачу памяти между общей и глобальной памятью. [4] В рамках ТМА приложения могут передавать тензоры размером до 5D. При записи из общей памяти в глобальную память можно использовать поэлементное сокращение и побитовые операторы, избегая регистров и инструкций SM, но позволяя пользователям писать специализированные коды деформации. ТМА подвергается воздействию через cuda::memcpy_async
[5]
При распараллеливании приложений разработчики могут использовать блоков потоков кластеры . Блоки потоков могут выполнять атомарные операции в общей памяти других блоков потоков в своем кластере, иначе известной как распределенная общая память . Распределенная общая память может использоваться SM одновременно с кэшем L2 ; при использовании для передачи данных между SM это может использовать объединенную полосу пропускания распределенной общей памяти и L2. Максимальный размер портативного кластера — 8, хотя Nvidia Hopper H100 может поддерживать размер кластера 16 при использовании cudaFuncAttributeNonPortableClusterSizeAllowed
функции, потенциально за счет уменьшения количества активных блоков. [6] Благодаря многоадресной рассылке L2 и распределенной общей памяти требуемая полоса пропускания для чтения и записи динамической памяти с произвольным доступом снижается. [7]
Hopper отличается улучшенной пропускной способностью формата с плавающей запятой одинарной точности (FP32): вдвое больше операций FP32 за цикл на SM, чем у его предшественника. Кроме того, в архитектуре Хоппера добавлена поддержка новых инструкций, включая алгоритм Смита-Уотермана . [6] Как и Ampere, поддерживается арифметика TensorFloat-32 (TF-32). Шаблон сопоставления для обеих архитектур идентичен. [8]
Память
[ редактировать ]Nvidia Hopper H100 поддерживает память HBM3 и HBM2e объемом до 80 ГБ; Система памяти HBM3 поддерживает скорость 3 ТБ/с, что на 50% больше, чем у Nvidia Ampere A100 2 ТБ/с. Во всей архитектуре были увеличены емкость и пропускная способность кэша L2. [9]
Hopper позволяет CUDA вычислительным ядрам использовать автоматическое встроенное сжатие, в том числе при индивидуальном выделении памяти, что обеспечивает доступ к памяти с более высокой пропускной способностью. Эта функция не увеличивает объем памяти, доступной приложению, поскольку данные (и, следовательно, их сжимаемость ) могут быть изменены в любое время. Компрессор автоматически выберет один из нескольких алгоритмов сжатия. [9]
Nvidia Hopper H100 увеличивает емкость объединенного кэша L1, кэша текстур и общей памяти до 256 КБ. Как и его предшественники, он объединяет кэши L1 и текстур в единый кэш, предназначенный для использования в качестве объединяющего буфера. Атрибут cudaFuncAttributePreferredSharedMemoryCarveout
может использоваться для определения выделения кэша L1. Hopper представляет усовершенствования NVLink нового поколения, обеспечивающие более высокую общую пропускную способность связи. [10]
Домены синхронизации памяти
[ редактировать ]Некоторые приложения CUDA могут испытывать помехи при выполнении операций ограничения или очистки из-за упорядочивания памяти. Поскольку графический процессор не может знать, какие записи гарантированы, а какие видны по случайному времени, он может ожидать ненужных операций с памятью, тем самым замедляя операции ограничения или очистки. Например, когда ядро выполняет вычисления в памяти графического процессора, а параллельное ядро осуществляет связь с одноранговым узлом, локальное ядро сбрасывает свои записи, что приводит к замедлению записи NVLink или PCIe . В архитектуре Hopper графический процессор может уменьшить забрасывание сети за счет операции ограждения. [11]
Инструкции DPX
[ редактировать ] (API) архитектуры Hopper Интерфейс программирования математических приложений предоставляет функции SM, такие как: __viaddmin_s16x2_relu
, который выполняет полуслово . В алгоритме Смита–Уотермана __vimax3_s16x2_relu
можно использовать трехпозиционное минимальное или максимальное значение с последующим фиксацией до нуля. [12] Аналогичным образом Хоппер ускоряет реализацию алгоритма Нидлмана-Вунша . [13]
Трансформаторный двигатель
[ редактировать ]В архитектуре Hopper используется двигатель-трансформер. [14]
Энергоэффективность
[ редактировать ]Форм-фактор SXM5 H100 имеет расчетную тепловую мощность (TDP) 700 Вт . Что касается асинхронности, архитектура Hopper может достичь высокой степени использования и, следовательно, иметь более высокую производительность на ватт. [15]
Грейс Хоппер
[ редактировать ]Разработано | Нвидиа |
---|---|
Производитель | |
Процесс изготовления | ТСМЦ 4Н |
Кодовое имя(а) | Грейс Хоппер |
Технические характеристики | |
Вычислить | Графический процессор: 132 бункерных SM Процессор: 72 Neoverse V2 ядра |
Тактовая частота шейдеров | 1980 МГц |
Поддержка памяти | Графический процессор: 96 ГБ HBM3 или 144 ГБ HBM3e Процессор: 480 ГБ LPDDR5X |
GH200 сочетает в себе графический процессор H200 на базе Hopper и 72-ядерный процессор Grace в одном модуле. Общая потребляемая мощность модуля составляет до 1000 Вт. Процессор и графический процессор соединены через NVLink, что обеспечивает когерентность памяти между процессором и графическим процессором. [16]
История
[ редактировать ]В ноябре 2019 года известный аккаунт в Твиттере опубликовал твит, в котором говорилось, что следующая архитектура после Ampere будет называться Hopper, в честь ученого-компьютерщика и ВМС США контр-адмирала Грейс Хоппер , одного из первых программистов Гарвардского Mark I. В отчете говорилось, что Hopper будет основан на конструкции многочипового модуля , что приведет к увеличению производительности при меньших потерях. [17]
2022 года Во время Nvidia GTC Nvidia официально анонсировала Hopper. [18] К 2023 году, во время бума искусственного интеллекта , H100 пользовались большим спросом. Ларри Эллисон из Oracle Corporation сказал в том году, что на ужине с генеральным директором Nvidia Дженсеном Хуангом он и Илон Маск из Tesla, Inc. и xAI «выпрашивали» H100: «Думаю, это лучший способ описать это. Час суши и попрошайничество». [19]
В январе 2024 года аналитики Raymond James Financial подсчитали, что Nvidia продает графические процессоры H100 по цене от 25 000 до 30 000 долларов за штуку, в то время как на eBay отдельные H100 стоят более 40 000 долларов. [20] Сообщается, что по состоянию на февраль 2024 года Nvidia поставляла графические процессоры H100 в центры обработки данных на бронемобилях. [21]
Ссылки
[ редактировать ]Цитаты
[ редактировать ]- ^ Эльстер и Хаугдал, 2022 , стр. 4.
- ^ Nvidia 2023c , с. 20.
- ^ Nvidia 2023b , с. 9.
- ^ Фудзита и др. 2023 , с. 6.
- ^ Nvidia 2023b , с. 9-10.
- ^ Перейти обратно: а б Нвидиа 2023б , с. 10.
- ^ Вишал Мехта (сентябрь 2022 г.). Модель программирования CUDA для бункерной архитектуры . Санта-Клара: NVIDIA . Проверено 29 мая 2023 г.
- ^ Фудзита и др. 2023 , с. 4.
- ^ Перейти обратно: а б Нвидиа 2023б , с. 11.
- ^ Nvidia 2023b , с. 12.
- ^ Nvidia 2023a , с. 44.
- ^ Тирумала, Аджай; Итон, Джо; Тирлик, Мэтт (8 декабря 2022 г.). «Повышение производительности динамического программирования с помощью инструкций NVIDIA Hopper GPU DPX» . Нвидиа . Проверено 29 мая 2023 г.
- ^ Харрис, Дион (22 марта 2022 г.). «Архитектура графического процессора NVIDIA Hopper ускоряет динамическое программирование до 40 раз с использованием новых инструкций DPX» . Нвидиа . Проверено 29 мая 2023 г.
- ^ Сальватор, Дэйв (22 марта 2022 г.). «Трансформаторный двигатель H100 ускоряет обучение искусственному интеллекту, обеспечивая до 6 раз более высокую производительность без потери точности» . Нвидиа . Проверено 29 мая 2023 г.
- ^ Эльстер и Хаугдал, 2022 , стр. 8.
- ^ «NVIDIA: Grace Hopper приступила к полному производству и анонсирует суперкомпьютер DGX GH200 с искусственным интеллектом» . Анандтех . 29 мая 2023 г.
- ^ Пирзада, Усман (16 ноября 2019 г.). «Утечка графического процессора NVIDIA Hopper следующего поколения — на основе конструкции MCM, запуск после Ampere» . Wccftech . Проверено 29 мая 2023 г.
- ^ Винсент, Джеймс (22 марта 2022 г.). «Nvidia представляет графический процессор H100 для искусственного интеллекта и обещает «самый быстрый в мире суперкомпьютер с искусственным интеллектом» » . Грань . Проверено 29 мая 2023 г.
- ^ Фитч, Аса (26 февраля 2024 г.). «Потрясающее восхождение NVIDIA также сделало ее гигантской целью» . Уолл Стрит Джорнал . Проверено 27 февраля 2024 г.
- ^ Ваниан, Джонатан (18 января 2024 г.). «Марк Цукерберг указывает, что Meta тратит миллиарды долларов на чипы Nvidia AI» . CNBC . Проверено 6 июня 2024 г.
- ^ Бускетт, Изабель; Лин, Белль (14 февраля 2024 г.). «Бронированные автомобили и ценники в триллионы долларов: как некоторые технологические лидеры хотят решить проблему нехватки чипов» . Уолл Стрит Джорнал . Проверено 30 мая 2024 г.
Цитируемые работы
[ редактировать ]- Эльстер, Энн; Хаугдал, Тор (март 2022 г.). «Основные характеристики графического процессора Nvidia Hopper и процессора Grace» . Вычисления в науке и технике . 24 (2): 95–100. Бибкод : 2022CSE....24b..95E . дои : 10.1109/MCSE.2022.3163817 . HDL : 11250/3051840 . S2CID 249474974 . Проверено 29 мая 2023 г.
- Фудзита, Кохей; Ямагучи, Такума; Кикучи, Юма; Ичимура, Цуёси; Хори, Мунео; Маддегедара, Лалит (апрель 2023 г.). «Расчет функции взаимной корреляции, ускоренный операциями TensorFloat-32 Tensor Core на графических процессорах NVIDIA Ampere и Hopper» . Журнал вычислительной науки . 68 . дои : 10.1016/j.jocs.2023.101986 .
- Руководство по программированию CUDA C++ (PDF) . Нвидиа . 17 апреля 2023 г.
- Руководство по настройке бункера (PDF) . Нвидиа . 13 апреля 2023 г.
- Архитектура графического процессора с тензорными ядрами NVIDIA H100 (PDF) . Нвидиа . 2022.
Дальнейшее чтение
[ редактировать ]- Шокетт, Джек (май 2023 г.). «Графический процессор NVIDIA Hopper H100: масштабирование производительности» . IEEE микро . 43 (3): 9–17. дои : 10.1109/MM.2023.3256796 . S2CID 257544490 . Проверено 29 мая 2023 г.
- Мур, Сэмюэл (8 апреля 2022 г.). «Следующий графический процессор Nvidia показывает, что трансформеры преобразуют искусственный интеллект» . IEEE-спектр . Проверено 29 мая 2023 г.
- Морган, Тимоти (31 марта 2022 г.). «Глубокое погружение в архитектуру графического процессора Nvidia «Hopper»» . Следующая платформа . Проверено 29 мая 2023 г.