Jump to content

Хоппер (микроархитектура)

(Перенаправлено с Nvidia H100 )

Хоппер
Запущен 20 сентября 2022 г .; 22 месяца назад ( 20.09.2022 )
Разработано Нвидиа
Производитель
Процесс изготовления ТСМЦ
Серия продуктов
Сервер/центр обработки данных
Технические характеристики
Кэш L1 256   КБ (на SM)
Кэш L2 50   МБ
Поддержка памяти НБМ3
PCIe Поддержка PCI Экспресс 5.0
Медиа-движок
Поддерживаемые кодировщики НВЕНК
История
Предшественник Ампер
Вариант Ада Лавлейс (потребитель и профессионал)
Преемник Блэквелл
4 графических процессора NVIDIA H100

Hopper — это графического процессора (GPU), микроархитектура разработанная Nvidia . Он предназначен для центров обработки данных и является параллельным Ada Lovelace . Это последнее поколение линейки продуктов, ранее выпускавшихся под брендом Nvidia Tesla , а затем переименованных в графические процессоры Nvidia Data Center.

Архитектура Hopper , названная в честь ученого-компьютерщика и ВМС США контр-адмирала Грейс Хоппер , просочилась в ноябре 2019 года и официально была представлена ​​в марте 2022 года. Она совершенствует свои предшественники, микроархитектуры Turing и Ampere , отличаясь новым потоковым мультипроцессором и более быстрой подсистемой памяти. .

Архитектура

[ редактировать ]

Графический процессор Nvidia Hopper H100 реализован с использованием процесса TSMC 4N с 80 миллиардами транзисторов. Он состоит из 144 потоковых мультипроцессоров . [1] В SXM5 [ нужны разъяснения ] Nvidia Hopper H100 обеспечивает лучшую производительность, чем PCIe . [2]

Потоковый мультипроцессор

[ редактировать ]

Потоковые мультипроцессоры для Hopper улучшают микроархитектуры Turing и Ampere , хотя максимальное количество одновременных деформаций на потоковый мультипроцессор (SM) остается одинаковым для архитектур Ampere и Hopper — 64. [3] Архитектура Hopper предоставляет тензорный ускоритель памяти (TMA), который поддерживает двунаправленную асинхронную передачу памяти между общей и глобальной памятью. [4] В рамках ТМА приложения могут передавать тензоры размером до 5D. При записи из общей памяти в глобальную память можно использовать поэлементное сокращение и побитовые операторы, избегая регистров и инструкций SM, но позволяя пользователям писать специализированные коды деформации. ТМА подвергается воздействию через cuda::memcpy_async[5]

При распараллеливании приложений разработчики могут использовать блоков потоков кластеры . Блоки потоков могут выполнять атомарные операции в общей памяти других блоков потоков в своем кластере, иначе известной как распределенная общая память . Распределенная общая память может использоваться SM одновременно с кэшем L2 ; при использовании для передачи данных между SM это может использовать объединенную полосу пропускания распределенной общей памяти и L2. Максимальный размер портативного кластера — 8, хотя Nvidia Hopper H100 может поддерживать размер кластера 16 при использовании cudaFuncAttributeNonPortableClusterSizeAllowed функции, потенциально за счет уменьшения количества активных блоков. [6] Благодаря многоадресной рассылке L2 и распределенной общей памяти требуемая полоса пропускания для чтения и записи динамической памяти с произвольным доступом снижается. [7]

Hopper отличается улучшенной пропускной способностью формата с плавающей запятой одинарной точности (FP32): вдвое больше операций FP32 за цикл на SM, чем у его предшественника. Кроме того, в архитектуре Хоппера добавлена ​​поддержка новых инструкций, включая алгоритм Смита-Уотермана . [6] Как и Ampere, поддерживается арифметика TensorFloat-32 (TF-32). Шаблон сопоставления для обеих архитектур идентичен. [8]

Nvidia Hopper H100 поддерживает память HBM3 и HBM2e объемом до 80 ГБ; Система памяти HBM3 поддерживает скорость 3 ТБ/с, что на 50% больше, чем у Nvidia Ampere A100 2 ТБ/с. Во всей архитектуре были увеличены емкость и пропускная способность кэша L2. [9]

Hopper позволяет CUDA вычислительным ядрам использовать автоматическое встроенное сжатие, в том числе при индивидуальном выделении памяти, что обеспечивает доступ к памяти с более высокой пропускной способностью. Эта функция не увеличивает объем памяти, доступной приложению, поскольку данные (и, следовательно, их сжимаемость ) могут быть изменены в любое время. Компрессор автоматически выберет один из нескольких алгоритмов сжатия. [9]

Nvidia Hopper H100 увеличивает емкость объединенного кэша L1, кэша текстур и общей памяти до 256 КБ. Как и его предшественники, он объединяет кэши L1 и текстур в единый кэш, предназначенный для использования в качестве объединяющего буфера. Атрибут cudaFuncAttributePreferredSharedMemoryCarveout может использоваться для определения выделения кэша L1. Hopper представляет усовершенствования NVLink нового поколения, обеспечивающие более высокую общую пропускную способность связи. [10]

Домены синхронизации памяти

[ редактировать ]

Некоторые приложения CUDA могут испытывать помехи при выполнении операций ограничения или очистки из-за упорядочивания памяти. Поскольку графический процессор не может знать, какие записи гарантированы, а какие видны по случайному времени, он может ожидать ненужных операций с памятью, тем самым замедляя операции ограничения или очистки. Например, когда ядро ​​выполняет вычисления в памяти графического процессора, а параллельное ядро ​​осуществляет связь с одноранговым узлом, локальное ядро ​​сбрасывает свои записи, что приводит к замедлению записи NVLink или PCIe . В архитектуре Hopper графический процессор может уменьшить забрасывание сети за счет операции ограждения. [11]

Инструкции DPX

[ редактировать ]

(API) архитектуры Hopper Интерфейс программирования математических приложений предоставляет функции SM, такие как: __viaddmin_s16x2_relu, который выполняет полуслово . В алгоритме Смита–Уотермана __vimax3_s16x2_relu можно использовать трехпозиционное минимальное или максимальное значение с последующим фиксацией до нуля. [12] Аналогичным образом Хоппер ускоряет реализацию алгоритма Нидлмана-Вунша . [13]

Трансформаторный двигатель

[ редактировать ]

В архитектуре Hopper используется двигатель-трансформер. [14]

Энергоэффективность

[ редактировать ]

Форм-фактор SXM5 H100 имеет расчетную тепловую мощность (TDP) 700 Вт . Что касается асинхронности, архитектура Hopper может достичь высокой степени использования и, следовательно, иметь более высокую производительность на ватт. [15]

Грейс Хоппер

[ редактировать ]
Грейс Хоппер GH200
Разработано Нвидиа
Производитель
Процесс изготовления ТСМЦ
Кодовое имя(а) Грейс Хоппер
Технические характеристики
Вычислить Графический процессор: 132 бункерных SM
Процессор: 72 Neoverse V2 ядра
Тактовая частота шейдеров 1980 МГц
Поддержка памяти Графический процессор: 96 ГБ HBM3 или 144 ГБ HBM3e
Процессор: 480 ГБ LPDDR5X

GH200 сочетает в себе графический процессор H200 на базе Hopper и 72-ядерный процессор Grace в одном модуле. Общая потребляемая мощность модуля составляет до 1000 Вт. Процессор и графический процессор соединены через NVLink, что обеспечивает когерентность памяти между процессором и графическим процессором. [16]

В ноябре 2019 года известный аккаунт в Твиттере опубликовал твит, в котором говорилось, что следующая архитектура после Ampere будет называться Hopper, в честь ученого-компьютерщика и ВМС США контр-адмирала Грейс Хоппер , одного из первых программистов Гарвардского Mark I. В отчете говорилось, что Hopper будет основан на конструкции многочипового модуля , что приведет к увеличению производительности при меньших потерях. [17]

2022 года Во время Nvidia GTC Nvidia официально анонсировала Hopper. [18] К 2023 году, во время бума искусственного интеллекта , H100 пользовались большим спросом. Ларри Эллисон из Oracle Corporation сказал в том году, что на ужине с генеральным директором Nvidia Дженсеном Хуангом он и Илон Маск из Tesla, Inc. и xAI «выпрашивали» H100: «Думаю, это лучший способ описать это. Час суши и попрошайничество». [19]

В январе 2024 года аналитики Raymond James Financial подсчитали, что Nvidia продает графические процессоры H100 по цене от 25 000 до 30 000 долларов за штуку, в то время как на eBay отдельные H100 стоят более 40 000 долларов. [20] Сообщается, что по состоянию на февраль 2024 года Nvidia поставляла графические процессоры H100 в центры обработки данных на бронемобилях. [21]

  1. ^ Эльстер и Хаугдал, 2022 , стр. 4.
  2. ^ Nvidia 2023c , с. 20.
  3. ^ Nvidia 2023b , с. 9.
  4. ^ Фудзита и др. 2023 , с. 6.
  5. ^ Nvidia 2023b , с. 9-10.
  6. ^ Перейти обратно: а б Нвидиа 2023б , с. 10.
  7. ^ Вишал Мехта (сентябрь 2022 г.). Модель программирования CUDA для бункерной архитектуры . Санта-Клара: NVIDIA . Проверено 29 мая 2023 г.
  8. ^ Фудзита и др. 2023 , с. 4.
  9. ^ Перейти обратно: а б Нвидиа 2023б , с. 11.
  10. ^ Nvidia 2023b , с. 12.
  11. ^ Nvidia 2023a , с. 44.
  12. ^ Тирумала, Аджай; Итон, Джо; Тирлик, Мэтт (8 декабря 2022 г.). «Повышение производительности динамического программирования с помощью инструкций NVIDIA Hopper GPU DPX» . Нвидиа . Проверено 29 мая 2023 г.
  13. ^ Харрис, Дион (22 марта 2022 г.). «Архитектура графического процессора NVIDIA Hopper ускоряет динамическое программирование до 40 раз с использованием новых инструкций DPX» . Нвидиа . Проверено 29 мая 2023 г.
  14. ^ Сальватор, Дэйв (22 марта 2022 г.). «Трансформаторный двигатель H100 ускоряет обучение искусственному интеллекту, обеспечивая до 6 раз более высокую производительность без потери точности» . Нвидиа . Проверено 29 мая 2023 г.
  15. ^ Эльстер и Хаугдал, 2022 , стр. 8.
  16. ^ «NVIDIA: Grace Hopper приступила к полному производству и анонсирует суперкомпьютер DGX GH200 с искусственным интеллектом» . Анандтех . 29 мая 2023 г.
  17. ^ Пирзада, Усман (16 ноября 2019 г.). «Утечка графического процессора NVIDIA Hopper следующего поколения — на основе конструкции MCM, запуск после Ampere» . Wccftech . Проверено 29 мая 2023 г.
  18. ^ Винсент, Джеймс (22 марта 2022 г.). «Nvidia представляет графический процессор H100 для искусственного интеллекта и обещает «самый быстрый в мире суперкомпьютер с искусственным интеллектом» » . Грань . Проверено 29 мая 2023 г.
  19. ^ Фитч, Аса (26 февраля 2024 г.). «Потрясающее восхождение NVIDIA также сделало ее гигантской целью» . Уолл Стрит Джорнал . Проверено 27 февраля 2024 г.
  20. ^ Ваниан, Джонатан (18 января 2024 г.). «Марк Цукерберг указывает, что Meta тратит миллиарды долларов на чипы Nvidia AI» . CNBC . Проверено 6 июня 2024 г.
  21. ^ Бускетт, Изабель; Лин, Белль (14 февраля 2024 г.). «Бронированные автомобили и ценники в триллионы долларов: как некоторые технологические лидеры хотят решить проблему нехватки чипов» . Уолл Стрит Джорнал . Проверено 30 мая 2024 г.

Цитируемые работы

[ редактировать ]

Дальнейшее чтение

[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 7ac919b86e6de9a872508ad797500c60__1722681060
URL1:https://arc.ask3.ru/arc/aa/7a/60/7ac919b86e6de9a872508ad797500c60.html
Заголовок, (Title) документа по адресу, URL1:
Hopper (microarchitecture) - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)