CDNA (микроархитектура)
Дата выпуска | 16 ноября 2020 г. |
---|---|
Разработано | АМД |
Процесс изготовления | |
История | |
Предшественник | AMD ФайрПро |
Вариант | RDNA (потребительский, профессиональный) |
CDNA ( Compute DNA ) — это вычислительно-ориентированного графического процессора (GPU), микроархитектура разработанная AMD для центров обработки данных. CDNA, в основном используемая в линейке видеокарт AMD Instinct для центров обработки данных, является преемником микроархитектуры Graphics Core Next (GCN); Другим преемником стала RDNA (Radeon DNA), микроархитектура, ориентированная на потребительскую графику.
Первое поколение CDNA было анонсировано 5 марта 2020 года. [ 2 ] и был представлен в AMD Instinct MI100, выпущенном 16 ноября 2020 года. [ 3 ] Это единственный продукт CDNA 1, изготовленный по TSMC технологии N7 FinFET .
Во второй итерации линейки CDNA реализован подход многочипового модуля (MCM), отличающийся от монолитного подхода своего предшественника. В этой конструкции MCM, представленной в AMD Instinct MI250X и MI250, использовался приподнятый разветвительный мост (EFB). [ 4 ] для соединения плашек. Эти два продукта были анонсированы 8 ноября 2021 года и выпущены 11 ноября. В линейку CDNA 2 входит еще один новичок монолитной конструкции — MI210. [ 5 ] MI250X и MI250 были первыми продуктами AMD, в которых использовался Open Compute Project форм-фактор сокета OCP Accelerator Module (OAM) с меньшей мощностью PCIe (OCP). Доступны версии .
Третья итерация CDNA переключается на конструкцию MCM с использованием различных чиплетов, производимых на нескольких узлах. Этот продукт, в настоящее время состоящий из моделей MI300X и MI300A, содержит 15 уникальных матриц и использует передовые технологии 3D-упаковки. Серия MI300 была анонсирована 5 января 2023 года и запущена во втором полугодии 2023 года.
CDNA 1
[ редактировать ]Дата выпуска | 16 ноября 2020 г. |
---|---|
Процесс изготовления | TSMC N7 ( ФинФЕТ ) |
История | |
Предшественник | AMD ФайрПро |
Преемник | CDNA 2 |
Семейство CDNA состоит из одного кубика, названного Арктурус . Кристалл имеет площадь 750 квадратных миллиметров, содержит 25,6 миллиардов транзисторов и производится на узле N7 компании TSMC. [ 6 ] Кристалл Arcturus имеет 120 вычислительных блоков и 4096-битную шину памяти, подключенную к четырем разъемам HBM2 , что дает кристаллу 32 ГБ памяти и пропускную способность памяти чуть более 1200 ГБ/с. По сравнению со своим предшественником, в CDNA удалено все оборудование, связанное с ускорением графики. Это удаление включает, помимо прочего: графические кэши, оборудование тесселяции, блоки вывода рендеринга (ROP) и механизм отображения. CDNA сохраняет медиа-движок VCN для декодирования HEVC , H.264 и VP9 . [ 7 ] CDNA также добавила выделенное матричное вычислительное оборудование, подобное тем, которые добавлены в Nvidia от Volta Architecure .
Архитектура
[ редактировать ]120 вычислительных блоков (CU) организованы в 4 асинхронных вычислительных механизма (ACE), каждый из которых обеспечивает независимое выполнение и отправку команд. На уровне CU вычислительные блоки CDNA организованы аналогично блокам GCN. Каждый CU содержит четыре SIMD16, каждый из которых выполняет свой 64-поточный волновой фронт (Wave64) за четыре цикла.
Система памяти
[ редактировать ]CDNA увеличивает тактовую частоту HBM на 20%, что приводит к увеличению пропускной способности примерно на 200 ГБ/с по сравнению с Vega 20 (GCN 5.0). Кристалл имеет общий кэш L2 емкостью 4 МБ, который передает 2 КБ за такт на CU. На уровне CU каждый CU имеет свой собственный кэш L1, локальное хранилище данных (LDS) размером 64 КБ на каждый CU и глобальное хранилище данных (GDS) размером 4 КБ, совместно используемое всеми CU. Эту GDS можно использовать для хранения управляющих данных, операций сокращения или в качестве небольшой глобальной общей поверхности. [ 7 ] [ 8 ]
Экспериментальная реализация PIM
[ редактировать ]В октябре 2022 года Samsung продемонстрировала специализированную версию MI100 с обработкой в памяти (PIM). В декабре 2022 года Samsung продемонстрировала кластер из 96 модифицированных MI100, которые могут похвастаться значительным увеличением пропускной способности обработки для различных рабочих нагрузок и значительным снижением энергопотребления. [ 9 ]
Изменения по сравнению с GCN
[ редактировать ]Отдельные вычислительные блоки остаются очень похожими на GCN, но с добавлением четырех матричных блоков на каждый CU. Была добавлена поддержка большего количества типов данных, включая BF16 , INT8 и INT4. [ 7 ] Подробный список операций, использующих матричные единицы и новые типы данных, можно найти в Справочном руководстве CDNA ISA .
Продукты
[ редактировать ]Модель ( Кодовое имя ) |
Выпущенный | Архитектура и потрясающий |
Транзисторы и размер матрицы |
Основной | Скорость заполнения [ а ] | Вычислительная мощность ( терафлопс ) | Память | ТВП | Программное обеспечение интерфейс |
Физический интерфейс | ||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Вектор [ а ] [ б ] | Матрица [ а ] [ б ] | |||||||||||||||||||||
Конфигурация [ с ] | Часы [ а ] ( МГц ) |
Текстура [ д ] ( ГТ /с) |
Пиксель [ и ] ( GPS ) |
Половина (FP16) |
Одинокий (ФП32) |
Двойной (ФП64) |
INT8 | БФ16 | РП16 | ФП32 | ФП64 | Тип автобуса & ширина |
Размер ( ГБ ) |
Часы ( МТ/с ) |
Пропускная способность ( ГБ /с) | |||||||
AMD Инстинкт MI100 (Арктур) [ 10 ] [ 11 ] |
16 ноября 2020 г. | CDNA ТСМК N7 |
25.6 × 10 9 750 мм 2 |
7680:480:- 120 у.е. |
1000 1502 |
480 720.96 |
- | 15.72 23.10 |
7.86 11.5 |
122.88 184.57 |
61.44 92.28 |
122.88 184.57 |
30.72 46.14 |
15.36 23.07 |
НБМ2 4096-битный |
32 | 2400 | 1228 | 300 Вт | PCIe 4.0 ×16 |
PCIe ×16 |
- ^ Перейти обратно: а б с д Значения повышения (если доступны) указаны под базовым значением курсивом .
- ^ Перейти обратно: а б Прецизионная производительность рассчитывается на основе базовой (или повышающей) тактовой частоты ядра на основе операции FMA .
- ^ Унифицированные шейдеры : Единицы отображения текстур : Единицы вывода рендеринга и вычислительные блоки (CU).
- ^ Скорость заполнения текстуры рассчитывается как количество блоков наложения текстур, умноженное на базовую (или повышенную) тактовую частоту ядра.
- ^ Скорость заполнения пикселей рассчитывается как количество единиц вывода рендеринга, умноженное на базовую (или повышенную) тактовую частоту ядра.
CDNA 2
[ редактировать ]Дата выпуска | 8 ноября 2021 г. |
---|---|
Процесс изготовления | ТСМК N6 |
История | |
Предшественник | CDNA 1 |
Преемник | CDNA 3 |
Как и CDNA, CDNA 2 также состоит из одного кристалла, называемого Альдебаран . Площадь этого кристалла оценивается в 790 квадратных миллиметров, он содержит 28 миллиардов транзисторов и производится на узле N6 компании TSMC. [ 12 ] Кубик Альдебарана содержит всего 112 вычислительных блоков, что на 6,67% меньше, чем у Арктура. Как и предыдущее поколение, этот кристалл содержит 4096-битную шину памяти, теперь использующую HBM2e с удвоенной емкостью, до 64 ГБ. Самым большим изменением в CDNA 2 является возможность размещения двух кристаллов в одном корпусе. MI250X состоит из двух кристаллов Aldebaran, 220 CU (по 110 на каждый кристалл) и 128 ГБ HBM2e. Эти кристаллы соединены четырьмя каналами Infinity Fabric и рассматриваются хост-системой как независимые графические процессоры. [ 13 ]
Архитектура
[ редактировать ]112 CU организованы аналогично CDNA в 4 асинхронных вычислительных механизма, каждый из которых имеет 28 CU вместо 30 в предыдущих поколениях. Как и CDNA, каждый CU содержит четыре блока SIMD16, выполняющих 64-поточный волновой фронт за 4 цикла. В 4 матричных двигателя и векторные блоки добавлена поддержка полноскоростного FP64 , что обеспечивает значительный прирост по сравнению с предыдущим поколением. [ 14 ] CDNA 2 также пересматривает несколько внутренних кэшей, удваивая пропускную способность по всем направлениям.
Система памяти
[ редактировать ]Система памяти в CDNA 2 улучшена по всем направлениям. Начнем с перехода на HBM2e , удвоим объем до 64 ГБ и увеличим пропускную способность примерно на треть (с ~1200 ГБ/с до 1600 ГБ/с). [ 13 ] На уровне кэша. Каждый GCD имеет 16-канальный кэш L2 объемом 8 МБ, разделенный на 32 фрагмента. Этот кэш выдает 4 КБ за такт, 128 байт за такт на каждый срез, что вдвое превышает пропускную способность CDNA. [ 13 ] Кроме того, было удалено глобальное хранилище данных размером 4 КБ. [ 14 ] Во все кэши, включая L2 и LDS, добавлена поддержка данных FP64.
Межсоединение
[ редактировать ]CDNA 2 представляет первый продукт с несколькими графическими процессорами в одном корпусе. Два кристалла графического процессора соединены четырьмя каналами Infinity Fabric с общей двунаправленной пропускной способностью 400 ГБ/с. [ 14 ] Каждый кристалл содержит 8 каналов Infinity Fabric, каждый из которых физически реализован в виде 16-полосного канала Infinity Link. В сочетании с процессором AMD он будет действовать как Infinity Fabric. в сочетании с любым другим процессором x86 это приведет к возврату к 16 линиям PCIe 4.0 . [ 14 ]
Изменения по сравнению с CDNA
[ редактировать ]Самым крупным изменением является добавление полной поддержки FP64 для всех вычислительных элементов. Это приводит к четырехкратному увеличению матричных вычислений FP64 и значительному увеличению векторных вычислений FP64. [ 13 ] Кроме того, была добавлена поддержка упакованных операций FP32 с такими кодами операций, как « V_PK_FMA_F32 » и « V_PK_MUL_F32 ». [ 15 ] Упакованные операции FP32 могут обеспечить двукратное увеличение пропускной способности, но требуют модификации кода. [ 13 ] Как и в случае с CDNA, дополнительную информацию о работе CDNA 2 можно найти в Справочном руководстве CDNA 2 ISA .
Продукты
[ редактировать ]Этот раздел пуст. Вы можете помочь, добавив к нему . ( апрель 2024 г. ) |
CDNA 3
[ редактировать ]Дата выпуска | 6 декабря 2023 г. |
---|---|
Процесс изготовления | TSMC N5 и N6 |
История | |
Предшественник | CDNA 2 |
В отличие от своих предшественников, CDNA 3 состоит из нескольких кристаллов, используемых в многокристальной системе, аналогично AMD Zen 2 , 3 и 4 линейкам продуктов . Корпус MI300 сравнительно массивный: девять чиплетов, изготовленных по 5-нм техпроцессу, размещены поверх четырех 6-нм чипсетов. [ 16 ] Все это сочетается со 128 ГБ HBM3 с использованием восьми размещений HBM. [ 17 ] Этот пакет содержит около 146 миллиардов транзисторов. Он выпускается в виде Instinct MI300X и MI300A, последний представляет собой APU . Эти продукты были выпущены 6 декабря 2023 года. [ 18 ]
Продукты
[ редактировать ]Этот раздел пуст. Вы можете помочь, добавив к нему . ( апрель 2024 г. ) |
Сравнение продуктов
[ редактировать ]Модель ( Кодовое имя ) |
выпуска Дата | Архитектура и потрясающий |
Транзисторы и размер матрицы |
Основной | Скорость заполнения [ а ] | Вектор вычислительная мощность [ а ] [ б ] ( Тфлопс ) |
Матричная вычислительная мощность [ а ] [ б ] ( Тфлопс ) |
Память | ТВП | Программное обеспечение Интерфейс |
Физический Интерфейс | |||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Конфигурация [ с ] | Часы [ а ] ( МГц ) |
Текстура [ д ] ( ГТ /с) |
Пиксель [ и ] ( GPS ) |
Половина (FP16) | Одиночный (FP32) | Двойной (FP64) | INT8 | БФ16 | РП16 | ФП32 | ФП64 | автобуса Тип & ширина |
Размер ( ГБ ) |
Часы ( МТ/с ) |
Пропускная способность ( ГБ /с) | |||||||
Тесла V100 (PCIE) (ГВ100) [ 19 ] [ 20 ] |
10 мая 2017 г. | Время TSMC 12 нм |
12.1 × 10 9 815 мм 2 |
5120:320:128:640 80 см |
1370 | 438.4 | 175.36 | 28.06 | 14.03 | 7.01 | Н/Д | Н/Д | Н/Д | 112.23 | Н/Д | НБМ2 4096 бит |
16 32 |
1750 | 900 | 250 Вт | PCIe 3.0 ×16 |
PCIe ×16 |
Тесла V100 (SXM) (ГВ100) [ 21 ] [ 22 ] |
10 мая 2017 г. | 1455 | 465.6 | 186.24 | 29.80 | 14.90 | 7.46 | Н/Д | Н/Д | Н/Д | 119.19 | Н/Д | 300 Вт | НВЛИНК | СХМ2 | |||||||
Радеон Инстинкт МИ50 (Вега 20) [ 23 ] [ 24 ] [ 25 ] [ 26 ] [ 27 ] [ 28 ] |
18 ноября 2018 г. | ГЦН 5 TSMC 7 нм |
13.2 × 10 9 331 мм 2 |
3840:240:64 60 у.е. |
1450 1725 |
348.0 414.0 |
92.80 110.4 |
22.27 26.50 |
11.14 13.25 |
5.568 6.624 |
Н/Д | Н/Д | 26.5 | 13.3 | ? | НБМ2 4096-битный |
16 32 |
2000 | 1024 | 300 Вт | PCIe 4.0 ×16 |
PCIe ×16 |
Радеон Инстинкт МИ60 (Вега 20) [ 24 ] [ 29 ] [ 30 ] [ 31 ] |
4096:256:64 64 у.е. |
1500 1800 |
384.0 460.8 |
96.00 115.2 |
24.58 29.49 |
12.29 14.75 |
6.144 7.373 |
Н/Д | Н/Д | 32 | 16 | ? | ||||||||||
Тесла А100 (PCIE) (GA100) [ 32 ] [ 33 ] |
14 мая 2020 г. | Ампер TSMC 7 нм |
54.2 × 10 9 826 мм 2 |
6912:432:-:432 108 СМ |
1065 1410 |
460.08 609.12 |
- | 58.89 77.97 |
14.72 19.49 |
7.36 9.75 |
942.24 1247.47 |
235.56 311.87 |
235.56 311.87 |
117.78 155.93 |
14.72 19.49 |
НБМ2 5120 бит |
40 80 |
3186 | 2039 | 250 Вт | PCIe 4.0 ×16 |
PCIe ×16 |
Тесла А100 (SXM) (GA100)) [ 34 ] [ 35 ] |
1275 1410 |
550.80 609.12 |
- | 70.50 77.97 |
17.63 19.49 |
8.81 9.75 |
1128.04 1247.47 |
282.01 311.87 |
282.01 311.87 |
141.00 155.93 |
17.63 19.49 |
400 Вт | НВЛИНК | SXM4 | ||||||||
AMD Инстинкт MI100 (Арктур) [ 36 ] [ 37 ] |
16 ноября 2020 г. | CDNA TSMC 7 нм |
25.6 × 10 9 750 мм 2 |
7860:480:-:480 120 у.е. |
1000 1502 |
480 720.96 |
- | ? | 15.72 23.10 |
7.86 11.5 |
122.88 184.57 |
61.44 92.28 |
122.88 184.57 |
30.72 46.14 |
15.36 23.07 |
НБМ2 4096-битный |
32 | 2400 | 1228 | 300 Вт | PCIe 4.0 ×16 |
PCIe ×16 |
AMD Инстинкт MI250X (PCIE) (Альдебаран) |
8 ноября 2021 г. | CDNA 2 TSMC 6 нм |
58 × 10 9 1540 мм 2 |
14080:880:-:880 220 у.е. | ||||||||||||||||||
AMD Инстинкт MI250X (ОАМ) (Альдебаран) | ||||||||||||||||||||||
Тесла H100 (PCIE) (ГХ100) |
22 марта 2022 г. | Хоппер TSMC 4 нм |
80 × 10 9 814 мм 2 | |||||||||||||||||||
Тесла H100 (SXM) (ГХ100) |
- ^ Перейти обратно: а б с д Значения повышения (если доступны) указаны под базовым значением курсивом .
- ^ Перейти обратно: а б Прецизионная производительность рассчитывается на основе базовой (или повышающей) тактовой частоты ядра на основе операции FMA .
- ^ Унифицированные шейдеры : Единицы отображения текстур : Единицы вывода рендеринга : ускорители искусственного интеллекта и вычислительные блоки (CU) / потоковые мультипроцессоры (SM)
- ^ Скорость заполнения текстуры рассчитывается как количество блоков наложения текстур, умноженное на базовую (или повышенную) тактовую частоту ядра.
- ^ Скорость заполнения пикселей рассчитывается как количество единиц вывода рендеринга, умноженное на базовую (или повышенную) тактовую частоту ядра.
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Смит, Райан (9 июня 2022 г.). «AMD: объединение CDNA 3 и Zen 4 для APU MI300 Data Center в 2023 году» . АнандТех . Проверено 20 декабря 2022 г.
- ^ Смит, Райан. «AMD представляет архитектуру графического процессора CDNA: выделенную архитектуру графического процессора для центров обработки данных» . www.anandtech.com . Проверено 20 сентября 2022 г.
- ^ «База данных графического процессора: AMD Radeon Instinct MI100» . TechPowerUp . Проверено 20 сентября 2022 г.
- ^ Смит, Райан. «AMD анонсирует семейство ускорителей Instinct MI200: вывод серверов на эксамасштабный уровень и выше» . www.anandtech.com . Проверено 21 сентября 2022 г.
- ^ Смит, Райан. «AMD выпускает ускоритель Instinct MI210: CDNA 2 на карте PCIe» . www.anandtech.com . Проверено 21 сентября 2022 г.
- ^ Кеннеди, Патрик (16 ноября 2020 г.). «Выпущен графический процессор AMD Instinct MI100 32 ГБ CDNA» . Сервис TheHome . Проверено 22 сентября 2022 г.
- ^ Перейти обратно: а б с «Информационный документ AMD CDNA» (PDF) . amd.com . 5 марта 2020 г. Проверено 22 сентября 2022 г.
- ^ « Архитектура набора команд AMD Instinct MI100, Справочное руководство» (PDF) . http://developer.amd.com . 14 декабря 2020 г. . Проверено 22 сентября 2022 г.
- ^ Аарон Клотц (14 декабря 2022 г.). «Samsung предлагает 96 графических процессоров AMD MI100 с радикальной вычислительной памятью» . Аппаратное обеспечение Тома . Проверено 23 декабря 2022 г.
- ^ «Брошюра по AMD Instinct MI100» (PDF) . АМД . Проверено 25 декабря 2022 г.
- ^ «Информационный документ AMD CDNA» (PDF) . АМД . Проверено 25 декабря 2022 г.
- ^ Антон Шилов (17 ноября 2021 г.). «На фото карта AMD Instinct MI250X OAM: раскрыт огромный кристалл Альдебарана» . Аппаратное обеспечение Тома . Проверено 20 ноября 2022 г.
- ^ Перейти обратно: а б с д и «Горячие чипы 34 — архитектура AMD Instinct MI200» . Чипсы и сыр . 18 сентября 2022 г. . Проверено 10 ноября 2022 г.
- ^ Перейти обратно: а б с д «Представляем АРХИТЕКТУРУ AMD CDNA™ 2» (PDF) . AMD.com . Проверено 20 ноября 2022 г.
- ^ « Архитектура набора команд AMD Instinct MI200» (PDF) . http://developer.amd.com . 4 февраля 2022 г. . Проверено 11 октября 2022 г.
- ^ Смит, Райан. «CES 2023: кремниевый APU для центров обработки данных AMD Instinct MI300 — транзисторы 146B, поставка во втором полугодии 2023 года» . www.anandtech.com . Проверено 22 января 2023 г.
- ^ Пол Алкорн (5 января 2023 г.). «APU AMD Instinct MI300 для центров обработки данных на снимке крупным планом: 13 микросхем, 146 миллиардов транзисторов» . Аппаратное обеспечение Тома . Проверено 22 января 2023 г.
- ^ Кеннеди, Патрик (6 декабря 2023 г.). «Графический процессор AMD Instinct MI300X и гибридные процессоры MI300A выпущены для эпохи искусственного интеллекта» . Сервис TheHome . Проверено 15 апреля 2024 г.
- ^ О, Нейт (16 декабря 2022 г.). «Nvidia официально анонсировала PCIe Tesla V100» . АнандТех .
- ^ «NVIDIA Tesla V100 PCIe 16 ГБ» . TechPowerUp .
- ^ Смит, Райан (19 декабря 2022 г.). «Представление NVIDIA Volta» . АнандТех .
- ^ «NVIDIA Tesla V100 SXM3 32 ГБ» . TechPowerUp .
- ^ Уолтон, Джаред (10 января 2019 г.). «Практическое знакомство с AMD Radeon VII» . ПК-геймер .
- ^ Перейти обратно: а б «Следующий горизонт - презентация Дэвида Ванга» (PDF) . АМД .
- ^ «Ускоритель AMD Radeon Instinct MI50 (16 ГБ)» . АМД .
- ^ «Ускоритель AMD Radeon Instinct MI50 (32 ГБ)» . АМД .
- ^ «Техническое описание AMD Radeon Instinct MI50» (PDF) . АМД .
- ^ «Характеристики AMD Radeon Instinct MI50» . TechPowerUp . Проверено 27 мая 2022 г.
- ^ «Радеон Инстинкт МИ60» . АМД . Архивировано из оригинала 22 ноября 2018 года . Проверено 27 мая 2022 г.
- ^ «Техническое описание AMD Radeon Instinct MI60» (PDF) . АМД .
- ^ «Характеристики AMD Radeon Instinct MI60» . TechPowerUp . Проверено 27 мая 2022 г.
- ^ «Архитектура графического процессора Nvidia A100 с тензорными ядрами» (PDF) . Нвидиа . Проверено 12 декабря 2022 г.
- ^ «Характеристики NVIDIA A100 PCIE 80 ГБ» . TechPowerUp . Проверено 12 декабря 2022 г.
- ^ «Архитектура графического процессора Nvidia A100 с тензорными ядрами» (PDF) . Нвидиа . Проверено 12 декабря 2022 г.
- ^ «Характеристики NVIDIA A100 SXM4, 80 ГБ» . TechPowerUp . Проверено 12 декабря 2022 г.
- ^ «Брошюра по AMD Instinct MI100» (PDF) . АМД . Проверено 25 декабря 2022 г.
- ^ «Информационный документ AMD CDNA» (PDF) . АМД . Проверено 25 декабря 2022 г.