Jump to content

CDNA (микроархитектура)

(Перенаправлено с CDNA 2 )

AMD CDNA
Дата выпуска 16 ноября 2020 г.
(3 года назад)
( 16.11.2020 )
Разработано АМД
Процесс изготовления
История
Предшественник AMD ФайрПро
Вариант RDNA (потребительский, профессиональный)

CDNA ( Compute DNA ) — это вычислительно-ориентированного графического процессора (GPU), микроархитектура разработанная AMD для центров обработки данных. CDNA, в основном используемая в линейке видеокарт AMD Instinct для центров обработки данных, является преемником микроархитектуры Graphics Core Next (GCN); Другим преемником стала RDNA (Radeon DNA), микроархитектура, ориентированная на потребительскую графику.

Первое поколение CDNA было анонсировано 5 марта 2020 года. [2] и был представлен в AMD Instinct MI100, выпущенном 16 ноября 2020 года. [3] Это единственный продукт CDNA 1, изготовленный по TSMC технологии N7 FinFET .

Во второй итерации линейки CDNA реализован подход многочипового модуля (MCM), отличающийся от монолитного подхода своего предшественника. В этой конструкции MCM, представленной в AMD Instinct MI250X и MI250, использовался приподнятый разветвительный мост (EFB). [4] для соединения плашек. Эти два продукта были анонсированы 8 ноября 2021 года и выпущены 11 ноября. В линейку CDNA 2 входит еще один новичок монолитной конструкции — MI210. [5] MI250X и MI250 были первыми продуктами AMD, в которых использовался Open Compute Project форм-фактор сокета OCP Accelerator Module (OAM) с меньшей мощностью PCIe (OCP). Доступны версии .

Третья итерация CDNA переключается на конструкцию MCM с использованием различных чиплетов, производимых на нескольких узлах. Этот продукт, в настоящее время состоящий из моделей MI300X и MI300A, содержит 15 уникальных матриц и использует передовые технологии 3D-упаковки. Серия MI300 была анонсирована 5 января 2023 года и запущена во втором полугодии 2023 года.

AMD CDNA 1
Дата выпуска 16 ноября 2020 г.
(3 года назад)
( 16.11.2020 )
Процесс изготовления TSMC N7 ( ФинФЕТ )
История
Предшественник AMD ФайрПро
Преемник CDNA 2

Семейство CDNA состоит из одного кубика, названного Арктурус . Кристалл имеет площадь 750 квадратных миллиметров, содержит 25,6 миллиардов транзисторов и производится на узле N7 компании TSMC. [6] Кристалл Arcturus имеет 120 вычислительных блоков и 4096-битную шину памяти, подключенную к четырем контактам HBM2 , что дает кристаллу 32 ГБ памяти и пропускную способность памяти чуть более 1200 ГБ/с. По сравнению со своим предшественником, в CDNA удалено все оборудование, связанное с ускорением графики. Это удаление включает, помимо прочего: графические кэши, оборудование тесселяции, блоки вывода рендеринга (ROP) и механизм отображения. CDNA сохраняет медиа-движок VCN для декодирования HEVC , H.264 и VP9 . [7] CDNA также добавила выделенное матричное вычислительное оборудование, аналогичное тем, которые добавлены в Nvidia от Volta Architecure .

Архитектура

[ редактировать ]

120 вычислительных блоков (CU) организованы в 4 асинхронных вычислительных механизма (ACE), каждый из которых обеспечивает независимое выполнение и отправку команд. На уровне CU вычислительные блоки CDNA организованы аналогично блокам GCN. Каждый CU содержит четыре SIMD16, каждый из которых выполняет свой 64-поточный волновой фронт (Wave64) за четыре цикла.

Система памяти

[ редактировать ]

CDNA увеличивает тактовую частоту HBM на 20%, что приводит к увеличению пропускной способности примерно на 200 ГБ/с по сравнению с Vega 20 (GCN 5.0). Кристалл имеет общий кэш L2 объемом 4 МБ, который передает 2 КБ за такт на CU. На уровне CU каждый CU имеет собственный кэш L1, локальное хранилище данных (LDS) размером 64 КБ на каждый CU и глобальное хранилище данных (GDS) размером 4 КБ, совместно используемое всеми CU. Эту GDS можно использовать для хранения управляющих данных, операций сокращения или в качестве небольшой глобальной общей поверхности. [7] [8]

Экспериментальная реализация PIM
[ редактировать ]

В октябре 2022 года Samsung продемонстрировала специализированную версию MI100 с обработкой в ​​памяти (PIM). В декабре 2022 года Samsung продемонстрировала кластер из 96 модифицированных MI100, которые могут похвастаться значительным увеличением пропускной способности обработки для различных рабочих нагрузок и значительным снижением энергопотребления. [9]

Изменения по сравнению с GCN

[ редактировать ]

Отдельные вычислительные блоки остаются очень похожими на GCN, но с добавлением четырех матричных блоков на каждый CU. Была добавлена ​​поддержка большего количества типов данных, включая BF16 , INT8 и INT4. [7] Подробный список операций, использующих матричные единицы и новые типы данных, можно найти в Справочном руководстве CDNA ISA .

Продукты

[ редактировать ]
Модель
( Кодовое имя )
Выпущенный Архитектура
и потрясающий
Транзисторы
и размер матрицы
Основной Скорость заполнения [а] Вычислительная мощность ( терафлопс ) Память ТВП Программное обеспечение
интерфейс
Физический
интерфейс
Вектор [а] [б] Матрица [а] [б]
Конфигурация [с] Часы [а]
( МГц )
Текстура [д]
( ГТ /с)
Пиксель [и]
( GPS )
Половина
(FP16)
Одинокий
(ФП32)
Двойной
(ФП64)
INT8 БФ16 РП16 ФП32 ФП64 Тип автобуса
& ширина
Размер
( ГБ )
Часы
( МТ/с )
Пропускная способность
( ГБ /с)
AMD Инстинкт MI100
(Арктур) [10] [11]
16 ноября 2020 г. CDNA
ТСМК   N7
25.6 × 10 9
750 мм 2
7680:480:-
120 у.е.
1000
1502
480
720.96
- 15.72
23.10
7.86
11.5
122.88
184.57
61.44
92.28
122.88
184.57
30.72
46.14
15.36
23.07
НБМ2
4096-битный
32 2400 1228 300 Вт PCIe 4.0
×16
PCIe
×16
  1. ^ Перейти обратно: а б с д Значения повышения (если доступны) указаны под базовым значением курсивом .
  2. ^ Перейти обратно: а б Прецизионная производительность рассчитывается на основе базовой (или повышающей) тактовой частоты ядра на основе операции FMA .
  3. ^ Унифицированные шейдеры : Единицы отображения текстур : Единицы вывода рендеринга и вычислительные блоки (CU).
  4. ^ Скорость заполнения текстуры рассчитывается как количество блоков наложения текстур, умноженное на базовую (или повышенную) тактовую частоту ядра.
  5. ^ Скорость заполнения пикселей рассчитывается как количество единиц вывода рендеринга, умноженное на базовую (или повышенную) тактовую частоту ядра.
AMD CDNA 2
Дата выпуска 8 ноября 2021 г.
(2 года назад)
( 08.11.2021 )
Процесс изготовления ТСМК N6
История
Предшественник CDNA 1
Преемник CDNA 3

Как и CDNA, CDNA 2 также состоит из одного кристалла, называемого Альдебаран . Площадь этого кристалла оценивается в 790 квадратных миллиметров, он содержит 28 миллиардов транзисторов и производится на узле N6 компании TSMC. [12] Кубик Альдебарана содержит всего 112 вычислительных блоков, что на 6,67% меньше, чем у Арктура. Как и предыдущее поколение, этот кристалл содержит 4096-битную шину памяти, теперь использующую HBM2e с удвоенной емкостью, до 64 ГБ. Самым большим изменением в CDNA 2 является возможность размещения двух кристаллов в одном корпусе. MI250X состоит из двух кристаллов Aldebaran, 220 CU (по 110 на каждый кристалл) и 128 ГБ HBM2e. Эти кристаллы соединены четырьмя каналами Infinity Fabric и рассматриваются хост-системой как независимые графические процессоры. [13]

Архитектура

[ редактировать ]

112 CU организованы аналогично CDNA в 4 асинхронных вычислительных механизма, каждый из которых имеет 28 CU вместо 30 в предыдущих поколениях. Как и CDNA, каждый CU содержит четыре блока SIMD16, выполняющих 64-поточный волновой фронт за 4 цикла. В 4 матричных двигателя и векторные блоки добавлена ​​поддержка полноскоростного FP64 , что обеспечивает значительный прирост по сравнению с предыдущим поколением. [14] CDNA 2 также пересматривает несколько внутренних кэшей, удваивая пропускную способность по всем направлениям.

Система памяти

[ редактировать ]

Система памяти в CDNA 2 улучшена по всем направлениям. Начнем с перехода на HBM2e , удвоим объем до 64 ГБ и увеличим пропускную способность примерно на треть (с ~1200 ГБ/с до 1600 ГБ/с). [13] На уровне кэша. Каждый GCD имеет 16-канальный кэш L2 объемом 8 МБ, разделенный на 32 фрагмента. Этот кэш выдает 4 КБ за такт, 128 байт за такт на каждый срез, что вдвое превышает пропускную способность CDNA. [13] Кроме того, было удалено глобальное хранилище данных размером 4 КБ. [14] Во все кэши, включая L2 и LDS, добавлена ​​поддержка данных FP64.

Межсоединение

[ редактировать ]

CDNA 2 представляет первый продукт с несколькими графическими процессорами в одном корпусе. Два кристалла графического процессора соединены четырьмя каналами Infinity Fabric с общей двунаправленной пропускной способностью 400 ГБ/с. [14] Каждый кристалл содержит 8 каналов Infinity Fabric, каждый из которых физически реализован в виде 16-полосного канала Infinity Link. В сочетании с процессором AMD он будет действовать как Infinity Fabric. в сочетании с любым другим процессором x86 это приведет к возврату к 16 линиям PCIe 4.0 . [14]

Изменения по сравнению с CDNA

[ редактировать ]

Самым крупным изменением является добавление полной поддержки FP64 для всех вычислительных элементов. Это приводит к четырехкратному увеличению матричных вычислений FP64 и значительному увеличению векторных вычислений FP64. [13] Кроме того, была добавлена ​​поддержка упакованных операций FP32 с такими кодами операций, как « V_PK_FMA_F32 » и « V_PK_MUL_F32 ». [15] Упакованные операции FP32 могут обеспечить двукратное увеличение пропускной способности, но требуют модификации кода. [13] Как и в случае с CDNA, дополнительную информацию о работе CDNA 2 можно найти в Справочном руководстве CDNA 2 ISA .

Продукты

[ редактировать ]
AMD CDNA 3
Дата выпуска 6 декабря 2023 г.
(8 месяцев назад)
( 06.12.2023 )
Процесс изготовления TSMC N5 и N6
История
Предшественник CDNA 2

В отличие от своих предшественников, CDNA 3 состоит из нескольких кристаллов, используемых в многокристальной системе, аналогично AMD Zen 2 , 3 и 4 линейкам продуктов . Корпус MI300 сравнительно массивный: девять чиплетов, изготовленных по 5-нм техпроцессу, размещены поверх четырех 6-нм чипсетов. [16] Все это сочетается со 128 ГБ HBM3 с использованием восьми размещений HBM. [17] Этот пакет содержит около 146 миллиардов транзисторов. Он выпускается в виде Instinct MI300X и MI300A, последний представляет собой APU . Эти продукты были выпущены 6 декабря 2023 года. [18]

Продукты

[ редактировать ]

Сравнение продуктов

[ редактировать ]
Модель
( Кодовое имя )
выпуска  Дата Архитектура
и   потрясающий
Транзисторы
и   размер матрицы
Основной Скорость заполнения [а] Вектор вычислительная   мощность [а] [б]
( Тфлопс )
Матричная вычислительная   мощность [а] [б]
( Тфлопс )
Память ТВП Программное обеспечение
Интерфейс
Физический
Интерфейс
Конфигурация [с] Часы [а]
( МГц )
Текстура [д]
( ГТ /с)
Пиксель [и]
( GPS )
Половина (FP16) Одиночный (FP32) Двойной (FP64) INT8 БФ16 РП16 ФП32 ФП64 автобуса  Тип
&   ширина
Размер
( ГБ )
Часы
( МТ/с )
Пропускная способность
( ГБ /с)
Тесла V100 (PCIE)
(ГВ100) [19] [20]
10 мая 2017 г. Время
TSMC   12 нм
12.1 × 10 9
815 мм 2
5120:320:128:640
80 см
1370 438.4 175.36 28.06 14.03 7.01 Н/Д Н/Д Н/Д 112.23 Н/Д НБМ2
4096 бит
16
32
1750 900 250 Вт PCIe 3.0
×16
PCIe ×16
Тесла V100 (SXM)
(ГВ100) [21] [22]
10 мая 2017 г. 1455 465.6 186.24 29.80 14.90 7.46 Н/Д Н/Д Н/Д 119.19 Н/Д 300 Вт НВЛИНК СХМ2
Радеон Инстинкт МИ50
(Вега 20) [23] [24] [25] [26] [27] [28]
18 ноября 2018 г. ГЦН 5
TSMC   7 нм
13.2 × 10 9
331 мм 2
3840:240:64
60 у.е.
1450
1725
348.0
414.0
92.80
110.4
22.27
26.50
11.14
13.25
5.568
6.624
Н/Д Н/Д 26.5 13.3 ? НБМ2
4096-битный
16
32
2000 1024 300 Вт PCIe 4.0
×16
PCIe
×16
Радеон Инстинкт МИ60
(Вега 20) [24] [29] [30] [31]
4096:256:64
64 у.е.
1500
1800
384.0
460.8
96.00
115.2
24.58
29.49
12.29
14.75
6.144
7.373
Н/Д Н/Д 32 16 ?
Тесла А100 (PCIE)
(GA100) [32] [33]
14 мая 2020 г. Ампер
TSMC   7 нм
54.2 × 10 9
826 мм 2
6912:432:-:432
108 СМ
1065
1410
460.08
609.12
- 58.89
77.97
14.72
19.49
7.36
9.75
942.24
1247.47
235.56
311.87
235.56
311.87
117.78
155.93
14.72
19.49
НБМ2
5120 бит
40
80
3186 2039 250 Вт PCIe 4.0
×16
PCIe ×16
Тесла А100 (SXM)
(GA100)) [34] [35]
1275
1410
550.80
609.12
- 70.50
77.97
17.63
19.49
8.81
9.75
1128.04
1247.47
282.01
311.87
282.01
311.87
141.00
155.93
17.63
19.49
400 Вт НВЛИНК SXM4
AMD Инстинкт MI100
(Арктур) [36] [37]
16 ноября 2020 г. CDNA
TSMC   7 нм
25.6 × 10 9
750 мм 2
7860:480:-:480
120 у.е.
1000
1502
480
720.96
- ? 15.72
23.10
7.86
11.5
122.88
184.57
61.44
92.28
122.88
184.57
30.72
46.14
15.36
23.07
НБМ2
4096-битный
32 2400 1228 300 Вт PCIe 4.0
×16
PCIe
×16
AMD Инстинкт MI250X (PCIE)
(Альдебаран)
8 ноября 2021 г. CDNA 2
TSMC   6 нм
58 × 10 9
1540 мм 2
14080:880:-:880
220 у.е.
AMD Инстинкт MI250X (ОАМ)
(Альдебаран)
Тесла H100 (PCIE)
(ГХ100)
22 марта 2022 г. Хоппер
TSMC   4 нм
80 × 10 9
814 мм 2
Тесла H100 (SXM)
(ГХ100)
  1. ^ Перейти обратно: а б с д Значения повышения (если доступны) указаны под базовым значением курсивом .
  2. ^ Перейти обратно: а б Прецизионная производительность рассчитывается на основе базовой (или повышающей) тактовой частоты ядра на основе операции FMA .
  3. ^ Унифицированные шейдеры : Единицы отображения текстур : Единицы вывода рендеринга : ускорители искусственного интеллекта и вычислительные блоки (CU) / потоковые мультипроцессоры (SM)
  4. ^ Скорость заполнения текстуры рассчитывается как количество блоков наложения текстур, умноженное на базовую (или повышенную) тактовую частоту ядра.
  5. ^ Скорость заполнения пикселей рассчитывается как количество единиц вывода рендеринга, умноженное на базовую (или повышенную) тактовую частоту ядра.

См. также

[ редактировать ]
  1. ^ Смит, Райан (9 июня 2022 г.). «AMD: объединение CDNA 3 и Zen 4 для APU MI300 Data Center в 2023 году» . АнандТех . Проверено 20 декабря 2022 г.
  2. ^ Смит, Райан. «AMD представляет архитектуру графического процессора CDNA: выделенную архитектуру графического процессора для центров обработки данных» . www.anandtech.com . Проверено 20 сентября 2022 г.
  3. ^ «База данных графического процессора: AMD Radeon Instinct MI100» . TechPowerUp . Проверено 20 сентября 2022 г.
  4. ^ Смит, Райан. «AMD анонсирует семейство ускорителей Instinct MI200: вывод серверов на эксамасштабный уровень и выше» . www.anandtech.com . Проверено 21 сентября 2022 г.
  5. ^ Смит, Райан. «AMD выпускает ускоритель Instinct MI210: CDNA 2 на карте PCIe» . www.anandtech.com . Проверено 21 сентября 2022 г.
  6. ^ Кеннеди, Патрик (16 ноября 2020 г.). «Выпущен графический процессор AMD Instinct MI100 32 ГБ CDNA» . Сервис TheHome . Проверено 22 сентября 2022 г.
  7. ^ Перейти обратно: а б с «Информационный документ AMD CDNA» (PDF) . amd.com . 5 марта 2020 г. . Проверено 22 сентября 2022 г.
  8. ^ « Архитектура набора команд AMD Instinct MI100, Справочное руководство» (PDF) . http://developer.amd.com . 14 декабря 2020 г. . Проверено 22 сентября 2022 г.
  9. ^ Аарон Клотц (14 декабря 2022 г.). «Samsung предлагает 96 графических процессоров AMD MI100 с радикальной вычислительной памятью» . Аппаратное обеспечение Тома . Проверено 23 декабря 2022 г.
  10. ^ «Брошюра по AMD Instinct MI100» (PDF) . АМД . Проверено 25 декабря 2022 г.
  11. ^ «Информационный документ AMD CDNA» (PDF) . АМД . Проверено 25 декабря 2022 г.
  12. ^ Антон Шилов (17 ноября 2021 г.). «На фото карта AMD Instinct MI250X OAM: раскрыт огромный кристалл Альдебарана» . Аппаратное обеспечение Тома . Проверено 20 ноября 2022 г.
  13. ^ Перейти обратно: а б с д и «Горячие чипы 34 — архитектура AMD Instinct MI200» . Чипсы и сыр . 18 сентября 2022 г. . Проверено 10 ноября 2022 г.
  14. ^ Перейти обратно: а б с д «Представляем АРХИТЕКТУРУ AMD CDNA™ 2» (PDF) . AMD.com . Проверено 20 ноября 2022 г.
  15. ^ « Архитектура набора команд AMD Instinct MI200» (PDF) . http://developer.amd.com . 4 февраля 2022 г. . Проверено 11 октября 2022 г.
  16. ^ Смит, Райан. «CES 2023: кремниевый APU для центров обработки данных AMD Instinct MI300 — транзисторы 146B, поставка во втором полугодии 2023 года» . www.anandtech.com . Проверено 22 января 2023 г.
  17. ^ Пол Алкорн (5 января 2023 г.). «APU AMD Instinct MI300 для центров обработки данных на снимке крупным планом: 13 микросхем, 146 миллиардов транзисторов» . Аппаратное обеспечение Тома . Проверено 22 января 2023 г.
  18. ^ Кеннеди, Патрик (6 декабря 2023 г.). «Графический процессор AMD Instinct MI300X и гибридные процессоры MI300A выпущены для эпохи искусственного интеллекта» . Сервис TheHome . Проверено 15 апреля 2024 г.
  19. ^ О, Нейт (16 декабря 2022 г.). «Nvidia официально анонсировала PCIe Tesla V100» . АнандТех .
  20. ^ «NVIDIA Tesla V100 PCIe 16 ГБ» . TechPowerUp .
  21. ^ Смит, Райан (19 декабря 2022 г.). «Представление NVIDIA Volta» . АнандТех .
  22. ^ «NVIDIA Tesla V100 SXM3 32 ГБ» . TechPowerUp .
  23. ^ Уолтон, Джаред (10 января 2019 г.). «Практическое знакомство с AMD Radeon VII» . ПК-геймер .
  24. ^ Перейти обратно: а б «Следующий горизонт - презентация Дэвида Ванга» (PDF) . АМД .
  25. ^ «Ускоритель AMD Radeon Instinct MI50 (16 ГБ)» . АМД .
  26. ^ «Ускоритель AMD Radeon Instinct MI50 (32 ГБ)» . АМД .
  27. ^ «Техническое описание AMD Radeon Instinct MI50» (PDF) . АМД .
  28. ^ «Характеристики AMD Radeon Instinct MI50» . TechPowerUp . Проверено 27 мая 2022 г.
  29. ^ «Радеон Инстинкт МИ60» . АМД . Архивировано из оригинала 22 ноября 2018 года . Проверено 27 мая 2022 г.
  30. ^ «Техническое описание AMD Radeon Instinct MI60» (PDF) . АМД .
  31. ^ «Характеристики AMD Radeon Instinct MI60» . TechPowerUp . Проверено 27 мая 2022 г.
  32. ^ «Архитектура графического процессора Nvidia A100 с тензорными ядрами» (PDF) . Нвидиа . Проверено 12 декабря 2022 г.
  33. ^ «Характеристики NVIDIA A100 PCIE 80 ГБ» . TechPowerUp . Проверено 12 декабря 2022 г.
  34. ^ «Архитектура графического процессора Nvidia A100 с тензорными ядрами» (PDF) . Нвидиа . Проверено 12 декабря 2022 г.
  35. ^ «Характеристики NVIDIA A100 SXM4, 80 ГБ» . TechPowerUp . Проверено 12 декабря 2022 г.
  36. ^ «Брошюра по AMD Instinct MI100» (PDF) . АМД . Проверено 25 декабря 2022 г.
  37. ^ «Информационный документ AMD CDNA» (PDF) . АМД . Проверено 25 декабря 2022 г.
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 2c94ff2575e6285d421a598828a8e4cc__1713149400
URL1:https://arc.ask3.ru/arc/aa/2c/cc/2c94ff2575e6285d421a598828a8e4cc.html
Заголовок, (Title) документа по адресу, URL1:
CDNA (microarchitecture) - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)