Гетерогенная системная архитектура
Гетерогенная системная архитектура ( HSA ) — это набор спецификаций разных производителей, которые позволяют интегрировать центральные процессоры и графические процессоры на одной шине с общей памятью и задачами . [1] HSA разрабатывается фондом HSA Foundation , в который входят (помимо многих других) AMD и ARM . Заявленная цель платформы — уменьшить задержку связи между процессорами, графическими процессорами и другими вычислительными устройствами и сделать эти различные устройства более совместимыми с точки зрения программиста. [2] : 3 [3] освобождая программиста от задачи планирования перемещения данных между разрозненными запоминающими устройствами устройств (что в настоящее время необходимо делать с помощью OpenCL или CUDA ). [4]
CUDA и OpenCL, а также большинство других довольно продвинутых языков программирования могут использовать HSA для повышения производительности своего выполнения. [5] Гетерогенные вычисления широко используются в устройствах типа «система-на-кристалле», таких как планшеты , смартфоны , другие мобильные устройства и игровые консоли . [6] HSA позволяет программам использовать графический процессор для вычислений с плавающей запятой без отдельной памяти или планирования. [7]
Обоснование [ править ]
Смысл HSA заключается в том, чтобы облегчить нагрузку программистов при перегрузке вычислений на графический процессор. Первоначально разработанная исключительно AMD и получившая название FSA, идея была расширена и теперь включает в себя процессоры, отличные от графических процессоров, например, DSP других производителей .
- Действия, выполняемые при выгрузке вычислений на графический процессор в системе, отличной от HSA
- Действия, выполняемые при выгрузке вычислений на графический процессор в системе HSA с использованием функций HSA.
Современные графические процессоры очень хорошо подходят для выполнения одной инструкции, нескольких данных (SIMD) и одной инструкции, нескольких потоков (SIMT), в то время как современные процессоры все еще оптимизируются для ветвления. и т. д.
Обзор [ править ]
Этот раздел нуждается в дополнительных цитатах для проверки . ( Май 2014 г. ) |
Первоначально представленный встроенными системами, такими как Cell Broadband Engine , совместное использование системной памяти напрямую между несколькими участниками системы делает гетерогенные вычисления более распространенными. Сами по себе гетерогенные вычисления относятся к системам, которые содержат несколько процессоров — центральные процессоры (ЦП), графические процессоры (ГП), процессоры цифровых сигналов (ЦСП) или любые типы специализированных интегральных схем (ASIC). Архитектура системы позволяет любому ускорителю, например графическому процессору , работать на том же уровне обработки, что и центральный процессор системы.
Среди своих основных функций HSA определяет единое виртуальное адресное пространство для вычислительных устройств: там, где графические процессоры традиционно имеют собственную память, отдельную от основной памяти (ЦП), HSA требует, чтобы эти устройства совместно использовали таблицы страниц , чтобы устройства могли обмениваться данными, используя общие указатели. . Это должно поддерживаться специальными блоками управления памятью . [2] : 6–7 Чтобы сделать возможным взаимодействие, а также облегчить различные аспекты программирования, HSA должен быть независимым от ISA как для процессоров, так и для ускорителей, а также для поддержки языков программирования высокого уровня.
На данный момент спецификации HSA охватывают:
HSA Промежуточный уровень
HSAIL (промежуточный язык гетерогенной системной архитектуры), виртуальный набор команд для параллельных программ.
- похожий [ по мнению кого? ] к промежуточному представлению LLVM и SPIR (используется OpenCL и Vulkan )
- финализируется с помощью определенного набора инструкций JIT-компилятором
- принимать поздно решения о том, какое ядро(а) должно выполнить задачу
- явно параллельный
- поддерживает исключения, виртуальные функции и другие функции высокого уровня
- поддержка отладки
Модель памяти HSA [ править ]
- совместим с C++11 , OpenCL, Java и .NET. моделями памяти
- расслабленная последовательность
- разработан для поддержки как управляемых языков (например, Java), так и неуправляемых языков (например, C ).
- значительно упростит разработку сторонних компиляторов для широкого спектра гетерогенных продуктов, программируемых на Fortran , C++, C++ AMP , Java и др.
среда выполнения HSA и Диспетчер
- разработан для обеспечения гетерогенной организации очередей задач: очередь работ на ядро, распределение работы по очередям, балансировка нагрузки путем кражи работы
- любое ядро может планировать работу для любого другого, включая себя
- значительное сокращение накладных расходов на планирование работы ядра
Мобильные устройства — одна из областей применения HSA, в которой он обеспечивает повышенную энергоэффективность. [6]
Блок-схемы [ править ]
На рисунках ниже сравнивается координация CPU-GPU в HSA и в традиционных архитектурах.
- Стандартная архитектура с дискретным графическим процессором , подключенным к шине PCI Express . Нулевое копирование между графическим процессором и процессором невозможно из-за различных физических воспоминаний.
- HSA обеспечивает унифицированную виртуальную память и облегчает передачу указателей через PCI Express вместо копирования всех данных.
- В секционированной основной памяти одна часть системной памяти выделяется исключительно графическому процессору. В результате операция нулевого копирования невозможна.
- Единая основная память, в которой графический процессор и процессор поддерживают HSA. Это делает возможным операцию нулевого копирования. [8]
Поддержка программного обеспечения [ править ]
Некоторые особенности HSA, реализованные в аппаратном обеспечении, должны поддерживаться ядром операционной системы и конкретными драйверами устройств. Например, поддержка AMD Radeon и AMD FirePro видеокарт , а также APU на базе Graphics Core Next (GCN) была объединена в версию 3.19 основной ветки ядра Linux , выпущенную 8 февраля 2015 года. [10] Программы не взаимодействуют напрямую с amdkfd [ нужны дальнейшие объяснения ] , но ставят свои задания в очередь, используя среду выполнения HSA. [11] Эта самая первая реализация, известная как amdkfd ориентирован на APU «Kaveri» или «Berlin» и работает вместе с существующим графическим драйвером ядра Radeon.
Кроме того, amdkfd поддерживает гетерогенную организацию очередей (HQ), целью которой является упрощение распределения вычислительных заданий между несколькими процессорами и графическими процессорами с точки зрения программиста. Поддержка управления гетерогенной памятью ( HMM ), подходящая только для графического оборудования с версией 2 AMD IOMMU , была принята в основную версию ядра Linux 4.14. [12]
Интегрированная поддержка платформ HSA была анонсирована в выпуске OpenJDK «Sumatra» , который должен выйти в 2015 году. [13]
AMD APP SDK — это собственный пакет разработки программного обеспечения AMD, предназначенный для параллельных вычислений , доступный для Microsoft Windows и Linux. Bolt — это библиотека шаблонов C++, оптимизированная для гетерогенных вычислений. [14]
GPUOpen включает в себя несколько других программных инструментов, связанных с HSA. CodeXL версии 2.0 включает профилировщик HSA. [15]
Аппаратная поддержка [ править ]
АМД [ править ]
По состоянию на февраль 2015 г. [update]Только APU AMD «Kaveri» серии A (см. процессоры «Kaveri» для настольных ПК и мобильные процессоры «Kaveri» ) и Sony PlayStation 4 позволяли встроенному графическому процессору получать доступ к памяти через версию 2 IOMMU от AMD. Более ранние APU (Trinity и Richland) включали функциональность IOMMU версии 2, но только для использования внешним графическим процессором, подключенным через PCI Express. [ нужна ссылка ]
APU Carrizo и Bristol Ridge, выпущенные после 2015 года, также включают функциональность IOMMU версии 2 для встроенного графического процессора. [ нужна ссылка ]
В следующей таблице показаны характеристики процессоров AMD с 3D-графикой, включая APU (см. также: Список процессоров AMD с 3D-графикой ).
Платформа | Высокая, стандартная и низкая мощность | Низкая и сверхмалая мощность | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Кодовое имя | Сервер | Базовый | Торонто | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Микро | Киото | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Рабочий стол | Производительность | Рафаэль | Финикс | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Мейнстрим | Ллано | Троица | Ричленд | Парень | Кавери Рефреш (Годавари) | Карризо | Бристоль Ридж | Рэйвен Ридж | Пикассо | Ренуар | Сезанн | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Вход | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Базовый | дважды | Дали | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
мобильный | Производительность | Ренуар | Сезанн | Рембрандт | Диапазон Дракона | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Мейнстрим | Ллано | Троица | Ричленд | Парень | Карризо | Бристоль Ридж | Рэйвен Ридж | Пикассо | Ренуар Люсьен | Сезанн Барселона | Финикс | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Вход | Дали | Мендосино | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Базовый | Десна, Онтарио, Закате | Кабини, Темаш | Бима, Маллинз | Карризо-Л | Стони Ридж | минтай | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Встроенный | Троица | Белоголовый орлан | Мерлин Фалькон , Коричневый сокол | Большая Рогатая Сова | Серый Ястреб | Онтарио, Закате | дважды | Степной орел , Венценосный орел , LX-Семейство | Прерийный сокол | Полосатая пустельга | Ривер Хок | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Выпущенный | август 2011 г. | Октябрь 2012 г. | июнь 2013 г. | январь 2014 г. | 2015 | июнь 2015 г. | июнь 2016 г. | октябрь 2017 г. | январь 2019 г. | март 2020 г. | январь 2021 г. | январь 2022 г. | Сентябрь 2022 г. | январь 2023 г. | январь 2011 г. | май 2013 г. | апрель 2014 г. | май 2015 г. | февраль 2016 г. | апрель 2019 г. | июль 2020 г. | июнь 2022 г. | ноябрь 2022 г. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
процессора микроархитектура | К10 | Пиледрайвер | Паровой каток | Экскаватор | « Экскаватор+ » [16] | Это было | Дзен+ | Это было 2 | Это было 3 | Это было 3+ | Это было 4 | Бобкэт | Ягуар | Пума | Пума+ [17] | « Экскаватор+ » | Это было | Дзен+ | « Дзен 2+ » | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
ОДИН | x86-64 v1 | x86-64 v2 | x86-64 v3 | x86-64 v4 | x86-64 v1 | x86-64 v2 | x86-64 v3 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Розетка | Рабочий стол | Производительность | — | АМ5 | — | — | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Мейнстрим | — | АМ4 | — | — | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Вход | FM1 | FM2 | FM2+ | FM2+ [а] , АМ4 | АМ4 | — | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Базовый | — | — | АМ1 | — | РП5 | — | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Другой | ФС1 | ФС1+ , ФП2 | РП3 | РП4 | РП5 | РП6 | РП7 | ЭЛ1 | РП7 ФП7р2 РП8 | ? | FT1 | FT3 | FT3b | РП4 | РП5 | FT5 | РП5 | FT6 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
PCI Express Версия | 2.0 | 3.0 | 4.0 | 5.0 | 4.0 | 2.0 | 3.0 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
CXL | — | — | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Потрясающе. ( нм ) | ГФ 32ШП ( ГОНКМГ СОИ ) | ГФ 28ШП (HKMG оптом) | ГФ 14ЛПП ( массовая часть FinFET ) | ГФ 12ЛП (массовая часть FinFET) | ТСМК N7 (массовая часть FinFET) | ТСМК N6 (массовая часть FinFET) | ПЗС: TSMC N5 (массовая часть FinFET) Код: TSMC N6 (массовая часть FinFET) | TSMC 4 нм (массовая часть FinFET) | ТСМК Н40 (масса) | ТСМК N28 (HKMG оптом) | ГФ 28ШП (HKMG оптом) | ГФ 14ЛПП ( массовая часть FinFET ) | ГФ 12ЛП (массовая часть FinFET) | ТСМК N6 (массовая часть FinFET) | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Площадь матрицы (мм 2 ) | 228 | 246 | 245 | 245 | 250 | 210 [18] | 156 | 180 | 210 | ПЗС: (2x) 70 ID: 122 | 178 | 75 (+ 28 ФЧ ) | 107 | ? | 125 | 149 | ~100 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Мин. TDP (Вт) | 35 | 17 | 12 | 10 | 15 | 105 | 35 | 4.5 | 4 | 3.95 | 10 | 6 | 12 | 8 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
APU Макс. TDP (Вт) | 100 | 95 | 65 | 45 | 170 | 54 | 18 | 25 | 6 | 54 | 15 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Максимальная базовая частота APU (ГГц) | 3 | 3.8 | 4.1 | 4.1 | 3.7 | 3.8 | 3.6 | 3.7 | 3.8 | 4.0 | 3.3 | 4.7 | 4.3 | 1.75 | 2.2 | 2 | 2.2 | 3.2 | 2.6 | 1.2 | 3.35 | 2.8 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Максимальное количество APU на узел [б] | 1 | 1 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Максимальное количество ядер на процессор | 1 | 2 | 1 | 1 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Макс. CCX на ядро кристалла | 1 | 2 | 1 | 1 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Максимальное количество цветов на CCX | 4 | 8 | 2 | 4 | 2 | 4 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Макс. ЦП [с] цвета для ВСУ | 4 | 8 | 16 | 8 | 2 | 4 | 2 | 4 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Максимальное количество потоков на ядро ЦП | 1 | 2 | 1 | 2 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Целочисленная структура конвейера | 3+3 | 2+2 | 4+2 | 4+2+1 | 1+3+3+1+2 | 1+1+1+1 | 2+2 | 4+2 | 4+2+1 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
i386, i486, i586, CMOV, NOPL, i686, PAE , бит NX , CMPXCHG16B, AMD-V , RVI , ABM и 64-битный LAHF/SAHF | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
ИОМУМ [д] | — | v2 | v1 | v2 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
ИМТ1 , AES-NI , CLMUL и F16C | — | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
МОВБЕ | — | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
AVIC , BMI2 , RDRAND и MWAITX/MONITORX | — | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Мы [и] , ЦМЭ [и] , ADX , SHA , RDSEED , SMAP , SMEP , XSAVEC, XSAVES, XRSTORS, CLFLUSHOPT, CLZERO и объединение PTE | — | — | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
GMET , WBNOINVD, CLWB, QOS, PQE-BW, RDPID, RDPRU и MCOMMIT. | — | — | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
МПК , ВАЭС | — | — | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
СГХ | — | — | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
FPU на ядро | 1 | 0.5 | 1 | 1 | 0.5 | 1 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Труб на FPU | 2 | 2 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Ширина трубы ППУ | 128-битный | 256-битный | 80-битный | 128-битный | 256-битный | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
ЦП набора команд SIMD Уровень | SSE4a [ф] | AVX | AVX2 | AVX-512 | СССЭ3 | AVX | AVX2 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
3DСейчас! | 3DNow!+ | — | — | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
ПРЕДВАРИТЕЛЬНАЯ ЗАГРУЗКА/ПРЕДВЫЧКА | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
ГФНИ | — | — | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
АМХ | — | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
FMA4 , LWP, TBM и XOP | — | — | — | — | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
ФМА3 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
AMD XDNA | — | — | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Кэш данных L1 на ядро (КиБ) | 64 | 16 | 32 | 32 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
кэша данных L1 Ассоциативность (способы) | 2 | 4 | 8 | 8 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Кэш инструкций L1 на ядро | 1 | 0.5 | 1 | 1 | 0.5 | 1 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Максимальный общий кэш инструкций L1 APU (КиБ) | 256 | 128 | 192 | 256 | 512 | 256 | 64 | 128 | 96 | 128 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
кэша инструкций L1 Ассоциативность (способы) | 2 | 3 | 4 | 8 | 2 | 3 | 4 | 8 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Кэш L2 на ядро | 1 | 0.5 | 1 | 1 | 0.5 | 1 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Максимальный общий кэш L2 APU (МиБ) | 4 | 2 | 4 | 16 | 1 | 2 | 1 | 2 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
кэша L2 Ассоциативность (способы) | 16 | 8 | 16 | 8 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Макс. кэш-память L3 на кристалле CCX (МиБ) | — | 4 | 16 | 32 | — | 4 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Макс. объем виртуального кэша 3D на CCD (МиБ) | — | 64 | — | — | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
в CCD Максимальный общий объем кэш-памяти L3 на APU (МиБ) | 4 | 8 | 16 | 64 | 4 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Max. total 3D V-Cache per APU (MiB) | — | 64 | — | — | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Макс. платы Кэш-память L3 на APU (МиБ) | — | — | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Максимальный общий кэш L3 на APU (МиБ) | 4 | 8 | 16 | 128 | 4 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
кэша APU L3 Ассоциативность (способы) | 16 | 16 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Схема кэша L3 | Жертва | Жертва | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Макс. Кэш L4 | — | — | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Максимальная стандартная DRAM поддержка | ДДР3-1866 | DDR3-2133 | , ДДР4-2400 ДДР3-2133 | DDR4-2400 | DDR4-2933 | , ЛПДДР4-4266 ДДР4-3200 | DDR5-4800 , LPDDR5-6400 | ДДР5-5200 | DDR5-5600 , LPDDR5x -7500 | ДДР3Л -1333 | DDR3L-1600 | ДДР3Л-1866 | , ДДР4-2400 ДДР3-1866 | DDR4-2400 | DDR4-1600 | DDR4-3200 | ЛПДДР5-5500 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Максимальное количество каналов DRAM на APU | 2 | 1 | 2 | 1 | 2 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Максимальная стандартная DRAM пропускная способность (ГБ/с) на APU | 29.866 | 34.132 | 38.400 | 46.932 | 68.256 | 102.400 | 83.200 | 120.000 | 10.666 | 12.800 | 14.933 | 19.200 | 38.400 | 12.800 | 51.200 | 88.000 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
графического процессора Микроархитектура | ТераСкейл 2 (VLIW5) | ТераСкейл 3 (VLIW4) | GCN 2-го поколения | GCN 3-го поколения | GCN 5-го поколения [19] | РДНА 2 | РДНА 3 | ТераСкейл 2 (VLIW5) | GCN 2-го поколения | GCN 3-го поколения [19] | GCN 5-го поколения | РДНА 2 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
графического процессора Набор инструкций | TeraScale Набор инструкций | Набор инструкций GCN | Набор инструкций RDNA | TeraScale Набор инструкций | Набор инструкций GCN | Набор инструкций RDNA | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Максимальная базовая частота стандартного графического процессора (МГц) | 600 | 800 | 844 | 866 | 1108 | 1250 | 1400 | 2100 | 2400 | 400 | 538 | 600 | ? | 847 | 900 | 1200 | 600 | 1300 | 1900 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Максимальная базовая мощность графического процессора ( гигафлопс) [г] | 480 | 614.4 | 648.1 | 886.7 | 1134.5 | 1760 | 1971.2 | 2150.4 | 3686.4 | 102.4 | 86 | ? | ? | ? | 345.6 | 460.8 | 230.4 | 1331.2 | 486.4 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
3D engine [час] | До 400:20:8 | До 384:24:6 | До 512:32:8 | До 704:44:16 [20] | До 512:32:8 | 768:48:8 | 128:8:4 | 80:8:4 | 128:8:4 | До 192:12:8 | До 192:12:4 | 192:12:4 | До 512:?:? | 128:?:? | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
IOMMUv1 | IOMMUv2 | IOMMUv1 | ? | IOMMUv2 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Видео декодер | UVD 3.0 | UVD 4.2 | UVD 6.0 | ВЦН 1.0 [21] | ВЦН 2.1 [22] | ВЦН 2.2 [22] | ВЦН 3.1 | ? | UVD 3.0 | UVD 4.0 | UVD 4.2 | UVD 6.0 | UVD 6.3 | ВЦН 1.0 | ВЦН 3.1 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Видеокодер | — | ВЦЭ 1.0 | ВЦЭ 2.0 | ВЦЭ 3.1 | — | ВЦЭ 2.0 | ВЦЭ 3.1 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
AMD плавное движение | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
энергосбережение графического процессора | PowerPlay | PowerTune | PowerPlay | PowerTune [23] | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
TrueAudio | — | [24] | ? | — | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Бесплатная синхронизация | 1 2 | 1 2 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
HDCP [я] | ? | 1.4 | 2.2 | 2.3 | ? | 1.4 | 2.2 | 2.3 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
PlayReady [я] | — | 3.0 еще нет | — | 3.0 еще нет | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Поддерживаемые дисплеи [Дж] | 2–3 | 2–4 | 3 | 3 (рабочий стол) 4 (мобильный, встроенный) | 4 | 2 | 3 | 4 | 4 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
/drm/radeon [к] [26] [27] | — | — | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
/drm/amdgpu [к] [28] | — | [29] | — | [29] |
- ^ Для моделей экскаваторов FM2+: A8-7680, A6-7480 и Athlon X4 845.
- ^ ПК будет одним узлом.
- ^ APU сочетает в себе процессор и графический процессор. У обоих есть ядра.
- ^ Требуется поддержка прошивки.
- ^ Jump up to: Перейти обратно: а б Требуется поддержка прошивки.
- ^ Нет SSE4. Нет СССЕ3.
- ^ Производительность одинарной точности рассчитывается на основе базовой (или повышающей) тактовой частоты ядра на основе операции FMA .
- ^ Унифицированные шейдеры : блоки наложения текстур : блоки вывода рендеринга.
- ^ Jump up to: Перейти обратно: а б Для воспроизведения защищенного видеоконтента также требуется поддержка карты, операционной системы, драйвера и приложения. Для этого также необходим совместимый HDCP-дисплей. HDCP является обязательным для вывода определенных аудиоформатов, что накладывает дополнительные ограничения на настройку мультимедиа.
- ^ Чтобы подключить более двух дисплеев, дополнительные панели должны иметь встроенную поддержку DisplayPort . [25] Альтернативно можно использовать активные адаптеры DisplayPort-to-DVI/HDMI/VGA.
- ^ Jump up to: Перейти обратно: а б DRM ( Direct Rendering Manager ) — компонент ядра Linux. Поддержка в этой таблице относится к самой последней версии.
АРМ [ править ]
Микроархитектура ARM Bifrost , реализованная в Mali-G71, [30] полностью соответствует аппаратным спецификациям HSA 1.1. По состоянию на июнь 2016 г. [update]ARM не объявила о поддержке программного обеспечения, использующего эту аппаратную функцию.
См. также [ править ]
- Вычисления общего назначения на графических процессорах (GPGPU)
- Неравномерный доступ к памяти (NUMA)
- OpenMP
- Общая память
- Нулевая копия
Ссылки [ править ]
- ^ Тарун Айер (30 апреля 2013 г.). «AMD представляет технологию гетерогенного унифицированного доступа к памяти (hUMA)» . Аппаратное обеспечение Тома .
- ^ Jump up to: Перейти обратно: а б Георгий Кириазис (30 августа 2012 г.). Архитектура гетерогенной системы: технический обзор (PDF) (отчет). АМД. Архивировано из оригинала (PDF) 28 марта 2014 года . Проверено 26 мая 2014 г.
- ^ «Что такое гетерогенная системная архитектура (HSA)?» . АМД. Архивировано из оригинала 21 июня 2014 года . Проверено 23 мая 2014 г.
- ^ Джоэл Хруска (26 августа 2013 г.). «Настройка HSAIL: AMD объясняет будущее сотрудничества CPU/GPU» . ЭкстримТех . Зифф Дэвис .
- ^ Линаро (21 марта 2014 г.). «LCE13: Гетерогенная системная архитектура (HSA) на ARM» . SlideShare.net .
- ^ Jump up to: Перейти обратно: а б «Архитектура гетерогенных систем: назначение и перспективы» . gpuscience.com . 9 ноября 2012 года. Архивировано из оригинала 1 февраля 2014 года . Проверено 24 мая 2014 г.
- ^ «Гетерогенная системная архитектура: многоядерная обработка изображений с использованием сочетания элементов ЦП и графического процессора» . Проектирование встраиваемых компьютеров . Проверено 23 мая 2014 г.
- ^ «Микроархитектура Кавери» . Полуточный . 15 января 2014 г.
- ^ Майкл Ларабель (21 июля 2014 г.). «Драйвер AMDKFD все еще развивается для HSA с открытым исходным кодом в Linux» . Фороникс . Проверено 21 января 2015 г.
- ^ Jump up to: Перейти обратно: а б «Ядро Linux 3.19, раздел 1.3. Драйвер HSA для устройств AMD GPU» . kernelnewbies.org . 8 февраля 2015 года . Проверено 12 февраля 2015 г.
- ^ «HSA-Runtime-Reference-Source/README.md в мастере» . github.com . 14 ноября 2014 года . Проверено 12 февраля 2015 г.
- ^ «Анонсировано ядро Linux 4.14 с безопасным шифрованием памяти и многим другим» . 13 ноября 2017 г.
- ^ Алекс Вуди (26 августа 2013 г.). «Фонд HSA стремится повысить производительность графических процессоров Java» . HPCwire .
- ^ «Болт на GitHub» . Гитхаб . 11 января 2022 г.
- ^ AMD GPUOpen (19 апреля 2016 г.). «CodeXL 2.0 включает профилировщик HSA» . Архивировано из оригинала 27 июня 2018 года . Проверено 21 апреля 2016 г.
- ^ «AMD анонсирует APU 7-го поколения: Excavator mk2 в Бристоль-Ридж и Стони-Ридж для ноутбуков» . 31 мая 2016 года . Проверено 3 января 2020 г.
- ^ «Семейство гибридных процессоров AMD Mobile Carrizo, предназначенное для значительного скачка производительности и энергоэффективности в 2015 году» (пресс-релиз). 20 ноября 2014 года . Проверено 16 февраля 2015 г.
- ^ «Руководство по сравнению мобильных процессоров, версия 13.0, стр. 5: Полный список мобильных процессоров AMD» . TechARP.com . Проверено 13 декабря 2017 г.
- ^ Jump up to: Перейти обратно: а б «Графические процессоры AMD VEGA10 и VEGA11 обнаружены в драйвере OpenCL» . VideoCardz.com . Проверено 6 июня 2017 г.
- ^ Катресс, Ян (1 февраля 2018 г.). «Zen Cores и Vega: APU Ryzen для AM4 — AMD Tech Day на выставке CES: обнародована дорожная карта 2018: APU Ryzen, Zen+ на 12 нм, Vega на 7 нм» . Анандтех . Проверено 7 февраля 2018 г.
- ^ Ларабель, Майкл (17 ноября 2017 г.). «Поддержка кодирования Radeon VCN появилась в Mesa 17.4 Git» . Фороникс . Проверено 20 ноября 2017 г.
- ^ Jump up to: Перейти обратно: а б «APU AMD Ryzen 5000G Cezanne получил первые снимки кристалла с высоким разрешением, 10,7 миллиардов транзисторов в корпусе площадью 180 мм2» . wccftech . 12 августа 2021 г. Проверено 25 августа 2021 г.
- ^ Тони Чен; Джейсон Гривз, «Архитектура AMD Graphics Core Next (GCN)» (PDF) , AMD , получено 13 августа 2016 г.
- ^ «Технический взгляд на архитектуру AMD Kaveri» . Полуточный . Проверено 6 июля 2014 г.
- ^ «Как подключить три или более мониторов к видеокартам серий AMD Radeon™ HD 5000, HD 6000 и HD 7000?» . АМД . Проверено 8 декабря 2014 г.
- ^ Эйрли, Дэвид (26 ноября 2009 г.). «DisplayPort поддерживается драйвером KMS, встроенным в ядро Linux 2.6.33» . Проверено 16 января 2016 г.
- ^ «Матрица функций Radeon» . сайт freedesktop.org . Проверено 10 января 2016 г.
- ^ Дойчер, Александр (16 сентября 2015 г.). «XDC2015: AMDGPU» (PDF) . Проверено 16 января 2016 г.
- ^ Jump up to: Перейти обратно: а б Мишель Дэнцер (17 ноября 2016 г.). «[РЕКЛАМА] xf86-video-amdgpu 1.2.0» . lists.x.org .
- ^ «Архитектура графического процессора ARM Bifrost» . 30 мая 2016 г.
Внешние ссылки [ править ]
- Обзор архитектуры гетерогенной системы HSA на YouTube, автор Винод Типпараджу на конференции SC13 в ноябре 2013 г.
- HSA и экосистема программного обеспечения
- 2012 – HSA Майкла Хьюстона