~~~~~~~~~~~~~~~~~~~~ Arc.Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~ 
Номер скриншота №:
✰ 7A25EFAE29829784804CDE5EEEDB97CA__1715240520 ✰
Заголовок документа оригинал.:
✰ Pascal (microarchitecture) - Wikipedia ✰
Заголовок документа перевод.:
✰ Паскаль (микроархитектура) — Википедия ✰
Снимок документа находящегося по адресу (URL):
✰ https://en.wikipedia.org/wiki/Pascal_(microarchitecture) ✰
Адрес хранения снимка оригинал (URL):
✰ https://arc.ask3.ru/arc/aa/7a/ca/7a25efae29829784804cde5eeedb97ca.html ✰
Адрес хранения снимка перевод (URL):
✰ https://arc.ask3.ru/arc/aa/7a/ca/7a25efae29829784804cde5eeedb97ca__translat.html ✰
Дата и время сохранения документа:
✰ 23.06.2024 09:38:39 (GMT+3, MSK) ✰
Дата и время изменения документа (по данным источника):
✰ 9 May 2024, at 10:42 (UTC). ✰ 

~~~~~~~~~~~~~~~~~~~~~~ Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~~ 
Сервисы Ask3.ru: 
 Архив документов (Снимки документов, в формате HTML, PDF, PNG - подписанные ЭЦП, доказывающие существование документа в момент подписи. Перевод сохраненных документов на русский язык.)https://arc.ask3.ruОтветы на вопросы (Сервис ответов на вопросы, в основном, научной направленности)https://ask3.ru/answer2questionТоварный сопоставитель (Сервис сравнения и выбора товаров) ✰✰
✰ https://ask3.ru/product2collationПартнерыhttps://comrades.ask3.ru


Совет. Чтобы искать на странице, нажмите Ctrl+F или ⌘-F (для MacOS) и введите запрос в поле поиска.
Arc.Ask3.ru: далее начало оригинального документа

Паскаль (микроархитектура) — Википедия Jump to content

Паскаль (микроархитектура)

Из Википедии, бесплатной энциклопедии

Паскаль
NVIDIA GeForce GTX 1080 Ti из линейки видеокарт GeForce 10 была последней крупной итерацией с микроархитектурой Pascal (GP102-350-K1-A1).
Запущен 27 мая 2016 г .; 8 лет назад ( 27 мая 2016 )
Разработано Нвидиа
Изготовлены по
Процесс изготовления
Кодовое имя(а) GP10x
серия продуктов
Рабочий стол
Профессиональная/рабочая станция
Сервер/центр обработки данных
Технические характеристики
Кэш L1 24   КБ (на SM)
Кэш L2 256   КБ — 4   МБ
Поддержка памяти
PCIe Поддержка PCIe 3.0
Поддерживаемые графические API
ДиректХ ДиректХ 12 (12.1)
Директ3D Директ3Д 12.0
Шейдерная модель Шейдерная модель 6.7
OpenCL ОпенCL 3.0
OpenGL OpenGL 4.6
ДРУГОЙ Вычислительные возможности 6.0
Вулкан Вулкан 1.3
Медиа-движок
Кодирование кодеков
Декодирование кодеков
Битовая глубина цвета
  • 8-битный
  • 10-битный
Поддерживаемые кодировщики НВЕНК
Выходы дисплея
История
Предшественник Максвелл
Преемник
Картина Блеза Паскаля, эпонима архитектуры

Pascal — кодовое название микроархитектуры процессора графического , разработанной Nvidia в качестве преемника архитектуры Maxwell . Архитектура была впервые представлена ​​в апреле 2016 года с выпуском Tesla P100 (GP100) 5 апреля 2016 года и в основном используется в серии GeForce 10 , начиная с GeForce GTX 1080 и GTX 1070 (обе используют графический процессор GP104). , которые были выпущены 27 мая 2016 г. и 10 июня 2016 г. соответственно. Паскаль был изготовлен с использованием TSMC FinFET 16-нм техпроцесса . [1] а затем и Samsung процесс FinFET от 14-   нм . [2]

Архитектура названа в честь французского математика и физика 17 века Блеза Паскаля .

В апреле 2019 года Nvidia включила программную реализацию DirectX Raytracing на картах на базе Pascal, начиная с GTX 1060 6 ГБ, а также на картах серии 16 - функция, до этого момента зарезервированная для серии RTX на базе Turing. [3] [4]

Подробности [ править ]

Снимок графического процессора GP100, используемого в картах Nvidia Tesla P100.
Снимок графического процессора GP102, обнаруженного внутри карт GeForce GTX 1080 Ti
Снимок графического процессора GP106, обнаруженного внутри карт GTX 1060

В марте 2014 года Nvidia объявила, что преемницей Maxwell станет микроархитектура Pascal; анонсирован 6 мая 2016 г. и выпущен 27 мая того же года. Tesla P100 (чип GP100) имеет другую версию архитектуры Pascal по сравнению с графическими процессорами GTX (чип GP104). Шейдерные блоки в GP104 имеют конструкцию, подобную Maxwell . [5]

Архитектурные улучшения архитектуры GP100 включают следующее: [6] [7] [8]

  • В Паскале SM (потоковый мультипроцессор) состоит из 64–128 ядер CUDA, в зависимости от того, GP100 или GP104. Maxwell содержал 128 ядер CUDA на SM; У Kepler их было 192, у Fermi 32 и у Tesla 8. GP100 SM разделен на два блока обработки, каждый из которых имеет 32 ядра CUDA одинарной точности, буфер команд, планировщик деформации, 2 блока текстурного отображения и 2 блока диспетчеризации.
  • Вычислительные возможности CUDA 6.0.
  • Память с высокой пропускной способностью 2 — некоторые карты оснащены 16 ГиБ HBM2 в четырех стеках с общей шириной шины 4096 бит и пропускной способностью памяти 720 ГБ/с.
  • Унифицированная память — архитектура памяти, в которой ЦП и ГП могут получать доступ как к основной системной памяти, так и к памяти видеокарты с помощью технологии под названием «Механизм миграции страниц».
  • NVLink — шина с высокой пропускной способностью между ЦП и графическим процессором, а также между несколькими графическими процессорами. Обеспечивает гораздо более высокие скорости передачи, чем те, которые достижимы при использовании PCI Express; по оценкам, обеспечивает скорость от 80 до 200 ГБ/с. [9] [10]
  • 16-битные ( FP16 ) операции с плавающей запятой (в просторечии «половинная точность») могут выполняться в два раза быстрее, чем 32-битные операции с плавающей запятой («одинарная точность»). [11] и 64-битные операции с плавающей запятой (в просторечии «двойной точности») выполняются вдвое медленнее, чем 32-битные операции с плавающей запятой. [12]
  • Больше регистров — вдвое больше регистров на ядро ​​CUDA по сравнению с Maxwell.
  • Больше общей памяти.
  • Система планирования динамической балансировки нагрузки. [13] Это позволяет планировщику динамически регулировать количество ресурсов графического процессора, назначенных для нескольких задач, гарантируя, что графический процессор остается насыщенным работой, за исключением случаев, когда больше нет работы, которую можно было бы безопасно распределить. [13] Поэтому Nvidia безопасно включила асинхронные вычисления в драйвере Pascal. [13]
  • Вытеснение на уровне инструкций и на уровне потока. [14]

Архитектурные улучшения архитектуры GP104 включают следующее: [5]

  • Вычислительные возможности CUDA 6.1.
  • GDDR5X — новый стандарт памяти с поддержкой скорости передачи данных 10 Гбит/с, обновленный контроллер памяти. [15]
  • Одновременная мультипроекция — создание нескольких проекций одного потока геометрии, когда он поступает в механизм SMP с вышестоящих этапов шейдера. [16]
  • ДисплейПорт 1.4, HDMI 2.0b.
  • Дельта-цветовое сжатие четвертого поколения.
  • Enhanced SLI Interface — интерфейс SLI с более высокой пропускной способностью по сравнению с предыдущими версиями.
  • Набор функций PureVideo H Аппаратное декодирование видео HEVC Main10 (10 бит), Main12 (12 бит) и аппаратное декодирование VP9.
  • Поддержка HDCP 2.2 для воспроизведения и потоковой передачи контента с защитой 4K DRM (Maxwell GM200 и GM204 не поддерживают HDCP 2.2, GM206 поддерживает HDCP 2.2). [17]
  • NVENC HEVC Main10 10 бит. Аппаратное кодирование
  • Буст графического процессора 3.0.
  • Вытеснение на уровне инструкций. [14] В графических задачах драйвер ограничивает вытеснение на уровне пикселей, поскольку пиксельные задачи обычно завершаются быстро, а накладные расходы на вытеснение на уровне пикселей ниже, чем на вытеснение на уровне инструкций (которое является дорогостоящим). [14] Вычислительные задачи получают вытеснение на уровне потока или на уровне инструкций. [14] поскольку их выполнение может занять больше времени, и нет никаких гарантий относительно завершения вычислительной задачи. Поэтому драйвер обеспечивает дорогостоящее вытеснение на уровне инструкций для этих задач. [14]

Обзор [ править ]

Кластер графических процессоров [ править ]

Чип разделен на кластеры графических процессоров (GPC). Для чипов GP104 GPC включает в себя 5 SM.

Потоковый мультипроцессор «Паскаль» [ править ]

«Потоковый мультипроцессор» аналогичен вычислительному блоку AMD . SM включает в себя 128 ALU одинарной точности («ядра CUDA») на чипах GP104 и 64 ALU одинарной точности на чипах GP100. Хотя все версии CU состоят из 64 шейдерных процессоров (т.е. 4 векторных модулей SIMD, каждый по 16 полос в ширину), Nvidia экспериментировала с очень разным количеством ядер CUDA:

  • В Tesla 1 SM объединяет 8 одинарной точности (FP32). шейдерных процессоров
  • На Fermi 1 SM объединяет 32 шейдерных процессора одинарной точности (FP32).
  • На Kepler 1 SM объединяет 192 шейдерных процессора одинарной точности (FP32) и 64 блока двойной точности (FP64) (на графических процессорах GK110).
  • На Maxwell 1 SM объединяет 128 шейдерных процессоров одинарной точности (FP32).
  • На Паскале это зависит:
    • В GP100 1 SM объединяет 64 шейдерных процессора одинарной точности (FP32), а также 32 шейдерных процессора двойной точности (FP64), обеспечивая соотношение пропускной способности одинарной и двойной точности 2:1. В GP100 используются более гибкие ядра FP32, которые способны обрабатывать одно число одинарной точности или два числа половинной точности в двухэлементном векторе. [18] Это предназначено для лучшего решения задач машинного обучения .
    • В GP104 1 SM объединяет 128 ALU одинарной точности, 4 ALU двойной точности (обеспечивающие соотношение 32:1) и одно ALU половинной точности, которое содержит вектор из двух чисел с плавающей запятой половинной точности, которые могут выполнять одну и ту же инструкцию на обоих плавает, обеспечивая соотношение 64:1, если для обоих элементов используется одна и та же инструкция.

Polymorph-Engine 4.0 [ править ]

Polymorph Engine версии 4.0 отвечает за тесселяцию . AMD Функционально он соответствует геометрическому процессору . Он был перенесен из шейдерного модуля в TPC, чтобы позволить одному движку Polymorph обрабатывать несколько SM внутри TPC. [19]

Чипсы [ править ]

Печатная плата и кристалл GTX 1080 Ti
  • GP100: графический ускоритель Tesla P100 от Nvidia предназначен для приложений GPGPU , таких как вычисления двойной точности FP64 и обучение глубокому обучению, использующее FP16. Он использует память HBM2 . [20] Quadro GP100 также использует графический процессор GP100.
  • GP102: Этот графический процессор используется в Titan Xp. [21] Титан Х Паскаль [22] и GeForce GTX 1080 Ti. Он также используется в Quadro P6000. [23] и Тесла Р40. [24]
  • GP104: этот графический процессор используется в GeForce GTX 1070, GTX 1070 Ti, GTX 1080 и некоторых моделях GTX 1060 6 ГБ. У GTX 1070 включено 15/20, а у GTX 1070 Ti — 19/20 SM; оба используют память GDDR5. GTX 1080 — это полностью разблокированный чип, использующий память GDDR5X. Некоторые GTX 1060 6 ГБ используют GP104 с включенными 10/20 SM и памятью GDDR5X. [25] Он также используется в Quadro P5000, Quadro P4000, Quadro P3200 (мобильные приложения) и Tesla P4.
  • GP106: этот графический процессор используется в GeForce GTX 1060 с GDDR5. [26] Память. [27] [28] Он также используется в Quadro P2000.
  • GP107: этот графический процессор используется в GeForce GTX 1050 и 1050 Ti. Он также используется в Quadro P1000, Quadro P600, Quadro P620 и Quadro P400.
  • GP108: этот графический процессор используется в GeForce GT 1010 и GeForce GT 1030.
Сравнительная таблица некоторых чипов Кеплера, Максвелла и Паскаля
ГК104 ГК110 ГМ204 (ГТХ 970) ГМ204 (ГТХ 980) ГМ200 ГП104 ГП100
Выделенный кеш текстур для каждого SM 48 КиБ
Кэш текстур (графика или вычисления) или данных только для чтения (только вычисления) для каждого SM 48 КиБ [29]
Выбираемые программистом разделы общей памяти/L1 для каждого SM Общая память 48 КБ + кэш L1 16 КБ (по умолчанию) [30] Общая память 48 КБ + кэш L1 16 КБ (по умолчанию) [30]
32 КБ общей памяти + 32 КБ кэша L1 [30] 32 КБ общей памяти + 32 КБ кэша L1 [30]
16 КБ общей памяти + 48 КБ кэша L1 [30] 16 КБ общей памяти + 48 КБ кэша L1 [30]
Унифицированный кеш L1/кеш текстур для каждого SM 48 КиБ [31] 48 КиБ [31] 48 КиБ [31] 48 КиБ [31] 24 КиБ [31]
Выделенная общая память для каждого SM 96 КиБ [31] 96 КиБ [31] 96 КиБ [31] 96 КиБ [31] 64 КиБ [31]
Кэш L2 на чип 512 КиБ [31] 1536 КиБ [31] 1792 КиБ [32] 2048 КиБ [32] 3072 КиБ [31] 2048 КиБ [31] 4096 КиБ [31]

Производительность [ править ]

Теоретическая вычислительная мощность графического процессора Pascal с одинарной точностью в GFLOPS рассчитывается как 2 × операции на инструкцию FMA на ядро ​​CUDA за цикл × количество ядер CUDA × тактовая частота ядра (в ГГц).

Теоретическая вычислительная мощность двойной точности графического процессора Pascal составляет 1/2 от производительности одинарной точности на Nvidia GP100 и 1/32 от производительности Nvidia GP102, GP104, GP106, GP107 и GP108.

Теоретическая вычислительная мощность половинной точности графического процессора Pascal в 2 раза превышает производительность одинарной точности на GP100. [12] и 1/64 на GP104, GP106, GP107 и GP108. [18]

Преемник [ править ]

На смену архитектуре Pascal в 2017 году пришла Volta на рынках высокопроизводительных вычислений , облачных вычислений и беспилотных автомобилей , а в 2018 году — Turing на потребительском и деловом рынке. [33]

См. также [ править ]

Ссылки [ править ]

  1. ^ «7-нм графические процессоры NVIDIA нового поколения будут производиться TSMC» . Wccftech . 24 июня 2018 г. Проверено 6 июля 2019 г.
  2. ^ «Samsung уменьшит оптическое сокращение NVIDIA «Pascal» до 14 нм» . Проверено 13 августа 2016 г.
  3. ^ «Ускорение экосистемы трассировки лучей в реальном времени: DXR для GeForce RTX и GeForce GTX» . NVIDIA .
  4. ^ «Трассировка лучей появилась в графических процессорах Nvidia GTX: вот как ее включить» . 11 апреля 2019 г.
  5. ^ Перейти обратно: а б «NVIDIA GeForce GTX 1080» (PDF) . Международный.download.nvidia.com . Проверено 15 сентября 2016 г.
  6. ^ Гупта, Сумит (21 марта 2014 г.). «NVIDIA обновляет дорожную карту графических процессоров; объявляет о выпуске Pascal» . Блоги.nvidia.com . Проверено 25 марта 2014 г.
  7. ^ «Параллельный Форалл» . Зона разработчиков NVIDIA . Devblogs.nvidia.com. Архивировано из оригинала 26 марта 2014 года . Проверено 25 марта 2014 г.
  8. ^ «NVIDIA Tesla P100» (PDF) . Международный.download.nvidia.com . Проверено 15 сентября 2016 г.
  9. ^ «Внутри Паскаля: новейшая вычислительная платформа NVIDIA» . 5 апреля 2016 г.
  10. ^ Денис Фоули (25 марта 2014 г.). «NVLink, Pascal и многоуровневая память: удовлетворение аппетита к большим данным» . nvidia.com . Проверено 7 июля 2014 г.
  11. ^ «Архитектура графического процессора Pascal нового поколения от NVIDIA обеспечит 10-кратное ускорение приложений глубокого обучения» . Официальный блог NVIDIA . Проверено 23 марта 2015 г.
  12. ^ Перейти обратно: а б Смит, Райан (5 апреля 2015 г.). «NVIDIA анонсирует ускоритель Tesla P100 — Pascal GP100 Power для HPC» . АнандТех . Проверено 27 мая 2016 г. Каждый из этих SM также содержит 32 ядра FP64 CUDA, что дает нам половину скорости FP64, а новым для архитектуры Pascal является возможность упаковать 2 операции FP16 в одно ядро ​​FP32 CUDA при определенных обстоятельствах.
  13. ^ Перейти обратно: а б с Смит, Райан (20 июля 2016 г.). «Обзор NVIDIA GeForce GTX 1080 и GTX 1070 Founders Editions: начало поколения FinFET» . АнандТех . п. 9 . Проверено 21 июля 2016 г.
  14. ^ Перейти обратно: а б с д Это Смит, Райан (20 июля 2016 г.). «Обзор NVIDIA GeForce GTX 1080 и GTX 1070 Founders Editions: начало поколения FinFET» . АнандТех . п. 10 . Проверено 21 июля 2016 г.
  15. ^ «Видеокарта GTX 1080» . GeForce . Проверено 15 сентября 2016 г.
  16. ^ Карботт, Кевин (17 мая 2016 г.). «Nvidia GeForce GTX 1080: одновременная мультипроекция и асинхронные вычисления» . Tomshardware.com . Проверено 15 сентября 2016 г.
  17. ^ «Нвидиа Паскаль HDCP 2.2» . Страница оборудования NVIDIA . Проверено 8 мая 2016 г.
  18. ^ Перейти обратно: а б Смит, Райан (20 июля 2016 г.). «Обзор NVIDIA GeForce GTX 1080 и GTX 1070 Founders Editions: начало поколения FinFET» . АнандТех . п. 5 . Проверено 21 июля 2016 г.
  19. ^ Смит, Райан (20 июля 2016 г.). «Обзор NVIDIA GeForce GTX 1080 и GTX 1070 Founders Editions: начало поколения FinFET» . АнандТех . п. 4 . Проверено 21 июля 2016 г.
  20. ^ Харрис, Марк (5 апреля 2016 г.). «Внутри Паскаля: новейшая вычислительная платформа NVIDIA» . Параллельный Форалл . Нвидия . Проверено 3 июня 2016 г.
  21. ^ «Видеокарта NVIDIA TITAN Xp с архитектурой Pascal» . NVIDIA .
  22. ^ «Видеокарта NVIDIA TITAN X с Pascal» . GeForce . Проверено 15 сентября 2016 г.
  23. ^ «Новая графика Quadro, построенная на архитектуре Pascal» . NVIDIA . Проверено 15 сентября 2016 г.
  24. ^ «Ускорение рабочих нагрузок центра обработки данных с помощью графических процессоров» . NVIDIA . Проверено 15 сентября 2016 г.
  25. ^ Чжие Лю (22 октября 2018 г.). «Nvidia GeForce GTX 1060 получает GDDR5X в пятом обновлении» . Аппаратное обеспечение Тома . Проверено 2 февраля 2024 г.
  26. ^ «Видеокарты NVIDIA серии GeForce 10» . NVIDIA .
  27. ^ «NVIDIA GeForce GTX 1060 выйдет 7 июля» . VideoCardz.com . 29 июня 2016 г. Проверено 15 сентября 2016 г.
  28. ^ «Видеокарты GTX 1060» . GeForce . Проверено 15 сентября 2016 г.
  29. ^ Смит, Райан (12 ноября 2012 г.). «NVIDIA запускает Tesla K20 и K20X: наконец-то появился GK110» . АнандТех . п. 3 . Проверено 24 июля 2016 г.
  30. ^ Перейти обратно: а б с д Это ж Nvidia (1 сентября 2015 г.). «Руководство по программированию на CUDA C» . Проверено 24 июля 2016 г.
  31. ^ Перейти обратно: а б с д Это ж г час я дж к л м н О Триоле, Дэмиен (24 мая 2016 г.). «Nvidia GeForce GTX 1080, лучший графический процессор 16 нм в тесте!» . Hardware.fr (на французском языке). п. 2 . Проверено 24 июля 2016 г.
  32. ^ Перейти обратно: а б Смит, Райан (26 января 2015 г.). «GeForce GTX 970: исправление характеристик и изучение распределения памяти» . АнандТех . п. 1 . Проверено 24 июля 2016 г.
  33. ^ «Дата выпуска NVIDIA Turing» . Техрадар . 2 февраля 2021 г.
Arc.Ask3.Ru: конец оригинального документа.
Arc.Ask3.Ru
Номер скриншота №: 7A25EFAE29829784804CDE5EEEDB97CA__1715240520
URL1:https://en.wikipedia.org/wiki/Pascal_(microarchitecture)
Заголовок, (Title) документа по адресу, URL1:
Pascal (microarchitecture) - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть, любые претензии не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, денежную единицу можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)