Jump to content

Тесла (микроархитектура)

Нвидия Тесла
NVIDIA GeForce GTX 295 из линейки видеокарт GeForce 200 была последней крупной итерацией с микроархитектурой Tesla (GT200-400-B3).
Дата выпуска ноябрь 2006 г.
Процесс изготовления 90 нм, 80 нм, 65 нм, 55 нм и 40 нм
История
Предшественник Кюри
Преемник Ферми
Статус поддержки
Не поддерживается
Фотография Николы Теслы, эпонима архитектуры

Tesla — кодовое название микроархитектуры графического процессора, разработанной Nvidia и выпущенной в 2006 году в качестве преемника микроархитектуры Curie . Он был назван в честь инженера-новатора-электрика Николы Теслы . В качестве первой микроархитектуры Nvidia, реализующей унифицированные шейдеры, она использовалась с серий GeForce 8 , GeForce 9 , GeForce 100 , GeForce 200 и GeForce 300 графическими процессорами , которые совместно производились по 90-нм , 80-нм , 65-нм , 55-нм техпроцессу. , и 40 нм . Это было также в GeForce 405 и в вычислительных модулях Quadro FX, Quadro x000, Quadro NVS и Nvidia Tesla .

Tesla заменила старые микроархитектуры с фиксированным конвейером , представленные на момент появления серией GeForce 7 . Она напрямую конкурировала с первой унифицированной шейдерной микроархитектурой AMD под названием TeraScale , развитием разработки ATI над Xbox 360 , в которой использовалась аналогичная конструкция. За Теслой последовал Ферми .

Tesla — первая микроархитектура Nvidia, реализующая единую шейдерную модель . Драйвер поддерживает архитектуру Direct3D 10 Shader Model 4.0/ OpenGL 2.1 (более поздние драйверы поддерживают OpenGL 3.3). Этот дизайн представляет собой серьезный сдвиг для NVIDIA в функциональности и возможностях графического процессора, наиболее очевидным изменением является переход от отдельных функциональных блоков (пиксельные шейдеры, вершинные шейдеры) в предыдущих графических процессорах к однородному набору универсальных процессоров с плавающей запятой (так называемых «потоковых процессоров»). "), который может выполнять более универсальный набор задач.

Графический процессор NVIDIA G80
Снимок графического процессора GT200, обнаруженного внутри карт NVIDIA GeForce GTX 280 на основе микроархитектуры Tesla

Унифицированная шейдерная архитектура GeForce 8 состоит из нескольких потоковых процессоров (SP). В отличие от подхода векторной обработки, используемого в старых модулях шейдеров, каждый SP является скалярным и, следовательно, может работать только с одним компонентом одновременно. Это делает их менее сложными в создании, но при этом они остаются достаточно гибкими и универсальными. Скалярные шейдерные блоки также имеют то преимущество, что в ряде случаев они более эффективны по сравнению с векторными шейдерными блоками предыдущего поколения, которые полагаются на идеальное сочетание команд и порядок для достижения максимальной пропускной способности. Более низкая максимальная пропускная способность этих скалярных процессоров компенсируется эффективностью и их работой на высокой тактовой частоте (что стало возможным благодаря их простоте). GeForce 8 запускает различные части своего ядра на разных тактовых частотах (тактовых доменах), аналогично работе графических процессоров предыдущей серии GeForce 7 . Например, потоковые процессоры GeForce 8800 GTX работают на тактовой частоте 1,35 ГГц, тогда как остальная часть чипа работает на частоте 575 МГц. [1]

GeForce 8 выполняет значительно лучшую фильтрацию текстур , чем ее предшественники, которые использовали различные оптимизации и визуальные трюки для ускорения рендеринга без ухудшения качества фильтрации. Линейка GeForce 8 правильно отображает независимый от угла алгоритм анизотропной фильтрации наряду с полной трилинейной фильтрацией текстур . G80, хотя и не его меньшие собратья, оснащен гораздо более широкими арифметическими возможностями фильтрации текстур, чем серия GeForce 7. Это обеспечивает высококачественную фильтрацию с гораздо меньшим снижением производительности, чем раньше. [1]

NVIDIA также представила новые методы сглаживания графического процессора краев полигонов, в том числе способность ROP выполнять как многосэмпловое сглаживание одновременно (MSAA), так и HDR-освещение, исправляя различные ограничения предыдущих поколений. GeForce 8 может выполнять MSAA с форматами текстур FP16 и FP32. GeForce 8 поддерживает 128-битный HDR-рендеринг , что больше, чем поддержка 64-битных карт на предыдущих картах. Новая технология сглаживания чипа, называемая AA с выборкой покрытия (CSAA), использует Z, цвет и информацию о покрытии для определения окончательного цвета пикселя. Этот метод оптимизации цвета позволяет 16X CSAA выглядеть четким и резким. [2]

Производительность

[ редактировать ]

Заявленная теоретическая вычислительная мощность одинарной точности для карт на базе Tesla, выраженная в FLOPS, может оказаться труднодостижимой в реальных рабочих нагрузках. [3]

В G80/G90/GT200 каждый потоковый мультипроцессор (SM) содержит 8 шейдерных процессоров (SP, или Unified Shader, или CUDA Core) и 2 блока специальных функций (SFU). Каждый SP может выполнять до двух операций одинарной точности за такт: 1 умножение и 1 сложение, используя одну инструкцию MAD . Каждый SFU может выполнять до четырех операций за такт: четыре инструкции MUL (Multiply). Таким образом, один SM в целом может выполнить 8 MAD (16 операций) и 8 MUL (8 операций) за такт, или 24 операции за такт, что (условно говоря) в 3 раза превышает количество SP. Таким образом, для расчета теоретической производительности двойной задачи MAD+MUL в операциях с плавающей запятой в секунду [ FLOPS sp+sfu , GFLOPS ] видеокарты с количеством SP [ n ] и частотой шейдера [ f , ГГц] используется следующая формула: ФЛОПС sp+sfu = 3 × n × f . [4] [5]

Однако использование двойной производительности, такой как MAD+MUL, проблематично:

  • Двойная выдача MUL недоступна в графическом режиме на G80/G90. [6] хотя в GT200 он был значительно улучшен. [7]
  • Не все комбинации инструкций, таких как MAD+MUL, могут выполняться параллельно на SP и SFU, поскольку SFU довольно специализирован, поскольку он может обрабатывать только определенный подмножество инструкций: 32-битное умножение с плавающей запятой, трансцендентные функции, интерполяцию для параметров. смешивание, обратное, обратный квадратный корень, синус, косинус и т. д. [8]
  • SFU может быть занят на много циклов при выполнении этих инструкций, и в этом случае он недоступен для инструкций MUL с двойной выдачей. [4]

По этим причинам, чтобы оценить производительность реальных рабочих нагрузок, может быть более полезно игнорировать SFU и принять только 1 MAD (2 операции) на SP за цикл. В этом случае формула для расчета теоретической производительности операций с плавающей запятой в секунду будет выглядеть так: FLOPS sp = 2 × n × f .

Теоретическая вычислительная мощность двойной точности графического процессора Tesla составляет 1/8 производительности одинарной точности на GT200; в G8x и G9x нет поддержки двойной точности. [9]

Распаковка/сжатие видео

[ редактировать ]

NVENC был представлен только в более поздних чипах.

  • G80
  • G84
  • G86
  • G92
  • G92B
  • G94
  • G94B
  • G96
  • G96B
  • G96C
  • G98
  • С77
  • С78
  • С79
  • C7A
  • C7A-ИОН
  • ИОН
  • GT200
  • GT200B
  • GT215
  • GT216
  • GT218
  • С87
  • С89

См. также

[ редактировать ]
  1. ^ Jump up to: а б Уоссон, Скотт. Графический процессор NVIDIA GeForce 8800. Архивировано 15 июля 2007 г. в Wayback Machine , Tech Report, 8 ноября 2007 г.
  2. ^ Соммефельдт, Рис. NVIDIA G80: анализ качества изображения , Beyond3D, 12 декабря 2006 г.
  3. ^ «Beyond3D — графический процессор NVIDIA GT200 и анализ архитектуры» . www.beyond3d.com .
  4. ^ Jump up to: а б Ананд Лал Шимпи и Дерек Уилсон. «Дерек переходит к техническим вопросам: ткацкие технологии 15-го века возвращаются - графический процессор NVIDIA с 1,4 миллиардами транзисторов: GT200 появляется как GeForce GTX 280 и 260» .
  5. ^ Ананд Лал Шимпи и Дерек Уилсон. «G80: обзор на милю — NVIDIA GeForce 8800 (G80): графические процессоры, переработанные для DirectX 10» .
  6. ^ Соммефельдт, Рис. NVIDIA G80: анализ архитектуры и графического процессора — страница 11 , Beyond3D, 8 ноября 2006 г.
  7. ^ «Технический обзор архитектуры графического процессора NVIDIA GeForce GTX 200» (PDF) . Май 2008. с. 15 . Проверено 5 декабря 2015 г. Отдельные ядра потоковой обработки графических процессоров GeForce GTX 200 теперь могут выполнять практически на полной скорости двойную обработку операций умножения-сложения (MAD) и MUL (3 флопа/SP).
  8. ^ Кантер, Дэвид (8 сентября 2008 г.). «GT200 от NVIDIA: внутри параллельного процессора» . Реальные мировые технологии . п. 9.
  9. ^ Смит, Райан (17 марта 2015 г.). «Обзор NVIDIA GeForce GTX Titan X» . АнандТех . п. 2.
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: faff513b80a01c20b35cded99c3359f1__1711535040
URL1:https://arc.ask3.ru/arc/aa/fa/f1/faff513b80a01c20b35cded99c3359f1.html
Заголовок, (Title) документа по адресу, URL1:
Tesla (microarchitecture) - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)