Синтезатор реальности RSX
![]() | Эта статья , возможно, содержит оригинальные исследования . ( Март 2018 г. ) |

RSX «Синтезатор реальности » — это запатентованный графический процессор (GPU), совместно разработанный Nvidia и Sony для игровой консоли PlayStation 3 . Он основан на графическом процессоре Nvidia 7800GTX и, по данным Nvidia, представляет собой гибридную архитектуру G70/G71 (ранее известную как NV47) с некоторыми модификациями. RSX имеет отдельные конвейеры вершинных и пиксельных шейдеров . Графический процессор использует 256 МБ оперативной памяти GDDR3 с тактовой частотой 650 МГц и эффективной скоростью передачи данных 1,3 ГГц и до 224 МБ основной памяти XDR 3,2 ГГц через ЦП (максимум 480 МБ).Хотя он выполняет большую часть обработки графики, Cell Broadband Engine консоли , ЦП , также используется дополнительно для некоторых вычислительных нагрузок консоли, связанных с графикой.
Технические характеристики
[ редактировать ]
Если не указано иное, следующие характеристики основаны на пресс-релизе Sony, представленном на конференции E3 2005: [1] слайды с той же конференции, [2] и слайды из презентации Sony на конференции разработчиков игр 2006 года . [ нужна ссылка ]
- Тактовая частота пиксельных шейдеров 550 МГц / тактовая частота вершинных шейдеров 500 МГц по техпроцессу 90 нм (сокращена до 65 нм в 2008 г.) [3] до 40 нм в 2010 г. [4] ), а до 28 нм в 2013 году — 300+ миллионов транзисторов
- На базе NV47 (архитектура Nvidia GeForce 7800 )
- Маленький Эндиан
- 24 блока фильтрации текстур (TF) и 8 блоков адресации текстурных вершин (TA)
- 24 отфильтрованных выборки за такт
- Максимальная скорость заполнения текселей: 13,2 гигатекселей в секунду (24 текстуры * 550 МГц)
- 32 нефильтрованных сэмпла текстур за такт (8 TA * 4 сэмпла текстур)
- 8 блоков вывода рендеринга (ROP) / конвейеров рендеринга пикселей
- Пиковая скорость заполнения пикселей (теоретическая): 4,4 гигапикселя в секунду.
- Максимальная частота дискретизации Z-буферизации : 8,8 гигавыборок в секунду (2 Z-выборки * 8 ROP * 550 МГц)
- Максимальное количество операций скалярного произведения : 51 миллиард в секунду (в сочетании с процессором Cell)
- 128-битная точность пикселей обеспечивает рендеринг с расширенным динамическим диапазоном.
- 256 МБ оперативной памяти GDDR3 на частоте 650 МГц
- Ширина шины памяти 128 бит.
- Пропускная способность чтения и записи 20,8 ГБ/с
- Интерфейс шины Cell FlexIO
- Ширина шины интерфейса Rambus XDR Memory: 56 бит из 64 бит (последовательный)
- Скорость чтения 20 ГБ/с в память Cell и XDR.
- Скорость записи в память Cell и XDR со скоростью 15 ГБ/с.
- Кэш текстур 576 КБ (96 КБ на четыре пиксельных конвейера)
- Поддержка PSGL (OpenGL ES 1.1 + Nvidia Cg )
- Поддержка сжатия текстур S3 [5]
Другие функции: Поддержка билинейной, трилинейной , анизотропной фильтрации текстур quincunx , сглаживания quincunx, до 4x MSAA , SSAA , Alpha to Coverage и Alphakill.
Номера моделей
[ редактировать ]90 нм:
- CXD2971AGB
- CXD2971DGB
- CXD2971 ГБ
- CXD2971-1 ГБ
- CXD297BGe
65 нм:
- CXD2982
- CXD2982 ГБ
- CXD2991 ГБ
- CXD2991BGB
- CXD2991GGB
- CXD2991CGB
- CXD2991EGB
40 нм:
- CXD5300AGB
- CXD5300A1 ГБ
- CXD5301DGB
- CXD5302DGB
- CXD5302A1GB
Локальная структура физической памяти GDDR3
[ редактировать ]- Общая память 256 МБ
- 2 раздела (128 МБ)
- 64-битная шина на раздел
- 8 банков на раздел (16 МБ)
- 4096 страниц в банке (4 КБ) -> адрес 12-битной строки
- Блок памяти на странице -> 9-битный адрес столбца
- Минимальная степень детализации доступа = 8 байт -> такая же, как ширина шины между RSX <> GDDR.
Карта памяти RSX
[ редактировать ]Хотя RSX имеет 256 МБ оперативной памяти GDDR3, не вся она пригодна для использования. Последние 4 МБ зарезервированы для отслеживания внутреннего состояния RSX и выдаваемых команд. 4 МБ данных графического процессора содержат RAMIN, RAMHT, RAMFC, объекты DMA, графические объекты и графический контекст. Ниже приводится разбивка адреса в пределах 256 МБ RSX.
Диапазон адресов | Размер | Комментарий |
---|---|---|
0000000-ФБФФФФФ | 252 МБ | Кадровый буфер |
FC00000-FFFFFFFF | 4 МБ | Данные графического процессора |
ФФ80000-ФФФФФФ | 512 КБ | RAMIN: память экземпляра |
ФФ90000-FF93FFF | 16 КБ | RAMHT: хеш-таблица |
FFA0000-FFA0FFF | 4 КБ | RAMFC: контекст FIFO |
FFC0000-FFFFFF | 64 КБ | Объекты DMA |
FFD0000-FFDFFFF | 64 КБ | Графические объекты |
FFE0000-FFFFFFFF | 128 КБ | ГРАФИК: Графический контекст |
Помимо локальной памяти GDDR3, RSX также может получить доступ к основной памяти XDR, которая ограничена одним из следующих вариантов:
- 0–256 МБ (0x00000000–0x0FFFFFF)
- -или-
- 0–512 МБ (0x00000000–0x1FFFFFF)
Скорость, пропускная способность и задержка
[ редактировать ]Пропускная способность системы (теоретический максимум):
- Ячейка в/из 256 МБ XDR: 25,6 ГБ/с
- От ячейки до RSX (IOIFO): 20 ГБ/с (практическая: 15,8 ГБ/с при размере пакета 128 байт)
- Ячейка от RSX (IOIFI): 15 ГБ/с (практическая: 11,9 ГБ/с при размере пакета 128 байт)
- RSX в/из 256 МБ GDDR3: 20,8 ГБ/с (@ 650 МГц)
Из-за вышеупомянутой схемы пути связи между различными чипами, а также различий в задержке и пропускной способности между различными компонентами существуют разные скорости доступа в зависимости от направления доступа по отношению к источнику и месту назначения. Ниже приведена диаграмма, показывающая скорость чтения и записи в память GDDR3 и XDR с точки зрения Cell и RSX. Обратите внимание, что это измеренные скорости (а не расчетные), и они должны быть хуже, если задействован доступ к RSX и GDDR3, поскольку эти цифры были измерены, когда RSX работал с тактовой частотой 550 МГц, а память GDDR3 — с тактовой частотой 700 МГц. В поставляемой PS3 RSX работает на частоте 500 МГц (передняя и задняя части, хотя пиксельные шейдеры внутри работают отдельно на частоте 550 МГц). Кроме того, частота памяти GDDR3 также снизилась до 650 МГц.
Таблица скоростей
[ редактировать ]Процессор | 256 МБ XDR | 256 МБ GDDR3 |
---|---|---|
Чтение ячейки | 16,8 ГБ/с | 16 МБ/с (15,6 МБ/с при 650 МГц) |
Запись ячейки | 24,9 ГБ/с | 4 ГБ/с |
RSX-чтение | 15,5 ГБ/с | 22,4 ГБ/с (20,8 ГБ/с при 650 МГц) |
RSX-запись | 10,6 ГБ/с | 22,4 ГБ/с (20,8 ГБ/с при 650 МГц) |
Из-за очень низкой скорости чтения ячейки из памяти GDDR3 объемом 256 МБ для Cell более эффективно работать в XDR, а затем RSX извлекает данные из XDR и записывает в GDDR3 для вывода на дисплей HDMI . Вот почему в RSX были включены дополнительные инструкции поиска текстур, позволяющие загружать данные из памяти XDR (в отличие от локальной памяти GDDR3).
библиотеки RSX
[ редактировать ]RSX предназначен для 3D-графики, и разработчики могут использовать различные библиотеки API для доступа к его функциям. Самый простой способ — использовать PSGL высокого уровня, который по сути представляет собой OpenGL | ES с добавленным программируемым конвейером, однако это непопулярно из-за снижения производительности на относительно слабом консольном процессоре.На более низком уровне разработчики могут использовать LibGCM — API, создающий буферы команд RSX на более низком уровне. (PSGL фактически реализован поверх LibGCM). Это делается путем настройки команд (через контекст FIFO) и объектов DMA и их передачи на RSX через вызовы DMA.
Отличия от архитектуры G70
[ редактировать ]«Синтезатор реальности» RSX основан на архитектуре G70, но имеет несколько изменений в ядре. [6] Самая большая разница между двумя чипами заключается в том, как работает пропускная способность памяти. G70 поддерживает рендеринг только в локальную память , тогда как RSX может рендерить как в системную, так и в локальную память. Поскольку рендеринг из системной памяти имеет гораздо более высокую задержку по сравнению с рендерингом из локальной памяти, архитектуру чипа пришлось изменить, чтобы избежать снижения производительности. Это было достигнуто за счет увеличения размера чипа для размещения больших буферов и кэшей , чтобы графический конвейер был заполнен. В результате у RSX было только 60% пропускной способности локальной памяти G70, что заставило разработчиков использовать системную память для достижения целевых показателей производительности. [6]
Разница | RSX | нвидиа 7800GTX |
---|---|---|
Шина памяти GDDR3 | 128бит | 256бит |
РОП | 8 | 16 |
Пост-трансформация и кэш освещения | Максимум 63 вершины | 45 максимум вершин |
Общий кэш текстур на четверку пиксельных конвейеров (L1 и L2) | 96КБ | 48КБ |
Интерфейс процессора | FlexIO | PCI-Экспресс 16x |
Технология | 28 нм/40 нм/65 нм/90 нм | 110 нм |
Другие особенности/отличия RSX включают:
- Дополнительные инструкции по шейдерам
- Дополнительная логика поиска текстур (помогает RSX транспортировать данные из XDR)
- Быстрая векторная нормализация
Пресс-релизы
[ редактировать ]цитировались сотрудники Sony, В журнале PlayStation Magazine заявившие, что «RSX во многом схож по внутреннему принципу с NVIDIA 7800 , основанной на архитектуре G70». [ нужна ссылка ] Поскольку G70 способен выполнять 136 шейдерных операций за такт, ожидалось, что RSX будет иметь такое же количество параллельных конвейеров пиксельных и вершинных шейдеров, что и G70, который содержит 24 пиксельных и 8 вершинных конвейеров.
Генеральный директор Nvidia Джен-Сун Хуанг заявил во время пресс-конференции Sony перед выставкой E3 2005, что RSX в два раза мощнее, чем GeForce 6800 Ultra. [2]
Бампгейт
[ редактировать ]В случае с PlayStation 3 RSX изначально производилась по 90-нм техпроцессу. перед переходом на 65-нм , 40-нм и, наконец, на 28-нм процесс. 90-нм версия RSX была упакована (с точки зрения термической деформации) с несовместимыми элементами упаковки кристалла . Эти факторы приводят к тому, что шариковая решётчатая матрица (BGA) чипа между промежуточным устройством и его кристаллом выходит из строя с аномально высокой скоростью.
Некоторые из факторов неудачи включают в себя
- Различные коэффициенты теплового расширения (КТР) различных компонентов на переходнике и кристалле, внутри них. Это приводит к тому, что эти компоненты расширяются с разной скоростью, что создает напряжение сдвига на BGA. [7]
- Различная плотность транзисторов на кристалле, а также использование одних частей чаще других, что приводит к тому, что части кристалла нагреваются быстрее, чем другие. Это приводит к тому, что разные части расширяются с разной скоростью, что в конечном итоге приводит к тому, что части BGA RSX выходят из строя быстрее, чем другие части. [8]
- Электромиграция BGA, приводящая к образованию пустот внутри припоя. Эти пустоты ускоряют выход из строя BGA. [9]
- В PS3 RSX был оснащен технологией Flip Chip Ball Grid Array (FCBGA) . кристалла Недополнение , присутствующее в RSX, имеет очень низкую Tg по сравнению с рабочей температурой PlayStation 3 во время интенсивного игрового процесса. [10] Это приводит к его переходу в состояние, в котором он не поддерживает припой между кристаллом и переходником. [11]
См. также
[ редактировать ]- Xenos - графический процессор , используемый в Xbox 360.
- Cell Broadband Engine - процессор , используемый в PlayStation 3.
Ссылки
[ редактировать ]- ^ «SONY COMPUTER ENTERTAINMENT INC. ВЫПУСКАЕТ КОМПЬЮТЕРНУЮ РАЗВЛЕКАТЕЛЬНУЮ СИСТЕМУ НОВОГО ПОКОЛЕНИЯ PLAYSTATION3 ВЕСНОЙ 2006 ГОДА» (пресс-релиз). Sony Computer Entertainment Inc., 16 мая 2005 г.
- ^ Jump up to: а б «Sony представляет PlayStation 3, запуск которой запланирован на 2006 год» . АнандТех. 16 мая 2005 г.
- ^ «Графический чип PS3 осенью перейдет на 65 нм» . Край онлайн. 26 июня 2008 г.
- ^ «Sony PS3 получила более крутой 40-нм графический чип RSX, прибыль ждет (обновлено)» . Engadget. 26 апреля 2010 г.
- ^ Гантаят, Ануп (30 января 2006 г.). «Новые инструменты PS3» . IGN.com . Проверено 28 августа 2006 г.
- ^ Jump up to: а б «Xbox 360 от Microsoft, PS3 от Sony — обсуждение оборудования» . Проверено 8 марта 2014 г.
- ^ Молодой Ян, Се; Ким, Ильо; Ли, Сун-Бок (2008). «Исследование термоусталостного поведения паяных соединений в условиях циклического включения питания». Транзакции IEEE по компонентам и технологиям упаковки . 31 : 3–12. дои : 10.1109/TCAPT.2007.906294 .
- ^ Демерджян, Чарли (1 сентября 2008 г.). «Почему чипы Nvidia бракованные» . Спрашивающий . Архивировано из оригинала 25 мая 2009 г. Проверено 12 ноября 2023 г.
- ^ Хау-Риж, Кристина; Яу, ЮВэнь (2018). Электромиграционная надежность шариков припоя . дои : 10.1109/IPFA.2018.8452576 .
- ^ Хиллман, К; Блаттау, Н; Шэрон, Г. «Недостаточное заполнение низким Tg: хорошее, плохое и злое» (PDF) . Проверено 19 марта 2024 г.
- ^ Висса, У; Бутель, Н; Роватт, Дж; Тилен, К. (2006). Системный подход к квалификации корпусов флип-чипов с низким содержанием калия (90 нм) . дои : 10.1109/ECTC.2006.1645618 .