Jump to content

Реализации клеточного микропроцессора

Сотовые микропроцессоры — это многоядерные процессоры, использующие сотовую архитектуру для высокопроизводительных распределенных вычислений. Первый коммерческий микропроцессор Cell , Cell BE, был разработан для Sony PlayStation 3. IBM разработала PowerXCell 8i для использования в суперкомпьютере Roadrunner . [1]

Выполнение

[ редактировать ]

Первое издание Cell на 90-нм КМОП

[ редактировать ]
Известные варианты ячеек, изготовленные по 90-нм техпроцессу
Обозначение Область штампа Впервые раскрыто Улучшение
ДД1 221 мм 2 МКССС 2005 г.
ДД2 235 мм 2 Крутые чипсы, апрель 2005 г. Улучшенное ядро ​​СИЗ

IBM опубликовала информацию о двух разных версиях Cell в этом процессе: раннем инженерном образце, обозначенном DD1 , и расширенной версии, обозначенной DD2, предназначенной для производства.

Основным улучшением в DD2 было небольшое удлинение кристалла для размещения более крупного ядра PPE, которое, как сообщается, «содержит больше ресурсов SIMD/векторного выполнения». [1] . В некоторой предварительной информации, опубликованной IBM, упоминается вариант DD1. В результате некоторые ранние журналистские отчеты о возможностях Cell теперь отличаются от серийного оборудования.

План этажа ячейки

[ редактировать ]
Функциональные единицы и площадь клетки
Функциональный блок ячейки Область Описание
XDR-интерфейс 0 5.7% Интерфейс к системной памяти Rambus
контроллер памяти 0 4.4% Управляет внешней памятью и кэшем L2.
Кэш L2 512 КиБ 10.3% Кэш-память для СИЗ
СИЗ ядро 11.1% Процессор PowerPC
тест 0 2.0% Неуказанная «логика тестирования и декодирования»
ЕИБ 0 3.1% Процессоры, связывающие шину межсоединений элементов
SPE (каждый) × 8 0 6.2% Синергетический элемент сопроцессора
Контроллер ввода/вывода 0 6.6% Внешняя логика ввода/вывода
филиал ФлексИО 0 5.7% Внешняя сигнализация для контактов ввода/вывода

Материал Powerpoint, сопровождающий презентацию STI, представленную доктором Питером Хофсти], включает фотографию кристалла ячейки DD2, на которой обозначены границы функциональных блоков, которые также подписаны по имени, что показывает разбивку кремниевых площадей по функциональным блокам следующим образом:

План этажа SPE

[ редактировать ]
Функциональные блоки SPU и занимаемая площадь
Функция СПУ
единица
Область Описание Трубка
одинарная точность 10.0% исполнительный блок одинарной точности FP даже
двойная точность 0 4.4% Исполнительный блок двойной точности FP даже
простой фиксированный 0 3.25% исполнительный блок с фиксированной точкой даже
контроль выпуска 0 2.5% подает исполнительные блоки
вперед макрос 0 3.75% подает исполнительные блоки
георадар 0 6.25% Регистровый файл общего назначения
обмены 0 3.25% перестановка исполнительного блока странный
ветвь 0 2.5% исполнительный блок филиала странный
канал 0 6.75% интерфейс канала (три дискретных блока) странный
LS0–LS3 30.0% четыре блока локального хранилища по 64 КиБ странный
ММУ 0 4.75% блок управления памятью
прямой доступ к памяти 0 7.5% блок прямого доступа к памяти
БИУ 0 9.0% блок интерфейса шины
RTB 0 2.5% встроенный тестовый блок массива (ABIST)
ИХ 0 1.6% атомарная единица для атомарных обновлений DMA
полупансион 0 0.5% затемнять

Дополнительные подробности, касающиеся внутренней реализации SPE, были раскрыты инженерами IBM, в том числе Питером Хофсти , главным архитектором синергетического процессорного элемента IBM, в научной публикации IEEE. [2]

В этот документ включена фотография SPE размером 2,54 × 5,81 мм, реализованная в 90-нм SOI . В этой технологии SPE содержит 21 миллион транзисторов, из которых 14 миллионов содержатся в массивах (термин, предположительно обозначающий файлы регистров и локальное хранилище), а 7 миллионов транзисторов являются логическими. На этой фотографии показаны границы функциональных блоков, которые также подписаны по имени, что показывает разбивку кремниевых площадей по функциональным блокам следующим образом:

Понимание конвейеров диспетчеризации важно для написания эффективного кода. В архитектуре SPU две инструкции могут быть отправлены (запущены) в каждом такте с использованием конвейеров диспетчеризации, обозначенных четным и нечетным . Два канала предоставляют разные исполнительные блоки, как показано в таблице выше. Поскольку IBM разделила это на разделы, большая часть арифметических инструкций выполняется в четном канале, тогда как большая часть инструкций памяти выполняется в нечетном канале. Блок перестановки тесно связан с инструкциями памяти, поскольку он служит для упаковки и распаковки структур данных, расположенных в памяти, в формат с несколькими операндами SIMD, который SPU вычисляет наиболее эффективно.

В отличие от других процессоров, обеспечивающих отдельные каналы выполнения, каждая инструкция SPU может отправляться только по одному назначенному каналу. В конкурирующих проектах может быть спроектировано более одного канала для обработки чрезвычайно распространенных инструкций, таких как add , что позволяет одновременно выполнять две или более таких инструкций, что может способствовать повышению эффективности несбалансированных рабочих процессов. В соответствии с чрезвычайно спартанской философией проектирования для SPU не предусмотрены несколько исполнительных блоков.

Понимание ограничений ограничительной двухконвейерной конструкции является одной из ключевых концепций, которые программист должен усвоить для написания эффективного кода SPU на самом низком уровне абстракции. Для программистов, работающих на более высоких уровнях абстракции, хороший компилятор автоматически сбалансирует параллелизм конвейеров, где это возможно.

Мощность и производительность SPE

[ редактировать ]
Зависимость скорости от температуры
Напряжение Частота Власть Темп.
0.9 V 2,0 ГГц 0 1 Вт 25 °С
0.9 V 3,0 ГГц 0 2 Вт 27 °С
1.0 V 3,8 ГГц 0 3 Вт 31 °С
1.1 V 4,0 ГГц 0 4 Вт 38 °С
1.2 V 4,4 ГГц 0 7 Вт 47 °С
1.3 V 5,0 ГГц 11 Вт 63 °С

По результатам испытаний IBM в условиях тяжелой рабочей нагрузки по преобразованию и освещению (средний IPC 1,4) профиль производительности этой реализации для одного процессора SPU оценивается следующим образом:

Запись для работы на частоте 2,0 ГГц при напряжении 0,9 В представляет собой конфигурацию с низким энергопотреблением. Другие записи показывают пиковую стабильную рабочую частоту, достигаемую с каждым увеличением напряжения. Как правило, в схемах КМОП рассеиваемая мощность возрастает примерно в зависимости от напряжения. 2 F, квадрат напряжения, умноженный на рабочую частоту.

Хотя измерения мощности, предоставленные авторами IBM, недостаточно точны, они дают хорошее представление об общей тенденции. Эти цифры показывают, что деталь способна работать на частоте выше 5 ГГц в условиях испытательной лаборатории, хотя температура кристалла слишком высока для стандартных коммерческих конфигураций. Первые коммерчески доступные процессоры Cell были оценены IBM как работающие на частоте 3,2 ГГц — рабочая частота, при которой эта диаграмма предполагает комфортную температуру кристалла SPU в районе 30 градусов.

Обратите внимание, что один SPU занимает 6% площади кристалла процессора Cell. Показатели мощности, приведенные в таблице выше, представляют собой лишь небольшую часть общего бюджета мощности.

IBM публично объявила о своем намерении внедрить Cell на будущей технологии ниже 90-нм узла для улучшения энергопотребления. Снижение энергопотребления потенциально может позволить повысить частоту существующей конструкции до 5 ГГц или выше, не превышая тепловые ограничения существующих продуктов.

Ячейка при 65 нм

[ редактировать ]

Первое сжатие Cell произошло на узле 65 нм. Уменьшение до 65 нм уменьшило существующие 230 мм. 2 размер кристалла, изготовленного по техпроцессу 90 нм, уменьшен в два раза по сравнению с нынешним размером, около 120 мм. 2 , что также значительно снижает производственные затраты IBM.

12 марта 2007 года IBM объявила, что начала производство элементов 65 нм на своей фабрике в Восточном Фишкилле. Произведенные там чипы, очевидно, предназначены только для собственных блейд- серверов Cell IBM, которые первыми получили 65-нм Cells. Sony представила третье поколение PS3 в ноябре 2007 года, модель емкостью 40 ГБ без совместимости с PS2, в которой было подтверждено использование ячейки 65 нм. Благодаря уменьшенной ячейке энергопотребление сократилось с 200   Вт до 135   Вт.

Сначала было известно только, что 65-нм элементы работают с тактовой частотой до 6 ГГц и работают при   напряжении ядра 1,3 В, как было продемонстрировано на ISSCC 2007. Это дало бы чипу теоретическую пиковую производительность 384   гигафлопс с точностью до четверти FP8 ( 48   гигафлопс в режиме двойной точности FP64), что значительно превышает пиковые 204,8   гигафлопс (25,6   гигафлопс в режиме двойной точности FP64), которые может обеспечить ячейка 90 нм с частотой 3,2 ГГц с 8 активными SPU. IBM также объявила, что внедрила новые функции энергосбережения и двойной источник питания для массива SRAM. Эта версия еще не была той версией Cell+, о которой давно ходили слухи, с улучшенной производительностью операций с плавающей запятой двойной точности, которая впервые увидела свет в середине 2008 года в суперкомпьютере Roadrunner в форме блейд-серверов QS22 PowerXCell. Хотя IBM раньше говорила и даже демонстрировала ячейки с более высокой тактовой частотой, тактовая частота оставалась постоянной на уровне 3,2 ГГц, даже для технологии Cell+ с двойной точностью в Roadrunner. Поддерживая постоянную тактовую частоту, IBM вместо этого решила снизить энергопотребление. PowerXCell объединяет даже лучшие IBM Blue Gene Кластеры   (371 MFLOPS/ватт), которые уже гораздо более энергоэффективны, чем кластеры, состоящие из обычных процессоров (265   MFLOPS/ватт и ниже).

Будущие версии в CMOS

[ редактировать ]

Перспективы на 45 нм

[ редактировать ]

На выставке ISSCC 2008 IBM анонсировала технологию Cell на узле 45 нм. IBM заявила, что ей потребуется на 40 процентов меньше энергии при той же тактовой частоте, чем ее 65-нм предшественнику, а площадь кристалла уменьшится на 34 процента. Ячейка 45 нм требует меньшего охлаждения и позволяет удешевить производство, в том числе за счет использования радиатора гораздо меньшего размера. Первоначально планировалось, что массовое производство начнется в конце 2008 года, но было перенесено на начало 2009 года .

Перспективы за пределами 45 нм

[ редактировать ]

Sony, IBM и Toshiba объявили о начале работы над Cell размером всего 32 нм в январе 2006 года, но поскольку сокращение технологических процессов на фабриках обычно происходит в глобальном масштабе, а не в масштабе отдельного чипа, это было просто публичным обязательством вывести Cell на новый уровень. 32 нм.

  1. ^ Кевин Дж. Баркер, Кей Дэвис, Адольфи Хойси, Даррен Дж. Кербисон, Майк Лэнг, Скотт Пэкин, Хосе К. Санчо. «Вступая в эру петафлопов: архитектура и производительность Roadrunner» .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: a97d0e788f1d592b3766fb273ce41889__1692255600
URL1:https://arc.ask3.ru/arc/aa/a9/89/a97d0e788f1d592b3766fb273ce41889.html
Заголовок, (Title) документа по адресу, URL1:
Cell microprocessor implementations - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)