Реализации клеточного микропроцессора
Эта статья предоставляет недостаточный контекст для тех, кто не знаком с предметом . ( январь 2020 г. ) |
Сотовые микропроцессоры — это многоядерные процессоры, использующие сотовую архитектуру для высокопроизводительных распределенных вычислений. Первый коммерческий микропроцессор Cell , Cell BE, был разработан для Sony PlayStation 3. IBM разработала PowerXCell 8i для использования в суперкомпьютере Roadrunner . [1]
Выполнение
[ редактировать ]Первое издание Cell на 90-нм КМОП
[ редактировать ]Обозначение | Область штампа | Впервые раскрыто | Улучшение |
---|---|---|---|
ДД1 | 221 мм 2 | МКССС 2005 г. | |
ДД2 | 235 мм 2 | Крутые чипсы, апрель 2005 г. | Улучшенное ядро СИЗ |
IBM опубликовала информацию о двух разных версиях Cell в этом процессе: раннем инженерном образце, обозначенном DD1 , и расширенной версии, обозначенной DD2, предназначенной для производства.
Основным улучшением в DD2 было небольшое удлинение кристалла для размещения более крупного ядра PPE, которое, как сообщается, «содержит больше ресурсов SIMD/векторного выполнения». [1] . В некоторой предварительной информации, опубликованной IBM, упоминается вариант DD1. В результате некоторые ранние журналистские отчеты о возможностях Cell теперь отличаются от серийного оборудования.
План этажа ячейки
[ редактировать ]Функциональный блок ячейки | Область | Описание |
---|---|---|
XDR-интерфейс | 5.7% | Интерфейс к системной памяти Rambus |
контроллер памяти | 4.4% | Управляет внешней памятью и кэшем L2. |
Кэш L2 512 КиБ | 10.3% | Кэш-память для СИЗ |
СИЗ ядро | 11.1% | Процессор PowerPC |
тест | 2.0% | Неуказанная «логика тестирования и декодирования» |
ЕИБ | 3.1% | Процессоры, связывающие шину межсоединений элементов |
SPE (каждый) × 8 | 6.2% | Синергетический элемент сопроцессора |
Контроллер ввода/вывода | 6.6% | Внешняя логика ввода/вывода |
филиал ФлексИО | 5.7% | Внешняя сигнализация для контактов ввода/вывода |
Материал Powerpoint, сопровождающий презентацию STI, представленную доктором Питером Хофсти], включает фотографию кристалла ячейки DD2, на которой обозначены границы функциональных блоков, которые также подписаны по имени, что показывает разбивку кремниевых площадей по функциональным блокам следующим образом:
План этажа SPE
[ редактировать ]Функция СПУ единица |
Область | Описание | Трубка |
---|---|---|---|
одинарная точность | 10.0% | исполнительный блок одинарной точности FP | даже |
двойная точность | 4.4% | Исполнительный блок двойной точности FP | даже |
простой фиксированный | 3.25% | исполнительный блок с фиксированной точкой | даже |
контроль выпуска | 2.5% | подает исполнительные блоки | |
вперед макрос | 3.75% | подает исполнительные блоки | |
георадар | 6.25% | Регистровый файл общего назначения | |
обмены | 3.25% | перестановка исполнительного блока | странный |
ветвь | 2.5% | исполнительный блок филиала | странный |
канал | 6.75% | интерфейс канала (три дискретных блока) | странный |
LS0–LS3 | 30.0% | четыре блока локального хранилища по 64 КиБ | странный |
ММУ | 4.75% | блок управления памятью | |
прямой доступ к памяти | 7.5% | блок прямого доступа к памяти | |
БИУ | 9.0% | блок интерфейса шины | |
RTB | 2.5% | встроенный тестовый блок массива (ABIST) | |
ИХ | 1.6% | атомарная единица для атомарных обновлений DMA | |
полупансион | 0.5% | затемнять |
Дополнительные подробности, касающиеся внутренней реализации SPE, были раскрыты инженерами IBM, в том числе Питером Хофсти , главным архитектором синергетического процессорного элемента IBM, в научной публикации IEEE. [2]
В этот документ включена фотография SPE размером 2,54 × 5,81 мм, реализованная в 90-нм SOI . В этой технологии SPE содержит 21 миллион транзисторов, из которых 14 миллионов содержатся в массивах (термин, предположительно обозначающий файлы регистров и локальное хранилище), а 7 миллионов транзисторов являются логическими. На этой фотографии показаны границы функциональных блоков, которые также подписаны по имени, что показывает разбивку кремниевых площадей по функциональным блокам следующим образом:
Понимание конвейеров диспетчеризации важно для написания эффективного кода. В архитектуре SPU две инструкции могут быть отправлены (запущены) в каждом такте с использованием конвейеров диспетчеризации, обозначенных четным и нечетным . Два канала предоставляют разные исполнительные блоки, как показано в таблице выше. Поскольку IBM разделила это на разделы, большая часть арифметических инструкций выполняется в четном канале, тогда как большая часть инструкций памяти выполняется в нечетном канале. Блок перестановки тесно связан с инструкциями памяти, поскольку он служит для упаковки и распаковки структур данных, расположенных в памяти, в формат с несколькими операндами SIMD, который SPU вычисляет наиболее эффективно.
В отличие от других процессоров, обеспечивающих отдельные каналы выполнения, каждая инструкция SPU может отправляться только по одному назначенному каналу. В конкурирующих проектах может быть спроектировано более одного канала для обработки чрезвычайно распространенных инструкций, таких как add , что позволяет одновременно выполнять две или более таких инструкций, что может способствовать повышению эффективности несбалансированных рабочих процессов. В соответствии с чрезвычайно спартанской философией проектирования для SPU не предусмотрены несколько исполнительных блоков.
Понимание ограничений ограничительной двухконвейерной конструкции является одной из ключевых концепций, которые программист должен усвоить для написания эффективного кода SPU на самом низком уровне абстракции. Для программистов, работающих на более высоких уровнях абстракции, хороший компилятор автоматически сбалансирует параллелизм конвейеров, где это возможно.
Мощность и производительность SPE
[ редактировать ]Напряжение | Частота | Власть | Темп. |
---|---|---|---|
0.9 V | 2,0 ГГц | 1 Вт | 25 °С |
0.9 V | 3,0 ГГц | 2 Вт | 27 °С |
1.0 V | 3,8 ГГц | 3 Вт | 31 °С |
1.1 V | 4,0 ГГц | 4 Вт | 38 °С |
1.2 V | 4,4 ГГц | 7 Вт | 47 °С |
1.3 V | 5,0 ГГц | 11 Вт | 63 °С |
По результатам испытаний IBM в условиях тяжелой рабочей нагрузки по преобразованию и освещению (средний IPC 1,4) профиль производительности этой реализации для одного процессора SPU оценивается следующим образом:
Запись для работы на частоте 2,0 ГГц при напряжении 0,9 В представляет собой конфигурацию с низким энергопотреблением. Другие записи показывают пиковую стабильную рабочую частоту, достигаемую с каждым увеличением напряжения. Как правило, в схемах КМОП рассеиваемая мощность возрастает примерно в зависимости от напряжения. 2 F, квадрат напряжения, умноженный на рабочую частоту.
Хотя измерения мощности, предоставленные авторами IBM, недостаточно точны, они дают хорошее представление об общей тенденции. Эти цифры показывают, что деталь способна работать на частоте выше 5 ГГц в условиях испытательной лаборатории, хотя температура кристалла слишком высока для стандартных коммерческих конфигураций. Первые коммерчески доступные процессоры Cell были оценены IBM как работающие на частоте 3,2 ГГц — рабочая частота, при которой эта диаграмма предполагает комфортную температуру кристалла SPU в районе 30 градусов.
Обратите внимание, что один SPU занимает 6% площади кристалла процессора Cell. Показатели мощности, приведенные в таблице выше, представляют собой лишь небольшую часть общего бюджета мощности.
IBM публично объявила о своем намерении внедрить Cell на будущей технологии ниже 90-нм узла для улучшения энергопотребления. Снижение энергопотребления потенциально может позволить повысить частоту существующей конструкции до 5 ГГц или выше, не превышая тепловые ограничения существующих продуктов.
Ячейка при 65 нм
[ редактировать ]Первое сжатие Cell произошло на узле 65 нм. Уменьшение до 65 нм уменьшило существующие 230 мм. 2 размер кристалла, изготовленного по техпроцессу 90 нм, уменьшен в два раза по сравнению с нынешним размером, около 120 мм. 2 , что также значительно снижает производственные затраты IBM.
12 марта 2007 года IBM объявила, что начала производство элементов 65 нм на своей фабрике в Восточном Фишкилле. Произведенные там чипы, очевидно, предназначены только для собственных блейд- серверов Cell IBM, которые первыми получили 65-нм Cells. Sony представила третье поколение PS3 в ноябре 2007 года, модель емкостью 40 ГБ без совместимости с PS2, в которой было подтверждено использование ячейки 65 нм. Благодаря уменьшенной ячейке энергопотребление сократилось с 200 Вт до 135 Вт.
Сначала было известно только, что 65-нм элементы работают с тактовой частотой до 6 ГГц и работают при напряжении ядра 1,3 В, как было продемонстрировано на ISSCC 2007. Это дало бы чипу теоретическую пиковую производительность 384 гигафлопс с точностью до четверти FP8 ( 48 гигафлопс в режиме двойной точности FP64), что значительно превышает пиковые 204,8 гигафлопс (25,6 гигафлопс в режиме двойной точности FP64), которые может обеспечить ячейка 90 нм с частотой 3,2 ГГц с 8 активными SPU. IBM также объявила, что внедрила новые функции энергосбережения и двойной источник питания для массива SRAM. Эта версия еще не была той версией Cell+, о которой давно ходили слухи, с улучшенной производительностью операций с плавающей запятой двойной точности, которая впервые увидела свет в середине 2008 года в суперкомпьютере Roadrunner в форме блейд-серверов QS22 PowerXCell. Хотя IBM раньше говорила и даже демонстрировала ячейки с более высокой тактовой частотой, тактовая частота оставалась постоянной на уровне 3,2 ГГц, даже для технологии Cell+ с двойной точностью в Roadrunner. Поддерживая постоянную тактовую частоту, IBM вместо этого решила снизить энергопотребление. PowerXCell объединяет даже лучшие IBM Blue Gene Кластеры (371 MFLOPS/ватт), которые уже гораздо более энергоэффективны, чем кластеры, состоящие из обычных процессоров (265 MFLOPS/ватт и ниже).
Будущие версии в CMOS
[ редактировать ]Перспективы на 45 нм
[ редактировать ]На выставке ISSCC 2008 IBM анонсировала технологию Cell на узле 45 нм. IBM заявила, что ей потребуется на 40 процентов меньше энергии при той же тактовой частоте, чем ее 65-нм предшественнику, а площадь кристалла уменьшится на 34 процента. Ячейка 45 нм требует меньшего охлаждения и позволяет удешевить производство, в том числе за счет использования радиатора гораздо меньшего размера. Первоначально планировалось, что массовое производство начнется в конце 2008 года, но было перенесено на начало 2009 года .
Перспективы за пределами 45 нм
[ редактировать ]Sony, IBM и Toshiba объявили о начале работы над Cell размером всего 32 нм в январе 2006 года, но поскольку сокращение технологических процессов на фабриках обычно происходит в глобальном масштабе, а не в масштабе отдельного чипа, это было просто публичным обязательством вывести Cell на новый уровень. 32 нм.
Ссылки
[ редактировать ]- ^ Кевин Дж. Баркер, Кей Дэвис, Адольфи Хойси, Даррен Дж. Кербисон, Майк Лэнг, Скотт Пэкин, Хосе К. Санчо. «Вступая в эру петафлопов: архитектура и производительность Roadrunner» .