10000 рэндов
R10000 (MTI), в то время являвшейся под кодовым названием «T5» представляет собой RISC- микропроцессорную реализацию MIPS IV архитектуры набора команд (ISA), разработанную MIPS Technologies, Inc. подразделением Silicon Graphics, Inc. (SGI). Главные дизайнеры — Крис Роуэн и Кеннет С. Йегер. R10000 Микроархитектура известна как ANDES, аббревиатура от «Архитектура с непоследовательным динамическим планированием выполнения». R10000 в значительной степени заменяет R8000 в сегменте high-end и R4400 в других сегментах. MTI была полупроводниковой компанией без производственных мощностей ; R10000 был изготовлен компаниями NEC и Toshiba . Предыдущие производители микропроцессоров MIPS, такие как Integrated Device Technology (IDT) и три других, не производили R10000, поскольку это было дороже, чем R4000 и R4400.
История
[ редактировать ]R10000 был представлен в январе 1996 года с тактовой частотой 175 МГц и 195 МГц. Версия с частотой 150 МГц была представлена в линейке продуктов O2 в 1997 году, но вскоре была снята с производства из-за предпочтения клиентов версии с частотой 175 МГц. R10000 не был доступен в больших объемах до конца года из-за проблем с производством на литейных заводах MIPS. Версия с частотой 195 МГц была в дефиците на протяжении всего 1996 года, и в результате ее цена составила 3000 долларов США. [1]
25 сентября 1996 года SGI объявила, что R10000, изготовленные NEC в период с марта по конец июля того же года, были неисправны, потребляли слишком большой ток и вызывали отключение систем во время работы. В результате SGI отозвала 10 000 R10 000, которые были поставлены в системы, что повлияло на доходы компании.
В 1997 году версия R10000, изготовленная по технологии 0,25 мкм, позволила микропроцессору достичь частоты 250 МГц.
Пользователи
[ редактировать ]Среди пользователей R10000:
- СГИ:
- NEC в своем Cenju-4 суперкомпьютере
- Siemens Nixdorf , на своих серверах работает под управлением SINIX
- Tandem Computers в своих отказоустойчивых серверах Himalaya
Описание
[ редактировать ]R10000 — это четырехпроцессорная суперскалярная конструкция, реализующая переименование регистров и выполняющая инструкции вне очереди . Его конструкция отличается от предыдущих микропроцессоров MTI, таких как R4000, которые представляют собой гораздо более простую скалярную упорядоченную конструкцию, производительность которой в значительной степени зависит от высоких тактовых частот.
R10000 извлекает четыре инструкции за каждый цикл из своего кэша инструкций . Эти инструкции декодируются, а затем помещаются в очереди инструкций целых чисел, с плавающей запятой или загрузки/сохранения в зависимости от типа инструкции. Блоку декодирования помогают предварительно декодированные инструкции из кэша команд, которые добавляют пять бит к каждой инструкции, чтобы позволить блоку быстро определить, в каком исполнительном блоке выполняется инструкция, и изменить формат инструкции для оптимизации декодирования. процесс.
Каждая из очередей инструкций может принимать до четырех инструкций от декодера, что позволяет избежать узких мест. Очереди инструкций выдают инструкции своим исполнительным устройствам динамически в зависимости от доступности операндов и ресурсов. Каждая из очередей, за исключением очереди загрузки/сохранения, может выдавать до двух инструкций за каждый цикл своим исполнительным модулям. Очередь загрузки/сохранения может выдавать только одну инструкцию. Таким образом, R10000 может выдавать до пяти инструкций за один цикл.
Целочисленная единица
[ редактировать ]Целочисленный блок состоит из файла целочисленных регистров и трех конвейеров : двух целочисленных и одного загрузочного хранилища. Целочисленный файл регистров имеет ширину 64 бита и содержит 64 записи, из которых 32 являются архитектурными регистрами и 32 — регистрами переименования, которые реализуют переименование регистров. Регистровый файл имеет семь портов чтения и три порта записи. Оба целочисленных конвейера имеют сумматор и логическую единицу. Однако только первый конвейер имеет механизм переключения стволов и аппаратные средства для подтверждения предсказания условных ветвей. Второй конвейер используется для доступа к множителю и делителю. Умножения являются конвейерными и имеют задержку в шесть циклов для 32-битных целых чисел и десять для 64-битных целых чисел. Дивизия не конвейерная. Делитель использует алгоритм без восстановления , который производит один бит за цикл. Задержки для 32-битного и 64-битного деления составляют 35 и 67 циклов соответственно.
Модуль с плавающей запятой
[ редактировать ]Блок операций с плавающей запятой (FPU) состоит из четырех функциональных блоков: сумматора, умножителя, блока деления и блока квадратного корня. Сумматор и умножитель являются конвейерными, а устройства деления и квадратного корня — нет. Задержка сложения и умножения составляет три цикла, а сумматор и умножитель могут принимать новую инструкцию каждый цикл. Блок деления имеет задержку 12 или 19 циклов, в зависимости от того, имеет ли деление одинарную или двойную точность соответственно.
Устройство извлечения квадратного корня выполняет инструкции по извлечению квадратного корня и обратного извлечения квадратного корня . Инструкции квадратного корня имеют задержку 18 или 33 цикла для одинарной или двойной точности соответственно. Новая инструкция извлечения квадратного корня может передаваться блоку деления каждые 20 или 35 циклов для одинарной и двойной точности соответственно. Обратные квадратные корни имеют более длительную задержку: от 30 до 52 циклов для одинарной точности (32 бита) и двойной точности (64 бита) соответственно.
Файл регистров с плавающей запятой содержит шестьдесят четыре 64-битных регистра, из которых тридцать два являются архитектурными, а остальные — регистрами переименования.Сумматор имеет собственные выделенные порты чтения и записи, тогда как умножитель использует их совместно с делителем и устройством квадратного корня.
В единицах деления и квадратного корня используется алгоритм SRT . MIPS IV ISA имеет инструкцию умножения-сложения. Эта инструкция реализована в R10000 с обходом — результат умножения может обойти файл регистров и быть доставлен в конвейер сложения в качестве операнда, таким образом, это не объединенное умножение-сложение и имеет задержку в четыре цикла.
Тайники
[ редактировать ]R10000 имеет два сравнительно больших встроенных кэша: кэш инструкций объемом 32 КБ и кэш данных объемом 32 КБ. Кэш инструкций является двусторонним наборно-ассоциативным и имеет размер строки 128 байт. Инструкции частично декодируются путем добавления четырех бит к каждой инструкции (длина которой составляет 32 бита) перед помещением в кэш.
Кэш данных объемом 32 КБ является двухпортовым посредством двустороннего чередования. Он состоит из двух банков по 16 КБ , каждый из которых является двусторонним наборно-ассоциативным. Кэш имеет строки длиной 64 байта, использует протокол обратной записи , виртуально индексируется и физически помечается тегами , что позволяет индексировать кэш за один и тот же такт и поддерживать согласованность с вторичным кэшем.
Внешний вторичный унифицированный кэш поддерживал емкость от 512 КБ до 16 МБ. Он реализован с помощью стандартной синхронной статической памяти с произвольным доступом (SSRAM). Доступ к кешу осуществляется через собственную 128-битную шину, защищенную 9-битным кодом исправления ошибок (ECC). Кэш и шина работают на той же тактовой частоте, что и R10000, максимальная частота которого составляла 200 МГц. При частоте 200 МГц шина обеспечивала пиковую пропускную способность 3,2 ГБ/с. Кэш является двунаправленным, ассоциативным, но, чтобы избежать большого количества контактов, R10000 предсказывает, к какому пути осуществляется доступ.
Адресация
[ редактировать ]MIPS IV — это 64-битная архитектура, но для снижения стоимости R10000 не реализует весь физический или виртуальный адрес . Вместо этого он имеет 40-битный физический адрес и 44-битный виртуальный адрес, поэтому он способен адресовать 1 ТБ физической памяти и 16 ТБ виртуальной памяти .
Системная шина Avalanche
[ редактировать ]В R10000 используется шина Avalanche — 64-битная шина , работающая на частотах до 100 МГц. Avalanche представляет собой мультиплексированную шину адресов и данных, поэтому при частоте 100 МГц максимальная теоретическая пропускная способность составляет 800 МБ/с, но ее пиковая пропускная способность составляет 640 МБ/с, поскольку для передачи адресов требуется несколько циклов.
Контроллер системного интерфейса поддерживает бесклеевую симметричную многопроцессорную обработку (SMP) с участием до четырех микропроцессоров. Системы, использующие R10000 с внешней логикой, могут масштабироваться до сотен процессоров. Примером такой системы является Origin 2000 .
Изготовление
[ редактировать ]R10000 состоит примерно из 6,8 миллионов транзисторов, из которых примерно 4,4 миллиона содержатся в первичном кэше. [2] Размеры матрицы 16,640 на 17,934 мм, площадь матрицы 298,422 мм. 2 . Он изготовлен по технологии 0,35 мкм и упакован в керамическую решетчатую решетку с 599 контактными площадками (LGA). До того, как R10000 был представлен, в отчете Microprocessor Report , посвященном Форуму микропроцессоров 1994 года, сообщалось, что он был упакован в 527-контактную керамическую решетчатую решетку выводов (CPGA); и что поставщики также исследовали возможность использования 339-контактного многочипового модуля (MCM), содержащего кристалл микропроцессора и 1 МБ кэш-памяти. [3]
Производные
[ редактировать ]R10000 был дополнен несколькими последовательными производными. Тактовая частота всех производных после R12000 поддерживается как можно более низкой, чтобы поддерживать рассеиваемую мощность в диапазоне от 15 до 20 Вт, чтобы их можно было плотно упаковать в системы высокопроизводительных вычислений (HPC) SGI.
12000 рэндов
[ редактировать ]R12000 является производным от R10000, созданного MIPS и завершенного SGI. Его изготовили NEC и Toshiba. Версия, произведенная NEC, называется VR12000. Микропроцессор был представлен в ноябре 1998 года. Он доступен на частотах 270, 300 и 360 МГц. R12000 был разработан как временное решение после отмены проекта Beast, который должен был создать преемника R10000. В число пользователей R12000 входят NEC, Siemens-Nixdorf , SGI и Tandem Computers (а позже и Compaq, после приобретения ими Tandem).
R12000 совершенствует микроархитектуру R10000 за счет: добавления дополнительного этапа конвейера для улучшения тактовой частоты за счет разрешения критического пути; увеличение количества записей в таблице истории ветвей, улучшение прогнозирования; изменение очередей инструкций, чтобы они учитывали возраст находящейся в очереди инструкции, позволяя, если это возможно, выполнять более старые инструкции раньше новых.
R12000 был изготовлен компаниями NEC и Toshiba по КМОП-технологии 0,25 мкм с четырьмя уровнями алюминиевых межсоединений . Использование нового процесса не означает, что R12000 представлял собой простой термоусадочный кристалл с измененной микроархитектурой; Компоновка матрицы оптимизирована для использования преимуществ процесса 0,25 мкм. [4] [5] Изготовленный NEC VR12000 содержал 7,15 миллиона транзисторов и имел размеры 15,7 на 14,6 мм (229,22 мм). 2 ).
Р12000А
[ редактировать ]R12000A является производной от R12000, разработанного SGI. Представленный в июле 2000 года, он работает на частоте 400 МГц и был изготовлен компанией NEC по технологии 0,18 мкм с алюминиевыми межсоединениями .
14000 рэндов
[ редактировать ]R14000 является дальнейшим развитием R12000, анонсированного в июле 2001 года. R14000 работает на частоте 500 МГц, что обеспечивается технологией КМОП 0,13 мкм с пятью уровнями медных межсоединений, из которых он изготовлен. В нем улучшена микроархитектура R12000 за счет поддержки SSRAM с двойной скоростью передачи данных (DDR) для вторичного кэша и системной шины 200 МГц. [6]
Р14000А
[ редактировать ]R14000A является дальнейшим развитием R14000, анонсированного в феврале 2002 года. Он работает на частоте 600 МГц, рассеивает около 17 Вт и был изготовлен корпорацией NEC по технологии КМОП 0,13 мкм с семью уровнями медных межсоединений. [6]
16000 рэндов
[ редактировать ]R16000 под кодовым названием «N0» является последней производной от R10000. Он разработан SGI и изготовлен NEC по технологии 0,11 мкм с восемью уровнями медных межсоединений. Микропроцессор был представлен 9 января 2003 года, дебютировал на частоте 700 МГц для Fuel , а также использовался в Onyx4 Ultimate Vision . [7] была представлена версия с частотой 600 МГц В апреле 2003 года для Origin 350 . Улучшения заключаются в кэше инструкций и данных размером 64 КБ.
Р16000А
[ редактировать ]R16000A относится к микропроцессорам R16000 с тактовой частотой выше 700 МГц. Первый R16000A - это версия с частотой 800 МГц, представленная 4 февраля 2004 года. Позже была представлена версия с частотой 900 МГц, и эта версия в течение некоторого времени была самым быстрым из общеизвестных R16000A - позже SGI сообщила, что избранным компаниям были поставлены модели R16000 с частотой 1,0 ГГц. клиенты. Среди пользователей R16000 были HP и SGI. SGI использовала микропроцессор на своих рабочих станциях Fuel и Tezro ; а также Origin 3000 серверы и суперкомпьютеры . HP использовала R16000A в своих NonStop Himalaya S-Series, отказоустойчивых серверах унаследованных от Tandem через Compaq.
18000 рэндов
[ редактировать ]R18000 представляет собой отмененное дальнейшее развитие микроархитектуры R10000, в которую были внесены значительные улучшения, разработанные Silicon Graphics, Inc., описанные на симпозиуме Hot Chips в 2001 году. R18000 был разработан специально для серверов и суперкомпьютеров ccNUMA компании SGI. Каждый узел будет иметь два R18000, подключенных через мультиплексную шину к системному контроллеру, который будет связывать микропроцессоры с их локальной памятью и остальной частью системы через сеть гиперкуба.
В R18000 улучшены очереди инструкций с плавающей запятой и изменен блок операций с плавающей запятой, включённый в него два блока умножения-сложения, что в четыре раза увеличивает пиковое количество FLOPS. Деление и извлечение квадратного корня будут выполняться в отдельных неконвейерных модулях параллельно с модулями умножения-сложения. Системный интерфейс и иерархия памяти также были существенно переработаны. Он будет иметь 52-битный виртуальный адрес и 48-битный физический адрес. Двунаправленный мультиплексированный адрес и системная шина данных более ранних моделей будут заменены двумя однонаправленными каналами DDR: 64-битным мультиплексированным адресом и путем записи и 128-битным путем чтения. Пути могут быть разделены с другим R18000 посредством мультиплексирования. Шину также можно настроить в конфигурации SysAD или Avalanche для обратной совместимости с системами R10000.
R18000 будет иметь четырехпоточный ассоциативный вторичный кэш объемом 1 МБ, который будет встроен в кристалл; дополненный дополнительным третичным кэшем, построенным на основе SSRAM с одинарной скоростью передачи данных (SDR) или с двойной скоростью передачи данных (DDR) или DDR SDRAM емкостью от 2 до 64 МБ. Кэш L3 будет иметь теги кэша, эквивалентные 400 КБ, расположенные на кристалле, чтобы уменьшить задержку. Доступ к кэшу L3 будет осуществляться через 144-битную шину, из которой 128 бит предназначены для данных и 16 бит для ECC. Тактовую частоту кэша L3 можно будет программировать.
R18000 должен был быть изготовлен по технологии NEC UX5, КМОП-процессу 0,13 мкм с девятью уровнями медных межсоединений . Для плотного размещения в системах он должен был бы использовать источник питания 1,2 В и рассеивать меньше тепла, чем современные серверные микропроцессоры.
Примечания
[ редактировать ]- ↑ Гвеннап, Линли (27 января 1997 г.). «Альфа-паруса, цепы PowerPC». Отчет о микропроцессоре , стр. 1, 6–9., с. 8.»
- ^ Йегер, Кеннет К. (апрель 1996 г.). «Суперскалярный микропроцессор MIPS R10000» (PDF) . IEEE микро . 16 (2): 28. дои : 10.1109/40.491460 . Архивировано из оригинала (PDF) 19 июля 2011 года.
- ^ Гвеннап, Линли (24 октября 1994 г.). «MIPS R10000 использует несвязанную архитектуру» (PDF) . Отчет микропроцессора . 8 (14): 4.
- ^ Гвеннап, Линли (6 октября 1997 г.). «MIPS R12000 достигнет 300 МГц» (PDF) . Отчет микропроцессора . 11 (13).
- ^ Хафхилл, Том Р. (январь 1998 г.). «RISC дает отпор Mips R12000» . Байт . Том. 23, нет. 1. С. 49–50.
- ^ Перейти обратно: а б ComputerWire (2 июля 2002 г.). «SGI разработает чипы MIPS для Origin, Onyx» . Регистр .
- ^ Silicon Graphics, Inc. (9 января 2003 г.). SGI повышает соотношение цены и производительности графических процессоров семейства Visual Workstation до 25%. ( Пресс-релиз ).
Ссылки
[ редактировать ]- Фу, Тим и др. (31 августа 2001 г.). «R18000: новейший суперскалярный микропроцессор SGI» . Горячие чипсы XIII .
- Хафхилл, Том Р. (ноябрь 1994 г.). «Т5: Грубая сила» . Журнал Байт .
- Генрих, Джо (29 января 1997 г.). «Руководство пользователя микропроцессора MIPS R10000» .
- Канеллос, Майкл; Кавамото, Дон (9 апреля 1998 г.). «Silicon Graphics отказывается от планов MIPS» . Новости CNET .
- MIPS Technologies, Incorporated. (октябрь 1994 г.). «Обзор микропроцессора R10000» [ постоянная мертвая ссылка ] .
- Морган, Тимоти Прикетт (16 апреля 2003 г.). «SGI объявляет о выпуске высокопроизводительного сервера среднего класса Origin 350» . IT-джунгли .
- Корпорация NEC (24 ноября 1998 г.). NEC продает микропроцессоры высочайшего класса в мире . ( Пресс-релиз ).
- Шенкленд, Стивен (15 апреля 2003 г.). «SGI обновляет Unix-сервер среднего уровня» . ЗДНет .
- Вассеги Н. и др. (ноябрь 1996 г.). «Суперскалярный RISC-микропроцессор 200 МГц» . Журнал IEEE твердотельных схем 31 (11): стр. 1675–1686.
- Йегер, Кеннет К. (август 1995 г.). «Суперскалярный микропроцессор R10000» . Горячие чипсы VII .