Крей XMT
![]() | |
Дизайнер | Крей |
---|---|
Биты | 64-битная |
Представлено | 2005 |
Версия | Третье поколение Tera MTA |
Порядок байтов | Прямой порядок байтов |
Предшественник | Крей МТА-2 |
Преемник | Крей XMT2 |
Регистры | |
32 универсальных на поток (4096 на процессор) 8 целей на поток (1024 на процессор) |
Cray XMT ( Cray eXtreme MultiThreading , [1] под кодовым названием Эльдорадо [2] ) — это масштабируемая многопоточная с общей памятью суперкомпьютерная архитектура от Cray , основанная на третьем поколении архитектуры Tera MTA , ориентированная на большие графовые задачи (например, семантические базы данных, большие данные , сопоставление с образцом ). [3] [4] [5] Представленный в 2005 году, он заменяет ранее неудачный Cray MTA-2 . Он использует процессоры Threadstorm3 внутри блейд-серверов Cray XT3 . Разработанный для использования стандартных деталей и существующих подсистем для других коммерческих систем, он устранил недостатки Cray MTA-2, связанные с высокой стоимостью полностью индивидуального производства и поддержки. [2] Он внес ряд существенных улучшений по сравнению с Cray MTA-2, в первую очередь почти утроив пиковую производительность, а также значительно увеличил максимальное количество процессоров до 8192 и максимальный объем памяти до 128 ТБ при максимальном объеме TLB данных 512 ТБ. [2] [3]
Cray XMT использует зашифрованный [3] память, адресуемая по содержимому [6] Модель на модулях DDR1 ECC для неявной балансировки нагрузки доступа к памяти во всем общем глобальном адресном пространстве системы. [5] Использование 4 дополнительных битов расширенной семантики памяти ( полный/пустой , переадресация и 2 бита ловушки ) на каждое 64-битное слово памяти обеспечивает упрощенную и детальную синхронизацию всей памяти. [7] Аппаратных прерываний нет, а аппаратные потоки распределяются инструкцией, а не ОС. [5] [7]
Фронтальная часть (узлы входа в систему, ввода-вывода и другие сервисные узлы, использующие процессоры AMD Opteron и работающие под управлением SLES Linux ) и серверная часть (вычислительные узлы, использующие процессоры Threadstorm3 и работающие под управлением MTK, простого BSD Unix) . на базе микроядра [3] ) обмениваются данными через интерфейс LUC (Lightweight User Communication), двунаправленный клиент/серверный интерфейс в стиле RPC . [1] [5]
Threadstorm3 [ править ]
![]() | |
Общая информация | |
---|---|
Запущен | 2005 |
Снято с производства | 2011 |
Разработано | Крей |
Производительность | |
Макс. процессора Тактовая частота | 500 МГц |
гипертранспорта Скорости | до 300 ГТ/с |
Архитектура и классификация | |
Набор инструкций | МТА ОДИН |
Физические характеристики | |
Ядра |
|
Розетка | |
История | |
Предшественник | Процессор Cray MTA-2 |
Преемник | Threadstorm4 |
Threadstorm3 (называемый «процессором MT» [2] и Threadstorm до XMT2 [8] ) — это 64-разрядный одноядерный VLIW процессор (совместимый с 940-контактным разъемом Socket 940, используемым процессорами AMD Opteron ) со 128 аппаратными потоками , на каждый из которых может быть сопоставлен программный поток (фактически создавая 128 аппаратных потоков на каждый ЦП), работающий на частоте 500 МГц и с использованием набора инструкций MTA или его расширенного набора. [7] [9] [номер 1] Он имеет четырехканальный ассоциативный буфер данных объемом 128 КБ. Каждый Threadstorm3 имеет 128 отдельных наборов регистров и программных счетчиков (по одному на каждый поток), что довольно удобно. [10] полностью переключается контекст в каждом цикле. [5] Его расчетная пиковая производительность составляет 1,5 GFLOPS . Он имеет 3 функциональных блока (память, объединенное умножение-сложение и управление), которые получают операции из одной и той же инструкции MTA и работают в одном и том же цикле. [7] Каждый поток имеет 32 регистра общего назначения, 8 целевых регистров и слово состояния, содержащее счетчик программ. [6] Высокоуровневый контроль распределения заданий между потоками невозможен. [5] [номер 2] MTA, Из-за длины конвейера равной 21, каждый поток выбирается для повторного выполнения инструкций не ранее, чем через 21 цикл. [11] TDP . процессорного пакета составляет 30 Вт [12]
Благодаря переключению контекста на уровне потока в каждом цикле производительность процессоров Threadstorm не ограничивается временем доступа к памяти. В упрощенной модели в каждом такте выполняется инструкция из одного из потоков, а другой запрос памяти ставится в очередь с пониманием того, что к моменту готовности следующего раунда выполнения запрошенные данные поступят. [13] Это противоречит многим традиционным архитектурам, которые останавливают доступ к памяти. Архитектура превосходна в схемах обхода данных, где последующий доступ к памяти не может быть легко предсказан и, следовательно, не подходит для традиционной модели кэша. [1] Главным архитектором Threadstorm был Бертон Дж. Смит . [1]
Cray XMT2 [ править ]
Дизайнер | Крей |
---|---|
Биты | 64-бит |
Представлено | 2011 |
Версия | 4-е поколение Tera MTA |
Порядок байтов | Прямой порядок байтов |
Предшественник | Крей XMT |
Регистры | |
32 универсальных на поток (4096 на процессор) 8 целей на поток (1024 на процессор) |
Крей XMT2 [3] (также «XMT следующего поколения» [8] или просто XMT [6] ) — масштабируемый многопоточный с общей памятью суперкомпьютер от Cray , основанный на четвертом поколении архитектуры Tera MTA . [5] Представленный в 2011 году, он заменяет Cray XMT, у которого были проблемы с точками доступа к памяти. [8] Он использует процессоры Threadstorm4 внутри блейд-серверов Cray XT5 и увеличивает объем памяти в восемь раз до 512 ТБ, а пропускную способность памяти в три раза (300 МГц вместо 200 МГц) по сравнению с XMT за счет использования вдвое большего количества модулей памяти на узел и DDR2. [6] [8] Он представляет соединение Node Pair Link между Threadstorm, а также узлы, использующие только память, с пакетами Threadstorm4, в которых ЦП и HyperTransport 1.x. отключены компоненты [5] Базовая модель зашифрованной памяти с адресацией по содержимому была унаследована от XMT. XMT2 использует 2 дополнительных бита EMS ( полный/пустой и расширенный ) вместо 4, как в XMT.
Threadstorm4 [ править ]
![]() | |
Общая информация | |
---|---|
Запущен | 2011 |
Снято с производства | 2015? |
Разработано | Крей |
Производительность | |
Макс. процессора Тактовая частота | 500 МГц |
гипертранспорта Скорости | до 400 ГТ/с |
Архитектура и классификация | |
Набор инструкций | МТА ОДИН |
Физические характеристики | |
Ядра |
|
Розетка | |
История | |
Предшественник | Threadstorm3 |
Threadstorm4 (также «Threadstorm IV» [1] и «Тредшторм 4.0» [номер 3] ) — это 64-битный одноядерный VLIW процессор (совместимый с 1207-контактным разъемом Socket F, используемым процессорами AMD Opteron ) со 128 аппаратными потоками, очень похожий на своего предшественника Threadstorm3. Он оснащен улучшенным контроллером памяти с поддержкой DDR2 и дополнительными 8 регистрами ловушек на поток. Cray намеренно отказался от контроллера DDR3, сославшись на повторное использование существующей инфраструктуры Cray XT5. [номер 4] и более короткая длина пакета, чем у DDR3. [номер 5] Хотя более длинная длина пакета может быть компенсирована более высокими скоростями DDR3, для этого также потребуется больше энергии, чего инженеры Cray хотели избежать. [8]
Скорпион [ править ]
После запуска XMT Крэй исследовал возможный многоядерный вариант Threadstorm3, получивший название «Скорпион» . Большинство функций Threadstorm3 будут сохранены, включая мультиплексирование множества аппаратных потоков в конвейер выполнения и реализацию дополнительных битов состояния для каждого 64-битного слова памяти. Позже Крэй отказался от проекта «Скорпион», и в рамках проекта не было произведено ни одного чипа. [3]
Будущее [ править ]
Разработка Threadstorm4, как и всей архитектуры MTA, молча завершилась после XMT2, вероятно, из-за конкуренции со стороны обычных процессоров, таких как Intel Xeon. [14] и, возможно, Xeon Phi , хотя Cray никогда официально не прекращал выпуск ни XMT, ни XMT2. С 2020 года Cray удалила всю клиентскую документацию по XMT и XMT2 из своего онлайн-каталога.
Пользователи [ править ]
Cray XMT2 был куплен несколькими федеральными лабораториями и академическими учреждениями, а также некоторыми коммерческими клиентами HPC: например, CSCS (2 ТБ глобальной памяти с 64 процессорами Threadstorm4), [15] Ноблис CAHPC. [16] Большинство систем на базе XMT и XMT2 будут выведены из эксплуатации к 2020 году.
Примечания [ править ]
- ^ Tera MTA ISA имеет закрытый исходный код, и только из-за презентации на семинаре, подтверждающей обратную совместимость с предыдущими системами MTA, ISA, используемая в процессорах Threadstorm, не может быть подмножеством MTA ISA.
- ^ Хотя неизвестно, возможно ли это на уровне инструкций.
- ^ На физической упаковке.
- ^ на базе DDR3 Несмотря на то, что Cray XT6 был выпущен в 2009 году, за два года до XMT2.
- ^ Поскольку Cray XMT в основном работает с произвольным доступом к одному 8-байтовому слову и имеет 128-битный канал памяти, при длине пакета DDR2 4 обычные накладные расходы составляют 56 байт. DDR3 с длиной пакета 8 увеличит обычные накладные расходы до 120 байт.
Ссылки [ править ]
- ↑ Перейти обратно: Перейти обратно: а б с д и «Почему uRiKA так быстро обрабатывает графо-ориентированные запросы?» . Блог YarcData . 14 ноября 2012 г. Архивировано из оригинала 14 февраля 2015 г.
- ↑ Перейти обратно: Перейти обратно: а б с д Фео, Джон; Харпер, Дэвид; Кахан, Саймон; Конечный, Петр (2005). «Эльдорадо» . Материалы 2-й конференции по передовым технологиям вычислений - CF '05 . Искья, Италия: ACM Press. п. 28. дои : 10.1145/1062261.1062268 . ISBN 978-1-59593-019-4 .
- ↑ Перейти обратно: Перейти обратно: а б с д и ж Падуя, Дэвид, изд. (2011). Энциклопедия параллельных вычислений . Бостон, Массачусетс: Springer US. стр. 453–457, 2033. doi : 10.1007/978-0-387-09766-4 . ISBN 978-0-387-09765-7 .
- ^ Мизелл, Дэвид; Машхофф, Кристин (2009). «Ранний опыт работы с крупномасштабными системами Cray XMT» . 2009 Международный симпозиум IEEE по параллельной и распределенной обработке . стр. 1–9. дои : 10.1109/IPDPS.2009.5161108 . ISBN 978-1-4244-3751-1 . S2CID 1964042 .
- ↑ Перейти обратно: Перейти обратно: а б с д и ж г час Молтби, Джеймс (2012). Cray XMT Модель многопоточного программирования . «Использование Cray XMT следующего поколения (uRiKA) для крупномасштабного анализа данных». Швейцарский национальный суперкомпьютерный центр .
- ↑ Перейти обратно: Перейти обратно: а б с д Обзор системы Cray XMT™ (S-2466-201) (PDF) . Крей . 2011. Архивировано (PDF) из оригинала 3 декабря 2012 года . Проверено 12 мая 2020 г.
- ↑ Перейти обратно: Перейти обратно: а б с д Конечный, Петр (2011). Представляем Cray XMT (PDF) . Крей.
- ↑ Перейти обратно: Перейти обратно: а б с д и Копсер А., Воллрат Д. (май 2011 г.). Обзор Cray XMT следующего поколения (PDF) . 53-я встреча группы пользователей Cray, CUG 2011 . Фэрбенкс, Аляска . Проверено 14 февраля 2015 г.
- ^ Программирование Cray XMT (PDF) . Крей. 2012. с. 14.
- ^ Картер, Ларри и Фео, Джон и Снейвли, Аллан. (2002). Опыт производительности и программирования на Tera MTA .
- ^ Снавли, А.; Картер, Л.; Буасо, Ж.; Маджумдар, А.; Кан Су Гатлин; Митчелл, Н.; Фео, Дж.; Кобленц, Б. (1998). «Многопроцессорная производительность Tera MTA» . Материалы конференции IEEE/ACM SC98 . Орландо, Флорида, США: IEEE. п. 4. дои : 10.1109/SC.1998.10049 . ISBN 978-0-8186-8707-5 . S2CID 8258396 .
- ^ Брошюра Cray XMT (PDF) . Крей . 2005. Архивировано из оригинала (PDF) 24 декабря 2016 года.
- ^ Ньеплоча Дж., Маркес А., Петрини Ф., Чаваррия-Миранда Д. (2007). «Нетрадиционные архитектуры для наук с высокой пропускной способностью» (PDF) . Обзор SciDAC (5, осень 2007 г.). Тихоокеанская северо-западная национальная лаборатория : 46–50. Архивировано из оригинала (PDF) 14 февраля 2015 года . Проверено 14 февраля 2015 г.
- ^ «Технический директор Cray объединяет точки зрения на будущие межсоединения» . Следующая платформа . 8 января 2016 года . Проверено 2 мая 2016 г.
Стив Скотт: С Xeon это можно сделать просто великолепно. Мы не планируем создавать еще один процессор ThreadStorm. Но для этого требуются некоторые программные технологии, заимствованные из наследия ThreadStorm.
- ^ «КСКС Маттерхорн» . Швейцарский национальный суперкомпьютерный центр .
- ^ Сорин, Нита (16 декабря 2011 г.). «Cray представляет суперкомпьютер XMT на базе собственных 128-поточных процессоров» . Новости софтпедии .