Набор инструкций CLMUL

Умножение без переноса ( CLMUL ) — это расширение набора команд x86, используемого микропроцессорами Intel , и AMD которое было предложено Intel в марте 2008 года. ^[1] и стала доступна в процессорах Intel Westmere, анонсированных в начале 2010 года. Математически инструкция реализует умножение полиномов над конечным полем GF(2), где битовая строка $a_{0}a_{1}\ldots a_{63}$ представляет полином $a_{0}+a_{1}X+a_{2}X^{2}+\cdots +a_{63}X^{63}$ . Команда CLMUL также позволяет более эффективно реализовать тесно связанное умножение больших конечных полей GF(2 ^к), чем традиционный набор команд. ^[2]

Одним из применений этих инструкций является повышение скорости приложений, выполняющих блочное шифрование в режиме Галуа/Счетчика , который зависит от конечного поля GF(2 ^к) умножение. Другое применение — быстрый расчет значений CRC , ^[3] включая те, которые используются для реализации LZ77 скользящего окна алгоритма DEFLATE в zlib и pngcrush . ^[4]

ARMv8 также имеет версию CLMUL. SPARC называет свою версию XMULX, что означает «умножение XOR».

Новые инструкции

Инструкция вычисляет 128-битное без переноса произведение двух 64-битных значений . Назначением является 128-битный регистр XMM . Источником может быть другой регистр XMM или память. Непосредственный операнд указывает, какие половины 128-битных операндов умножаются. Также определены мнемоники , определяющие конкретные значения непосредственного операнда:

Инструкция	Код операции	Описание
`PCLMULQDQ xmmreg,xmmrm,imm`	`[rmi: 66 0f 3a 44 /r ib]`	Выполните умножение без переноса двух 64-битных полиномов над конечным полем GF (2)[ X ].
`PCLMULLQLQDQ xmmreg,xmmrm`	`[rm: 66 0f 3a 44 /r 00]`	Умножьте младшие половины двух регистров.
`PCLMULHQLQDQ xmmreg,xmmrm`	`[rm: 66 0f 3a 44 /r 01]`	Умножьте старшую половину регистра назначения на младшую половину регистра источника.
`PCLMULLQHQDQ xmmreg,xmmrm`	`[rm: 66 0f 3a 44 /r 10]`	Умножьте младшую половину регистра назначения на старшую половину регистра источника.
`PCLMULHQHQDQ xmmreg,xmmrm`	`[rm: 66 0f 3a 44 /r 11]`	Умножьте старшие половины двух регистров.

Векторизованная версия EVEX (VPCLMULQDQ) представлена в AVX-512 .

ЦП с набором команд CLMUL

Интел
- Процессор Westmere (март 2010 г.).
- Сэнди Бридж процессор
- Айви Бридж Процессор
- Хасуэлл Процессор
- Процессор Broadwell (с повышенной пропускной способностью и меньшей задержкой) ^[5])
- Процессор Skylake (и более поздние версии)
- Голдмонт процессор
АМД :
- Процессоры на базе Jaguar и новее ^[6]
- Процессоры на базе Puma и новее
- Процессоры «Тяжелое оборудование»
  - на базе бульдозера Процессоры ^[7]
  - на базе Piledriver Процессоры
  - на базе Steamroller Процессоры
  - Процессоры на базе экскаватора и новее
- Дзен -процессоры
- Дзен+ процессоры
- Процессоры Zen2 (и новее)

Наличие набора команд CLMUL можно проверить, проверив один из битов функции ЦП .

См. также

Ссылки

^ «Сеть программного обеспечения Intel» . Интел. Архивировано из оригинала 7 апреля 2008 г. Проверено 5 апреля 2008 г.
^ Шей Герон; Майкл Э. Кунавис (20 апреля 2014 г.). «Инструкция Intel по умножению без переноса и ее использование для вычисления режима GCM – версия 2.02» (PDF) . Интел . Архивировано из оригинала 06 августа 2019 г.
^ «Быстрое вычисление CRC для универсальных полиномов с использованием PCLMULQDQ» (PDF) .
^ Влад Краснов (08.07.2015). «Борьба с раком: неожиданная польза от открытого исходного кода нашего кода» . CloudFlare . Проверено 4 сентября 2016 г.
^ Йохан Де Гелас (31 марта 2017 г.). «Обзор Intel Xeon E5 v4: тестирование Broadwell-EP с требовательными серверными нагрузками» . Анандтех . п. 3.
^ «Слайд с подробным описанием улучшений Jaguar по сравнению с Bobcat» . АМД . Проверено 3 августа 2013 г.
^ Дэйв Кристи (6 мая 2009 г.). «Достижение баланса» . Блоги разработчиков AMD. Архивировано из оригинала 9 ноября 2013 года . Проверено 11 марта 2011 г.

[1] «Сеть программного обеспечения Intel» . Интел. Архивировано из оригинала 7 апреля 2008 г. Проверено 5 апреля 2008 г.

[2] Шей Герон; Майкл Э. Кунавис (20 апреля 2014 г.). «Инструкция Intel по умножению без переноса и ее использование для вычисления режима GCM – версия 2.02» (PDF) . Интел . Архивировано из оригинала 06 августа 2019 г.

[3] «Быстрое вычисление CRC для универсальных полиномов с использованием PCLMULQDQ» (PDF) .

[4] Влад Краснов (08.07.2015). «Борьба с раком: неожиданная польза от открытого исходного кода нашего кода» . CloudFlare . Проверено 4 сентября 2016 г.

[5] Йохан Де Гелас (31 марта 2017 г.). «Обзор Intel Xeon E5 v4: тестирование Broadwell-EP с требовательными серверными нагрузками» . Анандтех . п. 3.

[6] «Слайд с подробным описанием улучшений Jaguar по сравнению с Bobcat» . АМД . Проверено 3 августа 2013 г.

[7] Дэйв Кристи (6 мая 2009 г.). «Достижение баланса» . Блоги разработчиков AMD. Архивировано из оригинала 9 ноября 2013 года . Проверено 11 марта 2011 г.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

v т и Intel Технология
Platforms	Centrino Centrino 2 Viiv MID Tablet CULV Ultrabook Skulltrail NUC Galileo Edison Curie Evo
Discontinued	Common Building Block MultiProcessor Specification Intel Communication Streaming Architecture Intel Inboard 386 Intel Play MMC-1 MMC-2
Current	Advanced Programmable Interrupt Controller CNVi Intel Turbo Boost vPro Intel Secure Key Intel Management Engine Active Management Technology AMT versions High-bandwidth Digital Content Protection High Definition Audio Hub Architecture Rapid Storage Technology SpeedStep Serial Digital Video Out Host Embedded Controller Interface Hyper-threading Omni-Path Platform Environment Control Interface QuickPath Interconnect Platform Controller Hub System Management Bus Thunderbolt Ultra Path Interconnect
Upcoming	Silicon Photonics Link

v т и набора команд Расширения
SIMD ( РИСК )	Альфа седые волосы РУКА НЕОН ВСЕ МИПС МДМС МИПС-3D МХУ МИПС SIMD ПА-РИСК МАКС Мощность ОДИН ВМХ СПАРК ВИС
SIMD ( x86 )	ММХ (1996) 3DСейчас! (1998) ССЕ (1999) ССЕ2 (2001) ССЕ3 (2004) СССЭ3 (2006 г.) ССЕ4 (2006) ССЕ5 ~~(2007)~~ АВКС (2008) Ф16С (2009) ХОП (2009) FMA (FMA4: 2011, FMA3: 2012) АВХ2 (2013) АВХ-512 (2015) АМХ (2022 г.) AVX10 (2023)
Битовые манипуляции	ИМТ (ABM: 2007, BMI1: 2012, BMI2: 2013, TBM: 2012) ADX (2014)
Сжатые инструкции	Большой палец MIPS16e ASE РВК
Безопасность и криптография	Замок (2003) АЭС-НИ (2008 г.); ARMv8 также имеет инструкции AES. КЛМУЛ (2010) РДРАНД (2012) ША (2013) МПХ (2015) СГХ (2015) ТДКС (2021)
Транзакционная память	ТСХ (2013) АЧС
Виртуализация	ВТ-х (2005) AMD-V (2006) ВТ-д (AMD-Vi)
Даты приостановленных продлений ~~зачеркнуты~~ .