Майкл Гшвинд
Майкл Гшвинд | |
---|---|
![]() Майкл Гшвинд | |
Рожденный | Вена , Австрия |
Национальность | олень |
Альма-матер | Венский технологический университет |
Майкл Карл Гшвинд — американский ученый-компьютерщик, который в настоящее время является директором и главным инженером компании Meta Platforms в Менло-Парке, Калифорния . Он получил признание за свой выдающийся вклад в разработку и эксплуатацию программируемых ускорителей общего назначения, как один из первых сторонников устойчивого развития в компьютерном дизайне и как плодовитый изобретатель . [ 1 ]
Ускорители
[ редактировать ]Гшвинд руководил архитектурой аппаратного и программного обеспечения для первого программируемого ускорителя общего назначения Accelerators и получил широкое признание за свой вклад в гетерогенные вычисления в качестве архитектора процессора Cell Broadband Engine, используемого в Sony PlayStation 3 . [ 2 ] [ 3 ] и RoadRunner , первый суперкомпьютер, достигший устойчивой работы в петафлопе. В качестве главного архитектора системной архитектуры IBM он руководил интеграцией графических процессоров Nvidia и процессоров IBM для создания суперкомпьютеров Summit и Sierra .
Гшвинд был одним из первых сторонников виртуализации ускорителей. [ 4 ] [ 5 ] и в качестве главного архитектора системы IBM руководил виртуализацией ввода-вывода и ускорителей. [ 6 ]
Gschwind оказал решающее влияние на развитие моделей программирования ускорителей, разработав API и лучшие практики программирования ускорителей. [ 7 ] [ 8 ] [ 9 ] [ 10 ] [ 11 ] исследования приложений для широкого спектра высокопроизводительных вычислений [ 12 ] и приложения, не относящиеся к HPC. [ 13 ] и как соредактор книг [ 14 ] и журналы [ 15 ] о практике и опыте программирования систем на базе ускорителей.
ИИ-ускорение
[ редактировать ]Гшвинд был одним из первых сторонников аппаратного ускорения искусственного интеллекта с помощью графических процессоров и программируемых ускорителей. В качестве главного инженера IBM по искусственному интеллекту он руководил разработкой первых продуктов IBM в области искусственного интеллекта и инициировал проект PowerAI, который вывел на рынок аппаратное обеспечение, оптимизированное для искусственного интеллекта (под кодовым названием «Минский»), а также первые готовые платформы искусственного интеллекта, оптимизированные для аппаратного обеспечения. Эти платформы были представлены как первые свободно устанавливаемые стеки программного обеспечения для искусственного интеллекта, управляемые двоичными пакетами, открывшие путь к внедрению. [ 16 ]
На Facebook Gschwind продемонстрировал ускоренные модели большого языка (LLM) для ускорителей ASIC Facebook первого поколения и графических процессоров, возглавив первые масштабные производственные развертывания LLLM для встраивания сервисов для анализа контента и безопасности платформы, а также для многочисленных пользовательских поверхностей, таких как Facebook Assistant, и FB Marketplace, начиная с 2020 года. [ 17 ] Гшвинд руководил разработкой и является одним из архитекторов Multiray, платформы на основе ускорителя для обслуживания базовых моделей и первой производственной системы для обслуживания больших языковых моделей в масштабе отрасли, обслуживающей более 800 миллиардов запросов в день в 2022 году. [ 18 ] [ 19 ]
Gschwind возглавил внедрение ASIC в масштабах всей компании. [ 20 ] и последующий «стратегический поворот» Facebook к GPU Inference, масштабное развертывание GPU Inference, шаг, который генеральный директор FB Марк Цукербург подчеркнул в своем отчете о финансовых результатах. Среди первых моделей рекомендаций, развернутых с помощью GPU Inference, была модель видеорекомендаций Reels, которая обеспечила рост числа пользователей на 30% в течение 2 недель после развертывания, как сообщил генеральный директор FB Марк Цукербург в своем отчете о финансовых результатах за первый квартал 2022 года. [ 21 ] и последующий рост REeels на 3–10 млрд долларов по сравнению с прошлым годом. [ 22 ]
Гшвинд также руководил разработкой AI Accelerator Enablement для PyTorch, уделяя особое внимание ускорению LLM, возглавляя разработку ускоренных трансформаторов. [ 23 ] (ранее «Лучший трансформер» [ 24 ] ) и сотрудничал с такими компаниями, как HuggingFace, для стимулирования отраслевого ускорения LLM. [ 25 ] сделать PyTorch 2.0 стандартной экосистемой для больших языковых моделей и генеративного искусственного интеллекта. [ 26 ] [ 27 ] [ 28 ] [ 29 ]
Впоследствии Gschwind возглавил расширение LLM-ускорения для моделей искусственного интеллекта на устройстве с помощью ExecuTorch, экосистемного решения PyTorch для искусственного интеллекта на устройстве, что впервые сделало возможным генерирующий искусственный интеллект на устройстве. [ 30 ] Ускорение ExecuTorch LLM (на нескольких поверхностях, включая NPU, MPS и ускорители Qualcomm) обеспечило значительное ускорение, что делает практичным развертывание Llama3 без изменений на серверах и на устройствах (продемонстрировано на iOS, Android и Raspberry Pi 5) при запуске, о чем сообщают разработчики. до 5–10-кратного ускорения по сравнению с предыдущими решениями искусственного интеллекта на устройстве. [ 31 ] [ 32 ]
Многочисленный вклад Gschwind в программные стеки и платформы искусственного интеллекта, ускорители искусственного интеллекта, искусственный интеллект для мобильных/встроенных устройств и числовые представления низкой точности в torchchat, [ 33 ] [ 34 ] представляет собой важную веху в качестве первого в отрасли интегрированного стека программного обеспечения для серверов и искусственного интеллекта на устройствах с поддержкой широкого набора серверных и встроенных/мобильных ускорителей.
Гшвинд — пионер и сторонник устойчивого искусственного интеллекта. [ 35 ]
Суперкомпьютерный дизайн
[ редактировать ]Гшвинд был главным архитектором по проектированию аппаратного обеспечения и архитектуре программного обеспечения для нескольких суперкомпьютеров , включая три суперкомпьютерные системы высшего уровня: Roadrunner (июнь 2008 г. – ноябрь 2009 г.), Sequoia (июнь 2012 г. – ноябрь 2012 г.) и Summit (июнь 2018 г. – июнь 2020 г.).
Roadrunner — суперкомпьютер, созданный IBM для Национальной лаборатории Лос-Аламоса в Нью-Мексико, США. Roadrunner стоимостью 100 миллионов долларов США был рассчитан на пиковую производительность 1,7 петафлопс . 25 мая 2008 года она достигла 1,026 петафлопс, став первой в мире системой TOP500 LINPACK с устойчивой производительностью 1,0 петафлопс. [ 36 ] [ 37 ] Это также был четвертый по энергоэффективности суперкомпьютер в мире в списке Supermicro Green500 с рабочей скоростью 444,94 мегафлопс на ватт использованной мощности.
Sequoia — петамасштабный Blue Gene/Q суперкомпьютер , созданный IBM для Национальной администрации по ядерной безопасности в рамках Программы передового моделирования и вычислений (ASC). Он был доставлен в Ливерморскую национальную лабораторию имени Лоуренса (LLNL) в 2011 году и был полностью развернут в июне 2012 года. [ 38 ] Sequoia была демонтирована в 2020 году, ее последняя позиция в списке top500.org была 22-й в списке за ноябрь 2019 года.
Summit — это суперкомпьютер, разработанный IBM для использования в Oak Ridge Leadership Computing Facility (OLCF), объекте Национальной лаборатории Ок-Риджа . Он занимал позицию номер 1 с ноября 2018 года по июнь 2020 года. [ 39 ] [ 40 ] Текущий тест LINPACK имеет тактовую частоту 148,6 петафлопс. [ 41 ]
Конструкция многоядерного процессора
[ редактировать ]Гшвинд был одним из первых сторонников конструкции многоядерных процессоров, позволяющей преодолеть ограничения мощности и производительности однопроцессорных конструкций. Гшвинд стал соавтором анализа ограничений масштабирования частоты , который, возможно, привел к переходу всей отрасли к многоядерным конструкциям. [ 42 ] Гшвинд был ведущим разработчиком нескольких многоядерных проектов, включая первый коммерческий многоядерный процессор Cell с 9 ядрами, BlueGene/Q с 18 ядрами, а также несколько процессоров корпоративного уровня и мейнфреймов ( POWER7 / POWER8 / POWER9 с числом ядер до 24; z10-z15 (до 12 ядер).
Надежность системы
[ редактировать ]Гшвинд ввел термин «стена надежности» для обозначения препятствий на пути устойчивой работы крупномасштабных систем. Он внес значительный вклад в моделирование и усовершенствование надежности на уровне системы, уделяя особое внимание обеспечению устойчивой работы суперкомпьютерных систем. В качестве главного архитектора BlueGene/Q он отвечал за надежность системного уровня и проектирование процессоров, а также был главным архитектором ISA и руководителем разработки векторных модулей с плавающей запятой QPU. [ 43 ] [ 44 ]
Гшвинд возглавил первое моделирование архитектурных уязвимостей на уровне процессора и микросхемы и выборочное усиление защиты для достижения целевого времени безотказной работы (MTBF), впервые реализованное в BlueGene/Q с использованием составных защелок DICE для критических задержек удержания состояния. [ 45 ] . Чтобы повысить надежность системы, избегая при этом снижения производительности и затрат на электроэнергию, связанных с конструкциями на основе ECC, Гшвинд предложил и возглавил разработку файлов регистров и второстепенных шин, защищенных по четности с восстановлением состояния. В соответствии с этим подходом обнаружение ошибок реализуется в путях передачи данных, что может происходить параллельно с инициированием операций вычисления, с операцией восстановления, когда программная ошибка обнаруживается параллельно с операцией. Затем восстановление происходит из хорошего состояния, поддерживаемого в альтернативных копиях файла регистров, которые обычно используются для масштабирования количества портов чтения файла регистровa и уменьшения задержки передачи данных от чтения файла регистров к исполнительным устройствам. [ 46 ]
Компиляторные технологии
[ редактировать ]Гшвинд внес плодотворный вклад в технологию компиляторов, уделяя особое внимание новаторским вкладам в компиляцию «точно в срок», динамическую оптимизацию, двоичную трансляцию и компиляторы в суперкомпьютерах.
Сборка «точно в срок»
[ редактировать ]Гшвид был одним из первых сторонников своевременной компиляции и был движущей силой в этой области. Он предложил важные улучшения для реализации систем, основанных на JIT-компиляции, уделяя особое внимание динамической оптимизации, двоичной трансляции и реализации виртуальных машин. Вклад Gschwind включает в себя реализацию точных исключений с отложенной материализацией состояний, [ 47 ] оптимизация высокопроизводительных вычислений, такая как конвейерная обработка программного обеспечения во время JIT-трансляции, [ 48 ] [ 49 ] Совместная разработка аппаратного и программного обеспечения для бинарной эмуляции и динамической оптимизации [ 50 ] [ 51 ] [ 52 ] [ 53 ] Основополагающий вклад Гшвинда в проектирование и реализацию виртуальных машин отражен в том, что он является наиболее цитируемым автором учебника «Виртуальные машины» Смита и Наира. [ 54 ]
Сборник для ускорителей и суперкомпьютеров на их основе
[ редактировать ]Гшвинду приписывают выдающийся вклад в разработку программируемых ускорителей и графических процессоров общего назначения, а также поддержку запуска зарождающейся дисциплины в качестве основного докладчика на первом семинаре по программируемым графическим процессорам общего назначения (GPGPU). Его вклад включает секционирование кода, оптимизацию кода, секционирование кода и API для ускорителей. [ 55 ] [ 56 ] [ 57 ] [ 58 ]
Его инновации включают совместную разработку компилятора и аппаратного обеспечения для интегрированных файлов регистров для решения проблем с упорядочением фаз при автоматической векторизации между назначением единиц и решениями о векторизации для упрощения модели затрат - нововведение, принятое в программируемых ускорителях общего назначения, включая Cell SPU и GPUseneral. Разработка целевых ЦП, начиная с новаторской работы Gschwind по ускорителям ЦП SIMD.
Совсем недавно его вклад в компиляцию HPC включал новаторскую работу по обеспечению высокопроизводительного выполнения рабочих нагрузок ИИ. [ 59 ] [ 60 ] [ 61 ]
Системные и компиляторные API
[ редактировать ]Гшвинд руководил разработкой среды выполнения ELFv2 Power, которая получила широкое распространение в средах выполнения Power. Преимущество состоит в том, что новая среда обновляет API и ABI для объектно-ориентированных сред. В отличие от традиционных соглашений о передаче данных с прямым порядком байтов в архитектуре Power, ABI и API ELFv2 были впервые запущены для поддержки новой версии Linux on Power с прямым порядком байтов. С тех пор это было принято для всех версий Linux на серверах Power и для поддержки ускорения графического процессора с помощью графических процессоров Nvidia, например, на серверах Мински, оптимизированных для искусственного интеллекта, и суперкомпьютерах Summit и Sierra. [ 62 ] [ 63 ] [ 64 ]
SIMD-параллельная векторная архитектура
[ редактировать ]Gschwind — пионер параллельной векторной архитектуры SIMD, позволяющей увеличить количество операций, которые можно выполнить за цикл. Чтобы обеспечить эффективную компиляцию, Gschwind предложил реализовать объединенные скалярные и векторные исполнительные блоки, устранив стоимость копирования между скалярным и векторизованным кодом и упростив архитектуру компилятора за счет решения проблем с упорядочением фаз в компиляторах.
Ядра ускорителя Cell . (синергетический процессорный блок SPU) содержат один файл регистров из 128 элементов по 128 бит на регистр Регистры могут содержать либо скаляр, либо вектор из нескольких значений. [ 65 ] Упрощенная модель затрат приводит к значительному повышению эффективности векторизации, повышая общую производительность и эффективность программы. [ 66 ]
Векторно-скалярный подход также был принят в инструкциях SIMD IBM Power VSX (Vector Scalar Extension), [ 67 ] BlueGene /Q Инструкции вектора [ 68 ] [ 69 ] и System/z , набор векторных команд мэйнфрейма [ 70 ] [ 71 ] проектирование всех трех векторно-скалярных архитектур IBM возглавлял Гшвинд в качестве главного архитектора системной архитектуры IBM.
Сервис, образование, разнообразие, инклюзивность и цифровая инклюзивность
[ редактировать ]Гшвинд твердо верит в силу образования и его способность помочь преодолеть последствия всех видов дискриминации и колониализма. Он работал преподавателем в [Принстоне] и [TU Wien] в целях развития образования. Чтобы внести свой вклад в преодоление последствий колониализма и преодоление цифрового неравенства, Гшвинд вызвался в Сенегале внести свой вклад в расширение и улучшение сенегальской образовательной и исследовательской сети snRER.
Фон
[ редактировать ]Гшвинд родился в Вене и получил докторскую степень в области компьютерной инженерии в Венском техническом университете в 1996 году. Он работал в Исследовательском центре IBM Томаса Дж. Уотсона в Йорктаун-Хайтс, штат Нью-Йорк, а также занимал должности в группе продуктов IBM Systems и в ее штаб-квартире в Армонк, Нью-Йорк. В Huawei Гшвинд занимал должность вице-президента по искусственному интеллекту и ускоренным системам Huawei. Гшвинд в настоящее время является главным инженером и директором компании Meta Platforms, где он отвечает за ускорение искусственного интеллекта и инфраструктуру искусственного интеллекта. [ нужна ссылка ]
Ссылки
[ редактировать ]- ^ «Майкл Карл Гшвинд» . www.ppubs.uspto.gov .
- ^ Дэвид Беккер (3 декабря 2004 г.). «Чип PlayStation 3 упрощает задачу разработчикам» . CNET . Проверено 13 января 2019 г.
- ^ Скарпино, М. (2008). Программирование клеточного процессора: для игр, графики и вычислений. Пирсон Образование.
- ^ https://on-demand.gputechconf.com/gtc/2017/presentation/S7320-tim-kaldewey-optimizing-efficiency-of-deep-learning-workloads-through-gpu-virtualization.pdf , https://on-demand.gputechconf.com/gtc/2017/presentation/S7320-tim-kaldewey-optimizing-efficiency-of-deep-learning-workloads-through-gpu-virtualization.pdf
- ^ Оптимизация эффективности глубокого обучения посредством виртуализации ускорителя, https://ieeexplore.ieee.org/document/8030299
- ^ Виртуализация ввода-вывода и ускорение системы в Power9, https://old.hotchips.org/wp-content/uploads/hc_archives/hc27/HC27.24-Monday-Epub/HC27.24.30-HP-Cloud-Comm-Epub /HC27.24.340-IO-Virtualization-POWER8-Gschwind-IBM.pdf
- ^ Гшвинд, М. Механизм сотовой широкополосной связи: использование нескольких уровней параллелизма в микропроцессоре. Int J Parallel Prog 35, 233–262 (2007). https://doi.org/10.1007/s10766-007-0035-4
- ^ Интегрированное выполнение: модель программирования для ускорителей, IBM JRD, https://www.researchgate.net/publication/224123640_Integrated_execution_A_programming_model_for_accelerators
- ^ Многопроцессорная обработка микросхем и механизм сотовой широкополосной связи, https://computingfrontiers.org/2006/cf06-gschwind.pdf
- ^ Справочник по программированию CBE
- ^ Учебное пособие по программированию CBE, https://public.dhe.ibm.com/software/dw/cell/CBE_Programming_Tutorial_v3.1.pdf
- ^ Ускорение приложений с помощью механизма сотовой широкополосной связи, https://experts.illinois.edu/en/publications/application-acceleration-with-the-cell-broadband-engine.
- ^ Cell GC: использование синергетического процессора ячеек в качестве сопроцессора сборки мусора, виртуальная среда выполнения ACM, https://dominoweb.draco.res.ibm.com/reports/rc24520.pdf
- ^ М. Гшвинд, Ф. Густавсон, Дж. Принс (редакторы), Высокопроизводительные вычисления с помощью Cell Broadband Engine Научное программирование 2009, https://www.semanticscholar.org/paper/High-Performance-Computing-with-the-Cell-Broadband-Gschwind-Gustavson/c6775765100eb3b9eb7b7bc003a8eba1ca90667f
- ^ М. Гшвинд, М. Перроне (редакторы), Актуальный вопрос о гибридных системах Журнал исследований и разработок IBM 53(5):1-2 сентябрь 2009 г., DOI:10.1147/JRD.2009.5429079
- ^ PowerAI: Совместно оптимизированный стек программного обеспечения для искусственного интеллекта на электропитании, GTC 2017, Сан-Хосе, https://www.researchgate.net/publication/316844295_PowerAI_A_Co-Optimized_Software_Stack_for_AI_on_Power
- ^ Панель GTC по большим языковым моделям: от приема до развертывания больших языковых моделей, https://www.nvidia.com/en-us/on-demand/session/gtcfall22-a41325/
- ^ «MultiRay: Оптимизация эффективности крупномасштабных моделей искусственного интеллекта» . ai.meta.com . Проверено 28 октября 2023 г.
- ^ МультиРэй: Ускоренная услуга внедрения для понимания контента: https://static.sched.com/hosted_files/pytorch2023/60/PyTorch_Conf_2023-Multiray.pdf.
- ^ Развертывание ускорителя вывода первого поколения в Facebook, https://arxiv.org/pdf/2107.04140.pdf .
- ^ Марк Цукерберг говорит, что ИИ повышает монетизацию на 30% в Instagram и на 40% в Facebook, https://finance.yahoo.com/news/mark-zuckerberg-says-ai-boosts-monetization-by-30-on-instagram- 40-on-facebook-181123177.html?fr=sycsrp_catchall
- ^ С 3 до 10 миллиардов долларов: барабаны Meta, управляемые искусственным интеллектом, резко увеличили рост доходов, превзойдя все ожидания, https://www.Benzinga.com/news/23/07/33414780/from-3b-to-10b-metas-ai-driven-reels-skyrocketed-revenue-growth-beyond-expectations
- ^ «ПиТорч» . www.pytorch.org . Проверено 28 октября 2023 г.
- ^ «Лучший трансформатор для быстрого вывода трансформаторов» . pytorch.org . Проверено 28 октября 2023 г.
- ^ BetterTransformer, Готовая производительность для трансформеров обнимающего лица, https://medium.com/pytorch/bettertransformer-out-of-the-box- Performance -for-huggingface-transformers-3fbe27d50ab2
- ^ PyTorch 2.0: наша версия следующего поколения, которая, как всегда, быстрее, более Pythonic и динамична, https://pytorch.org/blog/pytorch-2.0-release/
- ^ Модели ускоренной генеративной диффузии с помощью PyTorch 2, https://pytorch.org/blog/accelerated-generative-diffusion-models/
- ^ Ускорение больших языковых моделей с помощью ускоренных преобразователей, https://pytorch.org/blog/accelerating-large-language-models/
- ^ PyTorch 2: более быстрое машинное обучение за счет динамического преобразования байт-кода Python и компиляции графиков, https://pytorch.org/assets/pytorch2-2.pdf
- ^ ExecuTorch Alpha: выведение LLM и искусственного интеллекта на передний план с нашим сообществом и партнерами, https://pytorch.org/blog/executorch-alpha/
- ^ Опубликована Лейла v4.6.0!, https://www.layla-network.ai/post/layla-v4-6-0-has-been-published
- ^ Невероятно быстрый LLama2-7B-Chat на устройстве Android с 8 ГБ ОЗУ через Executorch, https://www.reddit.com/r/LocalLLaMA/comments/1csw861/blazing_fast_llama27bchat_on_8gb_ram_android/
- ^ Представляем torchchat: ускорение локального вывода LLM на ноутбуках, настольных компьютерах и мобильных устройствах, https://pytorch.org/blog/torchchat-local-llm-inference/
- ^ torchchat: запускайте PyTorch LLM локально на серверах, настольных компьютерах и мобильных устройствах, https://github.com/pytorch/torchchat.
- ^ Устойчивый ИИ: экологические последствия, проблемы и возможности, https://arxiv.org/pdf/2111.00364.pdf.
- ^ Годен, Шэрон (9 июня 2008 г.). «Roadrunner от IBM преодолевает 4-минутную милю суперкомпьютеров» . Компьютерный мир . Архивировано из оригинала 24 декабря 2008 г. Проверено 10 июня 2008 г.
- ^ Филдс, Джонатан (9 июня 2008 г.). «Суперкомпьютер задает темп в петафлопе» . Новости Би-би-си . Проверено 9 июня 2008 г.
- ↑ NNSA заключает контракт с IBM на создание суперкомпьютера следующего поколения , 3 февраля 2009 г.
- ^ Лор, Стив (8 июня 2018 г.). «Подвинься, Китай: США снова стали домом для самого быстрого суперкомпьютера в мире» . Нью-Йорк Таймс . Проверено 19 июля 2018 г.
- ^ «Список Топ-500 – ноябрь 2022 г.» . ТОП500 . Ноябрь 2022 года . Проверено 13 апреля 2022 г.
- ^ «Ноябрь 2022 | ТОП500 суперкомпьютерных сайтов» . ТОП500 . Проверено 13 апреля 2022 г.
- ^ Оптимизация конвейеров по мощности и производительности, MICRO 2002. https://www.researchgate.net/publication/4001353_Optimizing_pipelines_for_power_and_performance .
- ^ Blue Gene/Q: Проект для устойчивых многопетафлопных вычислений, https://www.researchgate.net/publication/303110432_Michael_Gschwind_-_ICS_2012_BlueGeneQ_keynote_presentation
- ^ Многопетамасштабный высокоэффективный параллельный суперкомпьютер, патент США 9 081 501, https://patents.google.com/patent/US9081501B2.
- ^ SoftBeam: точное отслеживание временных сбоев и анализ уязвимостей во время разработки процессора, https://ieeexplore.ieee.org/document/6081430
- ^ Мягкая обработка ошибок в микропроцессорах, патент США 7 512 772, https://patents.google.com/patent/US7512772B2.
- ^ Эффективное планирование инструкций с точными исключениями, https://www.researchgate.net/publication/244186152_Efficient_instruction_scheduling_with_precision_Exceptions.
- ^ Оптимизации и параллелизм Oracle с динамическим переводом, https://www.researchgate.net/publication/3830428_Optimizations_and_oracle_parallelism_with_dynamic_translation
- ^ Динамический и прозрачный двоичный перевод, https://citeseerx.ist.psu.edu/document?repid=rep1&type=pdf&doi=ee7ad16a1f0c1988e93209d4b56d7ff4e8b68566 .
- ^ Динамическая двоичная трансляция и оптимизация, https://www.researchgate.net/publication/3044344_Dynamic_binary_translation_and_optimization.
- ^ Достижения и будущие проблемы в области двоичной трансляции и оптимизации, https://ieeexplore.ieee.org/document/964447.
- ^ Проблемы двоичной трансляции и конвергенции архитектуры для IBM System/390, https://www.researchgate.net/profile/Michael-Gschwind/publication/221235791_Binary_translation_and_architecture_convergence_issu es_for_IBM_system390/links/0046352f27d9de5653000000/Binary-translation-and-architecture-convergence-issues-for-IBM-system-390.pdf
- ^ Достижения и будущие проблемы в области двоичной трансляции и оптимизации, Труды IEEE, https://ieeexplore.ieee.org/document/964447 .
- ^ Смит, Наир, Виртуальные машины: универсальные платформы для систем и процессов, https://www.amazon.com/Virtual-Machines-Versatile-Platforms-Architecture/dp/1558609105
- ^ Оптимизация компилятора для процессора CELL, Конференция по параллельным архитектурам и методам компиляции (PACT 2005), сентябрь 2005 г. https://dl.acm.org/doi/10.1109/PACT.2005.33
- ^ Среда с открытым исходным кодом для программного обеспечения системы Cell Broadband Engine, https://www.researchgate.net/publication/2961855_An_Open_Source_Environment_for_Cell_Broadband_Engine_System_Software
- ^ Многопроцессорная обработка чипа и механизм сотовой широкополосной связи, https://www.computingfrontiers.org/2006/cf06-gschwind.pdf.
- ^ Механизм сотовой широкополосной связи: использование нескольких уровней параллелизма в микропроцессоре, https://link.springer.com/article/10.1007/s10766-007-0035-4
- ^ Развертывание ускорителя вывода первого поколения на Facebook, https://research.facebook.com/publications/first-generation-inference-accelerator-deployment-at-facebook
- ^ PyTorch 2: более быстрое машинное обучение за счет динамического преобразования байт-кода Python и компиляции графиков, https://pytorch.org/assets/pytorch2-2.pdf
- ^ ExecuTorch Alpha: выведение LLM и искусственного интеллекта на передний план с нашим сообществом и партнерами, https://pytorch.org/blog/executorch-alpha/
- ^ OpenPOWER Реинжиниринг серверной экосистемы для крупномасштабные центры обработки данных, https://old.hotchips.org/wp-content/uploads/hc_archives/hc26/HC26-12-day2-epub/HC26.12-7-Dense-Servers-epub/HC26.12.730- %20OpenPower-Gschwind-IBM.pdf
- ^ Энергетическая архитектура Спецификация 64-битного ELF V2 ABI, https://ftp.rtems.org/pub/rtems/people/sebh/ABI64BitOpenPOWERv1.1_16July2015_pub.pdf
- ^ Реинжиниринг серверной экосистемы для повышения мобильности и производительности, https://www.researchgate.net/publication/322706081_Reengineering_a_server_ecosystem_for_enhanced_portability_and_ Performance.
- ^ Синергетическая обработка в многоядерной архитектуре ячейки, IEEE MICRO, https://ieeexplore.ieee.org/document/1624323
- ^ Оптимизация компилятора для процессора CELL, Конференция по параллельным архитектурам и методам компиляции (PACT 2005), сентябрь 2005 г. https://dl.acm.org/doi/10.1109/PACT.2005.33
- ^ Ускорение рабочей нагрузки с помощью векторно-скалярной архитектуры IBM POWER, IBM JRD, https://ieeexplore.ieee.org/abstract/document/7442604
- ^ Вычислительный чип IBM Blue Gene/Q, https://ieeexplore.ieee.org/document/6109225
- ^ Морган, Тимоти Прикетт (22 ноября 2010 г.). «IBM раскрывает 20 петафлопс BlueGene/Q super» . Регистр .
- ^ Ускоритель SIMD для бизнес-аналитики на IBM z13, https://dl.acm.org/doi/10.1147/JRD.2015.2426576.
- ^ Обработка SIMD на IBM z14, z13 и z13s, https://www.ibm.com/downloads/cas/WVPALM0N