ИИ-ускоритель
Ускоритель искусственного интеллекта , процессор глубокого обучения или нейронный процессор ( NPU ) — это класс специализированного аппаратного ускорителя. [1] или компьютерная система [2] [3] предназначен для ускорения искусственного интеллекта и машинного обучения приложений , включая искусственные нейронные сети и компьютерное зрение . Типичные приложения включают алгоритмы для робототехники , Интернета вещей и другие задачи, требующие большого объема данных или управляемые датчиками. [4] Они часто представляют собой многоядерные конструкции и обычно ориентированы на арифметику низкой точности , новые архитектуры потоков данных или возможности вычислений в памяти . По состоянию на 2024 год [update]Типичная интегральная микросхема искусственного интеллекта содержит десятки миллиардов МОП -транзисторов . [5]
Ускорители искусственного интеллекта, такие как нейронные процессоры (NPU), используются в мобильных устройствах, таких как Apple iPhone и мобильные телефоны Huawei . [6] и персональные компьютеры, такие как AMD ноутбуки [7] и кремниевые компьютеры Mac Apple . [8] Ускорители используются на серверах облачных вычислений , включая тензорные процессоры (TPU) в Google Cloud Platform. [9] и чипы Trainium и Inferentia в Amazon Web Services . [10] Для устройств этой категории существует ряд терминов, специфичных для конкретного поставщика, и это новая технология без доминирующего дизайна .
Графические процессоры, разработанные такими компаниями, как Nvidia и AMD, часто включают в себя оборудование, предназначенное для искусственного интеллекта, и обычно используются в качестве ускорителей искусственного интеллекта как для обучения , так и для вывода . [11]
История
[ редактировать ]Компьютерные системы часто дополняют ЦП специальными ускорителями для специализированных задач, известными как сопроцессоры . Известные для конкретных приложений аппаратные блоки включают видеокарты для графики , звуковые карты , графические процессоры и процессоры цифровых сигналов . Поскольку в 2010-х годах все большее распространение получили рабочие нагрузки глубокого обучения и искусственного интеллекта были разработаны или адаптированы специализированные аппаратные средства на основе существующих продуктов , для ускорения этих задач .
Ранние попытки
[ редактировать ]Первые попытки, такие как ETANN 80170NX от Intel, включали аналоговые схемы для вычисления нейронных функций. [12]
Позже последовали полностью цифровые чипы, такие как Nestor/Intel Ni1000 . Еще в 1993 году процессоры цифровых сигналов использовались в качестве ускорителей нейронных сетей для ускорения программного обеспечения оптического распознавания символов . [13]
К 1988 году Вэй Чжан и др. обсуждали быстрые оптические реализации сверточных нейронных сетей для распознавания алфавита. [14] [15]
В 1990-е годы также предпринимались попытки создания параллельных высокопроизводительных систем для рабочих станций, предназначенных для различных приложений, включая нейросетевое моделирование. [16] [17]
Ускорители на основе FPGA также были впервые исследованы в 1990-х годах как для вывода, так и для обучения. [18] [19]
В 2014 году Чен и др. предложил DianNao (по-китайски «электрический мозг»), [20] особенно для ускорения глубоких нейронных сетей. DianNao обеспечивает пиковую производительность 452 Gop/s (ключевых операций в глубоких нейронных сетях) при занимаемой площади 3,02 мм. 2 и 485 мВт. Позже преемники (ДаДианНао, [21] ШиДианНао, [22] ПуДяньНао [23] ) были предложены той же группой, образующей семью ДяньНао. [24]
Смартфоны начали использовать ускорители искусственного интеллекта, начиная с Qualcomm Snapdragon 820 в 2015 году. [25] [26]
Гетерогенные вычисления
[ редактировать ]Гетерогенные вычисления включают в себя множество специализированных процессоров в одной системе или одном кристалле, каждый из которых оптимизирован для определенного типа задач. Такие архитектуры, как клеточный микропроцессор. [27] имеют функции, значительно перекрывающиеся с ускорителями искусственного интеллекта, включая: поддержку упакованной арифметики низкой точности, архитектуру потока данных и приоритезацию пропускной способности над задержкой. Микропроцессор Cell применяется для решения ряда задач. [28] [29] [30] включая ИИ. [31] [32] [33]
В 2000-х годах процессоры также получили все более широкие модули SIMD , обусловленные видео- и игровыми нагрузками; а также поддержка упакованных типов данных низкой точности . [34] Из-за растущей производительности процессоров они также используются для выполнения рабочих нагрузок ИИ. ЦП лучше подходят для DNN с малым или средним параллелизмом, для разреженных DNN и в сценариях с малым размером пакетов.
Использование графических процессоров
[ редактировать ]Графические процессоры или графические процессоры — это специализированное оборудование для манипулирования изображениями и расчета локальных свойств изображения. Математическая основа нейронных сетей и манипуляций с изображениями представляет собой схожие, до неловкости параллельные задачи, связанные с матрицами, что приводит к тому, что графические процессоры все чаще используются для задач машинного обучения. [35] [36]
В 2012 году Алекс Крижевский использовал два графических процессора для обучения сети глубокого обучения, то есть AlexNet. [37] который стал чемпионом конкурса ISLVRC-2012. В 2010-х годах производители графических процессоров, такие как Nvidia, добавили функции глубокого обучения как в аппаратное обеспечение (например, операторы INT8), так и в программное обеспечение (например, библиотеку cuDNN).
В течение 2010-х годов графические процессоры продолжали развиваться в направлении облегчения глубокого обучения как для обучения, так и для вывода в таких устройствах, как беспилотные автомобили . [38] [39] Разработчики графических процессоров, такие как Nvidia NVLink, разрабатывают дополнительные возможности подключения для тех рабочих нагрузок потока данных, которые приносят пользу ИИ. Поскольку графические процессоры все чаще применяются для ускорения искусственного интеллекта, производители графических процессоров внедрили нейронных сетей оборудование для специальное для дальнейшего ускорения этих задач. [40] [41] Тензорные ядра предназначены для ускорения обучения нейронных сетей. [41]
Графические процессоры продолжают использоваться в крупномасштабных приложениях искусственного интеллекта. Например, Summit , суперкомпьютер от IBM для Национальной лаборатории Ок-Ридж , [42] содержит 27 648 карт Nvidia Tesla V100, которые можно использовать для ускорения алгоритмов глубокого обучения.
Использование ПЛИС
[ редактировать ]Среды глубокого обучения все еще развиваются, что затрудняет разработку специального оборудования. Реконфигурируемые устройства, такие как программируемые пользователем вентильные матрицы (FPGA), упрощают развитие аппаратного обеспечения, инфраструктур и программного обеспечения параллельно друг другу . [43] [18] [19] [44]
Microsoft использовала чипы FPGA для ускорения вывода для сервисов глубокого обучения в реальном времени. [45]
Использование НПУ
[ редактировать ]С 2017 года несколько CPU и SoC имеют встроенные NPU: например, Intel Meteor Lake , Apple A11 .
Появление специализированных ASIC-ускорителей искусственного интеллекта
[ редактировать ]Хотя графические процессоры и FPGA работают намного лучше, чем центральные процессоры, для задач, связанных с искусственным интеллектом, их эффективность достигает 10 раз. [46] [47] может быть получено с помощью более специфической конструкции с помощью интегральной схемы специального назначения (ASIC). [48] Эти ускорители используют такие стратегии, как оптимизированное использование памяти. [ нужна ссылка ] и использование арифметики более низкой точности для ускорения вычислений и увеличения производительности вычислений. [49] [50] низкой точности, Некоторые форматы с плавающей запятой используемые для ускорения ИИ, имеют половинную точность и формат с плавающей запятой bfloat16 . [51] [52] Компания Cerebras Systems создала специальный ускоритель искусственного интеллекта на базе крупнейшего в отрасли процессора Wafer Scale Engine второго поколения (WSE-2) для поддержки рабочих нагрузок глубокого обучения. [53] [54]
Текущие исследования
[ редактировать ]Архитектуры вычислений в памяти
[ редактировать ]Этот раздел нуждается в расширении . Вы можете помочь, добавив к нему . ( октябрь 2018 г. ) |
В июне 2017 года исследователи IBM анонсировали архитектуру, отличную от архитектуры фон Неймана, основанную на вычислениях в памяти и массивах памяти с фазовым изменением, применяемую для обнаружения временной корреляции , намереваясь обобщить подход к гетерогенным вычислениям и с массовым параллелизмом . системам [55] В октябре 2018 года исследователи IBM анонсировали архитектуру, основанную на обработке в памяти и смоделированную на синаптической сети человеческого мозга, для ускорения глубоких нейронных сетей . [56] Система основана на массивах памяти с фазовым переходом. [57]
Вычисления в памяти с аналоговой резистивной памятью
[ редактировать ]В 2019 году исследователи из Миланского политехнического университета нашли способ решать системы линейных уравнений за несколько десятков наносекунд с помощью одной операции. Их алгоритм основан на вычислениях в памяти с аналоговой резистивной памятью, которая работает с высокой эффективностью времени и энергии за счет проведения матрично-векторного умножения за один шаг с использованием закона Ома и закона Кирхгофа. Исследователи показали, что схема обратной связи с перекрестной резистивной памятью может решать алгебраические задачи, такие как системы линейных уравнений, собственные векторы матрицы и дифференциальные уравнения, всего за один шаг. Такой подход значительно сокращает время вычислений по сравнению с цифровыми алгоритмами. [58]
Атомно тонкие полупроводники
[ редактировать ]В 2020 году Марега и др. опубликовали эксперименты с материалом активного канала большой площади для разработки устройств и схем логики в памяти на основе с плавающим затвором полевых транзисторов (FGFET). [59] Такие атомарно тонкие полупроводники считаются перспективными для энергоэффективных приложений машинного обучения , где одна и та же базовая структура устройства используется как для логических операций, так и для хранения данных. Авторы использовали двумерные материалы, такие как полупроводниковый дисульфид молибдена, для точной настройки FGFET в качестве строительных блоков, в которых логические операции могут выполняться с элементами памяти. [59]
Интегрированное фотонное тензорное ядро
[ редактировать ]В 1988 году Вэй Чжан и др. обсудили быстрые оптические реализации сверточных нейронных сетей для распознавания алфавита. [14] [15] В 2021 г. Дж. Фельдманн и др. предложил интегрированный фотонный аппаратный ускоритель для параллельной сверточной обработки. [60] Авторы выделяют два ключевых преимущества интегрированной фотоники перед ее электронными аналогами: (1) массово параллельная передача данных посредством по длине волны с разделением мультиплексирования в сочетании с частотными гребенками и (2) чрезвычайно высокая скорость модуляции данных. [60] Их система может выполнять триллионы операций умножения-накопления в секунду, что указывает на потенциал интегрированной фотоники в приложениях искусственного интеллекта с большим объемом данных. [60] Экспериментально были разработаны оптические процессоры, которые также могут выполнять обратное распространение ошибки для искусственных нейронных сетей. [61]
Номенклатура
[ редактировать ]По состоянию на 2016 год эта область все еще находится в процессе развития, и поставщики продвигают собственный маркетинговый термин, обозначающий то, что можно назвать «ускорителем искусственного интеллекта», в надежде, что их проекты и API станут доминирующими . Нет единого мнения ни о границах между этими устройствами, ни о точной форме, которую они примут; однако несколько примеров явно направлены на заполнение этого нового пространства, при этом возможности во многом совпадают.
В прошлом, когда появились потребительские графические ускорители , индустрия в конечном итоге приняла . самопровозглашенный термин Nvidia «GPU» [62] как собирательное существительное для «графических ускорителей», которое принимало множество форм, прежде чем остановилось на общем конвейере, реализующем модель, представленную Direct3D. [ нужны разъяснения ] .
Все модели процессоров Intel Meteor Lake имеют универсальный процессорный блок ( VPU встроенный ) для ускорения вывода для компьютерного зрения и глубокого обучения. [63]
Процессоры глубокого обучения (DLP)
[ редактировать ]Вдохновленные новаторской работой семьи DianNao, многие DLP предлагаются как в научных кругах, так и в промышленности с дизайном, оптимизированным для использования функций глубоких нейронных сетей для обеспечения высокой эффективности. На ISCA 2016 три сессии (15%) принятых докладов были посвящены архитектурным проектам глубокого обучения. К таким усилиям относятся Eyeriss (MIT), [64] СОБСТВЕННЫЙ (Стэнфорд), [65] Минерва (Гарвард), [66] Полосы (Университет Торонто) в академических кругах, [67] ТПУ (Гугл), [68] и MLU ( Cambricon ) в промышленности. [69] Мы перечислили несколько репрезентативных работ в таблице 1.
Таблица 1. Типичные DLP | |||||||
---|---|---|---|---|---|---|---|
Год | DLP | учреждение | Тип | Вычисление | Иерархия памяти | Контроль | Пиковая производительность |
2014 | ДианНао [20] | ИКТ, CAS | цифровой | векторные MAC | блокнот | ВЛИВ | 452 гопа (16 бит) |
ДаДианНао [21] | ИКТ, CAS | цифровой | векторные MAC | блокнот | ВЛИВ | 5.58 Вершины (16-бит) | |
2015 | ШиДианНао [22] | ИКТ, CAS | цифровой | скалярные MAC-адреса | блокнот | ВЛИВ | 194 гопа (16 бит) |
ПуДяньНао [23] | ИКТ, CAS | цифровой | векторные MAC | блокнот | ВЛИВ | 1056 гопов (16 бит) | |
2016 | ДннВивер | Технологический институт Джорджии | цифровой | Векторные MAC | блокнот | - | - |
СОБСТВЕННЫЙ [65] | Стэнфорд | цифровой | скалярные MAC-адреса | блокнот | - | 102 гопа (16 бит) | |
Айрисс [64] | С | цифровой | скалярные MAC-адреса | блокнот | - | 67.2 Гопс (16-бит) | |
Основной [70] | UCSB | гибридный | Процесс в памяти | ReRAM | - | - | |
2017 | ТПУ [68] | цифровой | скалярные MAC-адреса | блокнот | ЦИСК | 92 вершины (8-бит) | |
слой трубы [71] | Университет Питтсбурга | гибридный | Процесс в памяти | ReRAM | - | ||
ФлексФлоу | ИКТ, CAS | цифровой | скалярные MAC-адреса | блокнот | - | 420 гопов () | |
ДНПУ [72] | КАИСТ | цифровой | скалярный MACS | блокнот | - | 300 гопов (16 бит) 1200 гопов (4 бита) | |
2018 | МАЭРИ | Технологический институт Джорджии | цифровой | скалярные MAC-адреса | блокнот | - | |
ПермДНН | Городской университет Нью-Йорка | цифровой | векторные MAC | блокнот | - | 614,4 гопов (16-бит) | |
ОНПУ [73] | КАИСТ | цифровой | скалярные MAC-адреса | блокнот | - | 345,6 гопов (16 бит) 691.2 Гопс(8б)1382 гопов (4 бита)7372 гопов (1 бит) | |
2019 | ФПСА | Цинхуа | гибридный | Процесс в памяти | ReRAM | - | |
Камбрикон-Ф | ИКТ, CAS | цифровой | векторные MAC | блокнот | ФИСА | 14,9 Вершин (F1, 16-бит) 956 вершин (F100, 16 бит) |
Цифровые DLP
[ редактировать ]Основные компоненты архитектуры DLP обычно включают вычислительный компонент, иерархию встроенной памяти и логику управления, которая управляет потоками передачи данных и вычислений.
Что касается вычислительного компонента, поскольку большинство операций глубокого обучения можно объединить в векторные операции, наиболее распространенными способами построения вычислительных компонентов в цифровых DLP являются организация на основе MAC (накопление множителя), либо с векторными MAC. [20] [21] [23] или скалярные MAC. [68] [22] [64] Вместо SIMD или SIMT в обычных вычислительных устройствах параллелизм глубокого обучения, специфичный для предметной области, лучше изучать в этих организациях на базе MAC. Что касается иерархии памяти, поскольку алгоритмам глубокого обучения требуется высокая пропускная способность для обеспечения вычислительного компонента достаточным количеством данных, DLP обычно используют встроенный буфер относительно большего размера (десятки килобайт или несколько мегабайт), но со специальной стратегией повторного использования данных на кристалле и стратегия обмена данными, позволяющая снизить нагрузку на пропускную способность памяти. Например, DianNao, 16 векторных MAC по 16 дюймов, требует 16 × 16 × 2 = 512 16-битных данных, т. е. требуется почти 1024 ГБ/с пропускной способности между вычислительными компонентами и буферами. При повторном использовании на кристалле такие требования к полосе пропускания резко снижаются. [20] Вместо широко используемого кэша в обычных устройствах обработки данных DLP всегда используют блокнотную память, поскольку она может обеспечить более широкие возможности повторного использования данных за счет использования относительно регулярного шаблона доступа к данным в алгоритмах глубокого обучения. Что касается логики управления, то поскольку алгоритмы глубокого обучения продолжают развиваться с огромной скоростью, DLP начинают использовать выделенную ISA (архитектуру набора команд) для гибкой поддержки области глубокого обучения. Сначала DianNao использовал набор инструкций в стиле VLIW, где каждая инструкция могла завершать уровень в DNN. Камбрикон [74] представляет первую ISA, ориентированную на предметную область глубокого обучения, которая может поддерживать более десяти различных алгоритмов глубокого обучения. ТПУ также раскрывает пять ключевых инструкций ISA в стиле CISC.
Гибридные DLP
[ редактировать ]Гибридные DLP используются для вывода DNN и ускорения обучения из-за их высокой эффективности. Архитектуры обработки в памяти (PIM) являются одним из наиболее важных типов гибридной DLP. Ключевая концепция проектирования PIM заключается в преодолении разрыва между вычислениями и памятью следующими способами: 1) Перемещение вычислительных компонентов в ячейки памяти, контроллеры или микросхемы памяти для устранения проблемы со стенками памяти. [71] [75] [76] Такие архитектуры значительно сокращают пути передачи данных и используют гораздо более высокую внутреннюю пропускную способность, что приводит к значительному повышению производительности. 2) Создать высокоэффективные механизмы DNN, приняв вычислительные устройства. В 2013 году лаборатория HP продемонстрировала удивительные возможности использования перекрестной структуры ReRAM для вычислений. [77] Вдохновленная этой работой, предлагается провести огромную работу по исследованию новой архитектуры и дизайна системы на основе ReRAM. [70] [78] [79] [71] память изменения фазы, [75] [80] [81] и т. д.
Тесты
[ редактировать ]Для оценки производительности ускорителей искусственного интеллекта можно использовать такие тесты, как MLPerf и другие. [82] В таблице 2 перечислены несколько типичных тестов для ускорителей искусственного интеллекта.
Год | НН Бенчмарк | Принадлежности | Количество микробенчмарков | Количество тестов компонентов | Количество тестов приложений |
---|---|---|---|---|---|
2012 | СкамейкаNN | ИКТ, CAS | Н/Д | 12 | Н/Д |
2016 | глубина | Гарвард | Н/Д | 8 | Н/Д |
2017 | BenchIP | ИКТ, CAS | 12 | 11 | Н/Д |
2017 | РАССВЕТСкамейка | Стэнфорд | 8 | Н/Д | Н/Д |
2017 | ДипБенч | Байду | 4 | Н/Д | Н/Д |
2018 | Тестирование искусственного интеллекта | ETH Цюрих | Н/Д | 26 | Н/Д |
2018 | МЛПерф | Гарвард, Intel, Google и т. д. | Н/Д | 7 | Н/Д |
2019 | AIBench | ИКТ, CAS и Alibaba и т. д. | 12 | 16 | 2 |
2019 | NNBench-X | UCSB | Н/Д | 10 | Н/Д |
Возможные применения
[ редактировать ]- Сельскохозяйственные роботы , например, для борьбы с сорняками без гербицидов. [83]
- Автономные транспортные средства : Nvidia нацелила свои платы серии Drive PX на это приложение. [84]
- Компьютерная диагностика
- Промышленные роботы расширяют спектр задач, которые можно автоматизировать, добавляя адаптивность к изменяющимся ситуациям.
- Машинный перевод
- Военные роботы
- Обработка естественного языка
- Поисковые системы , повышение энергоэффективности центров обработки данных и возможность использования все более сложных запросов .
- Беспилотные летательные аппараты , например навигационные системы, например Movidius Myriad 2, успешно управляют автономными дронами. [85]
- Голосовой пользовательский интерфейс , например, в мобильных телефонах, целевой для Qualcomm Zeroth . [86]
См. также
[ редактировать ]- Когнитивный компьютер
- Нейроморфная инженерия
- Оптическая нейронная сеть
- Физическая нейронная сеть
- Системы Церебрас
Ссылки
[ редактировать ]- ^ «Intel представляет USB-ускоритель искусственного интеллекта Movidius Compute Stick» . 21 июля 2017. Архивировано из оригинала 11 августа 2017 года . Проверено 11 августа 2017 г.
- ^ «Inspurs представляет ускоритель искусственного интеллекта GX4» . 21 июня 2017 г.
- ^ Виггерс, Кайл (6 ноября 2019 г.) [2019 г.], Neural Magic собирает 15 миллионов долларов для повышения скорости вывода ИИ на стандартных процессорах , заархивировано из оригинала 6 марта 2020 г. , получено 14 марта 2020 г.
- ^ «Google разрабатывает процессоры искусственного интеллекта» . 18 мая 2016 г. Google использует собственные ускорители искусственного интеллекта.
- ^ Мосс, Себастьян (23 марта 2022 г.). «Nvidia представляет новый графический процессор Hopper H100 с 80 миллиардами транзисторов» . Динамика центра обработки данных . Проверено 30 января 2024 г.
- ^ «HUAWEI раскрывает будущее мобильного искусственного интеллекта на IFA» .
- ^ «Архитектура AMD XDNA» .
- ^ «Развертывание трансформаторов на Apple Neural Engine» . Исследования Apple в области машинного обучения . Проверено 24 августа 2023 г.
- ^ Джуппи, Норман П.; и др. (24 июня 2017 г.). «Анализ производительности тензорного процессора в центре обработки данных» . Новости компьютерной архитектуры ACM SIGARCH . 45 (2): 1–12. arXiv : 1704.04760 . дои : 10.1145/3140659.3080246 .
- ^ «Как инновации в области кремния стали «секретным соусом» успеха AWS» . Амазонская наука . 27 июля 2022 г. . Проверено 19 июля 2024 г.
- ^ Патель, Дилан; Нишболл, Дэниел; Се, Майрон (9 ноября 2023 г.). «Новые китайские ИИ-чипы Nvidia обходят ограничения США» . Полуанализ . Проверено 7 февраля 2024 г.
- ^ Дворжак, JC (29 мая 1990 г.). «Внутренний путь» . Журнал ПК . Проверено 26 декабря 2023 г.
- ^ «Демоверсия сверточной нейронной сети 1993 года с ускорителем DSP32» . Ютуб . 2 июня 2014 г.
- ^ Перейти обратно: а б Чжан, Вэй (1988). «Нейронная сеть распознавания образов, инвариантная к сдвигу, и ее оптическая архитектура». Материалы ежегодной конференции Японского общества прикладной физики .
- ^ Перейти обратно: а б Чжан, Вэй (1990). «Модель параллельной распределенной обработки с локальными пространственно-инвариантными соединениями и ее оптическая архитектура». Прикладная оптика . 29 (32): 4790–7. Бибкод : 1990ApOpt..29.4790Z . дои : 10.1364/AO.29.004790 . ПМИД 20577468 .
- ^ Асанович, К.; Бек, Дж.; Фельдман, Дж.; Морган, Н.; Вавжинек, Дж. (январь 1994 г.). «Проектирование сетевого суперкомпьютера» . Международный журнал нейронных систем . 4 (4). ResearchGate: 317–26. дои : 10.1142/S0129065793000250 . ПМИД 8049794 . Проверено 26 декабря 2023 г.
- ^ «Конец компьютеров общего назначения (нет)» . Ютуб . 17 апреля 2015 г.
- ^ Перейти обратно: а б Гшвинд, М.; Салапура, В.; Майшбергер, О. (февраль 1995 г.). «Пространственное внедрение нейронной сети» . Проверено 26 декабря 2023 г.
- ^ Перейти обратно: а б Гшвинд, М.; Салапура, В.; Майшбергер, О. (1996). «Общий строительный блок для нейронных сетей Хопфилда со встроенным обучением». 1996 Международный симпозиум IEEE по схемам и системам. Схемы и системы, соединяющие мир. ИСКАС 96 . стр. 49–52. дои : 10.1109/ISCAS.1996.598474 . ISBN 0-7803-3073-0 . S2CID 17630664 .
- ^ Перейти обратно: а б с д , Тяньши; Сунь, Нинхуэй; Ван, Ву, Чэнъюн; Чен, Темам, Оливье (5 апреля 2014 г.). Чен . ACM SIGARCH архитектуры Новости компьютерной –284. doi : 10.1145/ 2654822.2541967 ISSN 0163-5964 .
- ^ Перейти обратно: а б с Чен, Юньцзи; Лю, Шаоли; Хэ, Цзянь; Линь; Чэнь, Живэй; Сунь, Нинхуэй; декабрь 2014 г. : Суперкомпьютер с машинным обучением». 2014. 47-й ежегодный международный симпозиум IEEE/ACM по микроархитектуре . IEEE. стр. 609–622. doi : 10.1109/micro.2014.58 . ISBN 978-1-4799-6998-2 . S2CID 6838992 .
- ^ Перейти обратно: а б с Ду, Цзидун; Фастхубер, Роберт; Чен, Тяньши; Йенне, Паоло; Ли, Линг; Луо, Тао; Фэн, Сяобин; Чен, Юнджи; Темам, Оливье (4 января 2016 г.). «ШиДианНао». Новости компьютерной архитектуры ACM SIGARCH . 43 (3С): 92–104. дои : 10.1145/2872887.2750389 . ISSN 0163-5964 .
- ^ Перейти обратно: а б с , Шэнюань; Фэн, Сяобин; Чжэнь, Юнцзи (29 мая 2015 г.). Лю, Даофу; Лю, Шаоли; Чжоу Новости . 43 (1): 369–381 doi : 10.1145/ 2786763.2694358 ISSN 0163-5964 .
- ^ Чен, Юнджи; Чен, Тяньши; Сюй, Живэй; Сунь, Нинхуэй; Темам, Оливье (28 октября 2016 г.). «Семья ДианНао». Коммуникации АКМ . 59 (11): 105–112. дои : 10.1145/2996864 . ISSN 0001-0782 . S2CID 207243998 .
- ^ «Qualcomm помогает сделать ваши мобильные устройства умнее с помощью нового комплекта разработки программного обеспечения для машинного обучения Snapdragon» . Квалкомм .
- ^ Рубин, Бен Фокс. «Платформа Qualcomm Zeroth может сделать ваш смартфон намного умнее» . CNET . Проверено 28 сентября 2021 г.
- ^ Гшвинд, Майкл; Хофсти, Х. Питер; Флакс, Брайан; Хопкинс, Мартин; Ватанабэ, Юкио; Ямадзаки, Такеши (2006). «Синергетическая обработка в многоядерной архитектуре ячейки». IEEE микро . 26 (2): 10–24. дои : 10.1109/MM.2006.41 . S2CID 17834015 .
- ^ Де Фабритис, Г. (2007). «Производительность клеточного процессора для биомолекулярного моделирования». Компьютерная физика. Коммуникации . 176 (11–12): 660–664. arXiv : физика/0611201 . Бибкод : 2007CoPhC.176..660D . дои : 10.1016/j.cpc.2007.02.107 . S2CID 13871063 .
- ^ Обработка и поиск видео на клеточной архитектуре . CiteSeerX 10.1.1.138.5133 .
- ^ Бентин, Карстен; Вальд, Инго; Шербаум, Майкл; Фридрих, Хайко (2006). Симпозиум IEEE 2006 г. по интерактивной трассировке лучей . стр. 15–23. CiteSeerX 10.1.1.67.8982 . дои : 10.1109/RT.2006.280210 . ISBN 978-1-4244-0693-7 . S2CID 1198101 .
- ^ «Разработка искусственной нейронной сети на гетерогенной многоядерной архитектуре для прогнозирования успешной потери веса у людей, страдающих ожирением» (PDF) . Архивировано из оригинала (PDF) 30 августа 2017 года . Проверено 14 ноября 2017 г.
- ^ Квон, Бомджун; Чой, Тайхо; Чунг, Хиджин; Ким, Геонхо (2008). 2008 г. 5-я конференция IEEE по потребительским коммуникациям и сетям . стр. 1030–1034. дои : 10.1109/ccnc08.2007.235 . ISBN 978-1-4244-1457-4 . S2CID 14429828 .
- ^ Дуан, Рубинг; Стрей, Альфред (2008). Euro-Par 2008 – Параллельная обработка . Конспекты лекций по информатике. Том. 5168. стр. 665–675. дои : 10.1007/978-3-540-85451-7_71 . ISBN 978-3-540-85450-0 .
- ^ «Улучшение производительности видео с помощью AVX» . 8 февраля 2012 г.
- ^ Челлапилла, К.; Сидд Пури; Симард, П. (23 октября 2006 г.). «Высокопроизводительные сверточные нейронные сети для обработки документов» . 10-й международный семинар «Границы в распознавании рукописного текста» . Проверено 23 декабря 2023 г.
- ^ Крижевский А.; Суцкевер И.; Хинтон, GE (24 мая 2017 г.). «Классификация ImageNet с глубокими сверточными нейронными сетями» . Коммуникации АКМ . 60 (6): 84–90. дои : 10.1145/3065386 .
- ^ Крижевский, Алекс; Суцкевер, Илья; Хинтон, Джеффри Э. (24 мая 2017 г.). «Классификация ImageNet с глубокими сверточными нейронными сетями» . Коммуникации АКМ . 60 (6): 84–90. дои : 10.1145/3065386 .
- ^ Роу, Р. (17 мая 2023 г.). «Nvidia лидирует в области глубокого обучения» . внутриHPC . Проверено 23 декабря 2023 г.
- ^ Бон, Д. (5 января 2016 г.). «Nvidia анонсирует «суперкомпьютер» для беспилотных автомобилей на выставке CES 2016» . Вокс Медиа . Проверено 23 декабря 2023 г.
- ^ « Опрос по оптимизированной реализации моделей глубокого обучения на платформе NVIDIA Jetson », 2019 г.
- ^ Перейти обратно: а б Харрис, Марк (11 мая 2017 г.). «Раскрытые возможности CUDA 9: Volta, совместные группы и многое другое» . Проверено 12 августа 2017 г.
- ^ «Саммит: суперкомпьютер Ок-Риджской национальной лаборатории мощностью 200 петафлопс» . Министерство энергетики США . 2024 . Проверено 8 января 2024 г.
- ^ Сефат, доктор Сиадус; Аслан, Семих; Келлингтон, Джеффри В.; Касем, Апан (август 2019 г.). «Ускорение горячих точек в глубоких нейронных сетях на FPGA на основе CAPI» . 21-я Международная конференция IEEE по высокопроизводительным вычислениям и коммуникациям, 2019 г.; 17-я Международная конференция IEEE по «умному городу»; 5-я Международная конференция IEEE по науке о данных и системам (HPCC/SmartCity/DSS) . стр. 248–256. doi : 10.1109/HPCC/SmartCity/DSS.2019.00048 . ISBN 978-1-7281-2058-4 . S2CID 203656070 .
- ^ «Ускорители глубокого обучения на основе FPGA берут верх над ASIC» . Следующая платформа . 23 августа 2016 г. Проверено 7 сентября 2016 г.
- ^ «Microsoft представляет проект Brainwave для искусственного интеллекта в реальном времени» . Майкрософт . 22 августа 2017 г.
- ^ «Google ускоряет машинное обучение с помощью своего тензорного процессора» . 19 мая 2016 года . Проверено 13 сентября 2016 г.
- ^ «Чип может принести глубокое обучение на мобильные устройства» . www.sciencedaily.com . 3 февраля 2016 года . Проверено 13 сентября 2016 г.
- ^ «Google Cloud анонсирует пятое поколение своих специальных TPU» . 29 августа 2023 г.
- ^ «Глубокое обучение с ограниченной числовой точностью» (PDF) .
- ^ Растегари, Мохаммед; Ордонес, Винсент; Редмон, Джозеф; Фархади, Али (2016). «XNOR-Net: классификация ImageNet с использованием двоичных сверточных нейронных сетей». arXiv : 1603.05279 [ cs.CV ].
- ^ Лучиан Армасу (23 мая 2018 г.). «Intel выпустит Spring Crest, свой первый процессор нейронной сети, в 2019 году» . Аппаратное обеспечение Тома . Проверено 23 мая 2018 г.
Intel заявила, что NNP-L1000 также будет поддерживать bfloat16, числовой формат, который принимается всеми игроками отрасли машинного обучения для нейронных сетей. Компания также будет поддерживать bfloat16 в своих FPGA, Xeon и других продуктах машинного обучения. Выпуск Nervana NNP-L1000 запланирован на 2019 год.
- ^ Джошуа В. Диллон; Ян Лэнгмор; Дастин Тран; Евгений Бревдо; Шринивас Васудеван; Дэйв Мур; Брайан Паттон; Алекс Алеми; Мэтт Хоффман; Риф А. Саурус (28 ноября 2017 г.). Распределения TensorFlow (отчет). arXiv : 1711.10604 . Бибкод : 2017arXiv171110604D . По состоянию на 23 мая 2018 г.
Все операции в TensorFlow Distributions численно стабильны при половинной, одинарной и двойной точности с плавающей запятой (как типы TensorFlow: tf.bfloat16 (усеченная с плавающей запятой), tf.float16, tf.float32, tf.float64). ). Конструкторы классов имеют флаг validate_args для числовых утверждений.
- ^ Вуди, Алекс (1 ноября 2021 г.). «Cerebras использует ускоритель для рабочих нагрузок глубокого обучения» . Датанами . Проверено 3 августа 2022 г.
- ^ «Cerebras запускает новый суперкомпьютерный процессор искусственного интеллекта с 2,6 триллионами транзисторов» . ВенчурБит . 20 апреля 2021 г. Проверено 3 августа 2022 г.
- ^ Абу Себастьян; Томас Тума; Николаос Папандреу; Мануэль Ле Галло; Лукас Кулл; Томас Парнелл; Евангелос Элефтериу (2017). «Обнаружение временной корреляции с использованием вычислительной памяти с фазовым изменением» . Природные коммуникации . 8 (1): 1115. arXiv : 1706.00511 . Бибкод : 2017NatCo...8.1115S . дои : 10.1038/s41467-017-01481-9 . ПМЦ 5653661 . ПМИД 29062022 .
- ^ «Новая архитектура, основанная на мозге, может улучшить работу компьютеров с данными и способствовать развитию искусственного интеллекта» . Американский институт физики . 3 октября 2018 г. . Проверено 5 октября 2018 г.
- ^ Карлос Риос; Натан Янгблад; Цзэнгуан Чэн; Мануэль Ле Галло; Вольфрам HP Пернице; К. Дэвид Райт; Абу Себастьян; Хариш Бхаскаран (2018). «Вычисления в памяти на фотонной платформе» . Достижения науки . 5 (2): еаау5 arXiv : 1801.06228 . Бибкод : 2019SciA.... 5.5759R дои : 10.1126/sciadv.aau5759 . ПМК 6377270 . ПМИД 30793028 . S2CID 7637801 .
- ^ Чжун Сунь; Джакомо Педретти; Элия Амбрози; Алессандро Брикалли; Вэй Ван; Даниэле Ильмини (2019). «Решение матричных уравнений за один шаг с помощью перекрестных резистивных матриц» . Труды Национальной академии наук . 116 (10): 4123–4128. Бибкод : 2019PNAS..116.4123S . дои : 10.1073/pnas.1815682116 . ПМК 6410822 . ПМИД 30782810 .
- ^ Перейти обратно: а б Марега, Гильерме Мильято; Чжао, Яньфэй; Авсар, Ахмет; Ван, Чжэньюй; Трипати, Мукеш; Раденович, Александра; Кис, Анрас (2020). «Логика в памяти на основе атомарно тонкого полупроводника» . Природа . 587 (2): 72–77. Бибкод : 2020Природа.587...72М . дои : 10.1038/s41586-020-2861-0 . ПМЦ 7116757 . ПМИД 33149289 .
- ^ Перейти обратно: а б с Фельдманн, Дж.; Янгблад, Н.; Карпов, М.; и др. (2021). «Параллельная сверточная обработка с использованием интегрированного фотонного тензора». Природа . 589 (2): 52–58. arXiv : 2002.00281 . дои : 10.1038/s41586-020-03070-1 . ПМИД 33408373 . S2CID 211010976 .
- ^ «Фотонные чипы снижают энергетический аппетит обучения искусственного интеллекта — IEEE Spectrum» .
- ^ «NVIDIA выпускает первый в мире графический процессор GeForce 256» . Архивировано из оригинала 27 февраля 2016 года.
- ^ «Intel внедрит процессорный блок VPU в чипы Meteor Lake 14-го поколения» . ПКМАГ .
- ^ Перейти обратно: а б с Чен, Ю-Синь; Эмер, Джоэл; Сзе, Вивьен (2017). «Eyeriss: пространственная архитектура для энергоэффективного потока данных для сверточных нейронных сетей». IEEE Micro : 1. doi : 10.1109/mm.2017.265085944 . hdl : 1721.1/102369 . ISSN 0272-1732 .
- ^ Перейти обратно: а б Хан, Сун; Лю, Синъюй; Мао, Хуэйцзы; Пу, Цзин; Педрам, Ардаван; Горовиц, Марк А.; Далли, Уильям Дж. (3 февраля 2016 г.). EIE: эффективный механизм вывода на сжатой глубокой нейронной сети . OCLC 1106232247 .
- ^ Риген, Брэндон; Что за фигня, Пол; Адольф, Роберт; Рама, Сакет; Ли, Хюнкван; Ли, Сэ Гю; Эрнандес-Лобато, Хосе Мигель; Вэй, Гу Ён; Брукс, Дэвид (июнь 2016 г.). «Минерва: использование маломощных и высокоточных ускорителей глубоких нейронных сетей». 2016 43-й ежегодный международный симпозиум ACM/IEEE по компьютерной архитектуре (ISCA) . Сеул: IEEE. стр. 267–278. дои : 10.1109/ISCA.2016.32 . ISBN 978-1-4673-8947-1 .
- ^ Джадд, Патрик; Альберисио, Хорхе; Мошовос, Андреас (1 января 2017 г.). «Полосы: побитовые вычисления на глубоких нейронных сетях». Письма IEEE по компьютерной архитектуре . 16 (1): 80–83. дои : 10.1109/lca.2016.2597140 . ISSN 1556-6056 . S2CID 3784424 .
- ^ Перейти обратно: а б с Джуппи, Н.; Янг, К.; Патил, Н.; Паттерсон, Д. (24 июня 2017 г.). Анализ производительности тензорного процессора в центре обработки данных . Ассоциация вычислительной техники . стр. 1–12. дои : 10.1145/3079856.3080246 . ISBN 9781450348928 . S2CID 4202768 .
- ^ «Карта-ускоритель интеллекта MLU 100» (на японском языке). Камбрикон. 2024 . Проверено 8 января 2024 г.
- ^ Перейти обратно: а б Чи, Пинг; Ли, Шуанчэнь; Сюй, Конг; Чжан, Тао; Чжао, Цзишэнь; Лю, Юнпан; Ван, Ю; Се, Юань (июнь 2016 г.). «PRIME: новая архитектура обработки в памяти для вычислений нейронных сетей в основной памяти на основе ReRAM». 2016 43-й ежегодный международный симпозиум ACM/IEEE по компьютерной архитектуре (ISCA) . IEEE. стр. 27–39. дои : 10.1109/isca.2016.13 . ISBN 978-1-4673-8947-1 .
- ^ Перейти обратно: а б с Сун, Линхао; Цянь, Сюэхай; Ли, Хай ; Чен, Иран (февраль 2017 г.). «PipeLayer: конвейерный ускоритель на основе ReRAM для глубокого обучения». Международный симпозиум IEEE по высокопроизводительной компьютерной архитектуре (HPCA) 2017 . IEEE. стр. 541–552. дои : 10.1109/hpca.2017.55 . ISBN 978-1-5090-4985-1 . S2CID 15281419 .
- ^ Шин, Донджу; Ли, Джинмук; Ли, Джинсу; Ю, Хой-Джун (2017). «14.2 DNPU: реконфигурируемый процессор CNN-RNN производительностью 8,1 TOPS/W для глубоких нейронных сетей общего назначения» . Международная конференция IEEE по твердотельным схемам (ISSCC) , 2017 г. стр. 100-1 240–241. дои : 10.1109/ISSCC.2017.7870350 . ISBN 978-1-5090-3758-2 . S2CID 206998709 . Проверено 24 августа 2023 г.
- ^ Ли, Джинмук; Ким, Чанхён; Канг, Санхун; Шин, Донджу; Ким, Сангеп; Ю, Хой-Джун (2018). «UNPU: унифицированный ускоритель глубоких нейронных сетей производительностью 50,6 TOPS/Вт с полностью переменным весом и битовой точностью от 1b до 16b» . Международная конференция IEEE по твердотельным схемам 2018 г. (ISSCC) . стр. 218–220. дои : 10.1109/ISSCC.2018.8310262 . ISBN 978-1-5090-4940-0 . S2CID 3861747 . Проверено 30 ноября 2023 г.
- ^ Лю, Шаоли; Ду, Цзидун; Тао, Цзиньхуа; Хан, Донг; Луо, Тао; Се, Юань; Чен, Юнджи; Чен, Тяньши (июнь 2016 г.). «Cambricon: архитектура набора команд для нейронных сетей». 2016 43-й ежегодный международный симпозиум ACM/IEEE по компьютерной архитектуре (ISCA) . IEEE. стр. 393–405. дои : 10.1109/isca.2016.42 . ISBN 978-1-4673-8947-1 .
- ^ Перейти обратно: а б Амброджо, Стефано; Нарайанан, Притиш; Цай, Синьюй; Шелби, Роберт М.; Бойбат, Ирем; ди Нольфо, Кармело; Сидлер, Северин; Джордано, Массимо; Бодини, Мартина; Фаринья, Натан КП; Киллин, Бенджамин (июнь 2018 г.). «Ускоренное обучение нейронных сетей с эквивалентной точностью с использованием аналоговой памяти». Природа . 558 (7708): 60–67. Бибкод : 2018Natur.558...60A . дои : 10.1038/s41586-018-0180-5 . ISSN 0028-0836 . ПМИД 29875487 . S2CID 46956938 .
- ^ Чен, Вэй-Хао; Линь, Вэнь-Цжан; Лай, Ли-Я; Ли, Шуанчэнь; Сюй, Цзянь-Хуа; Линь, Хуан-Тин; Ли, Хэн-Юань; Су, Цзянь-Вэй; Се, Юань; Шеу, Шых-Шюань; Чанг, Мэн-Фан (декабрь 2017 г.). «Двухрежимный макрос ReRAM объемом 16 МБ с вычислениями в памяти менее 14 нс и функциями памяти, активируемыми схемой завершения самозаписи». Международная конференция IEEE по электронным устройствам (IEDM) , 2017 г. IEEE. стр. 28.2.1–28.2.4. дои : 10.1109/iedm.2017.8268468 . ISBN 978-1-5386-3559-9 . S2CID 19556846 .
- ^ Ян, Дж. Джошуа; Струков Дмитрий Б.; Стюарт, Дункан Р. (январь 2013 г.). «Мемристивные устройства для вычислений» . Природные нанотехнологии . 8 (1): 13–24. Бибкод : 2013НатНа...8...13Г . дои : 10.1038/nnano.2012.240 . ISSN 1748-3395 . ПМИД 23269430 .
- ^ Шафии, Али; Наг, Анирбан; Мурали Манохар, Навин; Баласубрамонян, Раджив; Страчан, Джон Пол; Ху, Мяо; Уильямс, Р. Стэнли; Шрикумар, Вивек (12 октября 2016 г.). "ИСААК" Новости компьютерной архитектуры ACM SIGARCH . 44 (3): 14–2 дои : 10.1145/3007787.3001139 . ISSN 0163-5964 . S2CID 6329628 .
- ^ Цзи, Ю Чжан, Юян Се, Синьфэн Ли, Шуангчен Ван, Пейци Ху, Син Чжан, Юхуэй Се, Юань (27 января 2019 г.): системное решение для реконфигурируемой архитектуры NN-ускорителя на базе ReRAM . полное FPSA :
{{cite book}}
: CS1 maint: несколько имен: список авторов ( ссылка ) - ^ Нандакумар, СР; Бойбат, Ирем; Джоши, Винай; Пивето, Кристоф; Ле Галло, Мануэль; Раджендран, Бипин; Себастьян, Абу; Элефтериу, Евангелос (ноябрь 2019 г.). «Модели памяти с фазовым изменением для глубокого обучения и вывода». 2019 26-я Международная конференция IEEE по электронике, схемам и системам (ICECS) . IEEE. стр. 727–730. дои : 10.1109/icecs46596.2019.8964852 . ISBN 978-1-7281-0996-1 . S2CID 210930121 .
- ^ Джоши, Винай; Ле Галло, Мануэль; Хафели, Саймон; Бойбат, Ирем; Нандакумар, СР; Пивето, Кристоф; Дацци, Мартино; Раджендран, Бипин; Себастьян, Абу; Элефтериу, Евангелос (18 мая 2020 г.). «Точный вывод глубоких нейронных сетей с использованием вычислительной памяти с фазовым изменением» . Природные коммуникации . 11 (1): 2473. arXiv : 1906.03138 . Бибкод : 2020NatCo..11.2473J . дои : 10.1038/s41467-020-16108-9 . ISSN 2041-1723 . ПМК 7235046 . ПМИД 32424184 .
- ^ «Nvidia заявляет о «рекордной производительности» дебюта Hopper MLPerf» .
- ^ «Разработка системы машинного зрения для борьбы с сорняками с использованием прецизионного химического применения» (PDF) . Университет Флориды . CiteSeerX 10.1.1.7.342 . Архивировано из оригинала (PDF) 23 июня 2010 г.
- ^ «Технологии и решения для беспилотных автомобилей от NVIDIA Automotive» . NVIDIA .
- ^ «Movidius приводит в действие самый умный дрон в мире» . 16 марта 2016 г.
- ^ «Qualcomm Research привносит машинное обучение серверного класса в повседневные устройства, делая их умнее [ВИДЕО]» . Октябрь 2015.
Внешние ссылки
[ редактировать ]- Nvidia вводит ускоритель в полную силу с помощью Pascal.htm , новой платформы
- Проект Айрисс , Массачусетский технологический институт
- https://alphaics.ai/