Особенности обучения

В машинном обучении , обучении функциям или обучении представлений. ^[2] — это набор методов, который позволяет системе автоматически обнаруживать представления, необходимые для обнаружения или классификации признаков, на основе необработанных данных. Это заменяет ручную разработку функций и позволяет машине как изучать функции, так и использовать их для выполнения конкретной задачи.

Обучение признакам мотивируется тем фактом, что задачи машинного обучения, такие как классификация, часто требуют ввода, который математически и вычислительно удобен для обработки. Однако реальные данные, такие как изображения, видео и данные датчиков, не уступили попыткам алгоритмически определить конкретные характеристики. Альтернативой является обнаружение таких функций или представлений путем исследования, не полагаясь на явные алгоритмы.

Обучение функциям может быть контролируемым, неконтролируемым или самоконтролируемым.

При контролируемом обучении функции изучаются с использованием помеченных входных данных. Размеченные данные включают пары входных меток, где входные данные передаются модели, и она должна выдавать метку основной истины в качестве правильного ответа. ^[3] Это можно использовать для создания представлений объектов с помощью модели, что приводит к высокой точности прогнозирования меток. Примеры включают контролируемые нейронные сети , многослойный персептрон и (контролируемое) обучение словарям .
При обучении неконтролируемом функции изучаются с использованием немаркированных входных данных путем анализа взаимосвязей между точками в наборе данных. ^[4] Примеры включают изучение словаря, анализ независимых компонентов , матричную факторизацию. ^[5] и различные формы кластеризации . ^[6]^[7]^[8]
При самостоятельном обучении функций функции изучаются с использованием немаркированных данных, например, при обучении без учителя, однако пары входных меток создаются из каждой точки данных, что позволяет изучать структуру данных с помощью контролируемых методов, таких как градиентный спуск. ^[9] Классические примеры включают встраивание слов и автокодировщики . ^[10]^[11] С тех пор SSL стал применяться во многих модальностях благодаря использованию архитектур глубоких нейронных сетей, таких как CNN и преобразователи . ^[9]

Под надзором [ править ]

Обучение функций с учителем — это изучение функций на основе помеченных данных. Метка данных позволяет системе вычислить термин ошибки, степень, в которой система не может создать метку, которую затем можно использовать в качестве обратной связи для корректировки процесса обучения (уменьшения/минимизации ошибки). Подходы включают в себя:

Изучение словаря под присмотром [ править ]

При обучении словарю разрабатывается набор (словарь) репрезентативных элементов из входных данных, так что каждая точка данных может быть представлена как взвешенная сумма репрезентативных элементов. Элементы словаря и веса могут быть найдены путем минимизации средней ошибки представления (по входным данным) вместе с L1 регуляризацией весов для обеспечения разреженности (т. е. представление каждой точки данных имеет только несколько ненулевых весов).

Контролируемое обучение словарю использует как структуру, лежащую в основе входных данных, так и метки для оптимизации элементов словаря. Например, это ^[12] Метод обучения словаря с учителем применяет обучение словарю для решения задач классификации путем совместной оптимизации элементов словаря, весов для представления точек данных и параметров классификатора на основе входных данных. В частности, сформулирована задача минимизации, где целевая функция состоит из ошибки классификации, ошибки представления, регуляризации L1 по представляющим весам для каждой точки данных (чтобы обеспечить разреженное представление данных) и регуляризации L2 по параметрам. классификатора.

Нейронные сети [ править ]

Нейронные сети — это семейство алгоритмов обучения, использующих «сеть», состоящую из нескольких слоев взаимосвязанных узлов. Он вдохновлен нервной системой животных, где узлы рассматриваются как нейроны, а края — как синапсы. Каждое ребро имеет связанный с ним вес, и сеть определяет вычислительные правила для передачи входных данных из входного слоя сети на выходной уровень. Сетевая функция, связанная с нейронной сетью, характеризует взаимосвязь между входным и выходным слоями, которая параметрируется весами. При правильно определенных сетевых функциях различные задачи обучения могут выполняться путем минимизации функции стоимости по сетевой функции (весам).

Многослойные нейронные сети можно использовать для обучения функций, поскольку они изучают представление своих входных данных на скрытых слоях, которые впоследствии используются для классификации или регрессии на выходном слое. Самая популярная сетевая архитектура этого типа — сиамские сети .

Без присмотра [ править ]

Обучение функций без учителя — это изучение функций на основе немаркированных данных. Целью обучения функций без учителя часто является обнаружение низкоразмерных функций, которые отражают некоторую структуру, лежащую в основе многомерных входных данных. Когда обучение функциям выполняется без присмотра, это обеспечивает форму полуконтролируемого обучения , при которой функции, полученные из немаркированного набора данных, затем используются для повышения производительности в контролируемых условиях с маркированными данными. ^[13]^[14] Ниже представлены несколько подходов.

K -означает кластеризацию [ править ]

K Кластеризация -средних — это подход к векторному квантованию. В частности, для данного набора из n векторов кластеризация k -средних группирует их в k кластеров (т. е. подмножеств) таким образом, что каждый вектор принадлежит кластеру с ближайшим средним значением. Проблема является вычислительно NP-сложной субоптимальные жадные алгоритмы , хотя были разработаны .

Кластеризацию K-средних можно использовать для группировки немаркированного набора входных данных в k кластеров, а затем использовать центроиды этих кластеров для создания признаков. Эти функции могут быть созданы несколькими способами. Самый простой способ — добавить k бинарных признаков в каждую выборку, где каждый признак j имеет значение, равное единице, тогда и только тогда, когда -й центроид j , полученный с помощью k -means, наиболее близок к рассматриваемой выборке. ^[6] Также можно использовать расстояния до кластеров в качестве признаков, возможно, после их преобразования с помощью радиальной базисной функции (метод, который использовался для обучения RBF-сетей). ^[15]). Коутс и Нг отмечают, что некоторые варианты k -средних ведут себя аналогично алгоритмам разреженного кодирования . ^[16]

При сравнительной оценке методов обучения признаков без учителя Коутс, Ли и Нг обнаружили, что кластеризация k -средних с соответствующим преобразованием превосходит недавно изобретенные автоматические кодировщики и RBM в задаче классификации изображений. ^[6] K -means также повышает производительность в области НЛП , особенно при распознавании именованных объектов ; ^[17] там он конкурирует с кластеризацией Брауна , а также с распределенными представлениями слов (также известными как нейронные встраивания слов). ^[14]

Анализ компонентов главных

Анализ главных компонентов (PCA) часто используется для уменьшения размерности. Учитывая немаркированный набор из n векторов входных данных, PCA генерирует p (которые намного меньше размерности входных данных) правых сингулярных векторов, соответствующих p наибольшим сингулярным значениям матрицы данных, где k -я строка матрицы данных — это k- й вектор входных данных, сдвинутый на выборочное среднее входных данных (т. е. вычитание выборочного среднего значения из вектора данных). Эквивалентно, эти сингулярные векторы являются собственными векторами, соответствующими p наибольшим собственным значениям выборочной ковариационной матрицы входных векторов. Эти p сингулярных векторов представляют собой векторы признаков, извлеченные из входных данных, и они представляют направления, вдоль которых данные имеют наибольшие вариации.

PCA — это подход к изучению линейных признаков, поскольку сингулярные векторы p являются линейными функциями матрицы данных. Сингулярные векторы могут быть сгенерированы с помощью простого алгоритма с p итераций. На i -й итерации проекция матрицы данных на (i-1) -й собственный вектор вычитается, и i- й сингулярный вектор находится как правый сингулярный вектор, соответствующий наибольшему сингулярному числу матрицы остаточных данных.

PCA имеет несколько ограничений. Во-первых, предполагается, что наибольший интерес представляют направления с большой дисперсией, что может быть не так. PCA полагается только на ортогональные преобразования исходных данных и использует только моменты данных первого и второго порядка, которые могут плохо характеризовать распределение данных. Более того, PCA может эффективно уменьшать размерность только тогда, когда векторы входных данных коррелируют (что приводит к небольшому количеству доминирующих собственных значений).

Локальное линейное вложение [ править ]

Локальное линейное встраивание (LLE) — это подход нелинейного обучения для создания низкоразмерных представлений, сохраняющих соседей, из (немаркированных) входных данных высокой размерности. Этот подход был предложен Ровейсом и Саулом (2000). ^[18]^[19] Общая идея LLE состоит в том, чтобы восстановить исходные многомерные данные с использованием точек меньшей размерности, сохраняя при этом некоторые геометрические свойства окрестностей в исходном наборе данных.

LLE состоит из двух основных этапов. Первый шаг предназначен для «сохранения соседей», где каждая точка входных данных Xi восстанавливается как взвешенная сумма K точек данных ближайших соседей , а оптимальные веса находятся путем минимизации средней квадратичной ошибки восстановления (т. е. разницы между входными точка и ее реконструкция) при условии, что сумма весов, связанных с каждой точкой, равна единице. Второй шаг — «уменьшение размерности» путем поиска векторов в пространстве меньшей размерности, которое минимизирует ошибку представления с использованием оптимизированных весов на первом этапе. Обратите внимание, что на первом этапе веса оптимизируются с использованием фиксированных данных, которые можно решить как задачу наименьших квадратов . На втором этапе точки меньшей размерности оптимизируются с использованием фиксированных весов, которые можно решить с помощью разреженного разложения по собственным значениям.

Веса реконструкции, полученные на первом этапе, отражают «внутренние геометрические свойства» окрестности во входных данных. ^[19] Предполагается, что исходные данные лежат на гладком многообразии меньшей размерности , и ожидается, что «внутренние геометрические свойства», зафиксированные весами исходных данных, также будут находиться на многообразии. Вот почему на втором этапе LLE используются те же веса. По сравнению с PCA, LLE более эффективно использует базовую структуру данных.

анализ Независимый компонентов

Анализ независимых компонентов (ICA) — это метод формирования представления данных с использованием взвешенной суммы независимых негауссовских компонентов. ^[20] Накладывается допущение о негауссовости, поскольку веса не могут быть определены однозначно, когда все компоненты подчиняются гауссовскому распределению.

Изучение словаря без присмотра [ править ]

При обучении словаря без учителя не используются метки данных и используется структура, лежащая в основе данных, для оптимизации элементов словаря. Примером неконтролируемого обучения словарю является разреженное кодирование , целью которого является изучение базовых функций (элементов словаря) для представления данных из неразмеченных входных данных. Разреженное кодирование можно применять для изучения переполненных словарей, в которых количество элементов словаря превышает размерность входных данных. ^[21] Аарон и др. предложил алгоритм K-SVD для изучения словаря элементов, обеспечивающего разреженное представление. ^[22]

Многоуровневые/глубинные архитектуры [ править ]

Иерархическая архитектура биологической нейронной системы вдохновляет архитектуры глубокого обучения для изучения функций путем объединения нескольких уровней узлов обучения. ^[23] Эти архитектуры часто проектируются на основе предположения о распределенном представлении : наблюдаемые данные генерируются в результате взаимодействия множества различных факторов на нескольких уровнях. В архитектуре глубокого обучения выходные данные каждого промежуточного уровня можно рассматривать как представление исходных входных данных. Каждый уровень использует представление, созданное предыдущим, более низким уровнем, в качестве входных данных и создает новые представления в качестве выходных данных, которые затем передаются на более высокие уровни. Входные данные нижнего слоя — это необработанные данные, а выходные данные последнего, самого высокого слоя — окончательный низкоразмерный объект или представление.

машина Ограниченная Больцмана

Ограниченные машины Больцмана (RBM) часто используются в качестве строительного блока для многоуровневых архитектур обучения. ^[6]^[24] RBM может быть представлен неориентированным двудольным графом, состоящим из группы двоичных скрытых переменных , группы видимых переменных и ребер, соединяющих скрытые и видимые узлы. Это частный случай более общих машин Больцмана с ограничением отсутствия внутриузловых связей. Каждому ребру в RBM присвоен вес. Веса вместе со связями определяют энергетическую функцию , на основе которой можно разработать совместное распределение видимых и скрытых узлов. В зависимости от топологии RBM скрытые (видимые) переменные являются независимыми и зависят от видимых (скрытых) переменных. ^{[ нужны разъяснения ]} Такая условная независимость облегчает вычисления.

RBM можно рассматривать как одноуровневую архитектуру для неконтролируемого обучения функциям. В частности, видимые переменные соответствуют входным данным, а скрытые переменные соответствуют детекторам признаков. Веса можно обучить путем максимизации вероятности видимых переменных с использованием (CD) Хинтона алгоритма контрастивной дивергенции . ^[24]

В общем, обучение RBM путем решения задачи максимизации имеет тенденцию приводить к неразреженным представлениям. Разреженный УОР ^[25] было предложено включить разреженные представления. Идея состоит в том, чтобы добавить член регуляризации в целевую функцию правдоподобия данных, который наказывает отклонение ожидаемых скрытых переменных от небольшой константы. $p$ . RBM также использовались для получения разрозненных представлений данных, где интересные функции отображаются в отдельные скрытые блоки. ^[26]

Автоэнкодер [ править ]

Автоэнкодер , состоящий из кодера и декодера, является парадигмой для архитектур глубокого обучения. Пример приводят Хинтон и Салахутдинов. ^[24] где кодер использует необработанные данные (например, изображение) в качестве входных данных и создает признак или представление в качестве выходных данных, а декодер использует извлеченный из кодера признак в качестве входных данных и реконструирует исходные входные необработанные данные в качестве выходных данных. Кодер и декодер создаются путем объединения нескольких уровней RBM. Параметры, задействованные в архитектуре, изначально обучались жадным послойным способом: после изучения одного уровня детекторов признаков они используются как видимые переменные для обучения соответствующего RBM. Современные подходы обычно применяют сквозное обучение с методами стохастического градиентного спуска . Обучение можно повторять до тех пор, пока не будут выполнены некоторые критерии остановки.

Самоконтроль [ править ]

Обучение представлению с самоконтролем — это изучение функций путем обучения структуре неразмеченных данных, а не использования явных меток для информационного сигнала . Этот подход позволил комбинированно использовать архитектуры глубоких нейронных сетей и более крупные неразмеченные наборы данных для создания глубоких представлений объектов. ^[9] Задачи обучения обычно подпадают под классы контрастивных, генеративных или обоих классов. ^[27] Обучение контрастному представлению обучает представления связанных пар данных, называемых положительными выборками, выравнивать, в то время как пары без связи, называемые отрицательными выборками, контрастируют. Большая часть отрицательных выборок обычно необходима, чтобы предотвратить катастрофический коллапс, когда все входные данные отображаются в одно и то же представление. ^[9] Обучение генеративному представлению ставит перед моделью задачу создания правильных данных, которые либо соответствуют ограниченному вводу, либо восстанавливают полный ввод из представления более низкой размерности. ^[27]

Обычной настройкой для самостоятельного обучения представлению определенного типа данных (например, текста, изображения, аудио, видео) является предварительное обучение модели с использованием больших наборов данных общего контекста, немаркированных данных. ^[11] В зависимости от контекста результатом этого является либо набор представлений для общих сегментов данных (например, слов), на которые могут быть разбиты новые данные, либо нейронная сеть, способная преобразовать каждую новую точку данных (например, изображение) в набор функции более низких размеров. ^[9] В любом случае выходные представления можно затем использовать в качестве инициализации во многих различных ситуациях, когда помеченные данные могут быть ограничены. Специализация модели для конкретных задач обычно осуществляется с помощью контролируемого обучения, либо путем точной настройки модели/представлений с использованием меток в качестве сигнала, либо замораживания представлений и обучения дополнительной модели, которая принимает их в качестве входных данных. ^[11]

Многие схемы обучения с самоконтролем были разработаны для использования в обучении представлению различных модальностей , часто сначала демонстрируя успешное применение в тексте или изображении, прежде чем их переносят в другие типы данных. ^[9]

Текст [ править ]

Word2vec — это метод встраивания слов , который учится представлять слова посредством самоконтроля над каждым словом и соседними с ним словами в скользящем окне в большом корпусе текста. ^[28] Модель имеет две возможные схемы обучения для создания представлений векторов слов: одну генеративную и одну контрастирующую. ^[27] Первый — это предсказание слов, учитывая каждое из соседних слов в качестве входных данных. ^[28] Второй — это тренировка сходства представлений соседних слов и несходства представлений случайных пар слов. ^[10] Ограничением word2vec является то, что используется только попарная структура данных, а не порядок или весь набор контекстных слов. Более поздние подходы к обучению представлению на основе преобразователей пытаются решить эту проблему с помощью задач прогнозирования слов. ^[9] GPT предварительно обучаются прогнозированию следующего слова, используя предыдущие введенные слова в качестве контекста. ^[29] тогда как BERT маскирует случайные токены, чтобы обеспечить двунаправленный контекст. ^[30]

Другие методы самоконтроля расширяют встраивание слов, находя представления для более крупных текстовых структур, таких как предложения или абзацы. во входных данных ^[9] Doc2vec расширяет подход генеративного обучения в word2vec, добавляя дополнительные входные данные к задаче прогнозирования слов на основе абзаца, в котором оно находится, и поэтому предназначен для представления контекста уровня абзаца. ^[31]

Изображение [ править ]

В области обучения представлению изображений используется множество различных методов обучения с самоконтролем, включая трансформацию, ^[32] роспись, ^[33] патч дискриминации ^[34] и кластеризация. ^[35]

Примерами генеративных подходов являются контекстные кодировщики, которые обучают AlexNet архитектуру CNN генерировать удаленную область изображения с использованием замаскированного изображения в качестве входных данных. ^[33] и iGPT, который применяет архитектуру языковой модели GPT-2 к изображениям путем обучения прогнозированию пикселей после уменьшения разрешения изображения . ^[36]

Многие другие методы с самоконтролем используют сиамские сети , которые генерируют разные представления изображения посредством различных дополнений, которые затем выравниваются для получения схожих представлений. Задача состоит в том, чтобы избежать коллапса решений, при которых модель кодирует все изображения в одно и то же представление. ^[37] SimCLR — это контрастирующий подход, который использует отрицательные примеры для создания представлений изображений с помощью ResNet CNN . ^[34] Bootstrap Your Own Latent (BYOL) устраняет необходимость в отрицательных выборках, кодируя одно из представлений с помощью медленного скользящего среднего значений параметров модели, которые изменяются во время обучения. ^[38]

График [ править ]

Целью многих методов обучения представлению графов является создание встроенного представления каждого узла на основе общей топологии сети . ^[39] node2vec расширяет технику обучения word2vec на узлы графа, используя совместное появление при случайных блужданиях по графу в качестве меры связи. ^[40] Другой подход заключается в максимизации взаимной информации (меры сходства) между представлениями связанных структур внутри графа. ^[9] Примером является Deep Graph Infomax, который использует контрастирующий самоконтроль, основанный на взаимной информации между представлением «патча» вокруг каждого узла и сводным представлением всего графа. Отрицательные выборки получаются путем объединения представления графа либо с представлениями из другого графа в условиях обучения с несколькими графами, либо с поврежденными представлениями патчей при обучении с одним графом. ^[41]

Видео [ править ]

С аналогичными результатами в маскированном прогнозировании ^[42] и кластеризация, ^[43] Подходы к обучению представлению видео часто похожи на методы обработки изображений, но должны использовать временную последовательность видеокадров в качестве дополнительной обучаемой структуры. Примеры включают VCP, который маскирует видеоклипы и обучает выбирать правильный из набора параметров клипа, а также Сюй и др., которые обучают 3D-CNN идентифицировать исходный порядок с учетом перетасованного набора видеоклипов. ^[44]

Аудио [ править ]

Методы самоконтролируемого представления также применялись ко многим форматам аудиоданных, особенно для обработки речи . ^[9] Wav2vec 2.0 дискретизирует форму аудиосигнала на временные шаги с помощью временных сверток , а затем обучает преобразователь маскированному предсказанию случайных временных шагов с использованием контрастных потерь. ^[45] Это похоже на языковую модель BERT , за исключением того, что во многих подходах SSL к видео модель выбирает среди набора параметров, а не по всему словарю слов. ^[30]^[45]

Мультимодальный [ править ]

Самообучение также использовалось для разработки совместных представлений нескольких типов данных. ^[9] Подходы обычно полагаются на некоторую естественную или созданную человеком связь между модальностями в качестве неявного ярлыка, например, видеоклипы с животными или объектами с характерными звуками, ^[46] или подписи, написанные для описания изображений. ^[47] CLIP создает совместное пространство представления изображения и текста путем обучения выравниванию кодировок изображения и текста из большого набора данных пар изображение-подпись с использованием контрастной потери. ^[47] MERLOT Reserve обучает кодировщик на основе преобразователя совместно представлять аудио, субтитры и видеокадры из большого набора данных видео с помощью трех совместных задач предварительного обучения: контрастное маскированное предсказание либо аудио, либо текстовых сегментов с учетом видеокадров и окружающего аудио и текстового контекста, а также с контрастным выравниванием видеокадров с соответствующими им подписями. ^[46]

Модели мультимодального представления обычно не могут предполагать прямое соответствие представлений в различных модальностях, поскольку точное соответствие часто может быть зашумленным или неоднозначным. Например, текст «собака» может сочетаться с множеством различных изображений собак, и, соответственно, изображение собаки может быть озаглавлено с разной степенью специфичности. Это ограничение означает, что последующие задачи могут потребовать дополнительной генеративной сети сопоставления между модальностями для достижения оптимальной производительности, например, в DALLE-2 для генерации текста в изображение. ^[48]

Обучение динамическому представлению

Методы обучения динамическому представлению ^[49] генерировать скрытые вложения для динамических систем, таких как динамические сети. Поскольку определенные функции расстояния инвариантны относительно определенных линейных преобразований, разные наборы векторов внедрения могут фактически представлять одну и ту же/похожую информацию. Следовательно, для динамической системы временная разница в ее вложениях может быть объяснена несовпадением вложений из-за произвольных преобразований и/или реальных изменений в системе. ^[50] Поэтому, вообще говоря, временные вложения, полученные с помощью методов обучения динамическому представлению, должны быть проверены на предмет любых ложных изменений и выровнены перед последующим динамическим анализом.

См. также [ править ]

Ссылки [ править ]

^ Гудфеллоу, Ян (2016). Глубокое обучение . Йошуа Бенджио, Аарон Курвиль. Кембридж, Массачусетс. стр. 524–534. ISBN 0-262-03561-8 . OCLC 955778308 .
^ Ю. Бенджио; А. Курвиль; П. Винсент (2013). «Обучение репрезентации: обзор и новые перспективы». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 35 (8): 1798–1828. arXiv : 1206.5538 . дои : 10.1109/tpami.2013.50 . ПМИД 23787338 . S2CID 393948 .
^ Стюарт Дж. Рассел, Питер Норвиг (2010) Искусственный интеллект: современный подход , третье издание , Прентис Холл ISBN 978-0-13-604259-4 .
^ Хинтон, Джеффри; Сейновский, Терренс (1999). Обучение без учителя: основы нейронных вычислений . МТИ Пресс. ISBN 978-0-262-58168-4 .
^ Натан Сребро; Джейсон Д.М. Ренни; Томми С. Яаккола (2004). Матричная факторизация максимальной маржи . НИПС .
↑ Перейти обратно: Перейти обратно: ^а ^б ^с ^д Коутс, Адам; Ли, Хонглак; Нг, Эндрю Ю. (2011). Анализ однослойных сетей в обучении функций без учителя (PDF) . Международная конференция. по искусственному интеллекту и статистике (AISTATS). Архивировано из оригинала (PDF) 13 августа 2017 г. Проверено 24 ноября 2014 г.
^ Цурка, Габриэлла; Дэнс, Кристофер С.; Фан, Ликсин; Вилламовский, Ютта; Брей, Седрик (2004). Визуальная категоризация с наборами ключевых точек (PDF) . Семинар ECCV по статистическому обучению в области компьютерного зрения.
^ Дэниел Юрафски ; Джеймс Х. Мартин (2009). Речевая и языковая обработка . Пирсон Эдьюкейшн Интернэшнл. стр. 145–146.
↑ Перейти обратно: Перейти обратно: ^а ^б ^с ^д ^и ^ж ^г ^час ^я ^дж ^к Эрикссон, Лайнус; Гук, Генри; Лой, Чен Чендж; Хоспедалес, Тимоти М. (май 2022 г.). «Обучение самоконтролируемому представлению: введение, достижения и проблемы» . Журнал обработки сигналов IEEE . 39 (3): 42–62. arXiv : 2110.09327 . Бибкод : 2022ISPM...39c..42E . дои : 10.1109/MSP.2021.3134634 . ISSN 1558-0792 . S2CID 239017006 .
↑ Перейти обратно: Перейти обратно: ^а ^б Миколов, Томас; Суцкевер, Илья; Чен, Кай; Коррадо, Грег С; Дин, Джефф (2013). «Распределенные представления слов и фраз и их композиционность» . Достижения в области нейронных систем обработки информации . 26 . Curran Associates, Inc. arXiv : 1310.4546 .
↑ Перейти обратно: Перейти обратно: ^а ^б ^с Гудфеллоу, Ян (2016). Глубокое обучение . Йошуа Бенджио, Аарон Курвиль. Кембридж, Массачусетс. стр. 499–516. ISBN 0-262-03561-8 . OCLC 955778308 .
^ Майрал, Жюльен; Бах, Фрэнсис; Понсе, Жан; Сапиро, Гильермо; Зиссерман, Эндрю (2009). «Обучение словарю под присмотром». Достижения в области нейронных систем обработки информации .
^ Перси Лян (2005). Обучение естественному языку с полуконтролем (PDF) (магистр английского языка). Массачусетский технологический институт . стр. 44–52.
↑ Перейти обратно: Перейти обратно: ^а ^б Джозеф Туриан; Лев Ратинов; Йошуа Бенджио (2010). Словесные представления: простой и общий метод обучения под учителем (PDF) . Материалы 48-го ежегодного собрания Ассоциации компьютерной лингвистики. Архивировано из оригинала (PDF) 26 февраля 2014 г. Проверено 22 февраля 2014 г.
^ Швенкер, Фридхельм; Кестлер, Ганс А.; Пальм, Гюнтер (2001). «Три этапа обучения для сетей с радиальными базисными функциями». Нейронные сети . 14 (4–5): 439–458. CiteSeerX 10.1.1.109.312 . дои : 10.1016/s0893-6080(01)00027-2 . ПМИД 11411631 .
^ Коутс, Адам; Нг, Эндрю Ю. (2012). «Изучение представлений функций с помощью k-средних». У Г. Монтавона, Г.Б. Орра и К.-Р. Мюллер (ред.). Нейронные сети: хитрости . Спрингер.
^ Декан Линь; Сяоюнь Ву (2009). Кластеризация фраз для различительного обучения (PDF) . Учеб. Дж. Конф. ACL и 4-й Международной J. Conf. по обработке естественного языка AFNLP. стр. 1030–1038. Архивировано из оригинала (PDF) 3 марта 2016 г. Проверено 14 июля 2013 г.
^ Роуэйс, Сэм Т; Сол, Лоуренс К. (2000). «Нелинейное уменьшение размерности путем локально линейного встраивания». Наука . Новая серия. 290 (5500): 2323–2326. Бибкод : 2000Sci...290.2323R . дои : 10.1126/science.290.5500.2323 . JSTOR 3081722 . ПМИД 11125150 . S2CID 5987139 .
↑ Перейти обратно: Перейти обратно: ^а ^б Сол, Лоуренс К; Роуэйс, Сэм Т. (2000). «Введение в локально линейное вложение» . {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
^ Хюваринен, Аапо; Оя, Эркки (2000). «Независимый анализ компонентов: алгоритмы и приложения». Нейронные сети . 13 (4): 411–430. дои : 10.1016/s0893-6080(00)00026-5 . ПМИД 10946390 . S2CID 11959218 .
^ Ли, Хонглак; Битва, Алексис; Райна, Раджат; Нг, Эндрю Ю (2007). «Эффективные алгоритмы разреженного кодирования». Достижения в области нейронных систем обработки информации .
^ Аарон, Михал ; Элад, Майкл; Брукштейн, Альфред (2006). «K-SVD: алгоритм разработки сверхполных словарей для разреженного представления». IEEE Транс. Сигнальный процесс . 54 (11): 4311–4322. Бибкод : 2006ITSP...54.4311A . дои : 10.1109/TSP.2006.881199 . S2CID 7477309 .
^ Бенджио, Йошуа (2009). «Изучение глубокой архитектуры для ИИ». Основы и тенденции в машинном обучении . 2 (1): 1–127. дои : 10.1561/2200000006 . S2CID 207178999 .
↑ Перейти обратно: Перейти обратно: ^а ^б ^с Хинтон, GE; Салахутдинов Р.Р. (2006). «Уменьшение размерности данных с помощью нейронных сетей» (PDF) . Наука . 313 (5786): 504–507. Бибкод : 2006Sci...313..504H . дои : 10.1126/science.1127647 . ПМИД 16873662 . S2CID 1658773 . Архивировано из оригинала (PDF) 23 декабря 2015 г. Проверено 29 августа 2015 г.
^ Ли, Хонглак; Эканадхам, Чайтанья; Эндрю, Нг (2008). «Разреженная модель глубокой сети убеждений для визуальной области V2». Достижения в области нейронных систем обработки информации .
^ Фернандес-де-Коссио-Диас, Хорхе; Кокко, Симона; Монассон, Реми (05 апреля 2023 г.). «Распутывание представлений в ограниченных машинах Больцмана без противников» . Физический обзор X . 13 (2): 021003.arXiv : 2206.11600 . Бибкод : 2023PhRvX..13b1003F . дои : 10.1103/PhysRevX.13.021003 .
↑ Перейти обратно: Перейти обратно: ^а ^б ^с Лю, Сяо; Чжан, Фаньцзинь; Хоу, Чжэньюй; Миан, Ли; Ван, Чжаоюй; Чжан, Цзин; Тан, Цзе (2021). «Самостоятельное обучение: генеративное или контрастное» . Транзакции IEEE по знаниям и инженерии данных . 35 (1): 857–876. arXiv : 2006.08218 . дои : 10.1109/TKDE.2021.3090866 . ISSN 1558-2191 . S2CID 219687051 .
↑ Перейти обратно: Перейти обратно: ^а ^б Миколов, Томас; Чен, Кай; Коррадо, Грег; Дин, Джеффри (6 сентября 2013 г.). «Эффективная оценка представлений слов в векторном пространстве». arXiv : 1301.3781 [ cs.CL ].
^ «Улучшение понимания языка посредством генеративной предварительной подготовки» (PDF) . Проверено 10 октября 2022 г.
↑ Перейти обратно: Перейти обратно: ^а ^б Девлин, Джейкоб; Чанг, Мин-Вэй; Ли, Кентон; Тутанова, Кристина (июнь 2019 г.). «Материалы Конференции Севера 2019» . Материалы конференции Североамериканского отделения Ассоциации компьютерной лингвистики 2019 года: технологии человеческого языка, том 1 (длинные и короткие статьи) . Миннеаполис, Миннесота: Ассоциация компьютерной лингвистики: 4171–4186. дои : 10.18653/v1/N19-1423 . S2CID 52967399 .
^ Ле, Куок; Миколов, Томас (18 июня 2014 г.). «Распределенные представления предложений и документов» . Международная конференция по машинному обучению . ПМЛР: 1188–1196. arXiv : 1405.4053 .
^ Спирос Гидарис, Правир Сингх и Никос Комодакис. Обучение представлению без учителя путем прогнозирования вращения изображения. В ИКЛР, 2018.
↑ Перейти обратно: Перейти обратно: ^а ^б Патак, Дипак; Краэнбюль, Филипп; Донахью, Джефф; Даррелл, Тревор; Эфрос, Алексей А. (2016). «Кодировщики контекста: обучение функциям путем рисования» : 2536–2544. arXiv : 1604.07379 . {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
↑ Перейти обратно: Перейти обратно: ^а ^б Чен, Тин; Корнблит, Саймон; Норузи, Мохаммед; Хинтон, Джеффри (21 ноября 2020 г.). «Простая основа для контрастного изучения визуальных представлений» . Международная конференция по машинному обучению . ПМЛР: 1597–1607.
^ Матильда, Кэрон; Ишан, Мишра; Жюльен, Майрал; Прия, Гоял; Петр, Бояновский; Арманд, Жулен (2020). «Изучение визуальных функций без учителя путем сопоставления назначений кластеров» . Достижения в области нейронных систем обработки информации . 33 . arXiv : 2006.09882 .
^ Чен, Марк; Рэдфорд, Алек; Дитя, Ревон; Ву, Джеффри; Джун, Хиву; Луан, Дэвид; Суцкевер, Илья (21 ноября 2020 г.). «Генеративная предварительная подготовка по пикселям» . Международная конференция по машинному обучению . ПМЛР: 1691–1703.
^ Чен, Синьлэй; Он, Кайминг (2021). «Изучение простого сиамского представления» : 15750–15758. arXiv : 2011.10566 . {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
^ Жан-Бастьен, гриль; Флориан, Струб; Флоран, Альтче; Корантен, Таллек; Пьер, Ричмонд; Елена, Бучацкая; Карл, Дёрш; Бернардо, Авила Пирес; Чжаохан, Го; Мохаммед, Гешлаги Азар; Билал, Пиот; корай, кавукчуоглу; Реми, Мунос; Михал, Валко (2020). «Начните использовать свое собственное скрытое — новый подход к самоконтролируемому обучению» . Достижения в области нейронных систем обработки информации . 33 .
^ Цай, ХунЮнь; Чжэн, Винсент В.; Чанг, Кевин Чен-Чуан (сентябрь 2018 г.). «Комплексный обзор встраивания графов: проблемы, методы и приложения» . Транзакции IEEE по знаниям и инженерии данных . 30 (9): 1616–1637. arXiv : 1709.07604 . дои : 10.1109/TKDE.2018.2807452 . ISSN 1558-2191 . S2CID 13999578 .
^ Гровер, Адитья; Лесковец, Юре (13 августа 2016 г.). «Ноде2век» . Материалы 22-й Международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных . КДД '16. Том. 2016. Нью-Йорк, штат Нью-Йорк, США: Ассоциация вычислительной техники. стр. 855–864. дои : 10.1145/2939672.2939754 . ISBN 978-1-4503-4232-2 . ПМК 5108654 . ПМИД 27853626 .
^ Великови П., Федус В., Гамильтон В.Л., Ли П., Бенджио Ю. и Хьельм Р.Д. Deep Graph InfoMax. На Международной конференции по обучению представлениям (ICLR'2019), 2019.
^ Ло, Дэчжао; Лю, Чанг; Чжоу, Ю; Ян, Дунбао; Ма, Джан; Е, Цисян; Ван, Вэйпин (03 апреля 2020 г.). «Процедура закрытия видео для самостоятельного пространственно-временного обучения» . Материалы конференции AAAI по искусственному интеллекту . 34 (7): 11701–11708. arXiv : 2001.00294 . дои : 10.1609/aaai.v34i07.6840 . ISSN 2374-3468 . S2CID 209531629 .
^ Хумам, Альвассель; Дхрув, Махаджан; Бруно, Корбар; Лоренцо, Торресани; Бернард, Ганем; Ду, Тран (2020). «Самоконтролируемое обучение посредством кросс-модальной кластеризации аудио-видео» . Достижения в области нейронных систем обработки информации . 33 . arXiv : 1911.12667 .
^ Сюй, Дэцзин; Сяо, Цзюнь; Чжао, Чжоу; Шао, Цзянь; Се, Ди; Чжуан, Юетинг (июнь 2019 г.). «Пространственно-временное обучение с самоконтролем посредством прогнозирования порядка видеоклипов» . Конференция IEEE/CVF 2019 по компьютерному зрению и распознаванию образов (CVPR) . стр. 10326–10335. дои : 10.1109/CVPR.2019.01058 . ISBN 978-1-7281-3293-8 . S2CID 195504152 .
↑ Перейти обратно: Перейти обратно: ^а ^б Алексей, Баевский; Юхао, Чжоу; Абдельрахман, Мохамед; Майкл, Аули (2020). «wav2vec 2.0: Структура для самостоятельного изучения речевых представлений» . Достижения в области нейронных систем обработки информации . 33 . arXiv : 2006.11477 .
↑ Перейти обратно: Перейти обратно: ^а ^б Зеллерс, Роуэн; Лу, Цзясэн; Лу, Симин; Ю, Ёнджэ; Чжао, Янпэн; Салехи, Мохаммадреза; Кусупати, Адитья; Хессель, Джек; Фархади, Али; Чой, Еджин (2022). «Резерв МЕРЛО: знание нейронного сценария посредством зрения, языка и звука» : 16375–16387. arXiv : 2201.02639 . {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
↑ Перейти обратно: Перейти обратно: ^а ^б Рэдфорд, Алек; Ким, Чон Ук; Халси, Крис; Рамеш, Адитья; Гох, Габриэль; Агарвал, Сандхини; Састри, Гириш; Аскелл, Аманда; Мишкин, Памела; Кларк, Джек; Крюгер, Гретхен; Суцкевер, Илья (01.07.2021). «Изучение переносимых визуальных моделей под контролем естественного языка» . Международная конференция по машинному обучению . ПМЛР: 8748–8763. arXiv : 2103.00020 .
^ Рамеш, Адитья; Дхаривал, Прафулла; Никол, Алекс; Чу, Кейси; Чен, Марк (12 апреля 2022 г.). «Иерархическая генерация условных текстовых изображений с помощью CLIP Latents». arXiv : 2204.06125 [ cs.CV ].
^ Чжан, Даокунь; Инь, Цзе; Чжу, Синцюань; Чжан, Ченци (март 2020 г.). «Обучение сетевому представлению: опрос» . Транзакции IEEE для больших данных . 6 (1): 3–28. arXiv : 1801.05852 . дои : 10.1109/TBDATA.2018.2850013 . ISSN 2332-7790 . S2CID 1479507 .
^ Гюрсой, Фуркан; Хаддад, Мунир; Боторель, Сесиль (07 октября 2023 г.). «Выравнивание и устойчивость вложений: улучшение измерений и выводов» . Нейрокомпьютинг . 553 : 126517. arXiv : 2101.07251 . дои : 10.1016/j.neucom.2023.126517 . ISSN 0925-2312 . S2CID 231632462 .

[1] Гудфеллоу, Ян (2016). Глубокое обучение . Йошуа Бенджио, Аарон Курвиль. Кембридж, Массачусетс. стр. 524–534. ISBN 0-262-03561-8 . OCLC 955778308 .

[pami-2] Ю. Бенджио; А. Курвиль; П. Винсент (2013). «Обучение репрезентации: обзор и новые перспективы». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 35 (8): 1798–1828. arXiv : 1206.5538 . дои : 10.1109/tpami.2013.50 . ПМИД 23787338 . S2CID 393948 .

[3] Стюарт Дж. Рассел, Питер Норвиг (2010) Искусственный интеллект: современный подход , третье издание , Прентис Холл ISBN 978-0-13-604259-4 .

[4] Хинтон, Джеффри; Сейновский, Терренс (1999). Обучение без учителя: основы нейронных вычислений . МТИ Пресс. ISBN 978-0-262-58168-4 .

[5] Натан Сребро; Джейсон Д.М. Ренни; Томми С. Яаккола (2004). Матричная факторизация максимальной маржи . НИПС .

[coates2011-6] Перейти обратно: Перейти обратно: ^а ^б ^с ^д Коутс, Адам; Ли, Хонглак; Нг, Эндрю Ю. (2011). Анализ однослойных сетей в обучении функций без учителя (PDF) . Международная конференция. по искусственному интеллекту и статистике (AISTATS). Архивировано из оригинала (PDF) 13 августа 2017 г. Проверено 24 ноября 2014 г.

[7] Цурка, Габриэлла; Дэнс, Кристофер С.; Фан, Ликсин; Вилламовский, Ютта; Брей, Седрик (2004). Визуальная категоризация с наборами ключевых точек (PDF) . Семинар ECCV по статистическому обучению в области компьютерного зрения.

[jurafsky-8] Дэниел Юрафски ; Джеймс Х. Мартин (2009). Речевая и языковая обработка . Пирсон Эдьюкейшн Интернэшнл. стр. 145–146.

[:0-9] Перейти обратно: Перейти обратно: ^а ^б ^с ^д ^и ^ж ^г ^час ^я ^дж ^к Эрикссон, Лайнус; Гук, Генри; Лой, Чен Чендж; Хоспедалес, Тимоти М. (май 2022 г.). «Обучение самоконтролируемому представлению: введение, достижения и проблемы» . Журнал обработки сигналов IEEE . 39 (3): 42–62. arXiv : 2110.09327 . Бибкод : 2022ISPM...39c..42E . дои : 10.1109/MSP.2021.3134634 . ISSN 1558-0792 . S2CID 239017006 .

[:3-10] Перейти обратно: Перейти обратно: ^а ^б Миколов, Томас; Суцкевер, Илья; Чен, Кай; Коррадо, Грег С; Дин, Джефф (2013). «Распределенные представления слов и фраз и их композиционность» . Достижения в области нейронных систем обработки информации . 26 . Curran Associates, Inc. arXiv : 1310.4546 .

[:1-11] Перейти обратно: Перейти обратно: ^а ^б ^с Гудфеллоу, Ян (2016). Глубокое обучение . Йошуа Бенджио, Аарон Курвиль. Кембридж, Массачусетс. стр. 499–516. ISBN 0-262-03561-8 . OCLC 955778308 .

[12] Майрал, Жюльен; Бах, Фрэнсис; Понсе, Жан; Сапиро, Гильермо; Зиссерман, Эндрю (2009). «Обучение словарю под присмотром». Достижения в области нейронных систем обработки информации .

[liang-13] Перси Лян (2005). Обучение естественному языку с полуконтролем (PDF) (магистр английского языка). Массачусетский технологический институт . стр. 44–52.

[turian-14] Перейти обратно: Перейти обратно: ^а ^б Джозеф Туриан; Лев Ратинов; Йошуа Бенджио (2010). Словесные представления: простой и общий метод обучения под учителем (PDF) . Материалы 48-го ежегодного собрания Ассоциации компьютерной лингвистики. Архивировано из оригинала (PDF) 26 февраля 2014 г. Проверено 22 февраля 2014 г.

[schwenker-15] Швенкер, Фридхельм; Кестлер, Ганс А.; Пальм, Гюнтер (2001). «Три этапа обучения для сетей с радиальными базисными функциями». Нейронные сети . 14 (4–5): 439–458. CiteSeerX 10.1.1.109.312 . дои : 10.1016/s0893-6080(01)00027-2 . ПМИД 11411631 .

[Coates2012-16] Коутс, Адам; Нг, Эндрю Ю. (2012). «Изучение представлений функций с помощью k-средних». У Г. Монтавона, Г.Б. Орра и К.-Р. Мюллер (ред.). Нейронные сети: хитрости . Спрингер.

[17] Декан Линь; Сяоюнь Ву (2009). Кластеризация фраз для различительного обучения (PDF) . Учеб. Дж. Конф. ACL и 4-й Международной J. Conf. по обработке естественного языка AFNLP. стр. 1030–1038. Архивировано из оригинала (PDF) 3 марта 2016 г. Проверено 14 июля 2013 г.

[RowSau00-18] Роуэйс, Сэм Т; Сол, Лоуренс К. (2000). «Нелинейное уменьшение размерности путем локально линейного встраивания». Наука . Новая серия. 290 (5500): 2323–2326. Бибкод : 2000Sci...290.2323R . дои : 10.1126/science.290.5500.2323 . JSTOR 3081722 . ПМИД 11125150 . S2CID 5987139 .

[SauRow00-19] Перейти обратно: Перейти обратно: ^а ^б Сол, Лоуренс К; Роуэйс, Сэм Т. (2000). «Введение в локально линейное вложение» . {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )

[20] Хюваринен, Аапо; Оя, Эркки (2000). «Независимый анализ компонентов: алгоритмы и приложения». Нейронные сети . 13 (4): 411–430. дои : 10.1016/s0893-6080(00)00026-5 . ПМИД 10946390 . S2CID 11959218 .

[21] Ли, Хонглак; Битва, Алексис; Райна, Раджат; Нг, Эндрю Ю (2007). «Эффективные алгоритмы разреженного кодирования». Достижения в области нейронных систем обработки информации .

[22] Аарон, Михал ; Элад, Майкл; Брукштейн, Альфред (2006). «K-SVD: алгоритм разработки сверхполных словарей для разреженного представления». IEEE Транс. Сигнальный процесс . 54 (11): 4311–4322. Бибкод : 2006ITSP...54.4311A . дои : 10.1109/TSP.2006.881199 . S2CID 7477309 .

[23] Бенджио, Йошуа (2009). «Изучение глубокой архитектуры для ИИ». Основы и тенденции в машинном обучении . 2 (1): 1–127. дои : 10.1561/2200000006 . S2CID 207178999 .

[Hinton2006-24] Перейти обратно: Перейти обратно: ^а ^б ^с Хинтон, GE; Салахутдинов Р.Р. (2006). «Уменьшение размерности данных с помощью нейронных сетей» (PDF) . Наука . 313 (5786): 504–507. Бибкод : 2006Sci...313..504H . дои : 10.1126/science.1127647 . ПМИД 16873662 . S2CID 1658773 . Архивировано из оригинала (PDF) 23 декабря 2015 г. Проверено 29 августа 2015 г.

[Lee2008-25] Ли, Хонглак; Эканадхам, Чайтанья; Эндрю, Нг (2008). «Разреженная модель глубокой сети убеждений для визуальной области V2». Достижения в области нейронных систем обработки информации .

[26] Фернандес-де-Коссио-Диас, Хорхе; Кокко, Симона; Монассон, Реми (05 апреля 2023 г.). «Распутывание представлений в ограниченных машинах Больцмана без противников» . Физический обзор X . 13 (2): 021003.arXiv : 2206.11600 . Бибкод : 2023PhRvX..13b1003F . дои : 10.1103/PhysRevX.13.021003 .

[:2-27] Перейти обратно: Перейти обратно: ^а ^б ^с Лю, Сяо; Чжан, Фаньцзинь; Хоу, Чжэньюй; Миан, Ли; Ван, Чжаоюй; Чжан, Цзин; Тан, Цзе (2021). «Самостоятельное обучение: генеративное или контрастное» . Транзакции IEEE по знаниям и инженерии данных . 35 (1): 857–876. arXiv : 2006.08218 . дои : 10.1109/TKDE.2021.3090866 . ISSN 1558-2191 . S2CID 219687051 .

[:4-28] Перейти обратно: Перейти обратно: ^а ^б Миколов, Томас; Чен, Кай; Коррадо, Грег; Дин, Джеффри (6 сентября 2013 г.). «Эффективная оценка представлений слов в векторном пространстве». arXiv : 1301.3781 [ cs.CL ].

[29] «Улучшение понимания языка посредством генеративной предварительной подготовки» (PDF) . Проверено 10 октября 2022 г.

[:7-30] Перейти обратно: Перейти обратно: ^а ^б Девлин, Джейкоб; Чанг, Мин-Вэй; Ли, Кентон; Тутанова, Кристина (июнь 2019 г.). «Материалы Конференции Севера 2019» . Материалы конференции Североамериканского отделения Ассоциации компьютерной лингвистики 2019 года: технологии человеческого языка, том 1 (длинные и короткие статьи) . Миннеаполис, Миннесота: Ассоциация компьютерной лингвистики: 4171–4186. дои : 10.18653/v1/N19-1423 . S2CID 52967399 .

[31] Ле, Куок; Миколов, Томас (18 июня 2014 г.). «Распределенные представления предложений и документов» . Международная конференция по машинному обучению . ПМЛР: 1188–1196. arXiv : 1405.4053 .

[32] Спирос Гидарис, Правир Сингх и Никос Комодакис. Обучение представлению без учителя путем прогнозирования вращения изображения. В ИКЛР, 2018.

[:5-33] Перейти обратно: Перейти обратно: ^а ^б Патак, Дипак; Краэнбюль, Филипп; Донахью, Джефф; Даррелл, Тревор; Эфрос, Алексей А. (2016). «Кодировщики контекста: обучение функциям путем рисования» : 2536–2544. arXiv : 1604.07379 . {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )

[:6-34] Перейти обратно: Перейти обратно: ^а ^б Чен, Тин; Корнблит, Саймон; Норузи, Мохаммед; Хинтон, Джеффри (21 ноября 2020 г.). «Простая основа для контрастного изучения визуальных представлений» . Международная конференция по машинному обучению . ПМЛР: 1597–1607.

[35] Матильда, Кэрон; Ишан, Мишра; Жюльен, Майрал; Прия, Гоял; Петр, Бояновский; Арманд, Жулен (2020). «Изучение визуальных функций без учителя путем сопоставления назначений кластеров» . Достижения в области нейронных систем обработки информации . 33 . arXiv : 2006.09882 .

[36] Чен, Марк; Рэдфорд, Алек; Дитя, Ревон; Ву, Джеффри; Джун, Хиву; Луан, Дэвид; Суцкевер, Илья (21 ноября 2020 г.). «Генеративная предварительная подготовка по пикселям» . Международная конференция по машинному обучению . ПМЛР: 1691–1703.

[37] Чен, Синьлэй; Он, Кайминг (2021). «Изучение простого сиамского представления» : 15750–15758. arXiv : 2011.10566 . {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )

[38] Жан-Бастьен, гриль; Флориан, Струб; Флоран, Альтче; Корантен, Таллек; Пьер, Ричмонд; Елена, Бучацкая; Карл, Дёрш; Бернардо, Авила Пирес; Чжаохан, Го; Мохаммед, Гешлаги Азар; Билал, Пиот; корай, кавукчуоглу; Реми, Мунос; Михал, Валко (2020). «Начните использовать свое собственное скрытое — новый подход к самоконтролируемому обучению» . Достижения в области нейронных систем обработки информации . 33 .

[39] Цай, ХунЮнь; Чжэн, Винсент В.; Чанг, Кевин Чен-Чуан (сентябрь 2018 г.). «Комплексный обзор встраивания графов: проблемы, методы и приложения» . Транзакции IEEE по знаниям и инженерии данных . 30 (9): 1616–1637. arXiv : 1709.07604 . дои : 10.1109/TKDE.2018.2807452 . ISSN 1558-2191 . S2CID 13999578 .

[40] Гровер, Адитья; Лесковец, Юре (13 августа 2016 г.). «Ноде2век» . Материалы 22-й Международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных . КДД '16. Том. 2016. Нью-Йорк, штат Нью-Йорк, США: Ассоциация вычислительной техники. стр. 855–864. дои : 10.1145/2939672.2939754 . ISBN 978-1-4503-4232-2 . ПМК 5108654 . ПМИД 27853626 .

[41] Великови П., Федус В., Гамильтон В.Л., Ли П., Бенджио Ю. и Хьельм Р.Д. Deep Graph InfoMax. На Международной конференции по обучению представлениям (ICLR'2019), 2019.

[42] Ло, Дэчжао; Лю, Чанг; Чжоу, Ю; Ян, Дунбао; Ма, Джан; Е, Цисян; Ван, Вэйпин (03 апреля 2020 г.). «Процедура закрытия видео для самостоятельного пространственно-временного обучения» . Материалы конференции AAAI по искусственному интеллекту . 34 (7): 11701–11708. arXiv : 2001.00294 . дои : 10.1609/aaai.v34i07.6840 . ISSN 2374-3468 . S2CID 209531629 .

[43] Хумам, Альвассель; Дхрув, Махаджан; Бруно, Корбар; Лоренцо, Торресани; Бернард, Ганем; Ду, Тран (2020). «Самоконтролируемое обучение посредством кросс-модальной кластеризации аудио-видео» . Достижения в области нейронных систем обработки информации . 33 . arXiv : 1911.12667 .

[44] Сюй, Дэцзин; Сяо, Цзюнь; Чжао, Чжоу; Шао, Цзянь; Се, Ди; Чжуан, Юетинг (июнь 2019 г.). «Пространственно-временное обучение с самоконтролем посредством прогнозирования порядка видеоклипов» . Конференция IEEE/CVF 2019 по компьютерному зрению и распознаванию образов (CVPR) . стр. 10326–10335. дои : 10.1109/CVPR.2019.01058 . ISBN 978-1-7281-3293-8 . S2CID 195504152 .

[:8-45] Перейти обратно: Перейти обратно: ^а ^б Алексей, Баевский; Юхао, Чжоу; Абдельрахман, Мохамед; Майкл, Аули (2020). «wav2vec 2.0: Структура для самостоятельного изучения речевых представлений» . Достижения в области нейронных систем обработки информации . 33 . arXiv : 2006.11477 .

[:9-46] Перейти обратно: Перейти обратно: ^а ^б Зеллерс, Роуэн; Лу, Цзясэн; Лу, Симин; Ю, Ёнджэ; Чжао, Янпэн; Салехи, Мохаммадреза; Кусупати, Адитья; Хессель, Джек; Фархади, Али; Чой, Еджин (2022). «Резерв МЕРЛО: знание нейронного сценария посредством зрения, языка и звука» : 16375–16387. arXiv : 2201.02639 . {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )

[Radford_8748–8763-47] Перейти обратно: Перейти обратно: ^а ^б Рэдфорд, Алек; Ким, Чон Ук; Халси, Крис; Рамеш, Адитья; Гох, Габриэль; Агарвал, Сандхини; Састри, Гириш; Аскелл, Аманда; Мишкин, Памела; Кларк, Джек; Крюгер, Гретхен; Суцкевер, Илья (01.07.2021). «Изучение переносимых визуальных моделей под контролем естественного языка» . Международная конференция по машинному обучению . ПМЛР: 8748–8763. arXiv : 2103.00020 .

[48] Рамеш, Адитья; Дхаривал, Прафулла; Никол, Алекс; Чу, Кейси; Чен, Марк (12 апреля 2022 г.). «Иерархическая генерация условных текстовых изображений с помощью CLIP Latents». arXiv : 2204.06125 [ cs.CV ].

[49] Чжан, Даокунь; Инь, Цзе; Чжу, Синцюань; Чжан, Ченци (март 2020 г.). «Обучение сетевому представлению: опрос» . Транзакции IEEE для больших данных . 6 (1): 3–28. arXiv : 1801.05852 . дои : 10.1109/TBDATA.2018.2850013 . ISSN 2332-7790 . S2CID 1479507 .

[50] Гюрсой, Фуркан; Хаддад, Мунир; Боторель, Сесиль (07 октября 2023 г.). «Выравнивание и устойчивость вложений: улучшение измерений и выводов» . Нейрокомпьютинг . 553 : 126517. arXiv : 2101.07251 . дои : 10.1016/j.neucom.2023.126517 . ISSN 0925-2312 . S2CID 231632462 .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]