ЭЛМО
Редактор провел поиск и обнаружил, что существует достаточно источников, предмета чтобы установить известность . ( сентябрь 2020 г. ) |
ELMo ( встраивание из языковой модели ) — метод встраивания слов для представления последовательности слов в виде соответствующей последовательности векторов. [1] Его создали исследователи из Института искусственного интеллекта Аллена . [2] и Вашингтонского университета и впервые выпущен в феврале 2018 года. Это двунаправленный LSTM , который принимает на входе уровень символов и создает встраивания на уровне слов.
Архитектура
[ редактировать ]ELMo — это многоуровневый двунаправленный LSTM поверх слоя внедрения токена. Вывод всех LSTM, объединенных вместе, состоит из внедрения токена. Поскольку полное внедрение слишком велико, оно обычно отображается через обучаемую линейную матрицу («матрицу проекции») для создания внедрения для конкретной задачи.
После обучения модели ELMo ее вектор замораживается. Затем матрица проекции обучается, чтобы минимизировать потери при выполнении конкретной языковой задачи. Это ранний пример предварительной подготовки .
Сравнение
[ редактировать ]Подобно BERT (но в отличие от встраивания слов, созданного с помощью подходов « мешок слов » и более ранних векторных подходов, таких как Word2Vec и GloVe ), встраивания ELMo контекстно-зависимы, создавая разные представления для слов, которые имеют одинаковое написание, но имеют разные значения ( омонимы ), такие как «банк» в «берег реки» и «банковский баланс». [3]
Инновации ELMo связаны с использованием двунаправленных языковых моделей. В отличие от своих предшественников, эти модели обрабатывают язык в прямом и обратном направлениях. Рассматривая весь контекст слова, двунаправленные модели обеспечивают более полное понимание его значения. Этот целостный подход к языковому представлению позволяет ELMo кодировать тонкие значения, которые могут быть упущены в однонаправленных моделях. [4]
Ссылки
[ редактировать ]- ^ Петерс М.Е., Нейман М., Айер М., Гарднер М., Кларк С., Ли К., Зеттлмойер Л. (2018). «Глубокие контекстуализированные представления слов». arXiv : 1802.05365 [ cs.CL ].
- ^ «AllenNLP — ELMo — Институт искусственного интеллекта Аллена» .
- ^ «Как использовать ELMo Embedding в архитектуре двунаправленной модели LSTM?» . www.insofe.edu.in . 11 февраля 2020 г. Проверено 4 апреля 2023 г.
- ^ Ван Оттен, Нери (26 декабря 2023 г.). «Вложения из языковых моделей (ELMo): контекстные внедрения — мощный сдвиг в НЛП» .