Генерация естественного языка
Генерация естественного языка ( NLG ) — это программный процесс, который создает выходные данные на естественном языке . Широко цитируемый обзор методов NLG описывает NLG как «подобласть искусственного интеллекта и компьютерной лингвистики, которая занимается созданием компьютерных систем, которые могут создавать понятные тексты на английском или других человеческих языках на основе некоторого базового нелингвистического представления информации». . [1]
Хотя широко распространено мнение, что результатом любого процесса NLG является текст, существуют некоторые разногласия по поводу того, должны ли входные данные системы NLG быть нелингвистическими. [2] Общие применения методов NLG включают создание различных отчетов, например о погоде. [3] и отчеты пациентов; [4] подписи к изображениям; [5] и чат-боты .
Автоматизированный NLG можно сравнить с процессом, который используют люди, когда преобразуют идеи в письменную или устную форму. Психолингвисты предпочитают для этого процесса термин «языковое производство» , который также можно описать математически или смоделировать на компьютере для психологических исследований. Системы NLG также можно сравнить с трансляторами искусственных компьютерных языков, такими как декомпиляторы или транспиляторы , которые также создают удобочитаемый код, сгенерированный из промежуточного представления . Человеческие языки, как правило, значительно сложнее и допускают гораздо большую двусмысленность и разнообразие выражений, чем языки программирования, что усложняет NLG.
NLG можно рассматривать как дополнение к пониманию естественного языка (NLU): в то время как при понимании естественного языка системе необходимо устранить неоднозначность входного предложения, чтобы создать язык машинного представления, в NLG система должна принимать решения о том, как выразить представление в словах. Практические соображения при построении систем NLU и NLG не симметричны. NLU приходится иметь дело с неоднозначным или ошибочным пользовательским вводом, тогда как идеи, которые система хочет выразить через NLG, обычно точно известны. NLG необходимо выбрать конкретное, непротиворечивое текстовое представление из множества потенциальных представлений, тогда как NLU обычно пытается создать единое, нормализованное представление выраженной идеи. [6]
NLG существует с момента ELIZA в середине 1960-х годов, но впервые эти методы были использованы в коммерческих целях в 1990-х годах. разработки [7] Методы NLG варьируются от простых систем на основе шаблонов, таких как слияние почты , генерирующее бланки писем , до систем, которые имеют сложное понимание человеческой грамматики. NLG также можно достичь путем обучения статистической модели с использованием машинного обучения , обычно на большом корпусе текстов, написанных человеком. [8]
Пример [ править ]
Система прогноза пыльцы для Шотландии [9] — это простой пример простой системы NLG, которая по сути может быть шаблоном. Эта система принимает в качестве входных данных шесть чисел, которые дают прогнозируемые уровни пыльцы в разных частях Шотландии. На основе этих чисел система генерирует краткую текстовую сводку об уровнях пыльцы.
Например, используя исторические данные за 1 июля 2005 г., программа выдает:
Уровень пыльцы трав в пятницу увеличился с умеренного до высокого вчерашнего уровня, составив от 6 до 7 на большей части территории страны. Однако в северных районах уровень пыльцы будет умеренным и составит 4.
Напротив, фактический прогноз (написанный человеком-метеорологом) на основе этих данных был:
Ожидается, что количество пыльцы останется высоким на уровне 6 на большей части территории Шотландии и даже на уровне 7 на юго-востоке. Единственный рельеф находится на Северных островах и крайнем северо-востоке материковой Шотландии со средним уровнем содержания пыльцы.
Сравнение этих двух иллюстрирует некоторые варианты выбора, которые должны сделать системы NLG; они более подробно обсуждаются ниже.
Этапы [ править ]
Процесс создания текста может быть таким же простым, как сохранение списка шаблонного текста, который копируется и вставляется, возможно, связанный с каким-либо связующим текстом. Результаты могут быть удовлетворительными в простых областях, таких как гороскопы или генераторы персонализированных деловых писем. Однако сложная система NLG должна включать этапы планирования и объединения информации, чтобы обеспечить создание текста, который выглядит естественным и не повторяется. Типичные стадии генерации естественного языка, предложенные Дейлом и Рейтером, [6] являются:
Определение содержания : решение о том, какую информацию упомянуть в тексте.Например, в приведенном выше примере с пыльцой решение о том, следует ли явно упоминать эту пыльцу,уровень 7 на юго-востоке.
Структурирование документа : общая организация передаваемой информации. Например, решивсначала опишите области с высоким уровнем пыльцы, а не области с низким уровнем пыльцы.
Агрегация : объединение похожих предложений для улучшения читаемости и естественности.Например, объединив два следующих предложения:
- Уровень пыльцы трав в пятницу увеличился с умеренного до высокого уровня вчерашнего дня .
- Уровень пыльцы трав будет составлять от 6 до 7 на большей части территории страны.
в следующее единственное предложение:
- Уровень пыльцы трав в пятницу увеличился с умеренного до высокого уровня вчерашнего дня, составив от 6 до 7 на большей части территории страны .
Лексический выбор : Сопоставление слов с понятиями. Например, решая, является ли средний или умеренный следует использовать при описании уровня пыльцы 4.
Генерация ссылающихся выражений : создание ссылающихся выражений , которые идентифицируют объекты и регионы. Например, решив использовать на Северных островах и крайнем северо-востоке материковой Шотландии для обозначения определенного региона Шотландии.Эта задача также включает в себя принятие решений о местоимениях и других типах слов. анафора .
Реализация : Создание фактического текста, который должен быть правильным.по правилам синтаксис , морфология и орфография . Например, использование будет на будущеевремя быть .
Альтернативный подход к NLG — использовать «сквозное» машинное обучение для построения системы без отдельных этапов, как указано выше. [10] Другими словами, мы строим систему NLG, обучая алгоритм машинного обучения (часто LSTM ) на большом наборе входных данных и соответствующих (написанных человеком) выходных текстах. Комплексный подход, пожалуй, наиболее успешен при создании подписей к изображениям . [11] который автоматически генерирует текстовую подпись к изображению.
Приложения [ править ]
Автоматическое создание отчетов [ править ]
С коммерческой точки зрения наиболее успешные приложения NLGбыли преобразования данных в текст системы , которые генерируют текстовые сводки баз данных и наборов данных; этисистемы обычно выполняют анализ данных , а также генерацию текста. Исследования показали, что текстовые сводки могут быть более эффективными, чем графики и другие визуальные средства для поддержки принятия решений. [12] [13] [14] и что тексты, созданные компьютером, могут превосходить (с точки зрения читателя) тексты, написанные человеком. [15]
Первые коммерческие системы преобразования данных в текст производили прогнозы погоды на основе данных о погоде. Самой ранней такой системой, которая была развернута, была FoG. [3] который использовался Министерством окружающей среды Канады для составления прогнозов погоды на французском и английском языках в начале 1990-х годов. Успех FoG положил начало другой работе, как исследовательской, так и коммерческой. Среди последних приложений — Метеорологического бюро Великобритании . текстовый прогноз [16]
С тех пор системы преобразования данных в текст стали применяться в самых разных условиях. После небольшого землетрясения возле Беверли-Хиллз, Калифорния, 17 марта 2014 года, газета Los Angeles Times сообщила подробную информацию о времени, месте и силе землетрясения в течение 3 минут после события. Этот отчет был автоматически создан «робожурналистом», который преобразовал входящие данные в текст по заранее заданному шаблону. [17] [18] В настоящее время существует значительный коммерческий интерес к использованию NLG для обобщения финансовых и деловых данных. Действительно, Gartner заявила, что NLG станет стандартной функцией 90% современных платформ бизнес-аналитики и бизнес-аналитики. [19] NLG также используется в коммерческих целях в автоматизированной журналистике , чат-ботах , создании описаний продуктов для сайтов электронной коммерции, обобщении медицинских записей, [20] [4] и повышение доступности (например, путем описания графиков и наборов данных для слепых людей). [21] ).
Примером интерактивного использования NLG является структура WYSIWYM . Это означает « то, что вы видите, это то, что вы имели в виду» , и позволяет пользователям видеть и манипулировать непрерывно отображаемым представлением (выходными данными NLG) базового документа формального языка (входными данными NLG), тем самым редактируя формальный язык, не изучая его.
Заглядывая в будущее, можно сказать, что текущий прогресс в преобразовании данных в текст открывает путь к адаптации текстов к конкретной аудитории. Например, данные о младенцах, находящихся в неонатальной помощи, могут быть по-разному преобразованы в текст в клинических условиях, с разными уровнями технической детализации и пояснительным языком, в зависимости от предполагаемого получателя текста (врач, медсестра, пациент). Ту же идею можно применить и в спортивной сфере, создавая разные отчеты для болельщиков конкретных команд. [22]
[ править ]
За последние несколько лет возрос интерес к автоматическому созданию подписей к изображениям в рамках более широких усилий по исследованию взаимодействия между зрением и языком. В случае преобразования данных в текст алгоритм подписи к изображению (или автоматического описания изображения) включает в себя получение изображения, анализ его визуального содержания и создание текстового описания (обычно предложения), которое вербализует наиболее важные аспекты изображения. .
Система подписей к изображениям включает в себя две подзадачи. В анализе изображений особенности и атрибуты изображения обнаруживаются и помечаются, прежде чем сопоставлять эти выходные данные с лингвистическими структурами. В недавних исследованиях используются подходы глубокого обучения с использованием функций предварительно обученной сверточной нейронной сети, такой как AlexNet, VGG или Caffe, где генераторы подписей используют слой активации из предварительно обученной сети в качестве входных функций. Генерация текста, вторая задача, выполняется с использованием широкого спектра методов. Например, в системе Midge входные изображения представлены в виде троек, состоящих из обнаружений объекта/вещества, обнаружения действия/ позы и пространственных отношений. Впоследствии они сопоставляются с тройками <существительное, глагол, предлог> и реализуются с использованием грамматики древовидной замены. [22]
Несмотря на достижения, в исследованиях в области захвата изображений остаются проблемы и возможности. Несмотря на то, что недавнее появление Flickr30K, MS COCO и других больших наборов данных позволило обучать более сложные модели, такие как нейронные сети, утверждается, что исследования в области подписей к изображениям могут выиграть от более крупных и разнообразных наборов данных. Разработка автоматических мер, которые могут имитировать человеческие суждения при оценке пригодности описаний изображений, является еще одной потребностью в этой области. Другие открытые проблемы включают визуальный ответ на вопросы (VQA), [23] а также создание и оценка многоязычных хранилищ для описания изображений. [22]
Чат-боты [ править ]
Еще одна область, где широко применяется NLG, — это автоматизированные диалоговые системы, часто в форме чат-ботов. Чат -бот или чат-бот — это программное приложение, используемое для ведения онлайн-чата с помощью текста или преобразования текста в речь вместо обеспечения прямого контакта с живым агентом-человеком. В то время как методы обработки естественного языка (NLP) применяются для расшифровки человеческого ввода, NLG информирует выходную часть алгоритмов чат-бота, облегчая диалоги в реальном времени.
Ранние системы чат-ботов, в том числе Cleverbot, созданный Ролло Карпентером в 1988 году и опубликованный в 1997 году, [ нужна ссылка ] отвечать на вопросы, определяя, как человек ответил на тот же вопрос в базе данных разговоров, используя методы поиска информации (IR). [ нужна ссылка ] Современные системы чат-ботов преимущественно полагаются на модели машинного обучения (ML), такие как последовательное обучение и обучение с подкреплением для генерации вывода на естественном языке. Также изучались гибридные модели. Например, помощник по покупкам Alibaba сначала использует IR-подход для извлечения лучших кандидатов из базы знаний, затем использует модель seq2seq на основе машинного обучения, повторно ранжируя ответы кандидатов и генерируя ответ. [24]
Творческое письмо компьютерный юмор и
Гипотеза о создании творческого языка с помощью NLG возникла с момента зарождения этой области. Недавним пионером в этой области является Филип Паркер, который разработал арсенал алгоритмов, способных автоматически генерировать учебники, кроссворды, стихи и книги на самые разные темы — от переплетного дела до катаракты. [25] Появление крупных предварительно обученных языковых моделей на основе преобразователей, таких как GPT-3, также способствовало прорывам, поскольку такие модели демонстрируют узнаваемую способность создавать письменные задачи. [26]
Смежной областью применения NLG является компьютерное производство юмора. JAPE (Joke Analysis and Production Engine) — одна из первых крупных автоматизированных систем создания юмора, которая использует подход на основе шаблонов с ручным кодированием для создания каламбурных загадок для детей. HAHAcronym создает юмористические интерпретации любой аббревиатуры, а также предлагает новые подходящие аббревиатуры с учетом некоторых ключевых слов. [27]
Несмотря на достигнутый прогресс, остается множество проблем в создании автоматизированного творческого и юмористического контента, который может конкурировать с работой человека. В эксперименте по созданию сатирических заголовков результаты лучшей модели, основанной на BERT, были восприняты как смешные в 9,4% случаев (в то время как реальные заголовки из The Onion были 38,4%), а модель GPT-2, настроенная на сатирические заголовки, достигла 6,9% случаев. %. [28] Было отмечено, что двумя основными проблемами систем генерации юмора являются отсутствие аннотированных наборов данных и отсутствие формальных методов оценки. [27] который может быть применим к созданию другого творческого контента. Некоторые утверждают, что в отношении других приложений в NLG не уделялось внимания творческим аспектам языкового производства. Исследователи NLG могут извлечь выгоду из понимания того, что представляет собой творческое языковое производство, а также структурных особенностей повествования, которые могут улучшить результаты NLG даже в системах преобразования данных в текст. [22]
Оценка [ править ]
Как и в других научных областях, исследователям NLG необходимо проверить, насколько хорошо работают их системы, модули и алгоритмы. Это называется оценкой . Существует три основных метода оценки систем NLG:
- Целевая (внешняя) оценка : дайте сгенерированный текст человеку и оцените, насколько хорошо он помогает ему выполнить задачу (или иным образом достичь своей коммуникативной цели). Например, систему, которая генерирует сводные медицинские данные, можно оценить, передав эти сводки врачам и оценив, помогают ли эти сводки врачам принимать более правильные решения. [4]
- Человеческие оценки : дайте сгенерированный текст человеку и попросите его оценить качество и полезность текста.
- Метрики : сравнивайте сгенерированные тексты с текстами, написанными людьми на основе тех же входных данных, используя автоматические метрики, такие как BLEU , METEOR , ROUGE и LEPOR .
Конечная цель — насколько полезны системы NLG для помощи людям, что является первым из вышеперечисленных методов. Однако оценки, основанные на задачах, отнимают много времени и стоят денег, и их может быть сложно проводить (особенно, если для этого требуются субъекты со специальными знаниями, например врачи). Следовательно (как и в других областях НЛП) оценки, основанные на задачах, являются исключением, а не нормой.
В последнее время исследователи оценивают, насколько хорошо человеческие рейтинги и показатели коррелируют с (предсказывают) оценками, основанными на задачах. Работа ведется в контексте «Вызовов поколения» [29] события с общими задачами. Первоначальные результаты показывают, что человеческие рейтинги в этом отношении намного лучше, чем метрики. Другими словами, человеческие рейтинги обычно предсказывают эффективность задачи, по крайней мере, в некоторой степени (хотя есть исключения), в то время как рейтинги, полученные с помощью показателей, часто плохо предсказывают эффективность задачи. Эти результаты являются предварительными. В любом случае, человеческие рейтинги — самый популярный метод оценки в NLG; это контрастирует с машинным переводом , где широко используются метрики.
ИИ можно оценивать по верности обучающим данным или, альтернативно, по фактичности . Ответ, отражающий данные обучения, а не реальность, является достоверным, но не основанным на фактах. Уверенный, но неверный ответ – это галлюцинация . В обработке естественного языка галлюцинация часто определяется как «сгенерированный контент, который бессмысленен или не соответствует предоставленному исходному контенту». [30]
См. также [ править ]
- Автодополнение
- Автоматизированная журналистика
- Автоматизированный перефраз
- Генераторы марковского текста
- Теория смысла текста
- Генеративное искусство § Литература
Ссылки [ править ]
- ^ Рейтер, Эхуд; Дейл, Роберт (март 1997 г.). «Построение прикладных систем генерации естественного языка» . Инженерия естественного языка . 3 (1): 57–87. дои : 10.1017/S1351324997001502 . ISSN 1469-8110 . S2CID 8460470 .
- ^ Гатт А., Крамер Э. (2018). «Обзор современного состояния генерации естественного языка: основные задачи, приложения и оценка». Журнал исследований искусственного интеллекта . 61 (61): 65–170. arXiv : 1703.09902 . дои : 10.1613/jair.5477 . S2CID 16946362 .
- ^ Jump up to: Перейти обратно: а б Голдберг Э., Дридгер Н., Киттредж Р. (1994). «Использование обработки естественного языка для составления прогнозов погоды». Эксперт IEEE . 9 (2): 45–53. дои : 10.1109/64.294135 . S2CID 9709337 .
- ^ Jump up to: Перейти обратно: а б с Портет Ф., Рейтер Э., Гатт А., Хантер Дж., Шрипада С., Фрир Ю., Сайкс К. (2009). «Автоматическое создание текстовых сводок на основе данных интенсивной терапии новорожденных» (PDF) . Искусственный интеллект . 173 (7–8): 789–816. дои : 10.1016/j.artint.2008.12.002 .
- ^ Фархади А., Хеджрати М., Садеги М.А., Янг П., Раштян С., Хоккенмайер Дж., Форсайт Д. (05.09.2010). Каждая картинка рассказывает историю: создание предложений из изображений (PDF) . Европейская конференция по компьютерному зрению. Берлин, Гейдельберг: Springer. стр. 15–29. дои : 10.1007/978-3-642-15561-1_2 .
- ^ Jump up to: Перейти обратно: а б Дейл, Роберт; Райтер, Эхуд (2000). Построение систем генерации естественного языка . Кембридж, Великобритания: Издательство Кембриджского университета. ISBN 978-0-521-02451-8 .
- ^ Эхуд Рейтер (21 марта 2021 г.). История НЛГ . Архивировано из оригинала 12 декабря 2021 г.
- ^ Перера Р., Нанд П. (2017). «Последние достижения в области создания естественного языка: обзор и классификация эмпирической литературы». Вычисления и информатика . 36 (1): 1–32. дои : 10.4149/cai_2017_1_1 . hdl : 10292/10691 .
- ^ Р. Тернер, С. Шрипада, Э. Рейтер, И. Дэви (2006). Создание пространственно-временных описаний в прогнозах пыльцы. Материалы EACL06
- ^ «E2E NLG Challenge» .
- ^ «DataLabCup: подпись к изображению» .
- ^ Лоу А., Фрир Ю., Хантер Дж., Логи Р., Макинтош Н., Куинн Дж. (2005). «Сравнение графических и текстовых представлений данных временных рядов для поддержки принятия медицинских решений в отделении интенсивной терапии новорожденных». Журнал клинического мониторинга и вычислений . 19 (3): 183–94. дои : 10.1007/s10877-005-0879-3 . ПМИД 16244840 . S2CID 5569544 .
- ^ Гкация Д, Лемон О, Райзер В (2017). «Преобразование данных в текст улучшает процесс принятия решений в условиях неопределенности» (PDF) . Журнал IEEE Computational Intelligence . 12 (3): 10–17. дои : 10.1109/MCI.2017.2708998 . S2CID 9544295 .
- ^ «Текст или графика?» . 2016-12-26.
- ^ Рейтер Э., Шрипада С., Хантер Дж., Ю Дж., Дэви И. (2005). «Выбор слов в компьютерных прогнозах погоды» . Искусственный интеллект . 167 (1–2): 137–69. дои : 10.1016/j.artint.2005.06.006 .
- ^ С. Шрипада, Н. Бернетт, Р. Тернер, Дж. Мастин, Д. Эванс (2014). Создание тематического исследования: NLG удовлетворяет спрос метеорологической отрасли на качество и количество текстовых прогнозов погоды. Материалы INLG 2014
- ^ Швенке, Кен Швенке Кен; Журналист А.; Программист, Компьютер; в 2014 г. покинул Los Angeles Times (17 марта 2014 г.). «Афтершок землетрясения: возле Вествуда произошло землетрясение силой 2,7 балла» . Лос-Анджелес Таймс . Проверено 3 июня 2022 г.
{{cite web}}
: CS1 maint: числовые имена: список авторов ( ссылка ) - ^ Левенсон, Эрик (17 марта 2014 г.). «Журналист LA Times объясняет, как бот написал для него историю о землетрясении» . Атлантика . Проверено 3 июня 2022 г.
- ^ «Нейронные сети и современные платформы бизнес-аналитики будут способствовать развитию данных и аналитики» .
- ^ Харрис, доктор медицины (2008). «Создание крупномасштабной коммерческой системы NLG для EMR» (PDF) . Материалы Пятой Международной конференции по поколениям естественного языка . стр. 157–60.
- ^ «Добро пожаловать на страницу iGraph-Lite» . www.inf.udec.cl. Архивировано из оригинала 16 марта 2010 г.
- ^ Jump up to: Перейти обратно: а б с д Гатт, Альберт; Крамер, Эмиэль (29 января 2018 г.). «Обзор современного состояния генерации естественного языка: основные задачи, приложения и оценка». arXiv : 1703.09902 [ cs.CL ].
- ^ Кодали, Венкат; Берлеант, Дэниел (2022). «Недавнее быстрое развитие архитектуры визуального ответа на вопросы: обзор». Материалы 22-й Международной конференции IEEE по ВНО . стр. 133–146. arXiv : 2203.01322 .
- ^ Мнасри, Маали (21 марта 2019 г.). «Последние достижения в разговорном НЛП: на пути к стандартизации создания чат-ботов». arXiv : 1903.09025 [ cs.CL ].
- ^ «Как написать более 1 миллиона книг» . ХаффПост . 11 февраля 2013 г. Проверено 3 июня 2022 г.
- ^ «Изучение GPT-3: новый прорыв в создании языков» . КДнаггетс . Проверено 3 июня 2022 г.
- ^ Jump up to: Перейти обратно: а б Уинтерс, Томас (30 апреля 2021 г.). «Компьютеры учатся юмору – это не шутка» . Гарвардский обзор науки о данных . 3 (2). дои : 10.1162/99608f92.f13a2337 . S2CID 235589737 .
- ^ Хорвиц, Закари; Делай, Нэм; Литтман, Майкл Л. (июль 2020 г.). «Генерация сатирических новостей, основанная на контексте» . Материалы второго семинара по обработке образной речи . Онлайн: Ассоциация компьютерной лингвистики: 40–50. doi : 10.18653/v1/2020.figlang-1.5 . S2CID 220330989 .
- ^ Проблемы поколений
- ^ Цзи, Цивэй; Ли, Наён; Фриске, Рита; Ю, Течжэн; Су, Дэн; Сюй, Ян; Исии, Эцуко; Банг, Еджин; Мадто, Андреа; Фунг, Паскаль (17 ноября 2022 г.). «Обзор галлюцинаций в формировании естественного языка» . Обзоры вычислительной техники ACM . 55 (12): 3571730. arXiv : 2202.03629 . дои : 10.1145/3571730 . S2CID 246652372 .
Дальнейшее чтение [ править ]
- Дейл, Роберт; Райтер, Эхуд (2000). Построение систем генерации естественного языка . Кембридж, Великобритания: Издательство Кембриджского университета. ISBN 978-0-521-02451-8 .
- Эванс, Роджер; Пивек, Пол; Кэхилл, Линн (2002). Что такое НЛГ? . ИНЛГ2002. Нью-Йорк, США. бумага
- Гатт, Альберт; Крамер, Эмиэль (2018). «Обзор современного состояния генерации естественного языка: основные задачи, приложения и оценка» . Журнал исследований искусственного интеллекта . 61 : 65–170. arXiv : 1703.09902 . дои : 10.1613/jair.5477 . S2CID 16946362 .
- Райтер, Эхуд (16 января 2018 г.). «Как мне узнать о NLG?» .
Внешние ссылки [ править ]
- Специальная группа по интересам ACL по вопросам генерации ( SIGGEN )
- SIGGEN входит в антологию ACL (содержит исследовательские статьи NLG)
- Портал ACL NLG (содержит список ресурсов NLG)
- «Почти полный» список систем NLG Бейтмана и Зока теперь поддерживается в виде Wiki с различными визуализациями и обзорными таблицами, доступными по запросу.
- Блог Эхуда Рейтера о генерации естественного языка
- Интерактивное мультимедийное объяснение технического обслуживания и ремонта оборудования - статья, описывающая испытательный стенд скоординированных мультимедийных объяснений (COMET)