Временные выражения
в Временное выражение тексте — это последовательность токенов (слов, цифр и символов), которые обозначают время, то есть выражают момент времени, продолжительность или частоту. Примеры:
- Момент времени:
He was born on <TIMEX>6 May, 1980</TIMEX>.
- Продолжительность:
The show lasted <TIMEX>7 minutes</TIMEX>.
- Частота:
The pump circulates the water <TIMEX>every 2 hours</TIMEX>.
Первоначально темпоральные выражения считались разновидностью именованных сущностей и их идентификация была частью задачи распознавания именованных сущностей . Со времени запуска программы автоматического извлечения контента в 2004 году была выделена отдельная задача, получившая название «Распознавание и нормализация временных выражений» (TERN). Оценка Timex теперь оценивается в двух основных задачах временных аннотаций: TempEval и i2b2 , обе из которых предпочитают стандарт TIMEX3 уровня TimeML . [1]
Подходы
[ редактировать ]Подобно системам NER, тегеры темпоральных выражений были созданы либо с использованием лингвистической грамматике методов, основанных на , либо с использованием статистических моделей . Созданные вручную системы, основанные на грамматике, обычно давали лучшие результаты, но ценой месяцев работы опытных лингвистов. Сейчас существует множество подобных систем. [2] [3] [4] поэтому создание распознавателя временных выражений с нуля обычно является нежелательным дублированием усилий. Вместо этого современные подходы сосредоточены на новых подклассах timex. [5]
Статистические системы обычно требуют большого количества аннотированных вручную обучающих данных и обычно применяются только для задачи распознавания (хотя на этапе интерпретации выполняется работа с использованием алгоритмов машинного обучения). [6] [7]
Примечания
[ редактировать ]- ^ См. TIMEX3 на timeml.org.
- ^ Стрётген, Янник; Майкл Герц (2010). «HeidelTime: высококачественное извлечение на основе правил и нормализация временных выражений». Материалы 5-го международного семинара по семантической оценке . ACL.
- ^ Льоренс, Гектор; Леон Дерчински; Роберт Гайзаускас; Эстела Сакете (2012). «TIMEN: Открытый ресурс нормализации временных выражений» . ЛРЭК . ACL: 3044–3051.
- ^ Филаннино, Микеле; Гэвин Браун; Горан Ненадич (2013). «ManTIME: Временная идентификация и нормализация в задаче TempEval-3». Материалы 7-го международного семинара по семантической оценке . ACL.
- ^ Брукато, Маттео; Леон Дерчински; Гектор Льоренс; Калина Бончева; Кристиан С. Дженсен (2013). «Распознавание и интерпретация именованных временных выражений» (PDF) . Материалы Международной конференции по последним достижениям в области обработки естественного языка . ACL.
- ^ См., например, Ан, ван Рантвейк и де Рийке, 2007 г.
- ^ Анджели, Габор; Кристопер Мэннинг; Дэниел Юрафски (2012). «Разбор времени: учимся интерпретировать выражения времени» (PDF) . Труды НААКЛ . ACL: 446.
Ссылки
[ редактировать ]- Ан, Дэвид ; ван Рантвейк, Йорис ; де Рийке, Маартен (2007), «Подход каскадного машинного обучения к интерпретации временных выражений» (PDF) , Труды технологий человеческого языка: Ежегодная конференция Североамериканского отделения Ассоциации компьютерной лингвистики (NAACL-HLT 2007) , список управления доступом
- Филаннино, Микеле ; Браун, Гэвин ; Ненадич, Горан (2013), «ManTIME: Временная идентификация и нормализация в задаче TempEval-3» (PDF) , Материалы 7-го Международного семинара по семантической оценке , ACL