Разрешение топонимов

В информационных системах географических разрешение топонимов — это процесс установления связи между топонимом , т. е. упоминанием места, и однозначным пространственным следом того же места. ^[1]

Места, упомянутые в коллекциях оцифрованных текстов, представляют собой богатый источник данных для исследователей многих дисциплин. Однако топонимы в использовании языка неоднозначны, и им трудно определить определенный референт в реальном мире . Со временем устоявшиеся географические названия могут измениться (например, «Византия» > «Константинополь» > «Стамбул»); или они могут быть использованы повторно дословно ((«Бостон» в Англии, Великобритания вместо «Бостон» в Массачусетсе, США) или с изменениями (как в «Йорк» вместо «Нью-Йорк»). Чтобы сопоставить набор топонимов или топонимов, которые встречаются в документе, с соответствующими координатами широты и долготы , многоугольником или любым другим пространственным следом, необходим этап устранения неоднозначности. Алгоритм разрешения топонимов — это автоматический метод, который выполняет сопоставление топонима с пространственным следом.

Некоторые методы разрешения топонимов используют справочник возможных сопоставлений между названиями и пространственными следами. ^[2]

Процесс разрешения

«Однозначный пространственный след одного и того же места» ^[1] определения могут быть фактически однозначными или «не столь однозначными». Существует несколько различных контекстов неопределенности , в которых может происходить процесс разрешения:

Когда доказательства географические и не имеют неопределенности. Например, чтобы получить название страны для места фотографии, если это место представляет собой позицию GPS (погрешность 10 метров) на расстоянии 1000 км от границ страны.
Когда доказательства географические, но со значительной неопределенностью. Представьте себе аналогичный сценарий, когда ошибка GPS составляет 100 метров, а место находится примерно в 100 метрах от границы страны.
Когда доказательства только текстовые. Представьте себе письмо, где рассказчик — турист, рассказывающий о своем путешествии после возвращения из отпуска. Единственные доказательства носят текстовый характер, в повествовании.
Смешанные источники доказательств: более одного доказательства, ни одно из которых не является точным.

По географическим данным

Разрешение топонима иногда представляет собой простое преобразование названия в аббревиатуру, особенно когда аббревиатура используется в качестве стандартного геокода . Например, преобразование официального названия страны Афганистан в код страны ISO , AF.

При аннотировании медиа и метаданных преобразование с использованием карты и географических данных (например, GPS) является наиболее распространенным подходом для получения топонима или геокода , который представляет топоним.

Из текстовых свидетельств

В отличие от геокодирования почтовых адресов, которые обычно хранятся в записях структурированной базы данных , разрешение топонимов обычно применяется к большим коллекциям неструктурированных текстовых документов, чтобы связать упомянутые в них местоположения с картами. Если некоторые из этих текстовых документов имеют геотеги (например, потому что они представляют собой сообщения в микроблогах с автоматически добавленными широтой и долготой), их можно использовать для вывода о различной географической специфике произвольных терминов, например, «канатная дорога» или «высокая высота». прилив" ^[3] .

Процесс аннотирования медиа (например, изображений, текста, видео) с использованием пространственных контуров известен как геотегирование . Чтобы автоматически присвоить текстовому документу геотег, обычно предпринимаются следующие шаги: распознавание топонима (т. е. обнаружение текстовых ссылок на географические местоположения) и разрешение топонимов (т. е. выбор подходящей интерпретации местоположения для каждой географической ссылки).

Распознавание топонимов можно рассматривать как особый случай распознавания названных объектов , целью которого является просто определение объектов местоположения. Однако результат распознавания именованного объекта можно дополнительно улучшить, используя созданные вручную правила или статистические правила. ^[4]

Для получения интерпретации местоположения модели разрешения обычно используют географические справочники (т. е. огромные базы данных местоположений), такие как GeoNames и OpenStreetMap . Наивный подход к разрешению топонимов состоит в том, чтобы выбрать из списка кандидатов наиболее распространенную интерпретацию. Например, в следующем отрывке:

Мужчина из Торонто живет и работает в Лондоне, «не уверен в будущем» в Великобритании после Брексита
— Си-Би-Си

Наивный подход кажется жизнеспособным, поскольку топонимы Торонто и Лондон относятся к их наиболее распространенной интерпретации, расположенной в Канаде и Великобритании соответственно, тогда как в следующем отрывке из новостной статьи:

Высокоскоростная железная дорога между Торонто и Лондоном к 2025 году
— Си-Би-Си

Этот подход не позволяет точно определить топоним Лондон как город, расположенный в Онтарио, Канада . Следовательно, выбор самой высокой популяции не может быть эффективным для топонимов в локализованном контексте.

Кроме того, разрешение топонимов не затрагивает метонимию в целом. Тем не менее, метод разрешения все же может устранить неоднозначность ссылки на метонимию, если на этапе распознавания она идентифицирована как топоним. Например, в следующем отрывке:

Канада также корректирует свои законы о вождении, чтобы учитывать случаи вождения в нетрезвом состоянии, вызванные употреблением каннабиса.
— Эсквайр

Канада указывает на метонимию и относится к «правительству Канады». Однако он может быть идентифицирован как местоположение с помощью универсального распознавателя именованного объекта, и, таким образом, преобразователь топонимов может устранить неоднозначность.

Подходы

Методы разрешения топонимов в целом можно разделить на контролируемые и неконтролируемые модели. Контролируемые методы обычно рассматривают проблему как задачу обучения, в которой модель сначала извлекает контекстуальные и неконтекстуальные функции, а затем классификатор обучается на помеченном наборе данных. Адаптивная модель ^[5] - одна из известных моделей, предлагаемых при разрешении топонимов. Для каждой интерпретации топонима модель выводит контекстно-зависимые характеристики, основанные на географической близости и родственных отношениях с другими интерпретациями. В дополнение к функциям, связанным с контекстом, модель извлекает выгоду из бесконтекстных функций, включая численность населения и местоположение аудитории. С другой стороны, неконтролируемые модели не требуют аннотированных данных. Они превосходят модели с учителем, когда аннотированный корпус недостаточно велик, а модели с учителем могут плохо обобщать. ^[6]

Неконтролируемые модели, как правило, лучше используют взаимодействие топонимов, упомянутых в документе. Слияние контекста и иерархии ^[6] Модель оценивает географический охват документов и использует связи между названиями близлежащих мест в качестве доказательства для разрешения топонимов. Посредством сопоставления проблемы с бесконфликтной проблемой покрытия множеств эта модель обеспечивает последовательное и надежное решение.

Кроме того, использование Википедии и баз знаний оказалось эффективным в разрешении топонимов. Топокластер ^[7] моделирует географические значения слов, включая страницы мест из Википедии, и устраняет неоднозначность топонимов, используя пространственный смысл слов в тексте.

Геопарсинг

Геоанализ — это специальный процесс разрешения топонимов, заключающийся в преобразовании произвольных текстовых описаний мест (например, «двадцать миль к северо-востоку от Джелалабада») в однозначные географические идентификаторы, такие как географические координаты, выраженные как широта — долгота . Можно также геоанализировать ссылки на местоположение из других форм мультимедиа, например аудиоконтента, в котором говорящий упоминает место. С помощью географических координат объекты можно нанести на карту и ввести в географические информационные системы . Два основных варианта использования географических координат, полученных из неструктурированного контента, — это отображение частей контента на картах и поиск контента с использованием карты в качестве фильтра.

Геоанализ выходит за рамки геокодирования . Геокодирование анализирует однозначные структурированные ссылки на местоположение, такие как почтовые адреса и строго отформатированные числовые координаты. Геоанализ обрабатывает неоднозначные ссылки в неструктурированном дискурсе, такие как «Аль-Хамра» — название нескольких мест, включая города в Сирии и Йемене.

Геопарсер — это часть программного обеспечения или (веб-)сервис, который помогает в этом процессе. Несколько примеров:

GEOLocate Автоматическая географическая привязка
BioGeomancer – Полуавтоматическая географическая привязка
Сервер имен GEOnet — свободно доступная ГИС-информация для территорий за пределами США и Антарктиды, ежемесячно обновляемая Национальным агентством геопространственной разведки (NGA) и Советом США по географическим названиям (US BGN).
Информационная система географических названий (GNIS) – свободно доступная база данных, содержащая информацию почти о 2 миллионах физических объектов, мест и достопримечательностей в США.
CLAVIN – CLAVIN (Cartographic Location And Vicinity INdexer) – это программный пакет с открытым исходным кодом для геотегирования и геоанализа документов, который использует контекстно-ориентированное разрешение географических объектов.
Geocode.xyz – Geocode.xyz – это веб-сервис, который идентифицирует как названия мест, так и почтовые адреса, упомянутые в тексте. ^[8]
geoparsepy — geoparsepy — это бесплатная библиотека геоанализа Python, поддерживающая произвольную текстовую идентификацию местоположения и устранение неоднозначности с использованием базы данных OpenStreetMap.

Ссылки

^ Перейти обратно: ^а ^б Лейднер, Йохен Л. (2007). Разрешение топонимов в тексте: аннотация, оценка и применение пространственного обоснования (доктор философии). Эдинбургский университет. HDL : 1842/1849 .
^ Хилл, Линда Л. (2006). Географическая привязка: географические ассоциации информации . Массачусетский технологический институт Пресс. ISBN 978-0262083546 .
^ Берггрен, Макс; Карлгрен, Юсси ; Эстлинг, Роберт; Парквалл, Микаэль (2016). «Определение местонахождения авторов по словам в их текстах». Материалы Скандинавской конференции по компьютерной лингвистике . arXiv : 1612.06671 .
^ Либерман, Майкл Д.; Самет, Ханан (2011). Многогранное распознавание топонимов для потоковой передачи новостей (PDF) . Материалы 34-й международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска. стр. 843–852. дои : 10.1145/2009916.2010029 .
^ Либерман, Майкл Д.; Самет, Ханан (2012). Адаптивные контекстные функции для разрешения топонимов в потоковых новостях (PDF) . Материалы 35-й международной конференции ACM SIGIR «Исследования и разработки в области информационного поиска». стр. 731–740. дои : 10.1145/2348283.2348381 .
^ Перейти обратно: ^а ^б Камаллу, Эхсан; Рафии, Давуд (2018). Последовательная неконтролируемая модель разрешения топонимов . Материалы конференции World Wide Web 2018. стр. 1287–1296. arXiv : 1805.01952 . дои : 10.1145/3178876.3186027 .
^ ДеЛозье, Грант; Болдридж, Джейсон; Лондон, Лоретта (2015). Независимое от справочника разрешение топонимов с использованием географических словесных профилей . Материалы двадцать девятой конференции AAAI по искусственному интеллекту. стр. 2382–2388.
^ «Perl Advent Calendar 2016 — геопарсер для огромных объемов текста» .

См. также

[leidner2008toponym-1] Перейти обратно: ^а ^б Лейднер, Йохен Л. (2007). Разрешение топонимов в тексте: аннотация, оценка и применение пространственного обоснования (доктор философии). Эдинбургский университет. HDL : 1842/1849 .

[hill2009georeferencing-2] Хилл, Линда Л. (2006). Географическая привязка: географические ассоциации информации . Массачусетский технологический институт Пресс. ISBN 978-0262083546 .

[3] Берггрен, Макс; Карлгрен, Юсси ; Эстлинг, Роберт; Парквалл, Микаэль (2016). «Определение местонахождения авторов по словам в их текстах». Материалы Скандинавской конференции по компьютерной лингвистике . arXiv : 1612.06671 .

[lieberman2011multifaceted-4] Либерман, Майкл Д.; Самет, Ханан (2011). Многогранное распознавание топонимов для потоковой передачи новостей (PDF) . Материалы 34-й международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска. стр. 843–852. дои : 10.1145/2009916.2010029 .

[lieberman2012adaptive-5] Либерман, Майкл Д.; Самет, Ханан (2012). Адаптивные контекстные функции для разрешения топонимов в потоковых новостях (PDF) . Материалы 35-й международной конференции ACM SIGIR «Исследования и разработки в области информационного поиска». стр. 731–740. дои : 10.1145/2348283.2348381 .

[kamalloo2018coherent-6] Перейти обратно: ^а ^б Камаллу, Эхсан; Рафии, Давуд (2018). Последовательная неконтролируемая модель разрешения топонимов . Материалы конференции World Wide Web 2018. стр. 1287–1296. arXiv : 1805.01952 . дои : 10.1145/3178876.3186027 .

[delozier2015gazetteer-7] ДеЛозье, Грант; Болдридж, Джейсон; Лондон, Лоретта (2015). Независимое от справочника разрешение топонимов с использованием географических словесных профилей . Материалы двадцать девятой конференции AAAI по искусственному интеллекту. стр. 2382–2388.

[8] «Perl Advent Calendar 2016 — геопарсер для огромных объемов текста» .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]