Разрешение топонимов
В информационных системах географических разрешение топонимов — это процесс установления связи между топонимом , т. е. упоминанием места, и однозначным пространственным следом того же места. [1]
Места, упомянутые в коллекциях оцифрованных текстов, представляют собой богатый источник данных для исследователей многих дисциплин. Однако топонимы в использовании языка неоднозначны, и им трудно определить определенный референт в реальном мире . Со временем устоявшиеся географические названия могут измениться (например, «Византия» > «Константинополь» > «Стамбул»); или они могут быть использованы повторно дословно ((«Бостон» в Англии, Великобритания вместо «Бостон» в Массачусетсе, США) или с изменениями (как в «Йорк» вместо «Нью-Йорк»). Чтобы сопоставить набор топонимов или топонимов, которые встречаются в документе, с соответствующими координатами широты и долготы , многоугольником или любым другим пространственным следом, необходим этап устранения неоднозначности. Алгоритм разрешения топонимов — это автоматический метод, который выполняет сопоставление топонима с пространственным следом.
Некоторые методы разрешения топонимов используют справочник возможных сопоставлений между названиями и пространственными следами. [2]
Процесс разрешения
[ редактировать ]«Однозначный пространственный след одного и того же места» [1] определения могут быть фактически однозначными или «не столь однозначными». Существует несколько различных контекстов неопределенности , в которых может происходить процесс разрешения:
- Когда доказательства географические и не имеют неопределенности. Например, чтобы получить название страны для места фотографии, если это место представляет собой позицию GPS (погрешность 10 метров) на расстоянии 1000 км от границ страны.
- Когда доказательства географические, но со значительной неопределенностью. Представьте себе аналогичный сценарий, когда ошибка GPS составляет 100 метров, а место находится примерно в 100 метрах от границы страны.
- Когда доказательства только текстовые. Представьте себе письмо, где рассказчик — турист, рассказывающий о своем путешествии после возвращения из отпуска. Единственные доказательства носят текстовый характер, в повествовании.
- Смешанные источники доказательств: более одного доказательства, ни одно из которых не является точным.
По географическим данным
[ редактировать ]Разрешение топонима иногда представляет собой простое преобразование названия в аббревиатуру, особенно когда аббревиатура используется в качестве стандартного геокода . Например, преобразование официального названия страны Афганистан в код страны ISO , AF
.
При аннотировании медиа и метаданных преобразование с использованием карты и географических данных (например, GPS) является наиболее распространенным подходом для получения топонима или геокода , который представляет топоним.
Из текстовых свидетельств
[ редактировать ]В отличие от геокодирования почтовых адресов, которые обычно хранятся в записях структурированной базы данных , разрешение топонимов обычно применяется к большим коллекциям неструктурированных текстовых документов, чтобы связать упомянутые в них местоположения с картами. Если некоторые из этих текстовых документов имеют геотеги (например, потому что они представляют собой сообщения в микроблогах с автоматически добавленными широтой и долготой), их можно использовать для вывода о различной географической специфике произвольных терминов, например, «канатная дорога» или «высокая высота». прилив" [3] .
Процесс аннотирования медиа (например, изображений, текста, видео) с использованием пространственных контуров известен как геотегирование . Чтобы автоматически присвоить текстовому документу геотег, обычно предпринимаются следующие шаги: распознавание топонима (т. е. обнаружение текстовых ссылок на географические местоположения) и разрешение топонимов (т. е. выбор подходящей интерпретации местоположения для каждой географической ссылки).
Распознавание топонимов можно рассматривать как особый случай распознавания названных объектов , целью которого является просто определение объектов местоположения. Однако результат распознавания именованного объекта можно дополнительно улучшить, используя созданные вручную правила или статистические правила. [4]
Для получения интерпретации местоположения модели разрешения обычно используют географические справочники (т. е. огромные базы данных местоположений), такие как GeoNames и OpenStreetMap . Наивный подход к разрешению топонимов состоит в том, чтобы выбрать из списка кандидатов наиболее распространенную интерпретацию. Например, в следующем отрывке:
Мужчина из Торонто живет и работает в Лондоне, «не уверен в будущем» в Великобритании после Брексита
— Си-Би-Си
Наивный подход кажется жизнеспособным, поскольку топонимы Торонто и Лондон относятся к их наиболее распространенной интерпретации, расположенной в Канаде и Великобритании соответственно, тогда как в следующем отрывке из новостной статьи:
Высокоскоростная железная дорога между Торонто и Лондоном к 2025 году
— Си-Би-Си
Этот подход не позволяет точно определить топоним Лондон как город, расположенный в Онтарио, Канада . Следовательно, выбор самой высокой популяции не может быть эффективным для топонимов в локализованном контексте.
Кроме того, разрешение топонимов не затрагивает метонимию в целом. Тем не менее, метод разрешения все же может устранить неоднозначность ссылки на метонимию, если на этапе распознавания она идентифицирована как топоним. Например, в следующем отрывке:
Канада также корректирует свои законы о вождении, чтобы учитывать случаи вождения в нетрезвом состоянии, вызванные употреблением каннабиса.
— Эсквайр
Канада указывает на метонимию и относится к «правительству Канады». Однако он может быть идентифицирован как местоположение с помощью универсального распознавателя именованного объекта, и, таким образом, преобразователь топонимов может устранить неоднозначность.
Подходы
[ редактировать ]Методы разрешения топонимов в целом можно разделить на контролируемые и неконтролируемые модели. Контролируемые методы обычно рассматривают проблему как задачу обучения, в которой модель сначала извлекает контекстуальные и неконтекстуальные функции, а затем классификатор обучается на помеченном наборе данных. Адаптивная модель [5] - одна из известных моделей, предлагаемых при разрешении топонимов. Для каждой интерпретации топонима модель выводит контекстно-зависимые характеристики, основанные на географической близости и родственных отношениях с другими интерпретациями. В дополнение к функциям, связанным с контекстом, модель извлекает выгоду из бесконтекстных функций, включая численность населения и местоположение аудитории. С другой стороны, неконтролируемые модели не требуют аннотированных данных. Они превосходят модели с учителем, когда аннотированный корпус недостаточно велик, а модели с учителем могут плохо обобщать. [6]
Неконтролируемые модели, как правило, лучше используют взаимодействие топонимов, упомянутых в документе. Слияние контекста и иерархии [6] Модель оценивает географический охват документов и использует связи между названиями близлежащих мест в качестве доказательства для разрешения топонимов. Посредством сопоставления проблемы с бесконфликтной проблемой покрытия множеств эта модель обеспечивает последовательное и надежное решение.
Кроме того, использование Википедии и баз знаний оказалось эффективным в разрешении топонимов. Топокластер [7] моделирует географические значения слов, включая страницы мест из Википедии, и устраняет неоднозначность топонимов, используя пространственный смысл слов в тексте.
Геопарсинг
[ редактировать ]Геоанализ — это специальный процесс разрешения топонимов, заключающийся в преобразовании произвольных текстовых описаний мест (например, «двадцать миль к северо-востоку от Джелалабада») в однозначные географические идентификаторы, такие как географические координаты, выраженные как широта — долгота . Можно также геоанализировать ссылки на местоположение из других форм мультимедиа, например аудиоконтента, в котором говорящий упоминает место. С помощью географических координат объекты можно нанести на карту и ввести в географические информационные системы . Два основных варианта использования географических координат, полученных из неструктурированного контента, — это отображение частей контента на картах и поиск контента с использованием карты в качестве фильтра.
Геоанализ выходит за рамки геокодирования . Геокодирование анализирует однозначные структурированные ссылки на местоположение, такие как почтовые адреса и строго отформатированные числовые координаты. Геоанализ обрабатывает неоднозначные ссылки в неструктурированном дискурсе, такие как «Аль-Хамра» — название нескольких мест, включая города в Сирии и Йемене.
Геопарсер — это часть программного обеспечения или (веб-)сервис, который помогает в этом процессе. Несколько примеров:
- GEOLocate Автоматическая географическая привязка
- BioGeomancer – Полуавтоматическая географическая привязка
- Сервер имен GEOnet — свободно доступная ГИС-информация для территорий за пределами США и Антарктиды, ежемесячно обновляемая Национальным агентством геопространственной разведки (NGA) и Советом США по географическим названиям (US BGN).
- Информационная система географических названий (GNIS) – свободно доступная база данных, содержащая информацию почти о 2 миллионах физических объектов, мест и достопримечательностей в США.
- CLAVIN – CLAVIN (Cartographic Location And Vicinity INdexer) – это программный пакет с открытым исходным кодом для геотегирования и геоанализа документов, который использует контекстно-ориентированное разрешение географических объектов.
- Geocode.xyz – Geocode.xyz – это веб-сервис, который идентифицирует как названия мест, так и почтовые адреса, упомянутые в тексте. [8]
- geoparsepy — geoparsepy — это бесплатная библиотека геоанализа Python, поддерживающая произвольную текстовую идентификацию местоположения и устранение неоднозначности с использованием базы данных OpenStreetMap.
Ссылки
[ редактировать ]- ^ Перейти обратно: а б Лейднер, Йохен Л. (2007). Разрешение топонимов в тексте: аннотация, оценка и применение пространственного обоснования (доктор философии). Эдинбургский университет. HDL : 1842/1849 .
- ^ Хилл, Линда Л. (2006). Географическая привязка: географические ассоциации информации . Массачусетский технологический институт Пресс. ISBN 978-0262083546 .
- ^ Берггрен, Макс; Карлгрен, Юсси ; Эстлинг, Роберт; Парквалл, Микаэль (2016). «Определение местонахождения авторов по словам в их текстах». Материалы Скандинавской конференции по компьютерной лингвистике . arXiv : 1612.06671 .
- ^ Либерман, Майкл Д.; Самет, Ханан (2011). Многогранное распознавание топонимов для потоковой передачи новостей (PDF) . Материалы 34-й международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска. стр. 843–852. дои : 10.1145/2009916.2010029 .
- ^ Либерман, Майкл Д.; Самет, Ханан (2012). Адаптивные контекстные функции для разрешения топонимов в потоковых новостях (PDF) . Материалы 35-й международной конференции ACM SIGIR «Исследования и разработки в области информационного поиска». стр. 731–740. дои : 10.1145/2348283.2348381 .
- ^ Перейти обратно: а б Камаллу, Эхсан; Рафии, Давуд (2018). Последовательная неконтролируемая модель разрешения топонимов . Материалы конференции World Wide Web 2018. стр. 1287–1296. arXiv : 1805.01952 . дои : 10.1145/3178876.3186027 .
- ^ ДеЛозье, Грант; Болдридж, Джейсон; Лондон, Лоретта (2015). Независимое от справочника разрешение топонимов с использованием географических словесных профилей . Материалы двадцать девятой конференции AAAI по искусственному интеллекту. стр. 2382–2388.
- ^ «Perl Advent Calendar 2016 — геопарсер для огромных объемов текста» .