Jump to content

Разрешение топонимов

В информационных системах географических разрешение топонимов — это процесс установления связи между топонимом , т. е. упоминанием места, и однозначным пространственным следом того же места. [1]

Места, упомянутые в коллекциях оцифрованных текстов, представляют собой богатый источник данных для исследователей многих дисциплин. Однако топонимы в использовании языка неоднозначны, и им трудно определить определенный референт в реальном мире . Со временем устоявшиеся географические названия могут измениться (например, «Византия» > «Константинополь» > «Стамбул»); или они могут быть использованы повторно дословно ((«Бостон» в Англии, Великобритания вместо «Бостон» в Массачусетсе, США) или с изменениями (как в «Йорк» вместо «Нью-Йорк»). Чтобы сопоставить набор топонимов или топонимов, которые встречаются в документе, с соответствующими координатами широты и долготы , многоугольником или любым другим пространственным следом, необходим этап устранения неоднозначности. Алгоритм разрешения топонимов — это автоматический метод, который выполняет сопоставление топонима с пространственным следом.

Некоторые методы разрешения топонимов используют справочник возможных сопоставлений между названиями и пространственными следами. [2]

Процесс разрешения

[ редактировать ]

«Однозначный пространственный след одного и того же места» [1] определения могут быть фактически однозначными или «не столь однозначными». Существует несколько различных контекстов неопределенности , в которых может происходить процесс разрешения:

  • Когда доказательства географические и не имеют неопределенности. Например, чтобы получить название страны для места фотографии, если это место представляет собой позицию GPS (погрешность 10 метров) на расстоянии 1000 км от границ страны.
  • Когда доказательства географические, но со значительной неопределенностью. Представьте себе аналогичный сценарий, когда ошибка GPS составляет 100 метров, а место находится примерно в 100 метрах от границы страны.
  • Когда доказательства только текстовые. Представьте себе письмо, где рассказчик — турист, рассказывающий о своем путешествии после возвращения из отпуска. Единственные доказательства носят текстовый характер, в повествовании.
  • Смешанные источники доказательств: более одного доказательства, ни одно из которых не является точным.

По географическим данным

[ редактировать ]

Разрешение топонима иногда представляет собой простое преобразование названия в аббревиатуру, особенно когда аббревиатура используется в качестве стандартного геокода . Например, преобразование официального названия страны Афганистан в код страны ISO , AF.

При аннотировании медиа и метаданных преобразование с использованием карты и географических данных (например, GPS) является наиболее распространенным подходом для получения топонима или геокода , который представляет топоним.

Из текстовых свидетельств

[ редактировать ]

В отличие от геокодирования почтовых адресов, которые обычно хранятся в записях структурированной базы данных , разрешение топонимов обычно применяется к большим коллекциям неструктурированных текстовых документов, чтобы связать упомянутые в них местоположения с картами. Если некоторые из этих текстовых документов имеют геотеги (например, потому что они представляют собой сообщения в микроблогах с автоматически добавленными широтой и долготой), их можно использовать для вывода о различной географической специфике произвольных терминов, например, «канатная дорога» или «высокая высота». прилив" [3] .

Процесс аннотирования медиа (например, изображений, текста, видео) с использованием пространственных контуров известен как геотегирование . Чтобы автоматически присвоить текстовому документу геотег, обычно предпринимаются следующие шаги: распознавание топонима (т. е. обнаружение текстовых ссылок на географические местоположения) и разрешение топонимов (т. е. выбор подходящей интерпретации местоположения для каждой географической ссылки).

Распознавание топонимов можно рассматривать как особый случай распознавания названных объектов , целью которого является просто определение объектов местоположения. Однако результат распознавания именованного объекта можно дополнительно улучшить, используя созданные вручную правила или статистические правила. [4]

Для получения интерпретации местоположения модели разрешения обычно используют географические справочники (т. е. огромные базы данных местоположений), такие как GeoNames и OpenStreetMap . Наивный подход к разрешению топонимов состоит в том, чтобы выбрать из списка кандидатов наиболее распространенную интерпретацию. Например, в следующем отрывке:

Мужчина из Торонто живет и работает в Лондоне, «не уверен в будущем» в Великобритании после Брексита

Наивный подход кажется жизнеспособным, поскольку топонимы Торонто и Лондон относятся к их наиболее распространенной интерпретации, расположенной в Канаде и Великобритании соответственно, тогда как в следующем отрывке из новостной статьи:

Высокоскоростная железная дорога между Торонто и Лондоном к 2025 году

Этот подход не позволяет точно определить топоним Лондон как город, расположенный в Онтарио, Канада . Следовательно, выбор самой высокой популяции не может быть эффективным для топонимов в локализованном контексте.

Кроме того, разрешение топонимов не затрагивает метонимию в целом. Тем не менее, метод разрешения все же может устранить неоднозначность ссылки на метонимию, если на этапе распознавания она идентифицирована как топоним. Например, в следующем отрывке:

Канада также корректирует свои законы о вождении, чтобы учитывать случаи вождения в нетрезвом состоянии, вызванные употреблением каннабиса.

Канада указывает на метонимию и относится к «правительству Канады». Однако он может быть идентифицирован как местоположение с помощью универсального распознавателя именованного объекта, и, таким образом, преобразователь топонимов может устранить неоднозначность.

Методы разрешения топонимов в целом можно разделить на контролируемые и неконтролируемые модели. Контролируемые методы обычно рассматривают проблему как задачу обучения, в которой модель сначала извлекает контекстуальные и неконтекстуальные функции, а затем классификатор обучается на помеченном наборе данных. Адаптивная модель [5] - одна из известных моделей, предлагаемых при разрешении топонимов. Для каждой интерпретации топонима модель выводит контекстно-зависимые характеристики, основанные на географической близости и родственных отношениях с другими интерпретациями. В дополнение к функциям, связанным с контекстом, модель извлекает выгоду из бесконтекстных функций, включая численность населения и местоположение аудитории. С другой стороны, неконтролируемые модели не требуют аннотированных данных. Они превосходят модели с учителем, когда аннотированный корпус недостаточно велик, а модели с учителем могут плохо обобщать. [6]

Неконтролируемые модели, как правило, лучше используют взаимодействие топонимов, упомянутых в документе. Слияние контекста и иерархии [6] Модель оценивает географический охват документов и использует связи между названиями близлежащих мест в качестве доказательства для разрешения топонимов. Посредством сопоставления проблемы с бесконфликтной проблемой покрытия множеств эта модель обеспечивает последовательное и надежное решение.

Кроме того, использование Википедии и баз знаний оказалось эффективным в разрешении топонимов. Топокластер [7] моделирует географические значения слов, включая страницы мест из Википедии, и устраняет неоднозначность топонимов, используя пространственный смысл слов в тексте.

Геопарсинг

[ редактировать ]

Геоанализ — это специальный процесс разрешения топонимов, заключающийся в преобразовании произвольных текстовых описаний мест (например, «двадцать миль к северо-востоку от Джелалабада») в однозначные географические идентификаторы, такие как географические координаты, выраженные как широта долгота . Можно также геоанализировать ссылки на местоположение из других форм мультимедиа, например аудиоконтента, в котором говорящий упоминает место. С помощью географических координат объекты можно нанести на карту и ввести в географические информационные системы . Два основных варианта использования географических координат, полученных из неструктурированного контента, — это отображение частей контента на картах и ​​поиск контента с использованием карты в качестве фильтра.

Геоанализ выходит за рамки геокодирования . Геокодирование анализирует однозначные структурированные ссылки на местоположение, такие как почтовые адреса и строго отформатированные числовые координаты. Геоанализ обрабатывает неоднозначные ссылки в неструктурированном дискурсе, такие как «Аль-Хамра» — название нескольких мест, включая города в Сирии и Йемене.

Геопарсер это часть программного обеспечения или (веб-)сервис, который помогает в этом процессе. Несколько примеров:

  • GEOLocate Автоматическая географическая привязка
  • BioGeomancer – Полуавтоматическая географическая привязка
  • Сервер имен GEOnet — свободно доступная ГИС-информация для территорий за пределами США и Антарктиды, ежемесячно обновляемая Национальным агентством геопространственной разведки (NGA) и Советом США по географическим названиям (US BGN).
  • Информационная система географических названий (GNIS) – свободно доступная база данных, содержащая информацию почти о 2 миллионах физических объектов, мест и достопримечательностей в США.
  • CLAVIN – CLAVIN (Cartographic Location And Vicinity INdexer) – это программный пакет с открытым исходным кодом для геотегирования и геоанализа документов, который использует контекстно-ориентированное разрешение географических объектов.
  • Geocode.xyz – Geocode.xyz – это веб-сервис, который идентифицирует как названия мест, так и почтовые адреса, упомянутые в тексте. [8]
  • geoparsepy — geoparsepy — это бесплатная библиотека геоанализа Python, поддерживающая произвольную текстовую идентификацию местоположения и устранение неоднозначности с использованием базы данных OpenStreetMap.
  1. ^ Перейти обратно: а б Лейднер, Йохен Л. (2007). Разрешение топонимов в тексте: аннотация, оценка и применение пространственного обоснования (доктор философии). Эдинбургский университет. HDL : 1842/1849 .
  2. ^ Хилл, Линда Л. (2006). Географическая привязка: географические ассоциации информации . Массачусетский технологический институт Пресс. ISBN  978-0262083546 .
  3. ^ Берггрен, Макс; Карлгрен, Юсси ; Эстлинг, Роберт; Парквалл, Микаэль (2016). «Определение местонахождения авторов по словам в их текстах». Материалы Скандинавской конференции по компьютерной лингвистике . arXiv : 1612.06671 .
  4. ^ Либерман, Майкл Д.; Самет, Ханан (2011). Многогранное распознавание топонимов для потоковой передачи новостей (PDF) . Материалы 34-й международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска. стр. 843–852. дои : 10.1145/2009916.2010029 .
  5. ^ Либерман, Майкл Д.; Самет, Ханан (2012). Адаптивные контекстные функции для разрешения топонимов в потоковых новостях (PDF) . Материалы 35-й международной конференции ACM SIGIR «Исследования и разработки в области информационного поиска». стр. 731–740. дои : 10.1145/2348283.2348381 .
  6. ^ Перейти обратно: а б Камаллу, Эхсан; Рафии, Давуд (2018). Последовательная неконтролируемая модель разрешения топонимов . Материалы конференции World Wide Web 2018. стр. 1287–1296. arXiv : 1805.01952 . дои : 10.1145/3178876.3186027 .
  7. ^ ДеЛозье, Грант; Болдридж, Джейсон; Лондон, Лоретта (2015). Независимое от справочника разрешение топонимов с использованием географических словесных профилей . Материалы двадцать девятой конференции AAAI по искусственному интеллекту. стр. 2382–2388.
  8. ^ «Perl Advent Calendar 2016 — геопарсер для огромных объемов текста» .

См. также

[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 00a3cade20fe88262f8c32ffb9805e33__1719492540
URL1:https://arc.ask3.ru/arc/aa/00/33/00a3cade20fe88262f8c32ffb9805e33.html
Заголовок, (Title) документа по адресу, URL1:
Toponym resolution - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)