Разрешение топонимов - Википедия - Toponym resolution

В географические информационные системы, разрешение топонима это процесс отношений между топоним, то есть упоминание места и однозначный пространственный след того же места.^[1]

Те же географические названия исторически использовались поселенцами-эмигрантами для обозначения своих новых домов, что привело к ссылкам на двусмысленность географических названий. Иногда оригинальное имя изменяется (например, «Йорк» против «Нью-Йорк»). Во многих случаях имя используется повторно без изменений («Бостон» в Англии, Великобритании против «Бостон» в Массачусетсе, США). Чтобы сопоставить набор географических названий или топонимов, встречающихся в документе, с соответствующими им широта /долгота координаты, многоугольник или любой другой пространственный след, шаг устранения неоднозначности необходим. Алгоритм разрешения топонима - это автоматический метод, который выполняет сопоставление топонима с пространственным следом.

Большинство методов разрешения топонимов используют географический справочник возможных отображений между именами и пространственными следами.^[2]

Процесс разрешения

«Однозначный пространственный след того же места»^[1] определение может быть на самом деле однозначным или «не столь однозначным». Есть несколько разных контексты неуверенность где может происходить процесс разрешения:

Когда доказательства географические и не вызывают сомнений. Например, чтобы получить название страны для места фотографии, когда это место является местоположением GPS (ошибка 10 метров), на расстоянии 1000 км от границ страны.

Когда доказательства географические, но со значительной неопределенностью. Представьте себе аналогичный сценарий, где ошибка GPS составляет 100 метров, а место находится недалеко от границы страны, примерно на 100 метров.

Когда доказательства только текстовые. Представьте себе письмо, в котором рассказчик - турист, рассказывающий о своей поездке после возвращения из отпуска. Единственные свидетельства - текстовые, в повествовании.

Смешанные источники доказательств: более одного доказательства, ни одного точного.

Из географических свидетельств

Разрешение топонима иногда представляет собой простое преобразование названия в аббревиатуру, особенно когда аббревиатура используется как стандартная. геокодировать. Например, преобразование официального названия страны Афганистан в Код страны ISO, AF.

В аннотировании медиа и метаданные, преобразование с использованием карта и географическое свидетельство (например, GPS), является наиболее обычным подходом для получения топонима или геокодировать что представляет собой топоним.

Из текстовых свидетельств

В отличие от геокодирование почтовых адресов, которые обычно хранятся в структурированных база данных записей, разрешение топонимов обычно применяется к большим коллекциям неструктурированных текстовых документов, чтобы связать упомянутые в них местоположения с картами.

Процесс аннотирования медиа (например, изображения, текста, видео) с использованием пространственных следов известен как Геотеги. Чтобы автоматически добавить геотег к текстовому документу, обычно выполняются следующие шаги: признание топонима (т.е. обнаружение текстовых ссылок на географические местоположения) и разрешение топонима (т. е. выбор соответствующей интерпретации местоположения для каждой географической ссылки).

Распознавание топонимов можно рассматривать как частный случай признание названного лица где цель состоит в том, чтобы просто получить объекты местоположения. Однако результат распознавания именованных сущностей можно улучшить с помощью правил, созданных вручную, или статистических правил.^[3].

Для получения интерпретации местоположения, разрешающая способность модели, как правило, используют географические справочники (т.е. огромные базы данных местоположений), такие как GeoNames и OpenStreetMap. Наивный подход к разрешению топонимов - это выбрать наиболее популярную интерпретацию из списка кандидатов. Например, в следующем отрывке:

Мужчина из Торонто, живущий и работающий в Лондоне, `` не уверен в будущем '' в Великобритании после Брексита
— CBC

Наивный подход кажется жизнеспособным, поскольку топонимы Торонто и Лондон относятся к их наиболее распространенной интерпретации, расположенной в Канаде и Великобритании соответственно, тогда как в следующем фрагменте из новостной статьи:

Скоростная железная дорога между Торонто и Лондоном к 2025 году
— CBC

Такой подход не позволяет точно определить топоним Лондон как город, расположенный в Онтарио, Канада. Следовательно, выбор самой высокой совокупности не может хорошо работать для топонимов в локализованном контексте.

Кроме того, разрешение топонима не обращается метонимия в целом. Тем не менее, метод разрешения все еще может устранить неоднозначность метонимической ссылки, если она идентифицирована как топоним на этапе распознавания. Например, в следующем отрывке:

Канада также корректирует свои законы о дорожном движении с учетом DUI каннабиса.
— Esquire

Канада указывает на метонимия и относится к «правительству Канады». Однако его можно определить как местоположение с помощью универсального распознавателя именованных сущностей, и, таким образом, преобразователь топонимов может устранить неоднозначность.

Подходы

Методы разрешения топонимов в целом можно разделить на под наблюдением и без присмотра модели. Контролируемые методы обычно рассматривают проблему как задачу обучения, в которой модель сначала извлекает контекстные и неконтекстные функции, а затем классификатор обучается на помеченном наборе данных. Адаптивная модель^[4] является одной из выдающихся моделей, предлагаемых при разрешении топонимов. Для каждой интерпретации топонима модель выводит контекстно-зависимые характеристики на основе географической близости и родственных связей с другими интерпретациями. В дополнение к функциям, связанным с контекстом, модель выигрывает от бесконтекстных функций, включая численность населения и местоположение аудитории. С другой стороны, модели без учителя не требуют аннотированных данных. Они превосходят контролируемые модели, когда аннотированный корпус недостаточно велик, а контролируемые модели могут плохо обобщаться.^[5].

Неконтролируемые модели, как правило, лучше используют взаимодействие топонимов, упомянутых в документе. Слияние контекст-иерархия^[5] Модель оценивает географический охват документов и использует связи между близлежащими географическими названиями в качестве доказательства для определения топонимов. Путем отображения проблемы на бесконфликтный установить проблему прикрытия, эта модель обеспечивает когерентное и надежное разрешение.

Кроме того, использование Википедии и баз знаний доказало свою эффективность в разрешении топонимов. TopoCluster^[6] моделирует географическое значение слов, включая страницы Википедии с описанием местоположений, и устраняет неоднозначность топонимов, используя пространственные значения слов в тексте.

Геопарсинг

Геопарсинг представляет собой специальный процесс преобразования топонимов, заключающийся в преобразовании текстовых описаний мест (например, «двадцать миль к северо-востоку от Джелалабада») в однозначные географические идентификаторы, такие как географические координаты выражается как широта -долгота. Можно также геоанализировать ссылки на местоположение из других форм мультимедиа, например аудиоконтент, в котором говорящий упоминает место. С географическими координатами объекты могут быть нанесены на карту и введены в Географические информационные системы. Два основных использования географических координат, полученных из неструктурированного контента, - это нанесение частей контента на карты и поиск контента с использованием карты в качестве фильтра.

Геопарсинг выходит за рамки геокодирование. Геокодирование анализирует однозначно структурированные ссылки на местоположения, такие как почтовые адреса и строго отформатированные числовые координаты. Geoparsing обрабатывает неоднозначные ссылки в неструктурированном дискурсе, например «Аль-Хамра», что является названием нескольких мест, включая города в Сирии и Йемене.

А геоанализатор это часть программного обеспечения или (веб-службы), которая помогает в этом процессе. Некоторые примеры:

Геолокация автоматическая географическая привязка
BioGeomancer - Полуавтоматическая географическая привязка
Сервер имен GEOnet - Свободно доступная информация ГИС для районов за пределами США и Антарктиды, ежемесячно обновляемая Национальным агентством геопространственной разведки (NGA) и Советом США по географическим названиям (US BGN)
Информационная система географических названий (GNIS) - База данных в свободном доступе, содержащая информацию о почти 2 миллионах физических объектов, мест и ориентиров в США.
КЛАВИН - CLAVIN (Cartographic Location And Vicinity INdexer) - это программный пакет с открытым исходным кодом для геотегирования и геоанализа документов, который использует контекстное разрешение географических объектов.
Geoparser.io - Geoparser.io - это веб-сервис, который определяет места, упомянутые в тексте, устраняет неоднозначность этих мест и возвращает GeoJSON с подробными метаданными о местах, найденных в тексте.
Geocode.xyz - Geocode.xyz - это веб-сервис, который определяет названия мест и почтовые адреса, упомянутые в тексте.^[7]
геопарсепия - geoparsepy - это бесплатная библиотека геоанализа Python, поддерживающая произвольное определение местоположения текста и устранение неоднозначности с использованием базы данных OpenStreetMap

Смотрите также

[leidner2008toponym-1] а ^б ДеЛозье, Йохен Л. (2007). Разрешение топонима в тексте: аннотация, оценка и приложения пространственного заземления (Кандидат наук). Эдинбургский университет.

[hill2009georeferencing-2] Хилл, Линда Л. (2006). Географическая привязка: географические ассоциации информации. MIT Press. ISBN 978-0262083546.

[lieberman2011multifaceted-3] Либерман, Майкл Д .; Самет, Ханан (2011). Многогранное распознавание топонимов для потоковой передачи новостей (PDF). Материалы 34-й международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска. С. 843–852. Дои:10.1145/2009916.2010029.

[lieberman2012adaptive-4] Либерман, Майкл Д .; Самет, Ханан (2012). Адаптивные контекстные функции для разрешения топонимов в потоковой передаче новостей (PDF). Материалы 35-й международной конференции ACM SIGIR «Исследования и разработки в области информационного поиска». С. 731–740. Дои:10.1145/2348283.2348381.

[kamalloo2018coherent-5] а ^б Камаллоо, Эхсан; Рафией, Давуд (2018). Последовательная неконтролируемая модель разрешения топонимов. Материалы конференции World Wide Web 2018. С. 1287–1296. arXiv:1805.01952. Дои:10.1145/3178876.3186027.

[delozier2015gazetteer-6] ДеЛозье, Грант; Болдридж, Джейсон; Лондон, Лоретта (2015). Независимое от географического справочника разрешение топонимов с использованием географических профилей слов. Материалы Двадцать девятой конференции AAAI по искусственному интеллекту. С. 2382–2388.

[7] ttp://perladvent.org/2016/2016-12-16.html

[1]

[2]

[3]

[4]

[5]

[6]

[7]