Разрешение топонимов - Википедия - Toponym resolution
В географические информационные системы, разрешение топонима это процесс отношений между топоним, то есть упоминание места и однозначный пространственный след того же места.[1]
Те же географические названия исторически использовались поселенцами-эмигрантами для обозначения своих новых домов, что привело к ссылкам на двусмысленность географических названий. Иногда оригинальное имя изменяется (например, «Йорк» против «Нью-Йорк»). Во многих случаях имя используется повторно без изменений («Бостон» в Англии, Великобритании против «Бостон» в Массачусетсе, США). Чтобы сопоставить набор географических названий или топонимов, встречающихся в документе, с соответствующими им широта /долгота координаты, многоугольник или любой другой пространственный след, шаг устранения неоднозначности необходим. Алгоритм разрешения топонима - это автоматический метод, который выполняет сопоставление топонима с пространственным следом.
Большинство методов разрешения топонимов используют географический справочник возможных отображений между именами и пространственными следами.[2]
Процесс разрешения
«Однозначный пространственный след того же места»[1] определение может быть на самом деле однозначным или «не столь однозначным». Есть несколько разных контексты неуверенность где может происходить процесс разрешения:
- Когда доказательства географические и не вызывают сомнений. Например, чтобы получить название страны для места фотографии, когда это место является местоположением GPS (ошибка 10 метров), на расстоянии 1000 км от границ страны.
- Когда доказательства географические, но со значительной неопределенностью. Представьте себе аналогичный сценарий, где ошибка GPS составляет 100 метров, а место находится недалеко от границы страны, примерно на 100 метров.
- Когда доказательства только текстовые. Представьте себе письмо, в котором рассказчик - турист, рассказывающий о своей поездке после возвращения из отпуска. Единственные свидетельства - текстовые, в повествовании.
- Смешанные источники доказательств: более одного доказательства, ни одного точного.
Из географических свидетельств
Разрешение топонима иногда представляет собой простое преобразование названия в аббревиатуру, особенно когда аббревиатура используется как стандартная. геокодировать. Например, преобразование официального названия страны Афганистан в Код страны ISO, AF
.
В аннотировании медиа и метаданные, преобразование с использованием карта и географическое свидетельство (например, GPS), является наиболее обычным подходом для получения топонима или геокодировать что представляет собой топоним.
Из текстовых свидетельств
В отличие от геокодирование почтовых адресов, которые обычно хранятся в структурированных база данных записей, разрешение топонимов обычно применяется к большим коллекциям неструктурированных текстовых документов, чтобы связать упомянутые в них местоположения с картами.
Процесс аннотирования медиа (например, изображения, текста, видео) с использованием пространственных следов известен как Геотеги. Чтобы автоматически добавить геотег к текстовому документу, обычно выполняются следующие шаги: признание топонима (т.е. обнаружение текстовых ссылок на географические местоположения) и разрешение топонима (т. е. выбор соответствующей интерпретации местоположения для каждой географической ссылки).
Распознавание топонимов можно рассматривать как частный случай признание названного лица где цель состоит в том, чтобы просто получить объекты местоположения. Однако результат распознавания именованных сущностей можно улучшить с помощью правил, созданных вручную, или статистических правил.[3].
Для получения интерпретации местоположения, разрешающая способность модели, как правило, используют географические справочники (т.е. огромные базы данных местоположений), такие как GeoNames и OpenStreetMap. Наивный подход к разрешению топонимов - это выбрать наиболее популярную интерпретацию из списка кандидатов. Например, в следующем отрывке:
Мужчина из Торонто, живущий и работающий в Лондоне, `` не уверен в будущем '' в Великобритании после Брексита
— CBC
Наивный подход кажется жизнеспособным, поскольку топонимы Торонто и Лондон относятся к их наиболее распространенной интерпретации, расположенной в Канаде и Великобритании соответственно, тогда как в следующем фрагменте из новостной статьи:
Скоростная железная дорога между Торонто и Лондоном к 2025 году
— CBC
Такой подход не позволяет точно определить топоним Лондон как город, расположенный в Онтарио, Канада. Следовательно, выбор самой высокой совокупности не может хорошо работать для топонимов в локализованном контексте.
Кроме того, разрешение топонима не обращается метонимия в целом. Тем не менее, метод разрешения все еще может устранить неоднозначность метонимической ссылки, если она идентифицирована как топоним на этапе распознавания. Например, в следующем отрывке:
Канада также корректирует свои законы о дорожном движении с учетом DUI каннабиса.
— Esquire
Канада указывает на метонимия и относится к «правительству Канады». Однако его можно определить как местоположение с помощью универсального распознавателя именованных сущностей, и, таким образом, преобразователь топонимов может устранить неоднозначность.
Подходы
Методы разрешения топонимов в целом можно разделить на под наблюдением и без присмотра модели. Контролируемые методы обычно рассматривают проблему как задачу обучения, в которой модель сначала извлекает контекстные и неконтекстные функции, а затем классификатор обучается на помеченном наборе данных. Адаптивная модель[4] является одной из выдающихся моделей, предлагаемых при разрешении топонимов. Для каждой интерпретации топонима модель выводит контекстно-зависимые характеристики на основе географической близости и родственных связей с другими интерпретациями. В дополнение к функциям, связанным с контекстом, модель выигрывает от бесконтекстных функций, включая численность населения и местоположение аудитории. С другой стороны, модели без учителя не требуют аннотированных данных. Они превосходят контролируемые модели, когда аннотированный корпус недостаточно велик, а контролируемые модели могут плохо обобщаться.[5].
Неконтролируемые модели, как правило, лучше используют взаимодействие топонимов, упомянутых в документе. Слияние контекст-иерархия[5] Модель оценивает географический охват документов и использует связи между близлежащими географическими названиями в качестве доказательства для определения топонимов. Путем отображения проблемы на бесконфликтный установить проблему прикрытия, эта модель обеспечивает когерентное и надежное разрешение.
Кроме того, использование Википедии и баз знаний доказало свою эффективность в разрешении топонимов. TopoCluster[6] моделирует географическое значение слов, включая страницы Википедии с описанием местоположений, и устраняет неоднозначность топонимов, используя пространственные значения слов в тексте.
Геопарсинг
Геопарсинг представляет собой специальный процесс преобразования топонимов, заключающийся в преобразовании текстовых описаний мест (например, «двадцать миль к северо-востоку от Джелалабада») в однозначные географические идентификаторы, такие как географические координаты выражается как широта -долгота. Можно также геоанализировать ссылки на местоположение из других форм мультимедиа, например аудиоконтент, в котором говорящий упоминает место. С географическими координатами объекты могут быть нанесены на карту и введены в Географические информационные системы. Два основных использования географических координат, полученных из неструктурированного контента, - это нанесение частей контента на карты и поиск контента с использованием карты в качестве фильтра.
Геопарсинг выходит за рамки геокодирование. Геокодирование анализирует однозначно структурированные ссылки на местоположения, такие как почтовые адреса и строго отформатированные числовые координаты. Geoparsing обрабатывает неоднозначные ссылки в неструктурированном дискурсе, например «Аль-Хамра», что является названием нескольких мест, включая города в Сирии и Йемене.
А геоанализатор это часть программного обеспечения или (веб-службы), которая помогает в этом процессе. Некоторые примеры:
- Геолокация автоматическая географическая привязка
- BioGeomancer - Полуавтоматическая географическая привязка
- Сервер имен GEOnet - Свободно доступная информация ГИС для районов за пределами США и Антарктиды, ежемесячно обновляемая Национальным агентством геопространственной разведки (NGA) и Советом США по географическим названиям (US BGN)
- Информационная система географических названий (GNIS) - База данных в свободном доступе, содержащая информацию о почти 2 миллионах физических объектов, мест и ориентиров в США.
- КЛАВИН - CLAVIN (Cartographic Location And Vicinity INdexer) - это программный пакет с открытым исходным кодом для геотегирования и геоанализа документов, который использует контекстное разрешение географических объектов.
- Geoparser.io - Geoparser.io - это веб-сервис, который определяет места, упомянутые в тексте, устраняет неоднозначность этих мест и возвращает GeoJSON с подробными метаданными о местах, найденных в тексте.
- Geocode.xyz - Geocode.xyz - это веб-сервис, который определяет названия мест и почтовые адреса, упомянутые в тексте.[7]
- геопарсепия - geoparsepy - это бесплатная библиотека геоанализа Python, поддерживающая произвольное определение местоположения текста и устранение неоднозначности с использованием базы данных OpenStreetMap
Рекомендации
- ^ а б ДеЛозье, Йохен Л. (2007). Разрешение топонима в тексте: аннотация, оценка и приложения пространственного заземления (Кандидат наук). Эдинбургский университет.
- ^ Хилл, Линда Л. (2006). Географическая привязка: географические ассоциации информации. MIT Press. ISBN 978-0262083546.
- ^ Либерман, Майкл Д .; Самет, Ханан (2011). Многогранное распознавание топонимов для потоковой передачи новостей (PDF). Материалы 34-й международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска. С. 843–852. Дои:10.1145/2009916.2010029.
- ^ Либерман, Майкл Д .; Самет, Ханан (2012). Адаптивные контекстные функции для разрешения топонимов в потоковой передаче новостей (PDF). Материалы 35-й международной конференции ACM SIGIR «Исследования и разработки в области информационного поиска». С. 731–740. Дои:10.1145/2348283.2348381.
- ^ а б Камаллоо, Эхсан; Рафией, Давуд (2018). Последовательная неконтролируемая модель разрешения топонимов. Материалы конференции World Wide Web 2018. С. 1287–1296. arXiv:1805.01952. Дои:10.1145/3178876.3186027.
- ^ ДеЛозье, Грант; Болдридж, Джейсон; Лондон, Лоретта (2015). Независимое от географического справочника разрешение топонимов с использованием географических профилей слов. Материалы Двадцать девятой конференции AAAI по искусственному интеллекту. С. 2382–2388.
- ^ http://perladvent.org/2016/2016-12-16.html