Не зависящие от схемы базы данных - Schema-agnostic databases

Не зависящие от схемы базы данных или словарно-независимые базы данных стремятся помочь пользователям абстрагироваться от представления данных, поддерживая автоматическое семантическое соответствие между запросами и базы данных. Схематический агностицизм является свойством базы данных отображать запрос, выданный с пользовательской терминологией и структурой, автоматически отображая его в словарь набора данных.

Увеличение размера и семантическая неоднородность схем баз данных предъявляют новые требования к запросам и поиску пользователей. структурированные данные. В таком масштабе для потребителей данных может оказаться невозможным ознакомиться с представлением данных, чтобы запросить их. В центре этого обсуждения находится семантический разрыв между пользователями и базами данных, который становится все более центральным по мере роста масштаба и сложности данных.

Описание

Эволюция сред данных в сторону потребления данных из нескольких источников и рост размер схемы, сложность, динамичность и децентрализация (SCoDD) схем[1][2][3] увеличивает сложность современного управления данными. Тенденция SCoDD становится центральной проблемой управления данными в Большое количество данных сценарии, в которых пользователям и приложениям требуются более полные данные, полученные из независимых источников данных, при различных семантических предположениях и контекстах использования, что является типичным сценарием для Семантическая сеть Приложения данных.

Развитие баз данных в направлении гетерогенных сред данных сильно влияет на удобство использования, семиотика и семантические допущения, лежащие в основе существующих методов доступности данных, таких как структурированные запросы, поиск по ключевым словам и системы визуальных запросов. С базами данных без схемы, содержащими потенциально миллионы динамически изменяющихся атрибутов, для некоторых пользователей становится невозможным узнать о «схеме» или словаре, чтобы запросить базу данных. В этом масштабе усилия по пониманию схемы для построения структурированного запроса могут стать непомерными.

Запросы, не зависящие от схемы

Запросы, не зависящие от схемы, можно определить как подходы к запросам по структурированным базам данных, которые позволяют пользователям удовлетворять сложные информационные потребности без понимания представления (схемы) базы данных. Аналогичным образом Tran et al.[4] определяет его как «подходы к поиску, которые не требуют от пользователей знания схемы, лежащей в основе данных». Такие подходы, как поиск по базам данных по ключевым словам, позволяют пользователям запрашивать базы данных без использования структурированных запросов. Однако, как обсуждалось Траном и др.: «С этих позиций пользователям, однако, приходится выполнять дальнейшую навигацию и исследования для удовлетворения сложных информационных потребностей. В отличие от поиска по ключевым словам, используемого в Интернете, который ориентирован на простые потребности, разработанный здесь поиск по ключевым словам является используется для получения более сложных результатов. Вместо единого набора ресурсов целью является вычисление сложных наборов ресурсов и их взаимосвязей ».

Разработка подходов к поддержке интерфейсы на естественном языке (NLI) над базами данных были нацелены на создание запросов, не зависящих от схемы. Кроме того, некоторые подходы, основанные на поиске по ключевым словам, ориентированы на запросы на основе ключевых слов, которые выражают более сложные информационные потребности. Другие подходы исследовали построение структурированных запросов к базам данных, где ограничения схемы могут быть ослаблены. Все эти подходы (естественный язык, поиск по ключевым словам и структурированные запросы) нацелены на разную степень сложности при решении проблемы поддержки гибкого семантического сопоставления между запросами и данными, которые варьируются от полного отсутствия семантических соображений до более принципиальных семантических модели. Хотя требование агностицизма схемы было неявным требованием в системах семантического поиска и запросов на естественном языке по структурированным данным, оно недостаточно индивидуализировано как концепция и необходимое требование для современных систем управления базами данных. В недавних работах началось определение и моделирование семантических аспектов, связанных с запросами, не зависящими от схемы.[1][5][6]

Структурированные запросы, не зависящие от схемы

Состоят из не зависящих от схемы запросов, следующих синтаксису структурированного стандарта (например, SQL, SPARQL ). Синтаксис и семантика операторов сохраняются, но используется другая терминология.

Пример 1

ВЫБЕРИТЕ? Y {У Билла Клинтона есть дочь? X. ? x замужем за? y.}

который соответствует следующему SPARQL запрос в словаре набора данных:

ПРЕФИКС : <http://dbpedia.org/resource/>ПРЕФИКС dbpedia2: <http://dbpedia.org/property/>ПРЕФИКС dbpedia: <http://dbpedia.org/ontology/>ПРЕФИКС скос: <http://www.w3.org/2004/02/skos/core#>ПРЕФИКС dbo: <http://dbpedia.org/ontology/>ВЫБРАТЬ   ? у  { :Билл Клинтон dbpedia:ребенок ?Икс . ?Икс dbpedia2:супруга ? у . }

Пример 2

ВЫБРАТЬ   ?Икс {         ?Икс это книга .         ?Икс к Уильям_Голдман .         ?Икс has_pages ?п .         ФИЛЬТР (?п > 300)  }

что соответствует следующему SPARQL запрос в словаре набора данных:

ПРЕФИКС rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>ПРЕФИКС : <http://dbpedia.org/resource/>ПРЕФИКС dbpedia2: <http://dbpedia.org/property/>ПРЕФИКС dbpedia: <http://dbpedia.org/ontology/>ВЫБРАТЬ ?Икс {         ?Икс rdf:тип dbpedia:Книга .         ?Икс dbpedia2:автор :Уильям_Голдман .          ?Икс dbpedia:число страниц ?п .ФИЛЬТР(?п > 300)}

Запросы ключевых слов, не зависящие от схемы

Состоят из запросов, не зависящих от схемы, с использованием запросов по ключевым словам. В этом случае синтаксис и семантика операторов отличаются от синтаксиса структурированного запроса.

пример

«Дочь Билла Клинтона замужем за»
«Книги Уильяма Гольдмана объемом более 300 страниц»

Семантическая сложность

По состоянию на 2016 год концепция запросов, не зависящих от схемы, разрабатывалась в основном в академических кругах. Большинство систем запросов, не зависящих от схемы, были исследованы в контексте Интерфейсы на естественном языке по базам данных или по Семантическая сеть.[7] В этих работах исследуется применение методов семантического синтаксического анализа к большим, разнородным базам данных без схемы. В последнее время в литературе более явно появилась концепция независимых от схемы систем запросов и баз данных.[1][5][6] Freitas et al.[8] предоставить вероятностную модель семантической сложности сопоставления запросов, не зависящих от схемы.

Рекомендации

  1. ^ а б c А. Фрейтас, «Не зависящие от схемы запросы к базам данных с большой схемой: подход распределенной семантики» Кандидатская диссертация, 2015 г.
  2. ^ Пэт Хелланд, [«Если у вас слишком много данных, то достаточно хорошего»], Commun. ACM 54 (6): 40–47, 2011.
  3. ^ М. Л. Броди и Дж. Т. Лю, [«Сила и ограничения реляционных технологий в эпоху информационных экосистем»], Keynote, Федеративные конференции On The Move, Ираклион, Греция, 25–29 октября 2010 г.
  4. ^ Т. Тран, Т. Матаесс, П. Хаас, [«Юзабилити поиска по ключевым словам, не зависящего от схемы - сравнительное исследование поиска по ключевым словам, фасетного поиска, завершения запроса и завершения результатов»], В трудах 7-й конференции по расширенной семантической сети (ESWC'10). Ираклион, Греция, июнь 2010 г.
  5. ^ а б А. Фрейтас, Дж. К. Перейра да Силва, Э. Карри, "О семантическом отображении схемно-независимых запросов: предварительное исследование", Семинар по интерфейсам естественного языка для сети данных (NLIWoD), 13-я Международная конференция по семантической паутине (ISWC), Rival del Garda, 2014 г.
  6. ^ а б С. Бишоф, М. Кроцш, А. Поллерес, С. Рудольф, [«Схема-агностический переписывание запросов в SPARQL 1.1»], Материалы 13-й Международной конференции по семантической паутине. Springer 2014.
  7. ^ Унгер и др., [«Введение в ответы на вопросы по связанным данным»], В материалах Летней школы Reasoning Web 2014 г., 2014 г.
  8. ^ А. Фрейтас, Дж. Э. Сейлс, С. Хандшу, Э. Карри, «Насколько сложен запрос? Измерение семантической сложности схемно-независимых запросов», В материалах 11-й Международной конференции по вычислительной семантике (IWCS), Лондон, 2015.