Семантический спектр - Semantic spectrum

В семантический спектр (иногда называемый спектр онтологий или интеллектуальный континуум данных или семантическая точность) представляет собой серию все более точных или, скорее, семантически выразительные определения для элементы данных в представления знаний, особенно для машинного использования.

В нижней части спектра находится простая привязка одного слова или фразы и ее определения. В верхнем конце это полный онтология который определяет отношения между элементами данных с использованием точных URI для отношений и свойств.

С увеличением специфичность дает повышенную точность и возможность использовать инструменты для автоматической интеграции систем, но также увеличивает затраты на создание и обслуживание реестр метаданных.

Некоторые шаги в семантическом спектре включают следующее:

  1. глоссарий: Простой список терминов и их определений. Глоссарий предназначен для создания полного списка терминов и аббревиатур, относящихся к предметной области. Он полезен для создания четких и однозначных определений терминов, а поскольку он может быть создан с помощью простых инструментов обработки текста, требуется несколько технических инструментов.
  2. контролируемый словарный запас: Простой список терминов, определений и соглашений об именах. Управляемый словарь часто имеет некоторый тип процесса надзора, связанный с добавлением или удалением определений элементов данных для обеспечения согласованности. Термины часто определяются по отношению друг к другу.
  3. словарь с данными: Термины, определения, соглашения об именах и одно или несколько представлений элементов данных в компьютерной системе. Словари данных часто определяют типы данных, проверки валидации, такие как перечисляемые значения, и формальные определения каждого из перечисленных значений.
  4. модель данных: Термины, определения, соглашения об именах, представления и одно или несколько представлений элементов данных, а также начало спецификации отношений между элементами данных, включая абстракции и контейнеры.
  5. таксономия: Полная модель данных в иерархии наследования, в которой все элементы данных наследуют свое поведение от одного «суперэлемента данных». Разница между моделью данных и формальной таксономией заключается в расположении элементов данных в формальной древовидной структуре, где каждый элемент в дереве представляет собой формально определенную концепцию со связанными свойствами.
  6. онтология: Полная машиночитаемая спецификация концептуализации с использованием URI (а потом Ирис ) для всех элементов данных, свойств и типов отношений. В W3C стандартным языком для представления онтологий является Язык веб-онтологий (СОВА). Онтологии часто содержат формальные бизнес-правила, сформированные в виде дискретных логических операторов, которые связывают элементы данных друг с другом.

Типичные вопросы для определения семантической точности

Ниже приводится список вопросов, которые могут возникнуть при определении семантической точности.

правильность
Как обеспечить соблюдение правильного синтаксиса и семантики? Инструменты (такие как Схема XML ) легко доступны для проверки синтаксиса обмена данными?
адекватность / выразительность / объем
Представляет ли система все, что может быть использовано на практике? Делается ли акцент на данных, которые передаются извне (открываются или передаются между системами)?
эффективность
Насколько эффективно можно искать / запрашивать представление и - возможно - аргументированный на?
сложность
Насколько крутой кривая обучения для определения новых концепций, запроса или ограничения их? есть ли подходящие инструменты для упрощения типичных рабочих процессов? (Смотрите также: редактор онтологий )
переводимость
Можно ли легко преобразовать представление (например, с помощью Преобразование на основе словарного запаса ) в эквивалентное представление так, чтобы семантическая эквивалентность обеспечен?

Определение местоположения в семантическом спектре

Многие организации сегодня создают реестр метаданных хранить их определения данных и выполнять публикация метаданных. Часто возникает вопрос о том, где они находятся в семантическом спектре. Чтобы определить, где находятся ваши системы, часто полезны некоторые из следующих вопросов.

  1. Есть ли централизованный глоссарий терминов по предмету?
  2. Включает ли глоссарий терминов точные определения каждого термина?
  3. Есть ли центральный репозиторий для хранения элементы данных что включает информацию о типах данных?
  4. Есть ли процесс утверждения, связанный с созданием и изменением элементов данных?
  5. Перечислены ли закодированные элементы данных? Есть ли у каждого перечисления полное определение?
  6. Есть ли процесс удаления повторяющихся или избыточных элементов данных из реестра метаданных?
  7. Используется ли одна или несколько схем классификации для классификации элементов данных?
  8. Обмен документами и веб-сервисы созданы с использованием элементов данных?
  9. Может ли центральный реестр метаданных использоваться как часть Модельно-управляемая архитектура ?
  10. Есть ли сотрудники, обученные извлекать элементы данных, которые можно повторно использовать в структурах метаданных?

Стратегический характер семантики

Сегодня большая часть Всемирной паутины хранится как Язык гипертекстовой разметки. Поисковым системам серьезно мешает их неспособность понять смысл опубликованных веб-страниц. Эти ограничения привели к появлению Семантическая сеть движение.

В прошлом многие организации, создававшие собственные приложения для баз данных, использовали изолированные группы разработчиков, которые официально не публиковали свои определения данных. Эти группы часто использовали определения внутренних данных, несовместимые с другими компьютерными системами. Это сделано Интеграция корпоративных приложений и Хранилище данных чрезвычайно сложно и дорого. Многие организации сегодня требуют, чтобы группы обращались к централизованному реестру данных перед созданием новых приложений.

Должность человека, ответственного за координацию данных организации, является Архитектор данных.

История

Первое упоминание этого термина было в 1999 г. AAAI Панель онтологий. Панель была организована Крисом Велти, который по настоянию Фрица Лемана и в сотрудничестве с участниками дискуссии (Фриц, Майк Ушольд, Майк Грунингер, и Дебора МакГиннесс ) придумал «спектр» видов информационных систем, которые в то время назывались онтологиями. Картина «онтологического спектра» появилась в печати во введении кФормальная онтология и информационные системы: Материалы конференции 2001 г.. Спектр онтологий также был представлен в выступлении Деборы МакГиннесс на конференции Semantics for the Web в 2000 году в Дагстуле. МакГиннесс произвел бумага описание точек в этом спектре, появившихся в книге, появившейся (намного позже) на этом семинаре, называется «Вращение семантической паутины». Позже Лео Обрст расширил спектр до двух измерений (который технически больше не является спектром) и добавил гораздо больше деталей, которые были включены в его книгу, Семантическая сеть Интернет: руководство к будущему XML, веб-служб и управления знаниями.

Концепция семантической точности в бизнес-системы был популяризирован Дэйв МакКомб в его книге Семантика в бизнес-системах: руководство для опытных менеджеров опубликовано в 2003 году, где он часто использует термин Семантическая точность.

Это обсуждение сосредоточилось вокруг 10-уровневого раздела, который включает следующие уровни (перечисленные в порядке увеличения семантической точности):

  1. Простой каталог элементов данных
  2. Глоссарий терминов и определений
  3. Тезаурусы, Узкие термины, Отношения
  4. Неформальный "Это "отношения
  5. Формальные отношения типа "а-а"
  6. Формальный экземпляры
  7. Кадры (характеристики)
  8. Ограничения по стоимости
  9. Несвязанность, Обратный, Часть
  10. Общие логические ограничения

Обратите внимание, что особое внимание было уделено добавлению формальных это отношения к спектру, который, кажется, был отброшен.

Компания Церебра также популяризировал эту концепцию, описывая форматы данных, которые существуют на предприятии, благодаря их способности хранить семантически точные метаданные. В их список входят:

  1. HTML
  2. PDF
  3. Обработка текста документы
  4. Майкрософт Эксель
  5. Реляционные базы данных
  6. XML
  7. Схема XML
  8. Таксономии
  9. Онтологии

Общим для этих концепций является способность хранить информацию с повышенной точностью для облегчения работы интеллектуальных агентов.

Смотрите также

Рекомендации