Семантический спектр - Semantic spectrum
Эта статья поднимает множество проблем. Пожалуйста помоги Улучши это или обсудите эти вопросы на страница обсуждения. (Узнайте, как и когда удалить эти сообщения-шаблоны) (Узнайте, как и когда удалить этот шаблон сообщения)
|
В семантический спектр (иногда называемый спектр онтологий или интеллектуальный континуум данных или семантическая точность) представляет собой серию все более точных или, скорее, семантически выразительные определения для элементы данных в представления знаний, особенно для машинного использования.
В нижней части спектра находится простая привязка одного слова или фразы и ее определения. В верхнем конце это полный онтология который определяет отношения между элементами данных с использованием точных URI для отношений и свойств.
С увеличением специфичность дает повышенную точность и возможность использовать инструменты для автоматической интеграции систем, но также увеличивает затраты на создание и обслуживание реестр метаданных.
Некоторые шаги в семантическом спектре включают следующее:
- глоссарий: Простой список терминов и их определений. Глоссарий предназначен для создания полного списка терминов и аббревиатур, относящихся к предметной области. Он полезен для создания четких и однозначных определений терминов, а поскольку он может быть создан с помощью простых инструментов обработки текста, требуется несколько технических инструментов.
- контролируемый словарный запас: Простой список терминов, определений и соглашений об именах. Управляемый словарь часто имеет некоторый тип процесса надзора, связанный с добавлением или удалением определений элементов данных для обеспечения согласованности. Термины часто определяются по отношению друг к другу.
- словарь с данными: Термины, определения, соглашения об именах и одно или несколько представлений элементов данных в компьютерной системе. Словари данных часто определяют типы данных, проверки валидации, такие как перечисляемые значения, и формальные определения каждого из перечисленных значений.
- модель данных: Термины, определения, соглашения об именах, представления и одно или несколько представлений элементов данных, а также начало спецификации отношений между элементами данных, включая абстракции и контейнеры.
- таксономия: Полная модель данных в иерархии наследования, в которой все элементы данных наследуют свое поведение от одного «суперэлемента данных». Разница между моделью данных и формальной таксономией заключается в расположении элементов данных в формальной древовидной структуре, где каждый элемент в дереве представляет собой формально определенную концепцию со связанными свойствами.
- онтология: Полная машиночитаемая спецификация концептуализации с использованием URI (а потом Ирис ) для всех элементов данных, свойств и типов отношений. В W3C стандартным языком для представления онтологий является Язык веб-онтологий (СОВА). Онтологии часто содержат формальные бизнес-правила, сформированные в виде дискретных логических операторов, которые связывают элементы данных друг с другом.
Типичные вопросы для определения семантической точности
Ниже приводится список вопросов, которые могут возникнуть при определении семантической точности.
- правильность
- Как обеспечить соблюдение правильного синтаксиса и семантики? Инструменты (такие как Схема XML ) легко доступны для проверки синтаксиса обмена данными?
- адекватность / выразительность / объем
- Представляет ли система все, что может быть использовано на практике? Делается ли акцент на данных, которые передаются извне (открываются или передаются между системами)?
- эффективность
- Насколько эффективно можно искать / запрашивать представление и - возможно - аргументированный на?
- сложность
- Насколько крутой кривая обучения для определения новых концепций, запроса или ограничения их? есть ли подходящие инструменты для упрощения типичных рабочих процессов? (Смотрите также: редактор онтологий )
- переводимость
- Можно ли легко преобразовать представление (например, с помощью Преобразование на основе словарного запаса ) в эквивалентное представление так, чтобы семантическая эквивалентность обеспечен?
Определение местоположения в семантическом спектре
Многие организации сегодня создают реестр метаданных хранить их определения данных и выполнять публикация метаданных. Часто возникает вопрос о том, где они находятся в семантическом спектре. Чтобы определить, где находятся ваши системы, часто полезны некоторые из следующих вопросов.
- Есть ли централизованный глоссарий терминов по предмету?
- Включает ли глоссарий терминов точные определения каждого термина?
- Есть ли центральный репозиторий для хранения элементы данных что включает информацию о типах данных?
- Есть ли процесс утверждения, связанный с созданием и изменением элементов данных?
- Перечислены ли закодированные элементы данных? Есть ли у каждого перечисления полное определение?
- Есть ли процесс удаления повторяющихся или избыточных элементов данных из реестра метаданных?
- Используется ли одна или несколько схем классификации для классификации элементов данных?
- Обмен документами и веб-сервисы созданы с использованием элементов данных?
- Может ли центральный реестр метаданных использоваться как часть Модельно-управляемая архитектура ?
- Есть ли сотрудники, обученные извлекать элементы данных, которые можно повторно использовать в структурах метаданных?
Стратегический характер семантики
Сегодня большая часть Всемирной паутины хранится как Язык гипертекстовой разметки. Поисковым системам серьезно мешает их неспособность понять смысл опубликованных веб-страниц. Эти ограничения привели к появлению Семантическая сеть движение.
В прошлом многие организации, создававшие собственные приложения для баз данных, использовали изолированные группы разработчиков, которые официально не публиковали свои определения данных. Эти группы часто использовали определения внутренних данных, несовместимые с другими компьютерными системами. Это сделано Интеграция корпоративных приложений и Хранилище данных чрезвычайно сложно и дорого. Многие организации сегодня требуют, чтобы группы обращались к централизованному реестру данных перед созданием новых приложений.
Должность человека, ответственного за координацию данных организации, является Архитектор данных.
История
Первое упоминание этого термина было в 1999 г. AAAI Панель онтологий. Панель была организована Крисом Велти, который по настоянию Фрица Лемана и в сотрудничестве с участниками дискуссии (Фриц, Майк Ушольд, Майк Грунингер, и Дебора МакГиннесс ) придумал «спектр» видов информационных систем, которые в то время назывались онтологиями. Картина «онтологического спектра» появилась в печати во введении кФормальная онтология и информационные системы: Материалы конференции 2001 г.. Спектр онтологий также был представлен в выступлении Деборы МакГиннесс на конференции Semantics for the Web в 2000 году в Дагстуле. МакГиннесс произвел бумага описание точек в этом спектре, появившихся в книге, появившейся (намного позже) на этом семинаре, называется «Вращение семантической паутины». Позже Лео Обрст расширил спектр до двух измерений (который технически больше не является спектром) и добавил гораздо больше деталей, которые были включены в его книгу, Семантическая сеть Интернет: руководство к будущему XML, веб-служб и управления знаниями.
Концепция семантической точности в бизнес-системы был популяризирован Дэйв МакКомб в его книге Семантика в бизнес-системах: руководство для опытных менеджеров опубликовано в 2003 году, где он часто использует термин Семантическая точность.
Это обсуждение сосредоточилось вокруг 10-уровневого раздела, который включает следующие уровни (перечисленные в порядке увеличения семантической точности):
- Простой каталог элементов данных
- Глоссарий терминов и определений
- Тезаурусы, Узкие термины, Отношения
- Неформальный "Это "отношения
- Формальные отношения типа "а-а"
- Формальный экземпляры
- Кадры (характеристики)
- Ограничения по стоимости
- Несвязанность, Обратный, Часть
- Общие логические ограничения
Обратите внимание, что особое внимание было уделено добавлению формальных это отношения к спектру, который, кажется, был отброшен.
Компания Церебра также популяризировал эту концепцию, описывая форматы данных, которые существуют на предприятии, благодаря их способности хранить семантически точные метаданные. В их список входят:
- HTML
- Обработка текста документы
- Майкрософт Эксель
- Реляционные базы данных
- XML
- Схема XML
- Таксономии
- Онтологии
Общим для этих концепций является способность хранить информацию с повышенной точностью для облегчения работы интеллектуальных агентов.
Смотрите также
Рекомендации
- Семантика в бизнес-системах: руководство для опытных менеджеров, Дэйв МакКомб, 2003
- Онтологии достигли совершеннолетия к Дебора Л. МакГиннесс
- Рисунок 2, который включает онтологический спектр