Структурированный документ - Structured document

А структурированный документ является электронный документ где какой-то метод разметка используется для обозначения всего и частей документа как имеющих различное значение, выходящее за рамки их форматирования. Например, в структурированном документе определенная часть может быть идентифицирована как «название главы» (или «образец кода» или «катрен»), а не как «Helvetica bold 24» или «Courier с отступом». Такие части обычно называют «компонентами» или «элементами» документа.

Обзор

Структурированные документы обычно ориентированы на маркировку вещей, которые можно использовать для различных целей обработки, а не просто для форматирования. Например, явное обозначение «заголовка главы» или «выделения» гораздо более полезно для систем для слабовидящих, чем просто «Helvetica bold 24» или «курсив». Точно так же значимая маркировка многих элементов на листе технической информации обеспечивает лучшую интеграцию с базами данных, поисковыми системами, онлайн-каталогами и т. Д.

Структурированные документы обычно поддерживают по крайней мере иерархические структуры, например списки, а не просто элементы списка; разделы, а не только заголовки разделов; и так далее. Это резко контрастирует с системами, ориентированными на форматирование. Высокопроизводительные системы также поддерживают несколько независимых и / или перекрывающихся наборов компонентов.[1]

Системы структурированных документов обычно позволяют создавать явные правила, определяющие типы компонентов и способы их комбинирования. Такой набор правил называется «схемой» по аналогии с схемы базы данных. Существует несколько формальных языков для их определения, например XSD, Relax NG, и Схематрон. Структурированный документ, который подчиняется правилам схемы, обычно называется «действительным в соответствии с этой схемой». Некоторые системы также поддерживают документы с компонентами произвольных типов и комбинаций, но с синтаксическими правилами идентификации этих компонентов.

Ли и Саарела отметили "Стандартный обобщенный язык разметки (SGML) является пионером в концепции структурированных документов ",[2] хотя более ранние системы, такие как Писец, Увеличить, и ФРЕСС предоставляет множество функций и возможностей структурированного документа, а потомок SGML XML сейчас одобрено.

Одним из очень широко используемых представлений для структурированных документов является HTML, схема, определенная и описанная W3C. Однако в HTML есть не только теги для смысло-ориентированных компонентов, таких как абзац, заголовок и код; но также ориентированные на формат, такие как курсив, полужирный шрифт и большинство таблиц. На практике HTML иногда используется как система структурированных документов, но часто используется как язык форматирования.

Многие домены используют структурированные документы через доменные схемы, которые они совместно разработали, например JATS для издания журналов, TEI для литературных документов, UBL и EDI для делового обмена, XTCE для телеметрии космических аппаратов, ОТДЫХ для веб-интерфейсов и многое другое. Во всех этих случаях используются определенные схемы, основанные на XML.

XML универсальный формат для структурированных документов и данных в Интернете

Структурная семантика

При написании структурированных документов основное внимание уделяется кодированию логической структуры документа, при этом меньше или даже совсем не делается явной работы, посвященной его представлению людям с помощью печатных страниц или экранов (в некоторых случаях такого использования даже не ожидается). Структурированные документы могут быть легко обработаны компьютерными системами для извлечения и представления производных форм документа. Например, в большинстве статей Википедии оглавление автоматически создается из различных тегов заголовков в теле документа. Поскольку преобразование SGML Оксфордский словарь английского языка явно различая множество различных значений, которые придают использованию курсива в печатной версии, инструменты поиска могут извлекать записи на основе этимологии, цитат и многих других интересующих функций. Когда HTML предоставляет структурную, а не просто форматирующую информацию, слабовидящим пользователям может быть легко предоставлен более удобный интерфейс для чтения. Когда туристические компании предоставляют маршруты в виде структурированных документов, а не просто отображения, пользовательские инструменты могут легко извлекать необходимые факты и передавать их в календарь или другие приложения.

В HTML частью логической структуры документа может быть тело документа; <body>, содержащий заголовок первого уровня; <h1>, и абзац; <p>.

<тело><h1>Структурированный документ</h1><п>А <сильный учебный класс="selflink">структурированный документ</сильный> является <а href="/ wiki / Электронный_документ" заглавие=«Электронный документ»>электронный документ</а> где какой-то метод <а href="/ wiki / Markup_language" заглавие="Язык разметки">разметка</а> используется для обозначения всего и частей документа как имеющих различное значение, выходящее за рамки их форматирования.</п></тело>

Одной из наиболее привлекательных особенностей структурированных документов является то, что их можно повторно использовать во многих контекстах и ​​по-разному представлять на мобильных телефонах, экранах телевизоров, синтезаторах речи и любых других устройствах, которые можно запрограммировать для их обработки.

Другая семантика

Другому значению можно приписать текст, который не является «структурным» в том же смысле, что и более крупные объекты, но все же считается «структурой документа», потому что он выражает утверждения относительно объема и характера или онтология частей документа, а не инструкций по его представлению. в HTML фрагмент выше, <strong> элемент означает, что заключенный текст подчеркнут. С визуальной точки зрения это обычно отображается жирным шрифтом, как и <b>; но речевой интерфейс, скорее всего, будет использовать голосовую интонацию. Период, термин семантическая разметка исключает разметку вроде <b> который напрямую не выражает никакого смысла, кроме инструкции для визуального отображения (хотя интеллектуальный агент может быть в состоянии различить структурный смысл, скрывающийся за тегом). Тег «strong» является «описательным» или «структурным» в том смысле, что он предназначен для обозначения абстрактного, квазилингвистического свойства его содержания, а не для описания соответствующего представления на каком-то конкретном носителе.

Некоторые другие структурные теги в HTML включают <abbr>, <acronym>, <address>, <cite>, <del>, <dfn>, <ins>, <kbd>, and <q>. Другие схемы, такие как DocBook и TEI есть гораздо больший выбор.

Якорь <a> Тег используется для другого, немного другого типа структуры, а именно для структуры взаимосвязей или перекрестных ссылок, а не для разделения интервалов. Это определенно структура, и на самом деле можно создать альтернативную разметку для документов, которая выражает одни и те же конкретные структуры любым способом (например, используя включение для представления содержимого раздела, а не презентаций с навигационными гиперссылками).

HTML с самого начала также имел теги, которые выражают семантику представления, например смелый (<b>) или же курсив (<i>) или изменить размеры шрифта или которые оказали другое влияние на презентацию.[3] Современные версии языки разметки препятствовать такой разметке в пользу описательной разметки, которая отображается на конкретные презентации через таблицы стилей, метод, впервые примененный в таких системах, как Писец и ФРЕСС. Различные таблицы стилей могут быть прикреплены к любой разметке, семантической или презентационной, для создания различных презентаций, хотя отображение имени тега «курсив» на полужирное представление не совсем интуитивно понятно.

Контекст и намерение

В принципе, то, что составляет «структуру» или «неструктуру», может варьироваться. В книге, посвященной типографике, пометка чего-либо «курсивом» или «жирным шрифтом» вполне может быть ключевым моментом. Например, при обсуждении того, когда использовать определенные стили, вероятно, потребуется привести примеры и контрпримеры, которые больше не имеют смысла, если рендеринг не синхронизирован с прозой. Точно так же конкретное издание документа может представлять интерес не только своим содержанием, но и типографской практикой, и в этом случае описание этой практики не только желательно, но и необходимо. Однако эта проблема характерна не только для структуры документа; он также возникает в грамматике при обсуждении грамматики и во многих других случаях.

Смотрите также

Рекомендации

  1. ^ ДеРоуз, Стивен (2004). Перекрытие разметки: обзор и лошадь. Языки экстремальной разметки 2004. Монреаль. CiteSeerX  10.1.1.108.9959. Получено 2014-10-14.CS1 maint: ref = harv (связь)
  2. ^ Хокон Виум Ли; Янне Саарела (1998). «Многоцелевые публикации с использованием HTML, XML и CSS». W3.org. Ассоциация вычислительной техники.
  3. ^ "Образец экземпляра HTML". Получено 5 марта 2014.