Эквивалентность Unicode - Unicode equivalence
Эта статья нужны дополнительные цитаты для проверка.Ноябрь 2014 г.) (Узнайте, как и когда удалить этот шаблон сообщения) ( |
Эквивалентность Unicode спецификация Unicode персонаж стандарт кодирования, что некоторые последовательности кодовые точки представляют собой по сути один и тот же персонаж. Эта функция была введена в стандарт, чтобы обеспечить совместимость с существующим стандартом. наборы символов, которые часто включают похожие или идентичные символы.
Unicode дает два таких понятия, канонический эквивалентность и совместимость. Кодовая точка последовательности, которые определены как канонически эквивалентный предполагается, что они имеют одинаковый внешний вид и значение при печати или отображении. Например, кодовая точка U + 006E ( латинский строчная буква "n"), за которой следует U + 0303 ( объединение тильда "◌̃") определяется Unicode как канонически эквивалентный единственной кодовой точке U + 00F1 (строчная буква "ñ " из Испанский алфавит ). Следовательно, эти последовательности должны отображаться одинаково, должны обрабатываться одинаково такими же приложениями, как алфавитный порядок имена или поиск, и могут быть заменены друг на друга. Точно так же каждый Хангыль Слоговый блок, который закодирован как один символ, может быть эквивалентно закодирован как комбинация ведущего соединяющегося джамо, соединяющегося гласного джамо и, если необходимо, замыкающего соединяющегося джамо.
Последовательности, которые определены как совместимый Предполагается, что они, возможно, имеют разные проявления, но в некоторых контекстах имеют одно и то же значение. Так, например, кодовая точка U + FB00 ( типографская лигатура «ff») определяется как совместимая, но не канонически эквивалентная, с последовательностью U + 0066 U + 0066 (две латинские буквы «f»). Совместимые последовательности могут обрабатываться одинаково в некоторых приложениях (например, сортировка и индексация ), но не в других; и могут заменять друг друга в одних ситуациях, но не в других. Последовательности, которые канонически эквивалентны, также совместимы, но обратное не обязательно.
Стандарт также определяет нормализация текста процедура, называемая Юникод нормализация, который заменяет эквивалентные последовательности символов, так что любые два эквивалентных текста будут сведены к одной и той же последовательности кодовых точек, называемой форма нормализации или же нормальная форма исходного текста. Для каждого из двух понятий эквивалентности Unicode определяет две нормальные формы, одну полностью составлен (где несколько кодовых точек по возможности заменяются одиночными), и одна полностью разложился (где отдельные точки разбиваются на несколько).
Источники эквивалентности
Дублирование персонажей
Для совместимости или по другим причинам Unicode иногда назначает две разные кодовые точки сущностям, которые по сути являются одним и тем же символом. Например, символ «Å» может быть закодирован как U + 00C5 (стандартное название «ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА A С КОЛЬЦОМ ВЫШЕ», буква алфавит в Шведский и несколько других языки ) или как U + 212B («ЗНАК АНГСТРОМ»). И все же символ ангстрем определяется как шведская буква и большинство других символов, которые являются буквами (например, "V" для вольт ) не имеют отдельной кодовой точки для каждого использования. В общем, кодовые точки действительно идентичных символов (которые могут отображаться одинаковым образом в шрифтах Unicode) определены как канонически эквивалентные.
Комбинирование и заранее составленные символы
Для согласованности с некоторыми старыми стандартами Unicode предоставляет единые кодовые точки для многих символов, которые можно рассматривать как измененные формы других символов (например, U + 00F1 для «ñ» или U + 00C5 для «Å») или как комбинации двух или больше символов (например, U + FB00 для лигатуры "" или U + 0132 для Голландское письмо "IJ ")
Для согласованности с другими стандартами и для большей гибкости Unicode также предоставляет коды для многих элементов, которые не используются сами по себе, но предназначены для изменения или объединения с предыдущим основной персонаж. Примеры этих объединение персонажей тильда и Японский диакритический дакутэн («◌ ゛», U + 3099).
В контексте Unicode состав персонажей представляет собой процесс замены кодовых точек базовой буквы, за которой следует один или несколько символов объединения в один заранее составленный персонаж; и разложение символов это противоположный процесс.
Как правило, предварительно составленные символы определяются как канонически эквивалентные последовательности их базовой буквы и последующего комбинирования диакритических знаков, в каком бы порядке они ни встречались.
Пример
NFC персонаж | А | м | é | л | я | е | |
---|---|---|---|---|---|---|---|
Кодовая точка NFC | 0041 | 006d | 00e9 | 006c | 0069 | 0065 | |
Кодовая точка NFD | 0041 | 006d | 0065 | 0301 | 006c | 0069 | 0065 |
NFD персонаж | А | м | е | ◌́ | л | я | е |
Типографское невзаимодействие
Некоторые скрипты регулярно используют несколько комбинирующих знаков, которые, как правило, не взаимодействуют типографически и не имеют заранее составленных символов для комбинаций. Пары таких невзаимодействующих меток могут храниться в любом порядке. Эти альтернативные последовательности в общем канонически эквивалентны. Правила, определяющие их последовательность в канонической форме, также определяют, считаются ли они взаимодействующими.
Типографские соглашения
Unicode предоставляет кодовые точки для некоторых символов или групп символов, которые изменяются только по эстетическим причинам (например, лигатуры, полуширина катакана символов или латинскими буквами двойной ширины для использования в японских текстах), или для добавления новой семантики без потери исходной (например, цифр в нижний индекс или же надстрочный индекс позиции или цифры в кружке (например, «①»), унаследованные от некоторых японских шрифтов). Такая последовательность считается совместимой с последовательностью исходных (отдельных и немодифицированных) символов в интересах приложений, в которых внешний вид и добавленная семантика не имеют значения. Однако эти две последовательности не объявлены канонически эквивалентными, так как различие имеет некоторое семантическое значение и влияет на визуализацию текста.
Ошибки кодирования
UTF-8 и UTF-16 (а также некоторые другие кодировки Unicode) не допускают всех возможных последовательностей кодовые единицы. Различное программное обеспечение преобразует недопустимые последовательности в символы Unicode, используя различные правила, некоторые из которых имеют очень большие потери (например, превращение всех недопустимых последовательностей в один и тот же символ). Это можно рассматривать как форму нормализации и может привести к тем же трудностям, что и другие.
Нормализация
Реализация поиска и сравнения строк Unicode в программном обеспечении для обработки текста должна учитывать наличие эквивалентных кодовых точек. В отсутствие этой функции пользователи, выполняющие поиск определенной последовательности кодовых точек, не смогли бы найти другие визуально неотличимые глифы, которые имеют другое, но канонически эквивалентное представление кодовой точки.
Unicode предоставляет стандартные алгоритмы нормализации, которые создают уникальную (нормальную) последовательность кодовых точек для всех эквивалентных последовательностей; критерии эквивалентности могут быть каноническими (NF) или совместимостью (NFK). Поскольку можно произвольно выбрать репрезентативный элемент класс эквивалентности, для каждого критерия эквивалентности возможно несколько канонических форм. Unicode предоставляет две нормальные формы, которые семантически значимы для каждого из двух критериев совместимости: составные формы NFC и NFKC и разложенные формы NFD и NFKD. Как составная, так и разложенная формы накладывают канонический порядок на последовательности кодовых точек, которая необходима для уникальности нормальных форм.
Для сравнения или поиска строк Unicode программное обеспечение может использовать составные или разложенные формы; этот выбор не имеет значения, если он одинаков для всех строк, участвующих в поиске, сравнении и т. д. С другой стороны, выбор критериев эквивалентности может повлиять на результаты поиска. Например, некоторые типографские лигатуры как U + FB03 (ffi), римские цифры как U + 2168 (Ⅸ) и даже нижние и верхние индексы, например U + 2075 (⁵) имеют свои собственные кодовые точки Unicode. Каноническая нормализация (NF) не влияет ни на один из них, но нормализация совместимости (NFK) разложит лигатуру ffi на составляющие буквы, поэтому поиск U + 0066 (f) в качестве подстроки будет успешным в нормализации NFKC для U + FB03 но не в нормализации NFC U + FB03. То же самое при поиске латинской буквы I (U + 0049) в предварительно составленной римской цифре Ⅸ (U + 2168). Подобным образом верхний индекс «⁵» (U + 2075) преобразуется в «5» (U + 0035) путем сопоставления совместимости.
Однако преобразование надстрочных индексов в базовые эквиваленты может не подходить для программного обеспечения с форматированным текстом, потому что информация над надстрочными индексами теряется в процессе. Чтобы учесть это различие, база данных символов Unicode содержит теги форматирования совместимости которые предоставляют дополнительные сведения о преобразовании совместимости.[1] В случае типографских лигатур этот тег просто <compat>
, а для верхнего индекса это <super>
. Стандарты форматированного текста, например HTML учтите теги совместимости. Например, HTML использует свою собственную разметку для размещения U + 0035 в позиции надстрочного индекса.[2]
Нормальные формы
Четыре формы нормализации Unicode и алгоритмы (преобразования) для их получения перечислены в таблице ниже.
NFD Каноническая декомпозиция формы нормализации | Символы разложены по канонической эквивалентности, а несколько комбинируемых символов расположены в определенном порядке. |
NFC Нормализация формы канонической композиции | Персонажи раскладываются, а затем перекомпоновываются в соответствии с канонической эквивалентностью. |
NFKD Разложение совместимости форм нормализации | Символы разложены по совместимости, а несколько комбинируемых символов расположены в определенном порядке. |
NFKC Состав совместимости форм нормализации | Символы разлагаются по совместимости, а затем перекомпоновываются по канонической эквивалентности. |
Все эти алгоритмы идемпотент преобразования, означающие, что строка, которая уже находится в одной из этих нормализованных форм, не будет изменена при повторной обработке тем же алгоритмом.
Нормальные формы не закрыто под строкой конкатенация.[3] Для дефектных строк Unicode, начинающихся с гласной хангыль или заканчивающейся соединение джамо, объединение может нарушить композицию.
Однако они не инъективный (они сопоставляют разные исходные глифы и последовательности с одной и той же нормализованной последовательностью) и, следовательно, также не биективный (не подлежит восстановлению). Например, отдельные строки Unicode «U + 212B» (знак Ангстрема «Å») и «U + 00C5» (шведская буква «Å») расширяются NFD (или NFKD) в последовательность «U + 0041». U + 030A »(латинская буква« А »и сочетание кольцо выше «°»), который затем сокращается NFC (или NFKC) до «U + 00C5» (шведская буква «Å»).
Одиночный символ (кроме блока слога хангыль), который будет заменен другим при нормализации, может быть идентифицирован в таблицах Unicode, поскольку у него есть непустое поле совместимости, но отсутствует тег совместимости.
Канонический порядок
Канонический порядок в основном связан с порядком последовательности комбинируемых символов. Для примеров в этом разделе мы предполагаем, что эти символы диакритические знаки, даже если в целом некоторые диакритические знаки не объединяют символы, а некоторые объединяющие знаки не являются диакритическими знаками.
Unicode присваивает каждому символу совмещающий класс, который обозначается числовым значением. Некомбинируемые символы имеют номер класса 0, а комбинированные символы имеют положительное значение класса комбинирования. Чтобы получить канонический порядок, каждая подстрока символов, имеющих ненулевое значение класса комбинирования, должна быть отсортирована по значению комбинирующего класса с использованием стабильная сортировка алгоритм. Требуется стабильная сортировка, поскольку предполагается, что объединение символов с одним и тем же значением класса взаимодействует типографически, поэтому два возможных порядка нет считается эквивалентным.
Например, символ U + 1EBF (ế), используемый в вьетнамский, имеет как острый, так и огибающий акцент. Его каноническая декомпозиция представляет собой трехсимвольную последовательность U + 0065 (e) U + 0302 (циркумфлексный ударение) U + 0301 (острый ударение). Классы комбинирования для двух акцентов равны 230, таким образом, U + 1EBF не эквивалентен U + 0065 U + 0301 U + 0302.
Поскольку не все комбинируемые последовательности имеют предварительно составленный эквивалент (последний в предыдущем примере может быть сокращен только до U + 00E9 U + 0302), даже на нормальную форму NFC влияет поведение комбинируемых символов.
Ошибки из-за различий в нормализации
Когда два приложения совместно используют данные Unicode, но нормализуют их по-разному, это может привести к ошибкам и потере данных. В одном конкретном случае OS X нормализованные имена файлов Unicode, отправленные из Самба программное обеспечение для совместного использования файлов и принтеров. Самба не распознал измененные имена файлов как эквивалентные оригиналу, что привело к потере данных.[4][5] Решение такой проблемы нетривиально, поскольку нормализация не является обратимой без потерь.
Смотрите также
- Сложный текстовый макет
- Диакритический
- Атака по гомографу IDN
- ISO 14651
- Лигатура (типографика)
- Предварительно составленный персонаж
- В uconv инструмент может преобразовывать в формы нормализации NFC и NFD Unicode и обратно.
- Unicode
- Символы совместимости Unicode
Примечания
- ^ "UAX # 44: База данных символов Юникода". Unicode.org. Получено 20 ноября 2014.
- ^ «Юникод в XML и других языках разметки». Unicode.org. Получено 20 ноября 2014.
- ^ За Что делать с конкатенацией
- ^ "Sourceforge.net". Sourceforge.net. Получено 20 ноября 2014.
- ^ "rsync, samba, UTF8, международные символы, боже мой!". 2009. Архивировано с оригинал 9 января 2010 г.