Код Хэмминга - Hamming code

Двоичные коды Хэмминга
Хэмминга (7,4) .svg
Код Хэмминга (7,4) (с р = 3)
Названный в честьРичард В. Хэмминг
Классификация
ТипЛинейный блочный код
Длина блока2р − 1 куда р ≥ 2
Длина сообщения2рр − 1
Ставка1 − р/(2р − 1)
Расстояние3
Размер алфавита2
Обозначение[2р − 1, 2рр − 1, 3]2-код
Характеристики
идеальный код

В Информатика и телекоммуникации, Коды Хэмминга семья линейные коды исправления ошибок. Коды Хэмминга могут обнаруживать до двух битовых ошибок или исправлять однобитовые ошибки без обнаружения неисправленных ошибок. Напротив, простой код четности не может исправлять ошибки и может обнаруживать только нечетное количество ошибочных битов. Коды Хэмминга идеальные коды, то есть достигают максимально возможного ставка для кодов с их длина блока и минимальное расстояние из трех.[1]Ричард В. Хэмминг изобрел коды Хэмминга в 1950 году как способ автоматического исправления ошибок, внесенных перфокарта читатели. В своей оригинальной статье Хэмминг развил свою общую идею, но конкретно сосредоточился на Хэмминга (7,4) код, который добавляет три бита четности к четырем битам данных.[2]

В математический В терминах коды Хэмминга представляют собой класс двоичных линейных кодов. Для каждого целого числа р ≥ 2 есть код с длина блока п = 2р − 1 и длина сообщения k = 2рр − 1. Следовательно, скорость кодов Хэмминга равна р = k / п = 1 − р / (2р − 1), что является максимально возможным для кодов с минимальным расстоянием три (то есть минимальное количество битовых изменений, необходимых для перехода от любого кодового слова к любому другому кодовому слову, равно трем) и длиной блока 2р − 1. В матрица проверки на четность кода Хэмминга строится перечислением всех столбцов длины р которые не равны нулю, что означает, что двойной код кода Хэмминга - это сокращенный код Адамара. Матрица проверки на четность обладает тем свойством, что любые два столбца попарно линейно независимый.

Из-за ограниченной избыточности, которую коды Хэмминга добавляют к данным, они могут обнаруживать и исправлять ошибки только при низком уровне ошибок. Так обстоит дело с памятью компьютера (Память ECC ), где битовые ошибки крайне редки и широко используются коды Хэмминга. В этом контексте часто используется расширенный код Хэмминга, имеющий один дополнительный бит четности. Расширенные коды Хэмминга достигают расстояния Хэмминга, равного четырем, что позволяет декодеру различать, когда возникает не более одной однобитовой ошибки, и когда возникают любые двухбитовые ошибки. В этом смысле расширенные коды Хэмминга исправляют одиночную ошибку и обнаруживают двойную ошибку, сокращенно ОТДЕЛЕННЫЙ.[3]

История

Ричард Хэмминг, изобретатель кодов Хэмминга, работал в Bell Labs в конце 1940-х на Bell Модель V компьютер, электромеханический релейная машина с временем цикла в секундах. Вход был подан на перфорированная бумажная лента шириной семь восьмых дюйма, в котором было до шести отверстий в ряду. В будние дни при обнаружении ошибок в реле машина останавливалась и мигала, чтобы операторы могли исправить проблему. В нерабочее время и в выходные дни, когда не было операторов, машина просто переходила к следующему заданию.

Хэмминг работал по выходным и все больше разочаровывался в необходимости перезапускать свои программы с нуля из-за обнаруженных ошибок. В записанном на пленку интервью Хэмминг сказал: «И поэтому я сказал:« Черт побери, если машина может обнаружить ошибку, почему она не может определить местоположение ошибки и исправить ее? »».[4] В течение следующих нескольких лет он работал над проблемой исправления ошибок, разрабатывая все более мощный набор алгоритмов. В 1950 году он опубликовал то, что теперь известно как код Хэмминга, который до сих пор используется в таких приложениях, как Память ECC.

Коды до Хэмминга

До кодов Хэмминга использовался ряд простых кодов обнаружения ошибок, но ни один из них не был так эффективен, как коды Хэмминга, в том же объеме.

Паритет

Parity добавляет один кусочек который указывает, было ли количество единиц (битовых позиций со значением один) в предыдущих данных четное или же странный. Если при передаче изменяется нечетное количество битов, сообщение изменит четность, и в этот момент может быть обнаружена ошибка; однако бит, который изменился, мог быть самим битом четности. Наиболее распространенное соглашение заключается в том, что значение четности, равное единице, указывает на нечетное количество единиц в данных, а значение четности, равное нулю, указывает, что существует четное количество единиц. Если количество измененных битов четное, контрольный бит будет действительным и ошибка не будет обнаружена.

Более того, четность не указывает, какой бит содержит ошибку, даже если он может ее обнаружить. Данные должны быть полностью отброшены и повторно переданы с нуля. В шумной среде передачи успешная передача может занять много времени или может никогда не произойти. Однако, хотя качество проверки четности оставляет желать лучшего, поскольку он использует только один бит, этот метод дает наименьшие накладные расходы.

Код два из пяти

Код два из пяти - это схема кодирования, которая использует пять битов, состоящих ровно из трех нулей и двух единиц. Это дает десять возможных комбинаций, достаточных для представления цифр 0–9. Эта схема может обнаруживать все одиночные битовые ошибки, все битовые ошибки с нечетными номерами и некоторые битовые ошибки с четными номерами (например, переворачивание обоих 1-битов). Однако он по-прежнему не может исправить ни одну из этих ошибок.

Репетиция

Другой используемый в то время код повторял каждый бит данных несколько раз, чтобы гарантировать, что он был отправлен правильно. Например, если бит данных, который должен быть отправлен, равен 1, п = 3 код повторения отправит 111. Если три полученных бита не идентичны, во время передачи произошла ошибка. Если канал достаточно чистый, большую часть времени в каждой тройке будет изменяться только один бит. Следовательно, 001, 010 и 100 соответствуют 0 биту, а 110, 101 и 011 соответствуют 1 биту, причем большее количество одинаковых цифр ('0' или '1') указывает, что бит данных должен быть. Код с этой способностью восстанавливать исходное сообщение при наличии ошибок известен как исправляющий код. Этот код с тройным повторением представляет собой код Хэмминга с м = 2, так как есть два бита четности, и 22 − 2 − 1 = 1 бит данных.

Однако такие коды не могут правильно исправить все ошибки. В нашем примере, если канал переворачивает два бита и получатель получает 001, система обнаружит ошибку, но сделает вывод, что исходный бит равен 0, что неверно. Если мы увеличим размер битовой строки до четырех, мы сможем обнаружить все двухбитовые ошибки, но не сможем исправить их (количество битов четности четное); при пяти битах мы можем как обнаруживать, так и исправлять все двухбитовые ошибки, но не все трехбитные ошибки.

Более того, увеличение размера строки битов четности неэффективно, снижая пропускную способность в три раза в нашем исходном случае, а эффективность резко падает, когда мы увеличиваем количество дублирований каждого бита для обнаружения и исправления большего количества ошибок.

Коды Хэмминга

Если в сообщение включено больше исправляющих ошибок битов и если эти биты могут быть расположены так, что разные неправильные биты дают разные результаты ошибок, то плохие биты могут быть идентифицированы. В семибитном сообщении существует семь возможных однобитовых ошибок, поэтому три бита контроля ошибок потенциально могут указывать не только на то, что произошла ошибка, но и на то, какой бит вызвал ошибку.

Хэмминг изучил существующие схемы кодирования, в том числе две из пяти, и обобщил их концепции. Для начала он разработал номенклатура для описания системы, включая количество битов данных и битов исправления ошибок в блоке. Например, четность включает один бит для любого слова данных, поэтому предполагая, что ASCII слова с семью битами, Хэмминг описал это как (8,7) код, всего восемь бит, семь из которых - данные. Пример повторения будет (3,1), следуя той же логике. В кодовая скорость - второе число, деленное на первое, для нашего примера с повторением 1/3.

Хэмминг также заметил проблемы с переворачиванием двух или более битов и описал это как «расстояние» (теперь оно называется Расстояние Хэмминга, после него). Четность имеет расстояние 2, поэтому одно изменение битов может быть обнаружено, но не исправлено, и любые два изменения битов будут невидимы. Повторение (3,1) имеет расстояние 3, так как три бита необходимо перевернуть в одной и той же тройке, чтобы получить другое кодовое слово без видимых ошибок. Он может исправлять однобитовые ошибки или обнаруживать, но не исправлять, двухбитовые ошибки. Повторение (4,1) (каждый бит повторяется четыре раза) имеет расстояние 4, поэтому переворот трех битов можно обнаружить, но не исправить. Когда три бита в одной группе меняются местами, могут возникнуть ситуации, когда попытка исправить приведет к неправильному кодовому слову. В общем код с расстоянием k может обнаружить, но не исправить k − 1 ошибки.

Хэмминга интересовали сразу две проблемы: как можно больше увеличить расстояние и в то же время как можно больше увеличить скорость кода. В 1940-х годах он разработал несколько схем кодирования, которые значительно улучшили существующие коды. Ключом ко всем его системам было перекрытие битов четности, чтобы им удавалось проверять друг друга, а также данные.

Общий алгоритм

Следующий общий алгоритм генерирует код исправления одиночных ошибок (SEC) для любого количества битов. Основная идея состоит в том, чтобы выбрать биты для исправления ошибок так, чтобы индекс-XOR ( XOR всех битовых позиций, содержащих 1), равно 0. Мы используем позиции 1, 10, 100 и т. д. (в двоичном формате) в качестве битов исправления ошибок, что гарантирует возможность установки битов исправления ошибок так, чтобы индекс -XOR всего сообщения равно 0. Если получатель получает строку с индексом-XOR 0, он может сделать вывод, что повреждений не было, в противном случае индекс-XOR указывает индекс поврежденного бита.

Алгоритм можно вывести из следующего описания:

  1. Пронумеруйте биты, начиная с 1: биты 1, 2, 3, 4, 5, 6, 7 и т. Д.
  2. Запишите битовые числа в двоичном формате: 1, 10, 11, 100, 101, 110, 111 и т. Д.
  3. Все битовые позиции, которые являются степенями двойки (имеют один бит 1 в двоичной форме их позиции), являются битами четности: 1, 2, 4, 8 и т. Д. (1, 10, 100, 1000)
  4. Все остальные битовые позиции с двумя или более 1 битами в двоичной форме их позиции являются битами данных.
  5. Каждый бит данных включен в уникальный набор из 2 или более битов четности, что определяется двоичной формой его битовой позиции.
    1. Бит четности 1 охватывает все битовые позиции, которые имеют наименее набор значащих битов: бит 1 (сам бит четности), 3, 5, 7, 9 и т. д.
    2. Бит четности 2 охватывает все битовые позиции, которые имеют второй набор младших значащих битов: бит 2 (сам бит четности), 3, 6, 7, 10, 11 и т. д.
    3. Бит четности 4 охватывает все битовые позиции, которые имеют в третьих набор младших битов: биты 4–7, 12–15, 20–23 и т. д.
    4. Бит четности 8 охватывает все битовые позиции, которые имеют четвертый набор младших разрядов: биты 8–15, 24–31, 40–47 и т. д.
    5. В общем, каждый бит четности охватывает все биты, где побитовое И позиции четности и позиция бита не равны нулю.

Если кодируемый байт данных равен 10011010, то слово данных (с использованием _ для представления битов четности) будет __1_001_1010, а кодовое слово - 011100101010.

Выбор четности, четной или нечетной, не имеет значения, но один и тот же выбор должен использоваться как для кодирования, так и для декодирования.

Это общее правило можно показать наглядно:

Битовая позиция1234567891011121314151617181920
Биты закодированных данныхp1p2d1p4d2d3d4p8d5d6d7d8d9d10d11p16d12d13d14d15
Паритет
кусочек
покрытие
p1НетНетНетНетНетНетНетНетНетНет
p2НетНетНетНетНетНетНетНетНетНет
p4НетНетНетНетНетНетНетНетНет
p8НетНетНетНетНетНетНетНет
p16НетНетНетНетНет

Показаны только 20 закодированных битов (5 битов по четности, 15 данных), но шаблон продолжается бесконечно. Ключевой особенностью кодов Хэмминга, которую можно увидеть при визуальном осмотре, является то, что любой заданный бит включен в уникальный набор битов четности. Чтобы проверить наличие ошибок, проверьте все биты четности. Шаблон ошибок, называемый синдром ошибки, идентифицирует бит с ошибкой. Если все биты четности верны, ошибки нет. В противном случае сумма позиций ошибочных битов четности идентифицирует ошибочный бит. Например, если биты четности в позициях 1, 2 и 8 указывают на ошибку, то бит 1 + 2 + 8 = 11 является ошибочным. Если только один бит четности указывает на ошибку, сам бит четности ошибочен.

Как видите, если у вас м битов четности, он может охватывать биты от 1 до . Если мы вычтем биты четности, у нас останется биты, которые мы можем использовать для данных. В качестве м изменяется, получаем все возможные коды Хэмминга:

Биты четностиВсего битБиты данныхИмяСтавка
231Хэмминга (3,1)
(Тройной код повторения )
1/3 ≈ 0.333
374Хэмминга (7,4)4/7 ≈ 0.571
41511Хэмминга (15,11)11/15 ≈ 0.733
53126Хэмминга (31,26)26/31 ≈ 0.839
66357Хэмминга (63,57)57/63 ≈ 0.905
7127120Хэмминг (127,120)120/127 ≈ 0.945
8255247Хэмминг (255 247)247/255 ≈ 0.969
мHamming

Коды Хэмминга с дополнительной четностью (SECDED)

Коды Хэмминга имеют минимальное расстояние 3, что означает, что декодер может обнаруживать и исправлять одиночную ошибку, но он не может отличить двойную битовую ошибку некоторого кодового слова от одиночной битовой ошибки другого кодового слова. Таким образом, некоторые двухбитовые ошибки будут неправильно декодированы, как если бы они были одноразрядными ошибками, и, следовательно, останутся необнаруженными, если не будет предпринята попытка исправления.

Чтобы исправить этот недостаток, коды Хэмминга могут быть расширены дополнительным битом четности. Таким образом, можно увеличить минимальное расстояние кода Хэмминга до 4, что позволяет декодеру различать одиночные битовые ошибки и двухбитовые ошибки. Таким образом, декодер может обнаруживать и исправлять одиночную ошибку и в то же время обнаруживать (но не исправлять) двойную ошибку.

Если декодер не пытается исправить ошибки, он может надежно обнаруживать тройные битовые ошибки. Если декодер исправляет ошибки, некоторые тройные ошибки будут ошибочно приняты за одиночные и «исправлены» до неправильного значения. Таким образом, исправление ошибок - это компромисс между достоверностью (способностью надежно обнаруживать тройные битовые ошибки) и отказоустойчивостью (способностью продолжать функционировать перед лицом однобитовых ошибок).

Этот расширенный код Хэмминга популярен в компьютерных системах памяти.[нужна цитата ], где он известен как ОТДЕЛЕННЫЙ (сокращенно от исправление одиночной ошибки, обнаружение двойной ошибки)[нужна цитата ]. Особенно популярен код (72,64), усеченный (127,120) код Хэмминга плюс дополнительный бит четности.[нужна цитата ], который имеет такие же накладные расходы на пространство, как и код четности (9,8).

[7,4] Код Хэмминга

Графическое изображение четырех битов данных и трех битов четности и того, какие биты четности применяются к каким битам данных

В 1950 году Хэмминг ввел код Хэмминга [7,4]. Он кодирует четыре бита данных в семь битов, добавляя три бита четности. Он может обнаруживать и исправлять однобитовые ошибки. С добавлением общего бита четности он также может обнаруживать (но не исправлять) двухбитовые ошибки.

Построение G и H

Матрица называется (канонической) образующей матрицей линейной (п,k) код,

и называется матрица проверки на четность.

Это конструкция грамм и ЧАС в стандартной (или систематической) форме. Независимо от формы, грамм и ЧАС для линейных блочных кодов должны удовлетворять

, матрица из нулей.[5]

Поскольку [7, 4, 3] = [п, k, d] = [2м − 1, 2м−1−м, 3]. В матрица проверки на четность ЧАС кода Хэмминга строится перечислением всех столбцов длины м которые попарно независимы.

Таким образом ЧАС - это матрица, левая часть которой представляет собой все ненулевые наборы из n элементов, где порядок наборов из n элементов в столбцах матрицы не имеет значения. Правая часть - это просто (пk)-единичная матрица.

Так грамм можно получить из ЧАС перенеся левую часть ЧАС с тождеством k-единичная матрица на левой стороне грамм.

Код матрица генератора и матрица проверки на четность находятся:

и

Наконец, эти матрицы можно преобразовать в эквивалентные несистематические коды с помощью следующих операций:[5]

  • Перестановки столбцов (замена столбцов)
  • Элементарные операции со строками (замена строки линейной комбинацией строк)

Кодирование

Пример

Из приведенной выше матрицы имеем 2k = 24 = 16 кодовых слов. быть вектор-строкой бит двоичных данных, . Кодовое слово для любого из 16 возможных векторов данных дается стандартным матричным произведением где операция суммирования выполняется по модулю 2.

Например, пусть . Использование образующей матрицы сверху имеем (после применения к сумме по модулю 2),

[7,4] Код Хэмминга с дополнительным битом четности

Тот же пример [7,4] сверху с дополнительным битом четности. Эта диаграмма не предназначена для соответствия матрице H для этого примера.

Код Хэмминга [7,4] можно легко расширить до кода [8,4], добавив дополнительный бит четности поверх (7,4) закодированного слова (см. Хэмминга (7,4) Это можно резюмировать с помощью переработанных матриц:

и


Обратите внимание, что H не в стандартной форме. Для получения G можно использовать элементарные операции со строками для получения матрицы, эквивалентной H в систематической форме:

Например, первая строка в этой матрице представляет собой сумму второй и третьей строк H в несистематической форме. Используя систематическую конструкцию для кодов Хэмминга, приведенную выше, матрица A очевидна, а систематическая форма G записывается как

Несистематическая форма G может быть сокращена по строкам (с использованием элементарных операций со строками), чтобы соответствовать этой матрице.

Добавление четвертой строки эффективно вычисляет сумму всех битов кодового слова (данных и четности) как четвертый бит четности.

Например, 1011 кодируется (с использованием несистематической формы G в начале этого раздела) в 01100110 где синие цифры - данные; красные цифры - это биты четности из кода Хэмминга [7,4]; а зеленая цифра - это бит четности, добавленный кодом [8,4]. Зеленая цифра делает четность кодовых слов [7,4] четной.

Наконец, можно показать, что минимальное расстояние увеличилось с 3 в коде [7,4] до 4 в коде [8,4]. Следовательно, код можно определить как [8,4] код Хэмминга.

Чтобы декодировать код Хэмминга [8,4], сначала проверьте бит четности. Если бит четности указывает на ошибку, исправление одиночной ошибки (код Хэмминга [7,4]) укажет местоположение ошибки, а «нет ошибки» указывает бит четности. Если бит четности правильный, то исправление одиночной ошибки укажет (побитовое) исключающее ИЛИ из двух местоположений ошибок. Если местоположения равны («нет ошибки»), то двойная битовая ошибка либо не произошла, либо исчезла сама собой. В противном случае произошла двойная битовая ошибка.

Смотрите также

Примечания

  1. ^ См. Лемму 12 из
  2. ^ Хэмминг (1950) С. 153–154.
  3. ^ Рахим, Робби (26.09.2017). «Обнаружение и исправление битовых ошибок с помощью алгоритма кода Хэмминга». Дои:10.31227 / osf.io / j3w5z. Цитировать журнал требует | журнал = (помощь)
  4. ^ Томпсон, Томас М. (1983), От кодов с исправлением ошибок до сферических упаковок и простых групп, The Carus Mathematical Monographs (№ 21), Mathematical Association of America, стр. 16–17, ISBN  0-88385-023-0
  5. ^ а б Мун Т. Кодирование с исправлением ошибок: математические методы и алгоритмы. Джон Вили и сыновья, 2005 г. (гл. 3) ISBN  978-0-471-64800-0

Рекомендации

внешняя ссылка