Код Хэмминга - Hamming code
Эта статья включает в себя список общих Рекомендации, но он остается в основном непроверенным, потому что ему не хватает соответствующих встроенные цитаты.Март 2013 г.) (Узнайте, как и когда удалить этот шаблон сообщения) ( |
Двоичные коды Хэмминга | |
---|---|
Код Хэмминга (7,4) (с р = 3) | |
Названный в честь | Ричард В. Хэмминг |
Классификация | |
Тип | Линейный блочный код |
Длина блока | 2р − 1 куда р ≥ 2 |
Длина сообщения | 2р − р − 1 |
Ставка | 1 − р/(2р − 1) |
Расстояние | 3 |
Размер алфавита | 2 |
Обозначение | [2р − 1, 2р − р − 1, 3]2-код |
Характеристики | |
идеальный код | |
В Информатика и телекоммуникации, Коды Хэмминга семья линейные коды исправления ошибок. Коды Хэмминга могут обнаруживать до двух битовых ошибок или исправлять однобитовые ошибки без обнаружения неисправленных ошибок. Напротив, простой код четности не может исправлять ошибки и может обнаруживать только нечетное количество ошибочных битов. Коды Хэмминга идеальные коды, то есть достигают максимально возможного ставка для кодов с их длина блока и минимальное расстояние из трех.[1]Ричард В. Хэмминг изобрел коды Хэмминга в 1950 году как способ автоматического исправления ошибок, внесенных перфокарта читатели. В своей оригинальной статье Хэмминг развил свою общую идею, но конкретно сосредоточился на Хэмминга (7,4) код, который добавляет три бита четности к четырем битам данных.[2]
В математический В терминах коды Хэмминга представляют собой класс двоичных линейных кодов. Для каждого целого числа р ≥ 2 есть код с длина блока п = 2р − 1 и длина сообщения k = 2р − р − 1. Следовательно, скорость кодов Хэмминга равна р = k / п = 1 − р / (2р − 1), что является максимально возможным для кодов с минимальным расстоянием три (то есть минимальное количество битовых изменений, необходимых для перехода от любого кодового слова к любому другому кодовому слову, равно трем) и длиной блока 2р − 1. В матрица проверки на четность кода Хэмминга строится перечислением всех столбцов длины р которые не равны нулю, что означает, что двойной код кода Хэмминга - это сокращенный код Адамара. Матрица проверки на четность обладает тем свойством, что любые два столбца попарно линейно независимый.
Из-за ограниченной избыточности, которую коды Хэмминга добавляют к данным, они могут обнаруживать и исправлять ошибки только при низком уровне ошибок. Так обстоит дело с памятью компьютера (Память ECC ), где битовые ошибки крайне редки и широко используются коды Хэмминга. В этом контексте часто используется расширенный код Хэмминга, имеющий один дополнительный бит четности. Расширенные коды Хэмминга достигают расстояния Хэмминга, равного четырем, что позволяет декодеру различать, когда возникает не более одной однобитовой ошибки, и когда возникают любые двухбитовые ошибки. В этом смысле расширенные коды Хэмминга исправляют одиночную ошибку и обнаруживают двойную ошибку, сокращенно ОТДЕЛЕННЫЙ.[3]
История
Ричард Хэмминг, изобретатель кодов Хэмминга, работал в Bell Labs в конце 1940-х на Bell Модель V компьютер, электромеханический релейная машина с временем цикла в секундах. Вход был подан на перфорированная бумажная лента шириной семь восьмых дюйма, в котором было до шести отверстий в ряду. В будние дни при обнаружении ошибок в реле машина останавливалась и мигала, чтобы операторы могли исправить проблему. В нерабочее время и в выходные дни, когда не было операторов, машина просто переходила к следующему заданию.
Хэмминг работал по выходным и все больше разочаровывался в необходимости перезапускать свои программы с нуля из-за обнаруженных ошибок. В записанном на пленку интервью Хэмминг сказал: «И поэтому я сказал:« Черт побери, если машина может обнаружить ошибку, почему она не может определить местоположение ошибки и исправить ее? »».[4] В течение следующих нескольких лет он работал над проблемой исправления ошибок, разрабатывая все более мощный набор алгоритмов. В 1950 году он опубликовал то, что теперь известно как код Хэмминга, который до сих пор используется в таких приложениях, как Память ECC.
Коды до Хэмминга
До кодов Хэмминга использовался ряд простых кодов обнаружения ошибок, но ни один из них не был так эффективен, как коды Хэмминга, в том же объеме.
Паритет
Parity добавляет один кусочек который указывает, было ли количество единиц (битовых позиций со значением один) в предыдущих данных четное или же странный. Если при передаче изменяется нечетное количество битов, сообщение изменит четность, и в этот момент может быть обнаружена ошибка; однако бит, который изменился, мог быть самим битом четности. Наиболее распространенное соглашение заключается в том, что значение четности, равное единице, указывает на нечетное количество единиц в данных, а значение четности, равное нулю, указывает, что существует четное количество единиц. Если количество измененных битов четное, контрольный бит будет действительным и ошибка не будет обнаружена.
Более того, четность не указывает, какой бит содержит ошибку, даже если он может ее обнаружить. Данные должны быть полностью отброшены и повторно переданы с нуля. В шумной среде передачи успешная передача может занять много времени или может никогда не произойти. Однако, хотя качество проверки четности оставляет желать лучшего, поскольку он использует только один бит, этот метод дает наименьшие накладные расходы.
Код два из пяти
Код два из пяти - это схема кодирования, которая использует пять битов, состоящих ровно из трех нулей и двух единиц. Это дает десять возможных комбинаций, достаточных для представления цифр 0–9. Эта схема может обнаруживать все одиночные битовые ошибки, все битовые ошибки с нечетными номерами и некоторые битовые ошибки с четными номерами (например, переворачивание обоих 1-битов). Однако он по-прежнему не может исправить ни одну из этих ошибок.
Репетиция
Другой используемый в то время код повторял каждый бит данных несколько раз, чтобы гарантировать, что он был отправлен правильно. Например, если бит данных, который должен быть отправлен, равен 1, п = 3 код повторения отправит 111. Если три полученных бита не идентичны, во время передачи произошла ошибка. Если канал достаточно чистый, большую часть времени в каждой тройке будет изменяться только один бит. Следовательно, 001, 010 и 100 соответствуют 0 биту, а 110, 101 и 011 соответствуют 1 биту, причем большее количество одинаковых цифр ('0' или '1') указывает, что бит данных должен быть. Код с этой способностью восстанавливать исходное сообщение при наличии ошибок известен как исправляющий код. Этот код с тройным повторением представляет собой код Хэмминга с м = 2, так как есть два бита четности, и 22 − 2 − 1 = 1 бит данных.
Однако такие коды не могут правильно исправить все ошибки. В нашем примере, если канал переворачивает два бита и получатель получает 001, система обнаружит ошибку, но сделает вывод, что исходный бит равен 0, что неверно. Если мы увеличим размер битовой строки до четырех, мы сможем обнаружить все двухбитовые ошибки, но не сможем исправить их (количество битов четности четное); при пяти битах мы можем как обнаруживать, так и исправлять все двухбитовые ошибки, но не все трехбитные ошибки.
Более того, увеличение размера строки битов четности неэффективно, снижая пропускную способность в три раза в нашем исходном случае, а эффективность резко падает, когда мы увеличиваем количество дублирований каждого бита для обнаружения и исправления большего количества ошибок.
Коды Хэмминга
Если в сообщение включено больше исправляющих ошибок битов и если эти биты могут быть расположены так, что разные неправильные биты дают разные результаты ошибок, то плохие биты могут быть идентифицированы. В семибитном сообщении существует семь возможных однобитовых ошибок, поэтому три бита контроля ошибок потенциально могут указывать не только на то, что произошла ошибка, но и на то, какой бит вызвал ошибку.
Хэмминг изучил существующие схемы кодирования, в том числе две из пяти, и обобщил их концепции. Для начала он разработал номенклатура для описания системы, включая количество битов данных и битов исправления ошибок в блоке. Например, четность включает один бит для любого слова данных, поэтому предполагая, что ASCII слова с семью битами, Хэмминг описал это как (8,7) код, всего восемь бит, семь из которых - данные. Пример повторения будет (3,1), следуя той же логике. В кодовая скорость - второе число, деленное на первое, для нашего примера с повторением 1/3.
Хэмминг также заметил проблемы с переворачиванием двух или более битов и описал это как «расстояние» (теперь оно называется Расстояние Хэмминга, после него). Четность имеет расстояние 2, поэтому одно изменение битов может быть обнаружено, но не исправлено, и любые два изменения битов будут невидимы. Повторение (3,1) имеет расстояние 3, так как три бита необходимо перевернуть в одной и той же тройке, чтобы получить другое кодовое слово без видимых ошибок. Он может исправлять однобитовые ошибки или обнаруживать, но не исправлять, двухбитовые ошибки. Повторение (4,1) (каждый бит повторяется четыре раза) имеет расстояние 4, поэтому переворот трех битов можно обнаружить, но не исправить. Когда три бита в одной группе меняются местами, могут возникнуть ситуации, когда попытка исправить приведет к неправильному кодовому слову. В общем код с расстоянием k может обнаружить, но не исправить k − 1 ошибки.
Хэмминга интересовали сразу две проблемы: как можно больше увеличить расстояние и в то же время как можно больше увеличить скорость кода. В 1940-х годах он разработал несколько схем кодирования, которые значительно улучшили существующие коды. Ключом ко всем его системам было перекрытие битов четности, чтобы им удавалось проверять друг друга, а также данные.
Общий алгоритм
Следующий общий алгоритм генерирует код исправления одиночных ошибок (SEC) для любого количества битов. Основная идея состоит в том, чтобы выбрать биты для исправления ошибок так, чтобы индекс-XOR ( XOR всех битовых позиций, содержащих 1), равно 0. Мы используем позиции 1, 10, 100 и т. д. (в двоичном формате) в качестве битов исправления ошибок, что гарантирует возможность установки битов исправления ошибок так, чтобы индекс -XOR всего сообщения равно 0. Если получатель получает строку с индексом-XOR 0, он может сделать вывод, что повреждений не было, в противном случае индекс-XOR указывает индекс поврежденного бита.
Алгоритм можно вывести из следующего описания:
- Пронумеруйте биты, начиная с 1: биты 1, 2, 3, 4, 5, 6, 7 и т. Д.
- Запишите битовые числа в двоичном формате: 1, 10, 11, 100, 101, 110, 111 и т. Д.
- Все битовые позиции, которые являются степенями двойки (имеют один бит 1 в двоичной форме их позиции), являются битами четности: 1, 2, 4, 8 и т. Д. (1, 10, 100, 1000)
- Все остальные битовые позиции с двумя или более 1 битами в двоичной форме их позиции являются битами данных.
- Каждый бит данных включен в уникальный набор из 2 или более битов четности, что определяется двоичной формой его битовой позиции.
- Бит четности 1 охватывает все битовые позиции, которые имеют наименее набор значащих битов: бит 1 (сам бит четности), 3, 5, 7, 9 и т. д.
- Бит четности 2 охватывает все битовые позиции, которые имеют второй набор младших значащих битов: бит 2 (сам бит четности), 3, 6, 7, 10, 11 и т. д.
- Бит четности 4 охватывает все битовые позиции, которые имеют в третьих набор младших битов: биты 4–7, 12–15, 20–23 и т. д.
- Бит четности 8 охватывает все битовые позиции, которые имеют четвертый набор младших разрядов: биты 8–15, 24–31, 40–47 и т. д.
- В общем, каждый бит четности охватывает все биты, где побитовое И позиции четности и позиция бита не равны нулю.
Если кодируемый байт данных равен 10011010, то слово данных (с использованием _ для представления битов четности) будет __1_001_1010, а кодовое слово - 011100101010.
Выбор четности, четной или нечетной, не имеет значения, но один и тот же выбор должен использоваться как для кодирования, так и для декодирования.
Это общее правило можно показать наглядно:
Битовая позиция 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 … Биты закодированных данных p1 p2 d1 p4 d2 d3 d4 p8 d5 d6 d7 d8 d9 d10 d11 p16 d12 d13 d14 d15 Паритет
кусочек
покрытиеp1 p2 p4 p8 p16
Показаны только 20 закодированных битов (5 битов по четности, 15 данных), но шаблон продолжается бесконечно. Ключевой особенностью кодов Хэмминга, которую можно увидеть при визуальном осмотре, является то, что любой заданный бит включен в уникальный набор битов четности. Чтобы проверить наличие ошибок, проверьте все биты четности. Шаблон ошибок, называемый синдром ошибки, идентифицирует бит с ошибкой. Если все биты четности верны, ошибки нет. В противном случае сумма позиций ошибочных битов четности идентифицирует ошибочный бит. Например, если биты четности в позициях 1, 2 и 8 указывают на ошибку, то бит 1 + 2 + 8 = 11 является ошибочным. Если только один бит четности указывает на ошибку, сам бит четности ошибочен.
Как видите, если у вас м битов четности, он может охватывать биты от 1 до . Если мы вычтем биты четности, у нас останется биты, которые мы можем использовать для данных. В качестве м изменяется, получаем все возможные коды Хэмминга:
Биты четности | Всего бит | Биты данных | Имя | Ставка |
---|---|---|---|---|
2 | 3 | 1 | Хэмминга (3,1) (Тройной код повторения ) | 1/3 ≈ 0.333 |
3 | 7 | 4 | Хэмминга (7,4) | 4/7 ≈ 0.571 |
4 | 15 | 11 | Хэмминга (15,11) | 11/15 ≈ 0.733 |
5 | 31 | 26 | Хэмминга (31,26) | 26/31 ≈ 0.839 |
6 | 63 | 57 | Хэмминга (63,57) | 57/63 ≈ 0.905 |
7 | 127 | 120 | Хэмминг (127,120) | 120/127 ≈ 0.945 |
8 | 255 | 247 | Хэмминг (255 247) | 247/255 ≈ 0.969 |
… | ||||
м | Hamming |
Коды Хэмминга с дополнительной четностью (SECDED)
Коды Хэмминга имеют минимальное расстояние 3, что означает, что декодер может обнаруживать и исправлять одиночную ошибку, но он не может отличить двойную битовую ошибку некоторого кодового слова от одиночной битовой ошибки другого кодового слова. Таким образом, некоторые двухбитовые ошибки будут неправильно декодированы, как если бы они были одноразрядными ошибками, и, следовательно, останутся необнаруженными, если не будет предпринята попытка исправления.
Чтобы исправить этот недостаток, коды Хэмминга могут быть расширены дополнительным битом четности. Таким образом, можно увеличить минимальное расстояние кода Хэмминга до 4, что позволяет декодеру различать одиночные битовые ошибки и двухбитовые ошибки. Таким образом, декодер может обнаруживать и исправлять одиночную ошибку и в то же время обнаруживать (но не исправлять) двойную ошибку.
Если декодер не пытается исправить ошибки, он может надежно обнаруживать тройные битовые ошибки. Если декодер исправляет ошибки, некоторые тройные ошибки будут ошибочно приняты за одиночные и «исправлены» до неправильного значения. Таким образом, исправление ошибок - это компромисс между достоверностью (способностью надежно обнаруживать тройные битовые ошибки) и отказоустойчивостью (способностью продолжать функционировать перед лицом однобитовых ошибок).
Этот расширенный код Хэмминга популярен в компьютерных системах памяти.[нужна цитата ], где он известен как ОТДЕЛЕННЫЙ (сокращенно от исправление одиночной ошибки, обнаружение двойной ошибки)[нужна цитата ]. Особенно популярен код (72,64), усеченный (127,120) код Хэмминга плюс дополнительный бит четности.[нужна цитата ], который имеет такие же накладные расходы на пространство, как и код четности (9,8).
[7,4] Код Хэмминга
В 1950 году Хэмминг ввел код Хэмминга [7,4]. Он кодирует четыре бита данных в семь битов, добавляя три бита четности. Он может обнаруживать и исправлять однобитовые ошибки. С добавлением общего бита четности он также может обнаруживать (но не исправлять) двухбитовые ошибки.
Построение G и H
Матрица называется (канонической) образующей матрицей линейной (п,k) код,
и называется матрица проверки на четность.
Это конструкция грамм и ЧАС в стандартной (или систематической) форме. Независимо от формы, грамм и ЧАС для линейных блочных кодов должны удовлетворять
, матрица из нулей.[5]
Поскольку [7, 4, 3] = [п, k, d] = [2м − 1, 2м−1−м, 3]. В матрица проверки на четность ЧАС кода Хэмминга строится перечислением всех столбцов длины м которые попарно независимы.
Таким образом ЧАС - это матрица, левая часть которой представляет собой все ненулевые наборы из n элементов, где порядок наборов из n элементов в столбцах матрицы не имеет значения. Правая часть - это просто (п − k)-единичная матрица.
Так грамм можно получить из ЧАС перенеся левую часть ЧАС с тождеством k-единичная матрица на левой стороне грамм.
Код матрица генератора и матрица проверки на четность находятся: