Тема 10. Представление и кодирование информации
Язык как знаковая система
Для обмена информацией с другими людьми человек использует естественные языки (русский, английский, китайский и др.), то есть информация представляется с помощью естественных языков. В основе языка лежит алфавит, то есть набор символов (знаков), которые человек различает по их начертанию. В основе русского языка лежит кириллица, содержащая 33 знака, английский язык использует латиницу (26 знаков), китайский язык использует алфавит из десятков тысяч знаков (иероглифов).
Последовательности символов алфавита в соответствии с правилами грамматики образуют основные объекты языка - слова. Правила, согласно которым образуются предложения из слов данного языка, называются синтаксисом. Необходимо отметить, что в естественных языках грамматика и синтаксис языка формулируются с помощью большого количества правил, из которых существуют исключения, так как такие правила складывались исторически.
Наряду с естественными языками были разработаны формальные языки (системы счисления, язык алгебры, языки программирования и др.). Основное отличие формальных языков от естественных состоит в наличии строгих правил грамматики и синтаксиса.
Например, системы счисления можно рассматривать как формальные языки, имеющие алфавит (цифры) и позволяющие не только именовать и записывать объекты (числа), но и выполнять над ними арифметические операции по строго определенным правилам.
Некоторые языки используют в качестве знаков не буквы и цифры, а другие символы, например химические формулы, ноты, изображения элементов электрических или логических схем, дорожные знаки, точки и тире (код азбуки Морзе) и др.
Представление информации может осуществляться с помощью языков, которые являются знаковыми системами. Каждая знаковая система строится на основе определенного алфавита и правил выполнения операций над знаками.
Знаки могут иметь различную физическую природу. Например, для представления информации с использованием языка в письменной форме используются знаки, которые являются изображениями на бумаге или других носителях, в устной речи в качестве знаков языка используются различные звуки (фонемы), а при обработке текста на компьютере знаки представляются в форме последовательностей электрических импульсов (компьютерных кодов).
Представление информации в живых организмах
Человек воспринимает информацию об окружающем мире с помощью органов чувств (зрения, слуха, обоняния, осязания и вкуса). Чувствительные нервные окончания органов чувств (рецепторы) воспринимают воздействие (например, на глазном дне колбочки и палочки реагируют на воздействие световых лучей) и передают его нейронам (нервным клеткам), цепи которых составляют нервную систему.
Нейрон может находиться в одном из двух состояний: невозбужденном и возбужденном. Возбужденный нейрон генерирует электрический импульс, который передается по нервной системе.
Состояния нейрона (нет импульса, есть импульс) можно рассматривать как знаки некоторого алфавита нервной системы, с помощью которого происходит передача информации.
Генетическая информация во многом определяет строение и развитие живых организмов и передается по наследству.
Хранится генетическая информация в клетках организмов в структуре молекул ДНК (дезоксирибонуклеиновой кислоты) - рис. 1. Молекула ДНК состоит из двух скрученных друг с другом в спираль цепей, построенных из четырех нуклеотидов: A, G, Т и С, которые образуют генетический алфавит.
Рис. 1 Молекула ДНК
Молекула ДНК человека включает в себя около 3 миллиардов пар нуклеотидов и поэтому в ней закодирована вся информация об организме человека: его внешность, здоровье или предрасположенность к болезням, способности и пр.
В живых организмах информация передается и хранится с помощью объектов различной физической природы (состояния нейрона, нуклеотиды в молекуле ДНК), которые могут рассматриваться как знаки биологических алфавитов.
Кодирование информации
Представление информации происходит в различных формах в процессе восприятия окружающей среды живыми организмами и человеком, в процессах обмена информацией между человеком и человеком, человеком и компьютером, компьютером и компьютером и так далее. Преобразование информации из одной формы представления (знаковой системы) в другую называется кодированием.
Средством кодирования служит таблица соответствия знаковых систем, которая устанавливает взаимно однозначное соответствие между знаками или группами знаков двух различных знаковых систем. В дальнейшем будет приведена такая таблица, которая устанавливает соответствие между графическими изображениями знаков алфавита и их компьютерными кодами.
В процессе обмена информацией часто приходится производить операции кодирования и декодирования информации. При вводе знака алфавита в компьютер путем нажатия соответствующей клавиши на клавиатуре происходит кодирование знака, то есть преобразование его в компьютерный код. При выводе знака на экран монитора или принтер происходит обратный процесс - декодирование, когда из компьютерного кода знак преобразуется в его графическое изображение.
Кодирование - это операция преобразования знаков или групп знаков одной знаковой системы в знаки или группы знаков другой знаковой системы.
Рассмотрим в качестве примера кодирования соответствие цифрового и штрихового кодов товара. Такие коды имеются на каждом товаре и позволяют полностью идентифицировать товар (страну и фирму производителя, тип товара и др.).
Знакам цифрового кода (цифрам) соответствуют группы знаков штрихового кода (узкие и широкие штрихи, а также размеры промежутков между ними) - рис. 2. Для человека удобен цифровой код, а для автоматизированного учета -штриховой код, который считывается с помощью узкого светового луча и подвергается последующей обработке в компьютерных бухгалтерских системах учета.
Рис. 2 Цифровой и штриховой коды товара
Двоичное кодирование информации в компьютере
В компьютере для представления информации используется двоичное кодирование, так как удалось создать надежно работающие технические устройства, которые могут со стопроцентной надежностью сохранять и распознавать не более двух различных состояний (цифр):
- электромагнитные реле (замкнуто/разомкнуто), широко использовались в конструкциях первых ЭВМ;
- участок поверхности магнитного носителя информации (намагничен/размагничен);
- участок поверхности лазерного диска (отражает/не отражает);
- триггер, может устойчиво находиться в одном из двух состояний, широко используется в оперативной памяти компьютера.
Все виды информации в компьютере кодируются на машинном языке, в виде логических последовательностей нулей и единиц - рис. 3.
Рис. 3. Двоичное кодирование информации
Информация в компьютере представлена в двоичном коде, алфавит которого состоит из двух цифр (0 и 1).
Цифры двоичного кода можно рассматривать как два равновероятных состояния (события). При записи двоичной цифры реализуется выбор одного из двух возможных состояний (одной из двух цифр) и, следовательно, она несет количество информации, равное 1 биту.
Даже сама единица измерения количества информации бит (bit) получила свое название от английского словосочетания Binary digiT (двоичная цифра).
Важно, что каждая цифра машинного двоичного кода несет информацию в 1 бит. Таким образом, две цифры несут информацию в 2 бита, три цифры - в 3 бита и так далее. Количество информации в битах равно количеству цифр двоичного машинного кода.
Каждая цифра машинного двоичного кода несет количество информации, равное одному биту.