Linux HOWTO


2.2 Символы и кодировки - часть 3


Другие стандарты для кириллицы включают так называемую Alt

кодировку и кодовую страницу Microsoft CP1251. Вышеупомянутый Alt стандарт был разработан компанией Microsoft для МС-ДОС довольно давно. Тогда еще слыхом не слыхивали про сети из IBM PC, и поэтому основное усилие состояло в том, чтобы сделать этот стандарт максимально совместимым со стандартом IBM. Поэтому Alt кодировка -- это та самая IBM кодовая страница, где все специфические европейские символы в верхней половине были заменены на кириллицу, оставляя псевдографические символы нетронутыми. Следовательно, это не портило вид программ, использующих для работы текстовые окна, а также обеспечило символы кириллицы в них. Alt

стандарт все еще жив и чрезвычайно популярен в среде МС-ДОС (система МС-ДОС тоже жива, про OS/2 говорят, что она тоже жива -- не знаю, не видел :) ). Microsoft CP1251 кодовая страница -- это попытка Microsoft придумать новый стандарт для кодировки кириллицы в Windows. Насколько я знаю, это не совместимо с чем-либо еще.

Однако, в некоторых странах -- например, в Болгарии и, вероятно, в Беларуссии, cp1251 является стандартной кодировкой для Linux и для e-mail.

Ну и наконец: стандарт KOI8. В отличие от Alt и CP1251, он был разработан довольно давно для UNIX-машин. Так как говоря о UNIX

мы подразумеваем сеть, то основной идей при создании KOI8 стандарта была идея об обеспечении перемещения кириллической информации по сети.

Еще раз вернемся в далекое прошлое. Обычно все работали только со стандартным (7-ми битным) ASCII. 8-ой бит каждого символа указывал на то, что он или управляющий символ, или просто мусор. Обычно никто не слал данные чисто 8-ми битными (каждый норовил оттяпать 8-ой бит у символов). Разработчики KOI8

применили очень продуманный подход. Они поместили символы русской кириллицы в верхней части расширенной ASCII таблицы таким образом, что позиции кириллических символов соответствуют их фонетическим аналогам в английском алфавите в нижней части таблицы. Это означает, что если в тексте, написанном в KOI8, убирать восьмой бит каждого символа, то мы все еще имеем "читабельный" текст, хотя он и написан английскими символами!




Начало  Назад  Вперед