Кодовая страница

Кодовая страница

Кодовая страница (англ. code page) — таблица, сопоставляющая каждому значению байта некоторый символ (или его отсутствие). Обычно код символа имеет размер 8 бит, так что кодовая страница может содержать максимум 256 символов, из чего вытекает резкая недостаточность всякой 8-битной кодовой страницы для представления многоязычных текстов. К тому же часть символов используется как управляющие, из-за чего число печатных символов редко превышает 223[1].

Исторически термин code page был введён корпорацией IBM; сменные кодовые страницы использовались для поддержки различных языков (имеющих алфавитные системы письма). В последнее время имеется путаница между термином «кодовая страница» и более общим понятием набора символов (кодировки).

Содержание

Кодовые страницы сегодня

В настоящее время в основном используются кодировки двух типов: совместимые с ASCII и совместимые с EBCDIC[2], с подавляющим преобладанием первых. В ASCII-совместимых кодировках фиксированы коды 95 печатных символов и 33 управляющих, а остальные 128 кодовых позиций используются для различных символов, не входящих в ASCII.

Для кодирования текстов на русском языке (то есть букв кириллицы) наиболее широко применяются следующие кодовые страницы:

Использование различных кодовых страниц создаёт много неудобств как для пользователей, так и для программистов. При попытке прочесть текстовый файл при помощи кодовой страницы, несовместимой с той в которой он был создан, возникают кракозябры. В последние годы получил широкое распространение Unicode как альтернатива традиционным кодовым страницам.

В системе Microsoft Windows

В системах Microsoft Windows кодовые страницы являются важным компонентом локализации, задаваемым в ключах реестра HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\Nls\CodePage\[3].

Исторически (в системах Windows 3.x и Windows 9x) имелось два типа кодовых страниц. Кодовые страницы «ANSI»[4] (англ. ANSI code page, в реестре: ACP), также называемые Windows[5] — родные кодовые страницы Windows. Содержат много символов типографики, но почти не содержат псевдографику по причине того, что предназначены для использования в графическом окружении. Впоследствии корпорация Microsoft признала, что использование имени ANSI было вызвано недоразумением.[6] К кодировкам «ANSI»/Windows относят, в частности, Windows-1252 и вышеупомянутую Windows-1251. Microsoft также относит к кодовым страницам кодовые таблицы, некоторые позиции которых требуют второго (завершающего) байта для формирования символа, то есть допускающие двухбайтовое представление некоторых символов[7], хотя они, строго говоря, являются уже кодировками с переменной длиной символа.

Кодировки OEM (англ. OEM code page, в реестре: OEMCP) основаны на CP437 и содержат VGA-совместимую псевдографику. Вышеупомянутая альтернативная кодировка известна в Windows как CP866.

Начиная с Windows NT появился третий класс кодовых страниц: кодировки Macintosh (англ. Macintosh code page, в реестре: MACCP), совместимых с MacOS.

Примечания

  1. Одним из немногих исключений является кодировка VISCII для вьетнамской латиницы, совместимая с ASCII за вычетом шести кодов в зоне управляющих символов, заменённых на буквы, см. RFC 1456. Таким образом, она содержит 229 печатных символов.
  2. Кодировки на базе EBCDIC (например, ДКОИ-8) используются только на некоторых мэйнфреймах.
  3. REG: CurrentControlSet, PART 1, Microsoft (англ.)
  4. Кодовые страницы в Visual C++, MSDN
  5. Code Pages, MSDN
  6. MSDN: Glossary of Terms
  7. Windows code pages, MSDN

См. также

  • Консоль Linux
Кодировки символов
Основы → алфавиттекстфайлданные ) • набор символов • конверсия
Исторические кодировки → Докомп.: семафорная (Макарова)МорзеБодоМТК-2 Комп.: 6 битУППRADIX-50EBCDICДКОИ-8 ) • КОИ-7ISO 646
совре-
менное
8-битное
представ-
ление
символы ASCIIуправляющиепечатные ) не-ASCII ( псевдографика )
8бит. код.стр. Разные →   Кириллица: КОИ-8ГОСТ 19768-87MacCyrillic
ISO 8859 → 1(лат.) 2 3 4 5(кир.) 6 7 8 9 10 11 12 13 14 15(€) 16
Windows → 1250 1251(кир.) 1252 1253 1254 1255 1256 1257 1258 | WGL4
IBM&DOS → 437850852855866 «альт.» • ( МИК ) • ( НИИ ЭВМ )
Много-
байтные
Традиционные → DBCSGB2312 ) • HTML
Unicode → UTF-16UTF-8список символовкириллица )
Связанные
темы →
интерфейс пользователяраскладка клавиатурылокальперевод строкишрифткракозябрытранслитнестандартные шрифты • текст как изображение Утилиты: iconvrecode

Wikimedia Foundation. 2010.

Игры ⚽ Нужно решить контрольную?

Полезное


Смотреть что такое "Кодовая страница" в других словарях:

  • кодовая страница — (Codepage)     Способ хранения информации о шрифте [упорядоченное множество знаков определенной системы письма] в памяти компьютера, включающий заранее заданный упорядоченный стандартный Комплект знаков (кодировку) для набора текста на… …   Шрифтовая терминология

  • кодовая страница — Страница, на которой записаны коды клавиатуры, используемой в какой либо стране. Главную роль здесь играют символы используемого в стране естественного языка. Каждая клавиатура имеет свой номер. [Гипертекстовый энциклопедический словарь по… …   Справочник технического переводчика

  • Страница — Страница: Страница любая из двух сторон листа бумаги (обычно в книге или тетради). Машинописная страница единица измерения объёма текста, весьма распространённая в докомпьютерную эпоху. Один авторский лист составляет примерно 22 23 машинописных… …   Википедия

  • codepage — Кодовая страница (Codepage)     Способ хранения информации о шрифте [упорядоченное множество знаков определенной системы письма] в памяти компьютера, включающий заранее заданный упорядоченный стандартный Комплект знаков (кодировку) для набора… …   Шрифтовая терминология

  • CP850 — Кодовая страница 850 используется в Западной Европе на персональных компьютерах с MS DOS и другими подобными операционными системами, а также в консольных программах Microsoft Windows. CP850 отличается от CP437 тем, что включает все символы ISO… …   Википедия

  • Октеты со старшим битом 1 — Подмножество октетов со старшим битом 1 включает те значения октета, у которых старший бит равен единице (установлен). Содержит коды 10000000..11111111 в двоичном представлении, 0x80..0xFF в шестнадцатеричном, 0200..0377 в восьмеричном, 128..255… …   Википедия

  • Чистый 8-бит — Подмножество октетов со старшим битом 1 включает те значения октета, у которых старший бит равен единице (установлен). Содержит коды 10000000..11111111 в двоичном представлении, 0x80..0xFF в шестнадцатеричном, 0200..0377 в восьмеричном, 128..255… …   Википедия

  • Alt-код — Проверить информацию. Необходимо проверить точность фактов и достоверность сведений, изложенных в этой статье. На странице обсуждения должны быть пояснения …   Википедия

  • Арабское письмо — Тип: консонантное Языки: Арабский, перс …   Википедия

  • Болгарская кодировка — «Болгарская кодировка» (называемая также MIK, Interprog и «старый вариант ВЦ АН СССР») это кодовая страница, применявшаяся на компьютерах болгарского производства (например, «Правец»). Эта кодировка не зафиксирована ни в одном нормативном… …   Википедия


Поделиться ссылкой на выделенное

Прямая ссылка:
Нажмите правой клавишей мыши и выберите «Копировать ссылку»