UCS-2

UCS-2

UTF-16 (англ. Unicode Transformation Format) в информатике — один из способов кодирования символов из Unicode в виде последовательности 16-битных слов. Символы с кодами меньше 0x10000 (216) представляются как есть, а символы с кодами 0x10000–0x10FFFE — в виде последовательности двух 16-битных слов, первое из которых лежит в диапазоне 0xD800–0xDBFF, а второе — 0xDC00–0xDFFF. Легко видеть, что имеется как раз 210 * 210 = 220 таких комбинаций.

||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||

  DC00 DFFE DFFF
D800 010000 0103FE 0103FF
D801 010400 0107FE 0107FF
DBFF 10FC00 10FFFE  

Следует отметить, что по стандарту никакие символы не могут иметь коды собственно из диапазона 0xD800–0xDFFF (отмечены рыжим и голубым цветами на диаграмме), так что расшифровка кодировки всегда однозначна. Впрочем, в подавляющем большинстве случаев текст в UTF-16 является просто последовательностью символов из UCS-2 (BMP), т.к. символы Unicode после кода 0x10000 используются крайне редко.

UTF-16LE и UTF-16ВE

Т.к. в современных компьютерах размер байта равен 8 битам, то один «байт» кодировки UTF-16 приходится представлять последовательностью двух 8-битных байтов. Который из двух идёт впереди, старший или младший, зависит от порядка байтов. Систему, совместимую с процессорами UTF-16LE (little endian), а с процессорами m68k и UTF-16ВE (big endian).

UTF-16 в ОС Windows

Основная статья: Юникод в Microsoft Windows

В API Win32, распространённом в современных версиях операционной системы Microsoft Windows, имеется два способа представления текста: в форме традиционных 8-битных кодовых страниц, и в виде UTF-16.

В файловых системах FAT с поддержкой длинных имён, имена файлов записываются в UTF-16LE.

Ссылки

Кодировки символов
Основы → алфавиттекстфайлданные ) • набор символовконверсия
Исторические кодировки → Докомп.: семафорная (Макарова)МорзеБодоМТК-2 Комп.: 6 битУПП • EBCDIC ( ДКОИ-8 ) • КОИ-7ISO 646
совре-
менное
8-битное
представ-
ление
символы управляющие • печатные ) не-ASCIIпсевдографика )
8бит. код.стр. Разные →   Кириллица: КОИ-8ГОСТ 19768-87 • ISO 8859 → 1(лат.) 2 3 4 5(кир.) 6 7 8 9 10 11 12 13 14 15(€) 16
Windows → 1251(кир.) 1252 WGL4
IBM&DOS → 850 • 866 «альт.»МИК )
Много-
байтные
Традиционные → GB2312 ) • HTML
Unicode → UTF-16 • список символов ( кириллица )
Связанные
темы →
интерфейс пользователяраскладки клавиатурлокальперевод строкишрифткрокозябрытранслит Утилиты: recode



Wikimedia Foundation. 2010.

Игры ⚽ Поможем сделать НИР

Полезное


Смотреть что такое "UCS-2" в других словарях:

  • UCS — UCS  многозначная аббревиатура: Universal Character Set Универсальный набор символов (англ.)  стандарт кодировки символов, определённый ISO/IEC 10646, UCS 2,UCS 4 Uniform Color Scales Унифицированные цветовые шкалы UCS OSA … …   Википедия

  • UCS — may refer to:* Undergraduate Council of Students, the undergraduate student government at Brown University in the United States * Uniform Color Scales, a color space developed by the Optical Society of America. * Union of Clare Students, a union… …   Wikipedia

  • UCS — steht als Abkürzung für: die US Wissenschaftlervereinigung Union of Concerned Scientists die Unisource Carrier Services ist ein internationaler Zusammenschluss von Telekommunikationsgesellschaften den Universal Character Set, eine Vereinigung… …   Deutsch Wikipedia

  • UCS — abbr. universal character set. * * * …   Universalium

  • UCS — United Counseling Service Short Dictionary of (mostly American) Legal Terms and Abbreviations …   Law dictionary

  • UCS —   [Abk. für Universal Character Set, »universeller Zeichensatz«], der Zeichensatz Unicode …   Universal-Lexikon

  • UCS — ISO/CEI 10646 Unicode Jeux de caractères UCS (ISO/CEI 10646) ISO 646, ASCII ISO 8859 1 WGL4 UniHan Équivalences normalisées NFC (précomposée) NFD (décomposée) NFKC (compatibilité) NFKD (compatibilité) Propriétés et algorithmes ISO 15924 …   Wikipédia en Français

  • UCS-4 — Юникод, или Уникод (англ. Unicode)  стандарт кодирования символов, позволяющий представить знаки практически всех письменных языков. Стандарт предложен в 1991 году некоммерческой организацией «Консорциум Юникода» (англ. Unicode Consortium,… …   Википедия

  • UCS-2 — Unicode Kodierungen UTF 7 UTF 8 CESU 8 UTF 16 UTF 32 UTF EBCDIC SCSU Punycode GB 18030 Techniken BOM …   Deutsch Wikipedia

  • UCS-4 — Unicode Kodierungen UTF 7 UTF 8 CESU 8 UTF 16 UTF 32 UTF EBCDIC SCSU Punycode GB 18030 Techniken BOM …   Deutsch Wikipedia

  • UCS — La sigla UCS puede tener diversos significados, según el contexto: La UCS, o Universidade de Caxias do Sul es una Universidad Brasilera. En informática, el UCS o Universal Character Set es un estándar ISO que define un conjunto de caracteres.… …   Wikipedia Español


Поделиться ссылкой на выделенное

Прямая ссылка:
Нажмите правой клавишей мыши и выберите «Копировать ссылку»