Юнікод: відмінності між версіями
[перевірена версія] | [перевірена версія] |
Вилучено вміст Додано вміст
Рядок 100:
== Висновки ==
Характерна особливість набору символів (UCS) — символи завжди фіксованої довжини:
* ''UCS-2'' — 1 символ = 2 байти (лише одна площина з 17-ти)
* ''UCS-4'' — 1 символ = 4 байти (65 тис. площин не використані)
Характерна особливість кодування (''UTF'') — символи НЕ завжди фіксованої довжини:
* ''UTF-32'' — єдине кодування з фіксованою довжиною символів, 1 символ = 32 біти = 4 байти, тому можна сказати, що код символу в ''UCS-4'' дорівнює коду символу в ''UTF-32''.
* ''UTF-16'' — коди символів < 216 однозначно відповідають кодам символів з набору ''UCS-2''. Коди решти символів (символи з кодом >= 216) є однозначними тільки для ''UTF-16''.
* ''UTF-8'' — коди символів < 128 однозначно відповідають кодам символів верхньої частини ''ASCII'' таблиці. Коди решти символів (символи з кодом >= 128) є однозначними тільки для ''UTF-8''.
Твердження «1 байт = 1 символ» є застарілим і в переважній більшості практичних випадків є хибним.
Довжина символу НЕ є фіксованою (виняток складає кодування ''UTF-32'' та ''ASCII'' таблиця).
Юнікод у програмах — добра платформа для підтримки багатомовності.
|