HTML

Веб-сторінки, створені за допомогою мови розмітки гіпертексту (HTML), можуть містити багатомовний текст, представлений універсальним набором символів Unicode universal character set. Ключем до взаємозв'язку між Unicode і HTML є взаємозв'язок між "набором символів документа", який визначає набір символів, які можуть бути присутніми в документі HTML, і присвоює їм номери, та "зовнішнім кодуванням символів" або "кодировкою", що використовуються для кодувати даний документ як послідовність байтів.

У RFC 1866, початковому стандарті HTML 2.0, набір символів документа визначався як ISO-8859-1. Він був розширений до ISO 10646 (що в основному еквівалентно Unicode) RFC 2070. Він не відрізняється між документами різних мов або створюється на різних платформах. Зовнішнє кодування символів вибирає автор документа (або програмне забезпечення, яке автор використовує для створення документа) і визначає, яким чином байти використовуються для зберігання та / або передачі карти документа символам із набору символів документа. Символи, яких немає у вибраному зовнішньому кодуванні символів, можуть бути представлені посиланнями на сутності символів.

Взаємозв'язок між Unicode та HTML, як правило, є важкою темою для багатьох комп'ютерних професіоналів, авторів документів та веб-користувачів. Точне подання тексту на веб-сторінках з різних природних мов та систем письма ускладнюється деталями кодування символів, синтаксисом мови розмітки, шрифтом та різними рівнями підтримки веб-браузерів.