XML и Unicode: гремучая смесь

19.06.2003, 15:20

Организации по стандартизации предупреждают: набор символов, позволяющий компьютерам писать на любом языке, от чешского до китайского, может заставить Web-браузеры заикаться.

Unicode, публикуемый консорциумом Unicode Consortium, представляет собой стандартный набор символов для компьютеров, в котором каждому письменному знаку на любом языке присвоен определенный номер. XML (Extensible Markup Language), рекомендованный консорциумом World Wide Web Consortium (W3C) для разметки цифровых документов и создания новых языков разметки для специфических задач или отраслей, опирается на Unicode и четко отслеживает его редакции.

Однако технический отчет, выпущенный Unicode Consortium - и одновременно опубликованный группой интернационализации W3C, - предупреждает авторов документов, что некоторые особенности Unicode могут нарушать работу XML- приложений, HTML-браузеров и других программ.

Конфликты между Unicode и языками разметки для веба проистекают из принципиального различия в подходах, лежащих в основе набора символов и веб- стандартов. Если Unicode гарантирует взаимно-однозначное соответствие каждому символу на странице, то XML и его сородичи проявляют больше гибкости, позволяя авторам присваивать одному и тому же символу, слову или странице разные стилевые и функциональные атрибуты.

Например, Unicode содержит так называемые "символы совместимости", отдельные коды для обозначения надстрочных и подстрочных цифровых или буквенных индексов. В HTML или XML, напротив, автор должен использовать основной символ, а затем оформить его как надстрочный или подстрочный индекс.

Чтобы все работало, W3C рекомендует авторам пользоваться исключительно возможностями разметки. Символы совместимости "не являются долгосрочным, хорошим средством", считает руководитель группы интернационализации W3C и внештатный научный сотрудник Лаборатории вычислительной техники Массачусетского технологического института Мартин Дерст: "Мы призываем авторов со всей ответственностью и осторожностью подходить к использованию Unicode в сочетании с XML".

Обычно авторы знают, что их Unicode-документы будут читать посредством Web- браузеров и других XML-приложений. Но бывает, что конфликты возникают неожиданно, когда в XML-приложение поступает информация из существующих баз данных и информационных хранилищ. В этих случаях приложения, предназначенные для работы с языками разметки, начинают спотыкаться на символах, обозначающих знаки вертикальной и горизонтальной табуляции и прочие управляющие символы.

"В отчете мы приводим множество всякого рода символов, которые так или иначе могут применяться в старых системах или тексте без форматирования, но когда в вашем распоряжении есть средства разметки, то вместо этих символов лучше использовать структуру, - говорит Дерст. - Работая с XML, пользуйтесь средствами XML. Управляющие символы как следует работать не будут".

В конце этого года четвертая версия Unicode выйдет в виде книги. Сейчас доступны предварительные версии Unicode 4.0, сообщает "ZDNet".

Читайте також