Язык скриптования сайтов Parser 3

Installcharset


Описание формата файла, описывающего кодировку


Данные в формате tab-delimited со следующими столбцами:

char - символ, или его код, заданный в десятичной или шестнадцатеричной форме

(0xHH) в той кодировке, которую определяет этот файл.

white-space, digit, hex-digit, letter, word - набор флажков, задающих класс этого символа. Пустое содержимое означает непринадлежность символа к этому классу, непустое [например, 'x'] - принадлежность.

Подробнее о символьных классах см. описание регулярных выражений в литературе.

lowercase - если символ имеет пару в нижнем регистре, то символ или код парного символа. Скажем, у буквы 'W' есть парная 'w'. Используется в регулярных выражениях для поиска, нечувствительного к регистру символов, а также в методах lower и upper класса string.

unicode1 - основной Unicode код символа. Если совпадает с кодом символа, то можно не указывать. Скажем, у буквы 'W' он совпадает, а у буквы 'Я' - нет.

unicode2 - дополнительный Unicode символа, если имеется.

Copyright © 1997?2004 Art. Lebedev Studio | http://www.artlebedev.ru Дата обновления: 24.02.2004



Содержание раздела