Таблица кодов windows 1251 для русских букв: Кодировки UTF-8, Windows-1251, CP-866…. или русский язык в Arduino IDE

Содержание

Таблица Windows-1251

Windows-1251 (cp1251) — это стандартная 8-битная кодировка, разработанная компанией Microsoft. Она содержит практически все символы, которые Вы можете встретить на стандартной русской клавиатуре. Также 1251 имеет символы для таких языков, как белорусский, украинский, болгарский и сербский.

DEC

HEX

СИМВ

DEC

HEX

СИМВ

DEC

HEX

СИМВ

000

00

NOP

086

56

V

171

AB

«

001

01

SOH

087

57

W

172

AC

¬

002

02

STX

088

58

X

173

AD

003

03

ETX

089

59

Y

174

AE

®

004

04

EOT

090

5A

Z

175

AF

Ї

005

05

ENQ

091

5B

[

176

B0

°

006

06

ACK

092

5C

\

177

B1

±

007

07

BEL

093

5D

]

178

B2

І

008

08

BS

094

5E

^

179

B3

і

009

09

Табуляция

095

5F

_

180

B4

ґ

010

0A

LF

096

60

`

181

B5

µ

011

0B

VT

097

61

a

182

B6

012

0C

FF

098

62

b

183

B7

·

013

0D

CR

099

63

c

184

B8

Ё

014

0E

SO

100

64

d

185

B9

015

0F

SI

101

65

e

186

BA

Є

016

10

DLE

102

66

f

187

BB

»

017

11

DC1

103

67

g

188

BC

ј

018

12

DC2

104

68

h

189

BD

Ѕ

019

13

DC3

105

69

i

190

BE

Ѕ

020

14

DC4

106

6A

j

191

BF

Ї

021

15

NAK

107

6B

k

192

C0

А

022

16

SYN

108

6C

l

193

C1

Б

023

17

ETB

109

6D

m

194

C2

В

024

18

CAN

110

6E

n

195

C3

Г

025

19

EM

111

6F

o

196

C4

Д

026

1A

SUB

112

70

p

197

C5

Е

027

1B

ESC

113

71

q

198

C6

Ж

028

1C

FS

114

72

r

199

C7

З

029

1D

GS

115

73

s

200

C8

И

030

1E

RS

116

74

t

201

C9

Й

031

1F

US

117

75

u

202

CA

К

032

20

Пробел

118

76

v

203

CB

Л

033

21

!

119

77

w

204

CC

М

034

22

«

120

78

x

205

CD

Н

035

23

#

121

79

y

206

CE

О

036

24

$

122

7A

z

207

CF

П

037

25

%

123

7B

{

208

D0

Р

038

26

&

124

7C

|

209

D1

С

039

27

125

7D

}

210

D2

Т

040

28

(

126

7E

~

211

D3

У

041

29

)

127

7F



212

D4

Ф

042

2A

*

128

80

Ђ

213

D5

Х

043

2B

+

129

81

Ѓ

214

D6

Ц

044

2C

,

130

82

215

D7

Ч

045

2D

131

83

ѓ

216

D8

Ш

046

2E

.

132

84

217

D9

Щ

047

2F

/

133

85

218

DA

Ъ

048

30

0

134

86

219

DB

Ы

049

31

1

135

87

220

DC

Ь

050

32

2

136

88

221

DD

Э

051

33

3

137

89

222

DE

Ю

052

34

4

138

8A

Љ

223

DF

Я

053

35

5

139

8B

224

E0

а

054

36

6

140

8C

Њ

225

E1

б

055

37

7

141

8D

Ќ

226

E2

в

056

38

8

142

8E

Ћ

227

E3

г

057

39

9

143

8F

Џ

228

E4

д

058

3A

:

144

90

Ђ

229

E5

е

059

3B

;

145

91

230

E6

ж

060

3C

<

146

92

231

E7

з

061

3D

=

147

93

232

E8

и

062

3E

>

148

94

233

E9

й

063

3F

?

149

95

234

EA

к

064

40

@

150

96

235

EB

л

065

41

A

151

97

236

EC

м

066

42

B

152

98 ˜

237

ED

н

067

43

C

153

99

238

EE

о

068

44

D

154

9A

љ

239

EF

п

069

45

E

155

9B

240

F0

р

070

46

F

156

9C

њ

241

F1

с

071

47

G

157

9D

ќ

242

F2

т

072

48

H

158

9E

ћ

243

F3

у

073

49

I

159

9F

џ

244

F4

ф

074

4A

J

160

A0

245

F5

х

075

4B

K

161

A1

Ў

246

F6

ц

076

4C

L

162

A2

ў

247

F7

ч

077

4D

M

163

A3

Ј

248

F8

ш

078

4E

N

164

A4

¤

249

F9

щ

079

4F

O

165

A5

Ґ

250

FA

ъ

080

50

P

166

A6

¦

251

FB

ы

081

51

Q

167

A7

§

252

FC

ь

082

52

R

168

A8

Ё

253

FD

э

083

53

S

169

A9

©

254

FE

ю

084

54

T

170

AA

Є

255

FF

я

085

55

U


Похожие записи:

Кодировка текста ASCII (Windows 1251, CP866, KOI8-R) и Юникод (UTF 8, 16, 32) — как исправить проблему с кракозябрами

Обновлено 19 января 2021

  1. ASCII — базовая кодировка текста для латиницы
  2. Расширенные версии Аски — кодировки CP866 и KOI8-R
  3. Windows 1251 — почему вылезают кракозябры
  4. Юникод (Unicode) — универсальные кодировки UTF 8, 16 и 32
  5. Кракозябры вместо русских букв — как исправить

Здравствуйте, уважаемые читатели блога KtoNaNovenkogo.ru. Сегодня мы поговорим с вами про то, откуда берутся кракозябры на сайте и в программах, какие кодировки текста существуют и какие из них следует использовать. Подробно рассмотрим историю их развития, начиная от базовой ASCII, а также ее расширенных версий CP866, KOI8-R, Windows 1251 и заканчивая современными кодировками консорциума Юникод UTF 16 и 8.

Кому-то эти сведения могут показаться излишними, но знали бы вы, сколько мне приходит вопросов именно касаемо вылезших кракозябров (не читаемого набора символов). Теперь у меня будет возможность отсылать всех к тексту этой статьи и самостоятельно отыскивать свои косяки. Ну что же, приготовьтесь впитывать информацию и постарайтесь следить за ходом повествования.

ASCII — базовая кодировка текста для латиницы

Развитие кодировок текстов происходило одновременно с формированием отрасли IT, и они за это время успели претерпеть достаточно много изменений. Исторически все начиналось с довольно-таки не благозвучной в русском произношении EBCDIC, которая позволяла кодировать буквы латинского алфавита, арабские цифры и знаки пунктуации с управляющими символами.

Но все же отправной точкой для развития современных кодировок текстов стоит считать знаменитую ASCII (American Standard Code for Information Interchange, которая по-русски обычно произносится как «аски»). Она описывает первые 128 символов из наиболее часто используемых англоязычными пользователями — латинские буквы, арабские цифры и знаки препинания.

Еще в эти 128 знаков, описанных в ASCII, попадали некоторые служебные символы навроде скобок, решеток, звездочек и т.п. Собственно, вы сами можете увидеть их:

Именно эти 128 символов из первоначального вариант ASCII стали стандартом, и в любой другой кодировке вы их обязательно встретите и стоять они будут именно в таком порядке.

Но дело в том, что с помощью одного байта информации можно закодировать не 128, а целых 256 различных значений (двойка в степени восемь равняется 256), поэтому вслед за базовой версией Аски появился целый ряд расширенных кодировок ASCII, в которых можно было кроме 128 основных знаков закодировать еще и символы национальной кодировки (например, русской).

Тут, наверное, стоит еще немного сказать про системы счисления, которые используются при описании. Во-первых, как вы все знаете, компьютер работает только с числами в двоичной системе, а именно с нулями и единицами («булева алгебра», если кто проходил в институте или в школе). Один байт состоит из восьми бит, каждый из которых представляет из себя двойку в степени, начиная с нулевой, и до двойки в седьмой:

Не трудно понять, что всех возможных комбинаций нулей и единиц в такой конструкции может быть только 256. Переводить число из двоичной системы в десятичную довольно просто. Нужно просто сложить все степени двойки, над которыми стоят единички.

В нашем примере это получается 1 (2 в степени ноль) плюс 8 (два в степени 3), плюс 32 (двойка в пятой степени), плюс 64 (в шестой), плюс 128 (в седьмой). Итого получает 233 в десятичной системе счисления. Как видите, все очень просто.

Но если вы присмотритесь к таблице с символами ASCII, то увидите, что они представлены в шестнадцатеричной кодировке. Например, «звездочка» соответствует в Аски шестнадцатеричному числу 2A. Наверное, вам известно, что в шестнадцатеричной системе счисления используются кроме арабских цифр еще и латинские буквы от A (означает десять) до F (означает пятнадцать).

Ну так вот, для перевода двоичного числа в шестнадцатеричное прибегают к следующему простому и наглядному способу. Каждый байт информации разбивают на две части по четыре бита, как показано на приведенном выше скриншоте. Т.о. в каждой половинке байта двоичным кодом можно закодировать только шестнадцать значений (два в четвертой степени), что можно легко представить шестнадцатеричным числом.

Причем, в левой половине байта считать степени нужно будет опять начиная с нулевой, а не так, как показано на скриншоте. В результате, путем нехитрых вычислений, мы получим, что на скриншоте закодировано число E9. Надеюсь, что ход моих рассуждений и разгадка данного ребуса вам оказались понятны. Ну, а теперь продолжим, собственно, говорить про кодировки текста.

Расширенные версии Аски — кодировки CP866 и KOI8-R с псевдографикой

Итак, мы с вами начали говорить про ASCII, которая являлась как бы отправной точкой для развития всех современных кодировок (Windows 1251, юникод, UTF 8).

Изначально в нее было заложено только 128 знаков латинского алфавита, арабских цифр и еще чего-то там, но в расширенной версии появилась возможность использовать все 256 значений, которые можно закодировать в одном байте информации. Т.е. появилась возможность добавить в Аски символы букв своего языка.

Тут нужно будет еще раз отвлечься, чтобы пояснить — зачем вообще нужны кодировки текстов и почему это так важно. Символы на экране вашего компьютера формируются на основе двух вещей — наборов векторных форм (представлений) всевозможных знаков (они находятся в файлах со шрифтами, которые установлены на вашем компьютере) и кода, который позволяет выдернуть из этого набора векторных форм (файла шрифта) именно тот символ, который нужно будет вставить в нужное место.

Понятно, что за сами векторные формы отвечают шрифты, а вот за кодирование отвечает операционная система и используемые в ней программы. Т.е. любой текст на вашем компьютере будет представлять собой набор байтов, в каждом из которых закодирован один единственный символ этого самого текста.

Программа, отображающая этот текст на экране (текстовый редактор, браузер и т.п.), при разборе кода считывает кодировку очередного знака и ищет соответствующую ему векторную форму в нужном файле шрифта, который подключен для отображения данного текстового документа. Все просто и банально.

Значит, чтобы закодировать любой нужный нам символ (например, из национального алфавита), должно быть выполнено два условия — векторная форма этого знака должна быть в используемом шрифте и этот символ можно было бы закодировать в расширенных кодировках ASCII в один байт. Поэтому таких вариантов существует целая куча. Только лишь для кодирования символов русского языка существует несколько разновидностей расширенной Аски.

Например, изначально появилась CP866, в которой была возможность использовать символы русского алфавита и она являлась расширенной версией ASCII.

Т.е. ее верхняя часть полностью совпадала с базовой версией Аски (128 символов латиницы, цифр и еще всякой лабуды), которая представлена на приведенном чуть выше скриншоте, а вот уже нижняя часть таблицы с кодировкой CP866 имела указанный на скриншоте чуть ниже вид и позволяла закодировать еще 128 знаков (русские буквы и всякая там псевдографика):

Видите, в правом столбце цифры начинаются с 8, т.к. числа с 0 до 7 относятся к базовой части ASCII (см. первый скриншот). Т.о. русская буква «М» в CP866 будет иметь код 9С (она находится на пересечении соответствующих строки с 9 и столбца с цифрой С в шестнадцатеричной системе счисления), который можно записать в одном байте информации, и при наличии подходящего шрифта с русскими символами эта буква без проблем отобразится в тексте.

Откуда взялось такое количество псевдографики в CP866? Тут все дело в том, что эта кодировка для русского текста разрабатывалась еще в те мохнатые года, когда не было такого распространения графических операционных систем как сейчас. А в Досе, и подобных ей текстовых операционках, псевдографика позволяла хоть как-то разнообразить оформление текстов и поэтому ею изобилует CP866 и все другие ее ровесницы из разряда расширенных версий Аски.

CP866 распространяла компания IBM, но кроме этого для символов русского языка были разработаны еще ряд кодировок, например, к этому же типу (расширенных ASCII) можно отнести KOI8-R:

Принцип ее работы остался тот же самый, что и у описанной чуть ранее CP866 — каждый символ текста кодируется одним единственным байтом. На скриншоте показана вторая половина таблицы KOI8-R, т.к. первая половина полностью соответствует базовой Аски, которая показана на первом скриншоте в этой статье.

Среди особенностей кодировки KOI8-R можно отметить то, что русские буквы в ее таблице идут не в алфавитном порядке, как это, например, сделали в CP866.

Если посмотрите на самый первый скриншот (базовой части, которая входит во все расширенные кодировки), то заметите, что в KOI8-R русские буквы расположены в тех же ячейках таблицы, что и созвучные им буквы латинского алфавита из первой части таблицы. Это было сделано для удобства перехода с русских символов на латинские путем отбрасывания всего одного бита (два в седьмой степени или 128).

Windows 1251 — современная версия ASCII и почему вылезают кракозябры

Дальнейшее развитие кодировок текста было связано с тем, что набирали популярность графические операционные системы и необходимость использования псевдографики в них со временем пропала. В результате возникла целая группа, которая по своей сути по-прежнему являлись расширенными версиями Аски (один символ текста кодируется всего одним байтом информации), но уже без использования символов псевдографики.

Они относились к так называемым ANSI кодировкам, которые были разработаны американским институтом стандартизации. В просторечии еще использовалось название кириллица для варианта с поддержкой русского языка. Примером такой может служить Windows 1251.

Она выгодно отличалась от используемых ранее CP866 и KOI8-R тем, что место символов псевдографики в ней заняли недостающие символы русской типографики (окромя знака ударения), а также символы, используемые в близких к русскому славянских языках (украинскому, белорусскому и т.д.):

Из-за такого обилия кодировок русского языка, у производителей шрифтов и производителей программного обеспечения постоянно возникала головная боль, а у нас с вам, уважаемые читатели, зачастую вылезали те самые пресловутые кракозябры, когда происходила путаница с используемой в тексте версией.

Очень часто они вылезали при отправке и получении сообщений по электронной почте, что повлекло за собой создание очень сложных перекодировочных таблиц, которые, собственно, решить эту проблему в корне не смогли, и зачастую пользователи для переписки использовали транслит латинских букв, чтобы избежать пресловутых кракозябров при использовании русских кодировок подобных CP866, KOI8-R или Windows 1251.

По сути, кракозябры, вылазящие вместо русского текста, были результатом некорректного использования кодировки данного языка, которая не соответствовала той, в которой было закодировано текстовое сообщение изначально.

Допустим, если символы, закодированные с помощью CP866, попробовать отобразить, используя кодовую таблицу Windows 1251, то эти самые кракозябры (бессмысленный набор знаков) и вылезут, полностью заменив собой текст сообщения.

Аналогичная ситуация очень часто возникает при создании сайтов на WordPress и Joomla, форумов или блогов, когда текст с русскими символами по ошибке сохраняется не в той кодировке, которая используется на сайте по умолчанию, или же не в том текстовом редакторе, который добавляет в код отсебятину не видимую невооруженным глазом.

В конце концов такая ситуация с множеством кодировок и постоянно вылезающими кракозябрами многим надоела, появились предпосылки к созданию новой универсальной вариации, которая бы заменила собой все существующие и решила бы, наконец, на корню проблему с появлением не читаемых текстов. Кроме этого существовала проблема языков подобных китайскому, где символов языка было гораздо больше, чем 256.

Юникод (Unicode) — универсальные кодировки UTF 8, 16 и 32

Эти тысячи знаков языковой группы юго-восточной Азии никак невозможно было описать в одном байте информации, который выделялся для кодирования символов в расширенных версиях ASCII. В результате был создан консорциум под названием Юникод (Unicode — Unicode Consortium) при сотрудничестве многих лидеров IT индустрии (те, кто производит софт, кто кодирует железо, кто создает шрифты), которые были заинтересованы в появлении универсальной кодировки текста.

Первой вариацией, вышедшей под эгидой консорциума Юникод, была UTF 32. Цифра в названии кодировки означает количество бит, которое используется для кодирования одного символа. 32 бита составляют 4 байта информации, которые понадобятся для кодирования одного единственного знака в новой универсальной кодировке UTF.

В результате чего, один и тот же файл с текстом, закодированный в расширенной версии ASCII и в UTF-32, в последнем случае будет иметь размер (весить) в четыре раза больше. Это плохо, но зато теперь у нас появилась возможность закодировать с помощью ЮТФ число знаков, равное двум в тридцать второй степени (миллиарды символов, которые покроют любое реально необходимое значение с колоссальным запасом).

Но многим странам с языками европейской группы такое огромное количество знаков использовать в кодировке вовсе и не было необходимости, однако при задействовании UTF-32 они ни за что ни про что получали четырехкратное увеличение веса текстовых документов, а в результате и увеличение объема интернет трафика и объема хранимых данных. Это много, и такое расточительство себе никто не мог позволить.

В результате развития Юникода появилась UTF-16, которая получилась настолько удачной, что была принята по умолчанию как базовое пространство для всех символов, которые у нас используются. Она использует два байта для кодирования одного знака. Давайте посмотрим, как это дело выглядит.

В операционной системе Windows вы можете пройти по пути «Пуск» — «Программы» — «Стандартные» — «Служебные» — «Таблица символов». В результате откроется таблица с векторными формами всех установленных у вас в системе шрифтов. Если вы выберете в «Дополнительных параметрах» набор знаков Юникод, то сможете увидеть для каждого шрифта в отдельности весь ассортимент входящих в него символов.

Кстати, щелкнув по любому из них, вы сможете увидеть его двухбайтовый код в формате UTF-16, состоящий из четырех шестнадцатеричных цифр:

Сколько символов можно закодировать в UTF-16 с помощью 16 бит? 65 536 (два в степени шестнадцать), и именно это число было принято за базовое пространство в Юникоде. Помимо этого существуют способы закодировать с помощью нее и около двух миллионов знаков, но ограничились расширенным пространством в миллион символов текста.

Но даже эта удачная версия кодировки Юникода не принесла особого удовлетворения тем, кто писал, допустим, программы только на английском языке, ибо у них, после перехода от расширенной версии ASCII к UTF-16, вес документов увеличивался в два раза (один байт на один символ в Аски и два байта на тот же самый символ в ЮТФ-16).

Вот именно для удовлетворения всех и вся в консорциуме Unicode было решено придумать кодировку переменной длины. Ее назвали UTF-8. Несмотря на восьмерку в названии, она действительно имеет переменную длину, т.е. каждый символ текста может быть закодирован в последовательность длиной от одного до шести байт.

На практике же в UTF-8 используется только диапазон от одного до четырех байт, потому что за четырьмя байтами кода ничего уже даже теоретически не возможно представить. Все латинские знаки в ней кодируются в один байт, так же как и в старой доброй ASCII.

Что примечательно, в случае кодирования только латиницы, даже те программы, которые не понимают Юникод, все равно прочитают то, что закодировано в ЮТФ-8. Т.е. базовая часть Аски просто перешла в это детище консорциума Unicode.

Кириллические же знаки в UTF-8 кодируются в два байта, а, например, грузинские — в три байта. Консорциум Юникод после создания UTF 16 и 8 решил основную проблему — теперь у нас в шрифтах существует единое кодовое пространство. И теперь их производителям остается только исходя из своих сил и возможностей заполнять его векторными формами символов текста. Сейчас в наборы даже эмодзи смайлики добавляют.

В приведенной чуть выше «Таблице символов» видно, что разные шрифты поддерживают разное количество знаков. Некоторые насыщенные символами Юникода шрифты могут весить очень прилично. Но зато теперь они отличаются не тем, что они созданы для разных кодировок, а тем, что производитель шрифта заполнил или не заполнил единое кодовое пространство теми или иными векторными формами до конца.

Кракозябры вместо русских букв — как исправить

Давайте теперь посмотрим, как появляются вместо текста кракозябры или, другими словами, как выбирается правильная кодировка для русского текста. Собственно, она задается в той программе, в которой вы создаете или редактируете этот самый текст, или же код с использованием текстовых фрагментов.

Для редактирования и создания текстовых файлов лично я использую очень хороший, на мой взгляд, Html и PHP редактор Notepad++. Впрочем, он может подсвечивать синтаксис еще доброй сотни языков программирования и разметки, а также имеет возможность расширения с помощью плагинов. Читайте подробный обзор этой замечательной программы по приведенной ссылке.

В верхнем меню Notepad++ есть пункт «Кодировки», где у вас будет возможность преобразовать уже имеющийся вариант в тот, который используется на вашем сайте по умолчанию:

В случае сайта на Joomla 1.5 и выше, а также в случае блога на WordPress следует во избежании появления кракозябров выбирать вариант UTF 8 без BOM. А что такое приставка BOM?

Дело в том, что когда разрабатывали кодировку ЮТФ-16, зачем-то решили прикрутить к ней такую вещь, как возможность записывать код символа, как в прямой последовательности (например, 0A15), так и в обратной (150A). А для того, чтобы программы понимали, в какой именно последовательности читать коды, и был придуман BOM (Byte Order Mark или, другими словами, сигнатура), которая выражалась в добавлении трех дополнительных байтов в самое начало документов.

В кодировке UTF-8 никаких BOM предусмотрено в консорциуме Юникод не было и поэтому добавление сигнатуры (этих самых пресловутых дополнительных трех байтов в начало документа) некоторым программам просто-напросто мешает читать код. Поэтому мы всегда при сохранении файлов в ЮТФ должны выбирать вариант без BOM (без сигнатуры). Таким образом, вы заранее обезопасите себя от вылезания кракозябров.

Что примечательно, некоторые программы в Windows не умеют этого делать (не умеют сохранять текст в ЮТФ-8 без BOM), например, все тот же пресловутый Блокнот Windows. Он сохраняет документ в UTF-8, но все равно добавляет в его начало сигнатуру (три дополнительных байта). Причем эти байты будут всегда одни и те же — читать код в прямой последовательности. Но на серверах из-за этой мелочи может возникнуть проблема — вылезут кракозябры.

Поэтому ни в коем случае не пользуйтесь обычным блокнотом Windows для редактирования документов вашего сайта, если не хотите появления кракозябров. Лучшим и наиболее простым вариантом я считаю уже упомянутый редактор Notepad++, который практически не имеет недостатков и состоит из одних лишь достоинств.

В Notepad ++ при выборе кодировки у вас будет возможность преобразовать текст в кодировку UCS-2, которая по своей сути очень близка к стандарту Юникод. Также в Нотепаде можно будет закодировать текст в ANSI, т.е. применительно к русскому языку это будет уже описанная нами чуть выше Windows 1251. Откуда берется эта информация?

Она прописана в реестре вашей операционной системы Windows — какую кодировку выбирать в случае ANSI, какую выбирать в случае OEM (для русского языка это будет CP866). Если вы установите на своем компьютере другой язык по умолчанию, то и эти кодировки будут заменены на аналогичные из разряда ANSI или OEM для того самого языка.

После того, как вы в Notepad++ сохраните документ в нужной вам кодировке или же откроете документ с сайта для редактирования, то в правом нижнем углу редактора сможете увидеть ее название:

Чтобы избежать кракозябров, кроме описанных выше действий, будет полезным прописать в его шапке исходного кода всех страниц сайта информацию об этой самой кодировке, чтобы на сервере или локальном хосте не возникло путаницы.

Вообще, во всех языках гипертекстовой разметки кроме Html используется специальное объявление xml, в котором указывается кодировка текста.

<?xml version="1.0" encoding="windows-1251"?>

Прежде, чем начать разбирать код, браузер узнает, какая версия используется и как именно нужно интерпретировать коды символов этого языка. Но что примечательно, в случае, если вы сохраняете документ в принятом по умолчанию юникоде, то это объявление xml можно будет опустить (кодировка будет считаться UTF-8, если нет BOM или ЮТФ-16, если BOM есть).

В случае же документа языка Html для указания кодировки используется элемент Meta, который прописывается между открывающим и закрывающим тегом Head:

<head>
...
<meta charset="utf-8">
...
</head>

Эта запись довольно сильно отличается от принятой в стандарте в Html 4.01, но полностью соответствует новому внедряемому потихоньку стандарту Html 5, и она будет стопроцентно правильно понята любыми используемыми на текущий момент браузерами.

По идее, элемент Meta с указание кодировки Html документа лучше будет ставить как можно выше в шапке документа, чтобы на момент встречи в тексте первого знака не из базовой ANSI (которые правильно прочитаются всегда и в любой вариации) браузер уже должен иметь информацию о том, как интерпретировать коды этих символов.

Удачи вам! До скорых встреч на страницах блога KtoNaNovenkogo.ru

Таблица ASCII (кодировка Windows-1251)

Таблица ASCII (кодировка Windows-1251)

(0)(1)(2)(3)(4)(5)(6)(7)(8)(9)(10)(11)(12)(13)(14)(15)(16)
(17)(18)(19)(20)(21)(22)(23)(24)(25)(26)(27)(28)(29)(30)(31) (32)!(33)
«(34)#(35)$(36)%(37)&(38)(39)((40))(41)*(42)+(43),(44)(45).(46)/(47)0(48)1(49)2(50)
3(51)4(52)5(53)6(54)7(55)8(56)9(57):(58);(59)(60)=(61)>(62)?(63)@(64)A(65)B(66)C(67)
D(68)E(69)F(70)G(71)H(72)I(73)J(74)K(75)L(76)M(77)N(78)O(79)P(80)Q(81)R(82)S(83)T(84)
U(85)V(86)W(87)X(88)Y(89)Z(90)[(91)\ (92)](93)^(94)_(95)`(96)a(97)b(98)c(99)d(100)e(101)
f(102)g(103)h(104)i(105)j(106)k(107)l(108)m(109)n(110)o(111)p(112)q(113)r(114)s(115)t(116)u(117)v(118)
w(119)x(120)y(121)z(122){(123)|(124)}(125)~(126)(127)Ђ(128)Ѓ(129)(130)ѓ(131)(132)(133)(134)(135)
(136)(137)Љ(138)(139)Њ(140)Ќ(141)Ћ(142)Џ(143)ђ(144)(145)(146)(147)(148)(149)(150)(151)˜(152)
(153)љ(154)(155)њ(156)ќ(157)ћ(158)џ(159) (160)Ў(161)ў(162)Ј(163)¤(164)Ґ(165)¦(166)§(167)Ё(168)©(169)
Є(170)«(171)¬(172)­(173)®(174)Ї(175)°(176)±(177)І(178)і(179)ґ(180)µ(181)(182)·(183)ё(184)(185)є(186)
»(187)ј(188)Ѕ(189)ѕ(190)ї(191)А(192)Б(193)В(194)Г(195)Д(196)Е(197)Ж(198)З(199)И(200)Й(201)К(202)Л(203)
М(204)Н(205)О(206)П(207)Р(208)С(209)Т(210)У(211)Ф(212)Х(213)Ц(214)Ч(215)Ш(216)Щ(217)Ъ(218)Ы(219)Ь(220)
Э(221)Ю(222)Я(223)а(224)б(225)в(226)г(227)д(228)е(229)ж(230)з(231)и(232)й(233)к(234)л(235)м(236)н(237)
о(238)п(239)р(240)с(241)т(242)у(243)ф(244)х(245)ц(246)ч(247)ш(248)щ(249)ъ(250)ы(251)ь(252)э(253)ю(254)
я(255)(256)(257)(258)(259)(260)(261)(262)(263)(264)(265)(266)(267)(268)(269)(270)(271)

— версия для печати


Определение
ASCII (англ. American Standard Code for Information Interchange) — американская стандартная таблица для кодирования печатных символов и некоторых специальных кодов.
Если у вас есть мысли по поводу данной страницы или предложение по созданию математической (см. раздел «Математика») вспомогательной памятки, мы обязательно рассмотрим ваше предложение. Просто воспользуйтесь обратной связью.

© Школяр. Математика (при поддержке «Ветвистого древа») 2009—2016

Кодировки русского текста | Практическая информатика

Исторически сложилось так, что для представления печатных символов (кодирования текста) в первых ЭВМ отвели 7 бит. 27=128. Этого количества вполне хватало для кодирования всех строчных и прописных букв латинского алфавита, десяти цифр и различных знаков и скобок. Именно такой, 7-битной, является таблица символов ASCII (американский стандартный код для обмена информацией), подробную информацию о которой вы можете получить при помощи команды man ascii операционной системы Linux.

Когда возникла необходимость кодировать национальные алфавиты, то 128 символов стало недостаточно. Было решено перейти на кодирование с помощью 8 бит (т. е. одного байта). В результате количество символов, которые можно закодировать таким образом стало равно 28=256. При этом символы национальных алфавитов располагались во второй половине кодовой таблицы, т. е. содержали единицу в старшем разряде байта, отведенного для кодирования символа. Так появился стандарт ISO 8859, содержащий множество кодировок для наиболее распространенных языков.

Среди них была и одна из первых таблиц для кодировки русских букв — ISO 8859-5 (воспользуйтесь командой man iso_8859_1 для получения кодов русских букв в этой таблице).

Задачи передачи текстовой информации по сети вынудили разработать еще одну кодировку для русских букв, названную Koi8-R (код отображения информации 8-битный, русифицированный). Рассмотрим ситуацию, когда письмо, содержащее русский текст, отправлено по электронной почте. Случалось, что в процессе путешествия по сетям письмо обрабатывалось программой, которая работала с 7-битной кодировкой и обнуляла восьмой бит. В результате такого преобразования код символа уменьшался на 128, превращаясь в код символа латинского алфавита. Возникла необходимость повысить устойчивость передаваемой текстовой информации к обнулению 8 бита.

К счастью, значительное число букв кириллицы имеет фонетические аналоги в латинском алфавите. Например, Ф и F, Р и R. Есть несколько букв, совпадающих даже по начертанию. Расположив русские буквы в кодовой таблице таким образом, чтобы их код превышал код аналогичных латинских на число 128, добились того, что потеря 8-го бита превращала текст хотя и в состоящий из одной латиницы, но все равно понимаемый русскоязычным пользователем.

Так как из всех операционных систем, распространенных в то время, самыми удобными средствами работы с сетью обладали различные клоны операционной системы Unix, то эта кодировка стала фактическим стандартом в этих системах. Таковой она является и сейчас в ОС Linux. И именно эта кодировка чаще всего применяется для обмена почтой и новостями в Интернет.

Далее наступила эра персональных компьютеров и операционной системы MS DOS. Как выяснилось, кодировка Koi8-R для нее не подходила (так же, как и ISO 8859-5), в ее таблице некоторые русские буквы находились на тех местах, которые многие программы предполагали заполненными псевдографикой (горизонтальные и вертикальные черточки, уголки и т. д.). Поэтому была придумана еще одна кодировка кириллицы, в таблице которой русские буквы «обтекали» со всех сторон графические символы. Назвали эту кодировку альтернативной (alt), поскольку она была альтернативой официальному стандарту — кодировке ISO-8859-5. Неоспоримым достоинством этой кодировки является то, что русские буквы в ней расположены в алфавитном порядке.

После появления ОС Windows от фирмы Microsoft выяснилось, что альтернативная кодировка по некоторым причинам для нее не подходит. Снова передвинув русские буквы в таблице (появилась возможность — ведь псевдографика в Windows не требуется), получили кодировку Windows 1251 (Win-1251).

Но компьютерные технологии постоянно совершенствуются и в настоящее время все большее число программ начинает поддерживать стандарт Unicode, который позволяет кодировать практически все языки и диалекты жителей Земли.

Итак, в различных ОС предпочтение отдается разным кодировкам. Для того чтобы стало возможным чтение и редактирования текста, набранного в другой кодировке, используются программы перекодирования русского текста. Некоторые текстовые редакторы содержат встроенные перекодировщики, позволяющие читать текст в различных кодировках (Word и др.). Мы для перекодировки файлов будем использовать ряд утилит в ОС Linux, назначение которых ясно из названия: alt2koi, win2koi, koi2win, alt2win, win2alt, koi2alt (откуда, куда, цифра 2 (two) схожа по звучанию с предлогом to, указывающим направление). Эти команды имеют одинаковый синтаксис: команда <входной_файл >выходной_файл.


Пример

Перекодируем текст, набранный в редакторе Edit в среде MS DOS, в кодировку Koi8-R. Для этого выполним команду

alt2koi file1.txt > filenew

Так как в MS DOS и Linux по разному кодируется перевод строки, рекомендуется выполнить еще команду «fromdos»:

fromdos filenew > file2.txt 

Команда с обратным действием называется «todos» и имеет такой же синтаксис.


Пример

Отсортируем файл List.txt, содержащий список фамилий и подготовленный в кодировке Koi8-R, в алфавитном порядке. Воспользуемся командой sort, которая сортирует текстовый файл по возрастанию или убыванию кодов символов. Если применить ее сразу, то, например, буква В окажется в конце списка, аналогично соответствующей ей букве латинского алфавита V. Вспомнив, что в альтернативной кодировке русские буквы расположены строго по алфавиту, выполним ряд операций: перекодируем текст в альтернативную кодировку, отсортируем его и снова вернем в кодировку Koi8-R. С использованием конвейера команд получаем

koi2alt List.txt | sort | alt2koi > List_Sort.txt

В современных дистрибутивах ОС Linux решены многие проблемы, связанные с локализацией программного обеспечения. В частности утилита sort теперь учитывает особенности кодировки Koi8-R и для сортировки файла в алфавитном порядке достаточно выполнить команду

sort List.txt > List_Sort.txt

Некоторые аспекты русификации принтеров

Цель этой статьи — рассказать о «проблеме кодировок» и помочь в выборе принтера, совместимого с уже установленным программным обеспечением. Статья не ставит целью рекомендовать пользователям конкретные модели принтеров конкретных производителей. Статья рассчитана на начинающих пользователей.

Формирование изображения на бумаге

Подавляющее большинство принтеров, независимо от принципа работы, позволяют выводить на бумагу произвольное изображение. Существует лишь одна, довольно редкая теперь, категория принтеров, предназначенных только для печати текста — АЦПУ (алфавитно-цифровые печатающие устройства). В АЦПУ символы отлиты на барабане или выбиты на металлической ленте, поэтому изменить гарнитуру, размер и другие параметры шрифта невозможно.

Принтеры, предназначенные для делового и домашнего применения, формируют изображение растровым способом, создавая буквы и цифры из большого числа мелких точек. Описание каждого символа хранится в ПЗУ принтера в виде матрицы. При печати текста принтер извлекает описание каждого символа из ПЗУ и отображает его «рисунок» на бумаге.

Вот так выглядит буква «A» для 9-игольчатого матричного принтера Star-NX1500. Как видно, матрица символа имеет размер 6×9 ячеек, при этом точки могут быть расположены не только внутри ячеек, но и между ними. Высота матрицы совпадает с количеством игл принтера, что позволяет печатать одну строку символов за один проход печатающей головки. Соответственно, для 24-игольчатых принтеров матрица имеет высоту в 24 ячейки, что позволяет улучшить изображение символов.

Лазерные принтеры формируют изображение аналогичным образом, но имеют меньший размер точек и более подробное описание символов, поэтому качество их печати значительно выше.

Каждому символу, хранящемуся в ПЗУ принтера, присвоен уникальный номер или, иначе говоря, код. Например, латинской букве «A» соответствует код 65. Для печати символа прикладной программе необходимо послать на принтер нужный код. Совокупность символов и их кодов образует таблицу символов или кодовую таблицу. Принтер выбирает из таблицы символов его описание (матрицу) и генерирует изображение на бумаге.

В то же время, большинство принтеров позволяют напрямую управлять генерацией изображения, то есть выводить на бумагу отдельные точки. Именно таким способом на принтере печатаются рисунки и фотографии.

Таким образом, существует два основных способа печати: с помощью кодов символов (печать кодами) и поточечный вывод изображения (графическая печать).

Способы русификации принтеров

Понятие «русификация принтера» имеет смысл только для печати кодами. Разберем этот вопрос подробнее.

Печать кодами является экономичной и быстрой — в идеале для печати одного символа нужно послать на принтер один байт. (В Unicode символы кодируются двумя байтами, но мне еще не встречались принтеры, рассчитанные на Unicode). Идея печати кодами очень проста и не отличается от принципа вывода информации на экран. Для вывода информации на экран используется текущая кодовая таблица компьютера, для вывода на принтер — кодовая таблица принтера. Для того, чтобы распечатанный текст совпадал с текстом на экране, кодовые таблицы компьютера и принтера должны совпадать. Именно это и является основной задачей русификации принтера — обеспечить поддержку кодовой таблицы, используемой в компьютере.

Для каждой страны и каждого языка существует своя кодовая таблица, для некоторых языков даже несколько таблиц, в которых одни и те символы кодируются по разному, а одним и тем же кодам соответствуют разные буквы. Ситуация усугубляется различием кодировок в разных операционных системах. В русской версии MS-DOS используется кодовая таблица (code page, CP) с номером 866, а в русифицированной системе Windows — таблица 1251. В системе Unix и в компьютерах Macintosh — свои кодировки. Лучшее, что можно обещать, это что коды латинских букв будут одинаковы везде.

Русификация принтера означает, что принтер имеет «прошитые» русские буквы, которые программа не должна «рисовать» сама, и что встроенная в принтер кодовая таблица совпадает с таблицей компьютера. Таким образом, для нормальной печати русских текстов из MS-DOS принтер должен быть русифицирован согласно CP866, а для печати из Windows — согласно CP1251.

До недавнего времени принтеры русифицировались только для использования в MS-DOS, но в последнее время все больше принтеров, поддерживающих и кодировку русской версии Windows, и даже русскую кодировку системы Unix — KOI8-R. Тем не менее, печать из Windows обычно происходит в графическом режиме, поэтому русификация принтера для Windows-программ не является необходимой.

Далее описаны возможные способы русификации принтеров в порядке убывания их предпочтительности.

Аппаратно русифицированный принтер

Вообще говоря, только такая русификация и может считаться настоящей и полной. Принтер содержит «прошитые» русские буквы в необходимой кодировке (обычно CP866). Важно, чтобы имелись буквы всех стандартных размеров и, желательно, нескольких начертаний.

На рисунке схематично показан процесс печати в кодах на русифицированном принтере. Все, что нужно сделать прикладной программе — послать на принтер последовательность кодов символов. Принтер генерирует изображение согласно встроенной в него кодовой таблице и передает его на печатающий узел. Практически все матричные и струйные принтеры аппаратно русифицированы.

Русифицированный в другой кодировке

Все еще попадаются принтеры, имеющие «прошитые» русские шрифты, но кодировка которых отличается от CP866. В среде MS-DOS такой принтер можно использовать, если достать или написать самому простой резидентный перекодировщик. В частности, таким образом можно печатать на многих АЦПУ, изначально не рассчитанных на подключение к персональным компьютерам.

В Windows на таком принтере можно печатать в графическом режиме, как обычно и делается. В этом случае подсистема печати Windows сама формирует изображение, прикладной программе об этом беспокоиться не надо.

Принтер позволяет загрузить шрифты в специальный буфер

Традиционный вариант для лазерных принтеров. Встроенные в ПЗУ шрифты нерусифицированы, то есть их изображение не соответствует русским буквам. Однако принтер позволяет загрузить программные шрифты в специальный буфер и использовать их так же, как шрифты из ПЗУ.

Конечно, после каждого выключения и включения принтера шрифт придется загружать заново, но с точки зрения прикладной программы печать будет по прежнему происходить в кодах. На скорости это не сказывается, только доставляет некоторые неудобства пользователю. Для печати на таком принтере необходимо иметь файл со шрифтами и, в некоторых случаях, специальную программу для их загрузки.

Печать из DOS-программы происходит в два этапа. Первый этап — загрузка шрифта, в идеальном случае эта операция производится один раз. Второй этап — печать отчетов из программы. Однако если принтер используется несколькими пользователями (например, по сети) или на него выводятся данные как из DOS-программ, так и из Windows-приложений, то загруженный в буфер шрифт может быть удален. Поэтому при использовании принтера в локальной сети никогда не вредно лишний раз загрузить в него шрифт перед печатью документа.

Такой способ русификации можно использовать для старых моделей матричных принтеров, практически для всех лазерных принтеров и для многих струйных принтеров. К сожалению, не все струйные принтеры позволяют загружать шрифт, а лазерные имеют свою специфику. В частности, недостаточно просто загрузить шрифты в лазерный принтер, а нужно выбрать текущий, потому что за один раз можно загрузить несколько шрифтов.

При печати на таком принтере из Windows-программы драйвер Windows автоматически загрузит в буфер необходимые шрифты, так что об этом заботиться не нужно. В Windows все немного проще.

Нерусифицированный без возможности загрузки шрифтов

Если принтер нерусифицирован аппаратно и не имеет буфера для загрузки русских шрифтов, то он никаким образом не позволит печатать по-русски кодами. Единственный вариант печати на таком принтере — в графическом режиме. А нерусифицированное АЦПУ можно просто выбросить (если у вас нет барабана с русскими буквами).

Этот вариант самый неприятный для программистов. Программа должна сама формировать нужное изображение на бумаге, то есть проделать за принтер всю его работу. Ввиду большой сложности лишь немногие DOS-программы работают с такими принтерами. Хотя… Если вы подыщете подходящий резидентный графический драйвер, то и с таким принтером можно жить в MS-DOS.

Для Windows этот вариант ничего необычного не представляет — как вы помните, Windows все равно обычно печатает в графике. Здесь необходимо отметить, что за последние несколько лет появилось множество моделей принтеров, ориентированных именно на печать из Windows и только из Windows. Обычно они называются Windows-принтерами или GDI-принтерами. Многие из них не позволяют печатать в кодах вообще. Поэтому вывести что либо на такой принтер из «чистого» DOS невозможно, а из DOS-сеанса Windows — хоть иногда и получается, но результат не всегда соответствует ожиданиям.

Дополнительные требования к принтерам

Грамотная русификация подразумевает не только сам факт наличия у принтера русских шрифтов в нужной кодировке, но также поддержку нескольких стандартных размеров и вариантов начертаний шрифта. Кроме того, хотя это уже не относится к собственно русификации, принтер должен обеспечивать ряд режимов, ставших стандартом de-facto. Ниже в таблице сведены основные требования, которым должен соответствовать правильно русифицированный принтер, а рисунок рядом показывает стандартные типы шрифтов, взятые из «Руководства по эксплуатации принтера Epson-NX1500».

Обозначения: А — АЦПУ, М — матричный принтер, С — струйный принтер, Л — лазерный принтер, + — должно присутствовать, — неприменимо, О — необязательно, но желательно.

ПараметрЗначениеАМСЛ
Длина листа, дюймов11, 12++++
Число строк на дюйм,  (LPI)6, 8++++
Число строк на страницеНе менее 66 для режима 6LPI, не менее 88 для режима 8LPI++++
Ширина символов (символов на дюйм, CPI)10, 12, 17, 20+++
Число символов размером 10CPI в строке80 для «узких» (A4) принтеров, 136 для «широких» (A3) принтеров++++
Управление отступом и полями
С помощью символов табуляции++++
Точным позиционированиемO+++
Дополнительные возможности
Черновой и чистовой режимыООО
Печать в альбомном режиме (поперек страницы)ОО+
Пропуск перфорации (линии отрыва)++О
  • Число строк на странице приведено для листа высотой 11 дюймов, для листа в 12 дюймов эти значения выше, однако большинство программ для MS-DOS рассчитаны на приведенные значения независимо от высоты листа.
  • Число символов в строке широких принтеров заметно меньше за счет припуска на перфорацию и механизм подачи. Но современные принтеры позволяют даже на перфорированной бумаге получить в строке до 156 символов размером 10CPI, и полновесные 160 символов на бумаге без перфорации.
  • Если принтер позволяет печатать на рулонной/перфорированной бумаге, то он может делать пропуск линии отрыва. Чем меньше этот интервал, тем больше строк принтер может распечатать. Это значение обычно составляет 0.7-1 дюйм на страницу (верний и нижний отступы), то есть приводит к потере до 6 строк в режиме 6LPI.
  • Многие лазерные принтеры требуют дополнительного отступа от края листа, обычно до 0,5 см с каждой стороны, что сокращает число символов в строке и число строк на листе.

Печать из Windows

Как правило, печать из Windows не вызывает никаких проблем, разве что пользователи матричных или струйных принтеров могут пожаловаться на слишком низкую скорость печати. Но, если вдуматься, это происходит из-за того, что печать производится в графическом режиме! То есть подсистема печати Windows автоматически генерирует растровую картинку для выводимого текста и даже не пытается использовать возможности русифицированных принтеров. Это тем более обидно, что Windows умеет печатать в кодах встроенными в принтер шрифтами.

Для проверки того, как Windows печатает в кодах, нужно установить драйвер матричного принтера и сделать его текущим. После этого, запустив текстовый редактор, скажем MS Word, можно заметить, что в списке шрифтов появились неизвестные шрифты, типа Courier10, Roman12 или Draft20, помеченные слева специальным значком в виде принтера. То есть Word, а точнее Windows, знает о существовании «прошитых» в принтер шрифтов, об их начертании и размере.

Однако система и понятия не имеет, что принтер может быть русифицирован. Наберите текст русскими буквами и отформатируйте его «встроенным» шрифтом — вы увидите привычные глазу греческие буквы. Но это еще не самое страшное. В конце концов нам на эти буквы не смотреть надо, а печатать, а коды-то у них наши, русские. Как бы не так! Windows выводит текст, и при этом весьма быстро, используя кодировку Windows — 1251, а принтеры обычно русифицируются в кодировке 866, поэтому хотя на бумаге и будут русские буквы, но ничего членораздельного прочесть не удастся.

Этот факт подтверждает, что:

  • система Windows так и не была русифицирована до конца и по отношению к российским пользователям допущена существенная дискриминация;
  • аппаратная русификация принтера в DOS-кодировке ничего не дает пользователю Windows.

Исходя из сказанного, при печати из Windows можно забыть об использовании встроенных русских шрифтов вашего старенького матричного принтера. Никогда не форматируйте текст «прошитыми» шрифтами, если вы используете матричный принтер — вместо текста будет напечатана абракадабра. Используйте шрифты TrueType, которые печатаются в графике. Так хоть и дольше, зато по-русски.

Так как разработчики Windows отказались от использования DOS-русифицированных принтеров, то создателям принтеров приходится теперь обеспечивать русификацию своей продукции не только в кодировке CP866, но и в CP1251. На сегодняшний момент существует уже множество моделей принтеров, аппаратно русифицированных для печати в кодах именно из Windows. К сожалению, я не обладаю опытом использования такого принтера, поэтому ничего конкретного сказать не могу. Вероятно, матричные принтеры, русифицированные специально для Windows, позволяют печатать так же быстро, как это было в DOS.

Я послал запрос в российские представительства фирм HP, Epson, Canon, Citizen и Lexmark с просьбой выслать список русифицированных моделей принтеров и способы их русификации. Ниже приведены полученные ответы.

Lexmark

  • Все лазерные принтеры и сетевые струйные принтеры русифицированы аппаратно.
  • Струйные принтеры серии Z являются Windows-принтерами и из чистого DOS не печатают (но печатают по-русски из DOS-окна Windows).
  • Поддерживают CP866, CP1251, а также украинские и латвийские кодовые страницы.

Александр Надольский, инженер по техподдержке фирмы Lexmark.

Hewlett Packard

  • Модели лазерных принтеров 2100, 4000, 4050, 5000, 8000, 8100 имеют аппаратную русификацию. В этих принтерах имеются различные масштабируемые русские шрифты всех кодировок (DOS CP866, WIN1251, KOI8-R), по умолчанию выбран моноширинный шрифт Courier, 10 символов на дюйм.
  • Принтеры 6L, 1100 русифицируются программно (специальная программа помещает масштабируемый шрифт Courier в оперативную память принтера).
  • Серии струйных принтеров: 8XX (кроме 820), 2X00, 670, 69X русифицированы аппаратно. Доступные гарнитуры и размеры для каждого принтера приведены в руководстве пользователя. Серия 7X0, 820 из DOS не печатают. Для этих моделей существует возможность печатать из DOS-сеанса в Windows 95, 98.
  • Принтер DeskJet 610C по-русски из DOS не печатает.

Игорь Шабанов, инженер центра технической поддержки HP

Tally

  • Принтеры фирмы Tally имеют аппаратную русификацию как в CP866, так и в CP1251.

Следует отметить, что драйверы Windows все же проявляют крупицы соображения при печати на лазерном принтере, в частности, по умолчанию на основе шрифтов печатаемого текста драйвер генерирует описание шрифта на языке PCL и записывает его в буфер принтера. В дальнейшем печать происходит фактически кодами, а значит, очень быстро.

Немного о системах команд

Так как АЦПУ имеют символы только одного начертания, для них актуальна лишь проблема соответствия кодовых таблиц принтера и компьютера. Никакой системы команд у АЦПУ нет. Более «продвинутые» принтеры, которые умеют печатать несколькими шрифтами, позволяют это делать посредством специальных команд.

На сегодня существует три наиболее распространенных системы команд принтеров: фирм Epson, IBM и HP.

Система команд фирмы Epson

Эта система команд называется ESC/P или, в расширенном варианте, ESC/P2. Другие фирмы, например Canon, называют ее LQ. Ее поддерживают все принтеры Epson, даже лазерные (по крайней мере старые модели), и многие модели других фирм, прежде всего матричные и струйные. Эта система команд является стандартом де-факто для DOS-программ.

Система команд фирмы IBM

Эта система команд называется IBM Proprinter, она же X24 (с вариациями), она же BJ. Ее поддерживают матричные принтеры IBM/Lexmark и многие модели других фирм, прежде всего матричные и струйные, в частности, Canon. Эта система команд во многом совпадает с системой ESC/P.

Система команд фирмы Hewlett Packard

Эта система команд называется PCL (Printer Control Language), сейчас используются версии PCL3 (для струйных принтеров) и PCL5/PCL6 для лазерных принтеров . Язык PCL поддерживают практически все лазерные принтеры любых производителей, а также многие струйные принтеры.

Несколько рекомендаций пользователям

Позволю себе дать несколько советов.

Если вы планируете работать с DOS-программами, подойдите к выбору принтера со всей ответственностью, поинтересуйтесь у производителя программы, с какими принтерами его программа работает лучше всего, узнайте типичное количество строк в странице и символов в строке в выходных документах. В общем случае, идеальным вариантом будет аппаратно русифицированный принтер в кодировке 866 и системе команд Epson/IBM. Проверьте наличие шрифтов всех стандартных размеров, максимальное число строк на странице и минимальные отступы от края листа.

Не выбрасывайте имеющееся у вас АЦПУ, если к нему можно достать расходники и запчасти. Это дешевое и надежное средство печати огромных объемов текста.

Наибольшая разница в скорости печати в режиме кодов и графическом режиме проявляется у матричных принтеров. Если вы страдаете нервными расстройствами, не используйте DOS-русифицированный матричный принтер для печати из Windows. Приобретите принтер, русифицированный специально для Windows, а еще лучше — купите струйный принтер, он работает тише и быстрее. При этом струйный принтер достаточно быстро работает и в графическом режиме.

Не покупайте GDI-принтер (принтер, который может печатать только из Windows), если только вы не очень стеснены в средствах. GDI-принтер печатает медленнее любого типичного PCL-принтера хотя бы потому, что у него нет буфера для хранения шрифтов. Кроме того, на таком принтере нельзя печатать из DOS.

Независимо от типа принтера, чем больше размер буферов для шрифтов и для временного хранения текста — тем лучше.

Пожелание изготовителям принтеров и драйверов

Еще недавно у меня была заветная мечта — печатать из Windows на матричном или струйном принтере, используя встроенные шрифты. Отсюда и пожелание: встроить поддержку CP1251 в принтер, либо модифицировать драйверы, чтобы можно было печатать на принтерах, русифицированных согласно CP866.

То ли производители принтеров прислушались к моему мнению, то ли просто я угадал направление в развитии принтеров, но сегодня уже многие принтеры русифицированы для печати из Windows. К сожалению, печатать в кодах на старых DOS-русифицированных принтерах по прежнему невозможно.

А жаль, какая была бы радость пользователям, у которых осталось огромное количество матричных принтеров и которые вынуждены печатать на них из Word, не имея средств (или желания) приобрести «нормальный» лазерный принтер.

Полезные ссылки на русском языке

Многие производители принтеров уже имеют российские сайты в Интернете. Рекомендую посетить узлы фирм Canon, Citizen, Epson, Hewlett Packard, Lexmark. На них можно найти информацию по текущим моделям, некоторые их характеристики и новые драйверы.

Ну а тем, кто интересуется заменой своих устаревших АЦПУ, полезно будет посетить сайты фирм и их дилеров Genicom, Printronix. и Tally и ознакомиться с технологией линейно-матричной печати.

Дополнение

Печать из Windows с использованием драйвера «Общий/Только текст»

В ответ на первый вариант статьи я получил несколько писем, в которых их авторы советовали мне использовать для печати из Windows на DOS-русифицированном матричном принтере драйвер «Только текст». Честно говоря, я никогда не пользовался этим драйвером, доверившись его простому названию. Однако, как выяснилось, этот драйвер позволяет указать управляющие последовательности для выбора ширины символов (10, 12 и 17 CPI), включения и отключения режимов подчеркивания, полужирной печати и уширенных символов, а самое главное, позволяет указать способ перекодировки символов Windows в символы конкретного принтера.

Безусловно, этот драйвер позволяет снять многие проблемы при печати на DOS-русифицированном матричном принтере, однако, к сожалению, не все.

  • Выбор драйвера «Только текст» моментально приводит к тому, что набранный в Word текст становится абсолютно нечитабельным (по крайней мере, на моей системе), и даже форматирование этого текста «прошитым» шрифтом, например Roman10, не помогает. Эффект в точности аналогичен тому, как если бы вы открыли текст, в котором текст отформатирован отсутствующем на вашем компьютере шрифтом. Но в данном-то случае Windows может понять, что используется драйвер «Только текст» с моноширинным шрифтом и подставить, например, Courier New. К сожалению, этого не происходит. Попытка в лоб записать в секцию [Font Substitutes] файла win.ini что-нибудь типа Roman10=Courier New Cyr также ни к чему не приводит. То есть здесь наблюдается классический случай, когда правая рука не ведает, что творит левая. К счастью, если правильно указать порядок перекодировки, печатается текст нормально.
  • Даже правильно указанные управляющие последовательности могут вызвать различные побочные эффекты. Например, на моем Epson-совместимом принтере Star NX-1500 после каждой подчеркнутой строчки прогоняется лишняя пустая строка. То есть воспользоваться на этом принтере режимом подчеркивания я не могу.
  • В русифицированной Windows есть только три стандартных способа перекодировки, ни один из которых не учитывает русскую CP866. Поэтому, если вы хотите печатать по-русски на своем аппаратно русифицированном принтере, вам сначала вручную придется заполнить таблицу перекодировки. Не очень-то удачный подход в русской, заметьте, версии Windows.

Таким образом, хотя печать из Windows на DOS-русифицированном принтере оказывается возможной, усилий к этому нужно приложить чуть больше, чем хотелось бы. Поэтому я по прежнему считаю, что Microsoft и производители принтеров должны внести все необходимые настройки непостредственно в родные драйверы, а не заставлять пользователей вручную задавать параметры перекодировки и управляющие последовательности принтеров.

Как пользоваться драйвером «Общий/Только текст»
  1. Установить драйвер «Только текст» (для Windows95) или «Общий» (для Windows98).
  2. Кнопкой «Новая модель» создать новый профиль печати (можно этого не делать, если у вас только одна модель принтера).
  3. В разделе «Таблица соответствия расширенных символов» сопоставьте каждому символу Windows символ, печатаемый на принтере. Для этого по очереди выбирайте из списка «На экране» символы в кодировке 1251 и в поле «На принтере» вводите код из таблицы 866. Посмотреть коды символов для CP866 можно с помощью утилиты «Таблица символов», выбрав шрифт Terminal.
  4. В поле «Начало печати» полезно указать команду сброса текущего состояния принтера.
  5. На вкладке «Шрифты» заполните нужные вам поля командами вашего принтера.
  6. После этого сделайте этот драйвер текущим, отформатируйте текст нужным шрифтом (Roman10, Roman12 или Roman17) и печатайте. Жирный и подчеркнутый шрифт устанавливается стандартным способом.O, она же chr(15), она же SI, означает включить режим сжатой печати.
  7. P означает режим 10CPI («Пайка»).
  8. F означает прекратить уширенный режим.
  9. H означает прекратить двухударную печать.
  10. M означает переход в режим 12CPI («Элита»).
  11. Все буквы в указанных комбинациях должны быть заглавными.

    Спасибо Павлу Ладикову и Сергею Назарову, посоветовавших воспользоваться этим драйвером, а также Алексею Смирнову, который разработал большую часть подсистемы печати, используемую в программах фирмы «Овионт», и составил необходимые наборы управляющих последовательностей, часть которых приведена выше.

    Кодовые страницы — Школа N61 г.Ульяновска



    На конец 20-го века существовало пять различных кодировок кириллицы (КОИ8-Р, Windows-1251, MS-DOS, Macintosh и ISO). Из-за этого часто возникали проблемы с переносом русского текста с одного компьютера на другой из одной программной системы в другую.

    Хронологически одним из первых стандартов кодирования русских букв на компьютерах был КОИ8 («Код обмена информацией 8-битный»).
    Эта кодировка применялась еще в 70-ые годы на компьютерах серии ЕС ЭВМ а с середины 80-х стала использоваться в первых русифицированных версиях операционной системы UNIX.

    От начала 90-х годов времени господства операционной системы MS DOS остается кодировка CP866 («CP» означает «Code Page» «кодовая страница»).

    Компьютеры фирмы Apple работающие под управлением операционной системы Mac OS используют свою собственную кодировку Mac.

    Кроме того Международная организация по стандартизации (International Standards Organization ISO) утвердила в качестве стандарта для русского языка еще одну кодировку под названием ISO 8859-5.

    В конце 20-го века наиболее распространенной была кодировка Microsoft Windows обозначаемая сокращением CP1251. Введена компанией Microsoft; с учетом широкого распространения операционных систем (ОС) и других программных продуктов этой компании в Российской Федерации она нашла широкое распространение.

    С конца 90-х годов проблема стандартизации символьного кодирования решается введением нового международного стандарта который называется Unicode.

    Это 16-разрядная кодировка т.е. в ней на каждый символ отводится 2 байта памяти. Конечно при этом объем занимаемой памяти увеличивается в 2 раза. Но зато такая кодовая таблица допускает включение до 65536 символов. Полная спецификация стандарта Unicode включает в себя все существующие вымершие и искусственно созданные алфавиты мира а также множество математических музыкальных химических и прочих символов.



    Внутреннее представление слов в памяти компьютера с помощью таблицы ASCII


    Слова

    Память

    file
    01100110

    01101001

    01101100

    01100101
    disk
    01100100

    01101001

    01110011

    01101011

    Иногда бывает так что текст состоящий из букв русского алфавита полученный с другого компьютера невозможно прочитать — на экране монитора видна какая-то «абракадабра». Это происходит оттого что на компьютерах применяется разная кодировка символов русского языка.

    Таким образом каждая кодировка задается своей собственной кодовой таблицей. Как видно из таблицы одному и тому же двоичному коду в различных кодировках поставлены в соответ-ствие различные символы.

    Сравнительная таблица части кодов разных кодировок русского языка


    Кодовая

    старница

    Код

    символа

    cим

    вол


    65 / 97

    193 / 225

    66 / 98

    194 / 226

    67 / 99

    195 / 227

    68 / 100

    196 / 228

    69 / 101

    197 / 229

    70 / 102

    198 / 230

    71 / 103

    199 / 231

    72 / 104

    200 / 232


    ASCII

    0000 0000

     

    :)


    65

    0100 0001


    A

    0100 0010


    B

    0100 0011


    C

    0100 0100


    D

    0100 0101


    E

    0100 0110


    F

    0100 0111


    G

    0100 1000


    H


    koi8-r

    1000 0000

    -



    193

    1100 0001


    а

    1100 0010


    б

    1100 0011


    ц

    1100 0100


    д

    1100 0101


    е

    1100 0110


    ф

    1100 0111


    г

    1100 1000


    х


    ASCII

    0000 0000

     


    97

    0110 0001


    a

    0110 0010


    b

    0110 0011


    c

    0110 0100


    d

    0110 0101


    e

    0110 0110


    f

    0110 0111


    g

    0110 1000


    h


    koi8-r

    1000 0000

     


    225

    1110 0001


    А

    1110 0010


    Б


    1110 0011


    Ц

    1110 0100


    Д

    1110 0101


    Е

    1110 0110


    Ф

    1110 0111


    Г

    1110 1000


    Х


    CP866

    1000 0000


    А


    Б


    225

    1110 0001


    с

    1110 0010


    т

    1110 0011


    у

    1110 0100


    ф

    1110 0101


    х

    1110 0110


    ц

    1110 0111


    ч

    1110 1000


    ш


    ISO 8859-5

    1000 0000

    []


    225

    1110 0001


    с

    1110 0010


    т

    1110 0011


    у

    1110 0100


    ф

    1110 0101


    х

    1110 0110


    ц

    1110 0111


    ч

    1110 1000


    ш


    MAC

    1000 0000


    А


    Б


    225

    1110 0001


    б

    1110 0010


    в

    1110 0011


    г

    1110 0100


    д

    1110 0101


    е

    1110 0110


    ж

    1110 0111


    з

    1110 1000


    и


    CP1251

    1000 0000

    Á

    à


    225

    1110 0001


    б

    1110 0010


    в

    1110 0011


    г

    1110 0100


    д

    1110 0101


    е

    1110 0110


    ж

    1110 0111


    з

    1110 1000


    и

    Урок 14. кодирование текстовой информации — Информатика — 10 класс

    Информатика, 10 класс. Урок № 14.

    Тема — Кодирование текстовой информации

    Цели и задачи урока:

    — познакомиться со способами кодирования и декодирования текстовой информации с помощью кодовых таблиц и компьютера;

    — познакомиться со способом определения информационного объема текстового сообщения;

    — познакомиться с алгоритмом Хаффмана.

    Вся информация в компьютере хранится в двоичном коде. Поэтому надо научиться преобразовывать символы в двоичный код.

    Формула Хартли определяет количество информации в зависимости от количества возможных вариантов:

    N=2i, где

    N — это количество вариантов,

    i — это количество бит, не обходимых для кодирования.

    Если же мы преобразуем эту формулу и примем за N — количество символов в используемом алфавите (назовем это мощностью алфавита), то мы поймем, сколько памяти потребуется для кодирования одного символа.

    N=2i, где N — кол-во возможных вариантов

    i — кол-во бит, потребуемых для кодирования

    Итак, если в нашем алфавите будет присутствовать только 32 символа, то каждый из них займет только 5 бит.

    И тогда каждому символу мы дадим уникальный двоичный код. Такую таблицу мы будем назвать кодировочной.

    Первая широко используемая кодировочная таблица была создана в США и называлась ASCII, что в переводе означало American standard code for information interchange. Как вы видите, в таблице присутствуют не только латинские буквы, но и цифры, и даже действия. Каждому символу отводится 7 бит, а значит, всего было закодировано 128 символов.

    Но так как этого количества было недостаточно, стали создаваться другие таблицы, в которых можно было закодировать и другие символы. Например, таблица Windows-1251, которая, по сути, являлась изменением таблицы ASCII, в которую добавили буквы кириллицы. Таких таблиц было создано множество: MS-DOS, КОИ-8, ISO, Mac и другие:

    Проблема использования таких различных таблиц приводила к тому, что текст, написанный на одном компьютере, мог некорректно читаться на другом. Например:

    Поэтому была разработана международная таблица кодировки Unicode, включающая в себя как символы английского, русского, немецкого, арабского и других языков. На каждый символ в такой таблице отводится 16 бит, то есть она позволяет кодировать 65536 символов. Однако использование такой таблицы сильно «утяжеляет» текст. Поэтому существуют различные алгоритмы неравномерной кодировки текста, например, алгоритм Хаффмана.

    АЛГОРИТМ ХАФФМАНА

    Идея алгоритма Хаффмана основана на частоте появления символа в последовательности. Символ, который встречается в последовательности чаще всего, получает новый очень маленький код, а символ, который встречается реже всего, получает, наоборот, очень длинный код.

    Пусть нам дано сообщение aaabcbeeffaabfffedbac.

    Чтобы узнать наиболее выгодный префиксный код для такого сообщения, надо узнать частоту появления каждого символа в сообщении.

    Шаг 1.

    Подсчитайте и внесите в таблицу частоту появления каждого символа в сообщении:

    У вас должно получиться:

    Шаг 2.

    Расположите буквы в порядке возрастания их частоты.

    Шаг 3.

    Теперь возьмем два символа с наименьшей чистотой и представим их листьями в дереве, частота которого будет равна сумме частот этих листьев.

    Символы d и c превращаются в ветку дерева:

    Шаг 4.

    Проделываем эти шаги до тех пор, пока не получится дерево, содержащее все символы.

    Итак, сортируем таблицу:

    Шаг 5.

    Объединяем символ e и символ cd в ветку дерева:

    d

    C

    Шаг 6.

    Сортируем:

    Шаг 7.

    Шаг 8.

    Сортируем:

    Шаг 9.

    Шаг 10.

    Сортируем:

    Шаг 11.

    Шаг 12.

    Получился префиксный код. Теперь осталось расставить 1 и 0. Пусть каждая правая ветвь обозначает 1, а левая — 0.

    Шаг 13.

    Составляем код буквы, идя по ветке дерева от буквы к основанию дерева.

    Тогда код для каждой буквы будет:

    Задание №1

    Закодируйте ASCII кодом слово MOSCOW.

    Решение:

    Составим таблицу и поместим туда слово MOSCOW. Используя таблицу ASCII кодов, закодируем все буквы слова:

    M

    O

    S

    C

    O

    W

    1001101

    1001111

    1010011

    1000011

    1001111

    1110111

    ОТВЕТ: 100110110011111010011100001110011111110111

    Задание №2

    Используя табличный код Windows1251, закодируйте слово КОМПЬЮТЕР.

    Решение:

    К

    О

    М

    П

    Ь

    Ю

    Т

    Е

    Р

    234

    206

    204

    239

    252

    254

    242

    197

    208

    Ответ: 234206204239252254242197208

    Задание №3

    Используя алгоритма Хаффмана, закодируйте сообщение: Россия

    Решение:

    Давайте все левые ветви обозначим «1», а правые – «0»

    Таким образом: С — 0, Р — 101, О — 100, И — 111, Я — 110

    ОТВЕТ: 10110000111110

    Таблица

    Ascii для кодировки кириллицы (CP855)

    Американский стандартный код для обмена информацией ( ASCII ) — широко используемая система кодирования символов , представленная в 1963 году.

    Исходный набор символов , который теперь называется стандартным набором символов, изначально состоял из 128 символов (7-битный код). Первые 32 символа — это управляющие символы (также называемые непечатаемыми символами), которые используются для управления потоками данных, а также такими устройствами, как принтеры.Позже он был расширен для поддержки 256 символов (8-битный код), чтобы обеспечить языковые символы, различные символы, а также символы для рисования прямоугольников: элементы, используемые для целей презентации, позволяющие рисовать различные типы рамок и прямоугольников. Символы в диапазоне 128–255 называются расширенным ASCII.

    Кодовая страница 855 — это альтернативная кодовая страница , используемая для написания языков на основе кириллицы: белорусский, боснийский, болгарский, македонский, русский, сербский, украинский (славянские языки) и казахский, киргизский, молдавский, монгольский, таджикский, узбекский ( неславянский).Он не очень популярен, наиболее широко используется кодовая страница 866. Только расширенный набор символов отличается от исходной кодовой страницы, причем как управляющие символы, так и стандартный набор символов представляют собой простой ASCII.

    Таблица символов ниже показывает графическое представление каждого символа с точностью до пикселя вместе с текстовым описанием.

    Управляющие символы (0 — 31):

    Dec Hex Char Описание Dec Hex Char Описание
    0 0 NUL (Null) 16 10 DLE (Выход из канала передачи данных)
    1 1 SOH (начало заголовка) 17 11 DC1 (Управление устройством 1)
    2 2 STX ( Начало текста) 18 12 DC2 (Управление устройством 2)
    3 3 ETX (Конец текста) 19 13 DC3 (Управление устройством 3 )
    4 4 EOT (конец передачи) 20 14 DC4 (Device Control 4)
    5 5900 25

    ENQ (запрос) 21 15 NAK (отрицательное подтверждение)
    6 6 ACK (подтверждение) 22 16 SYN (синхронный холостой ход)
    7 7 BEL (Bell) 23 17 ETB (конец блока передачи)
    8 8 BS (BackSpace) 24 18 CAN (отмена)
    9 9 HT (горизонтальная таблица) 25 19 EM (конец среды)
    10 A LF (перевод строки) 26 1A SUB (замена)
    11 B VT (вертикальное табулирование) 27 1B ESC (выход)
    12 C FF (подача формы) 28 1C FS (разделитель файлов)
    13 D CR (Возврат каретки) 29 1D GS (Разделитель групп)
    14 E SO (Shift Out) 30 1E RS (Разделитель записей)
    15 F SI (сдвиг внутрь) 31 1F US (разделитель единиц)

    Стандартный набор символов (32-127):

    9002 4 114

    Dec Hex Char Описание Dec Hex Char Описание
    32 20 Пространство 80 50 Верхний корпус P
    33 21 Восклицательный знак 81 51 Верхний корпус Q
    34 22 Котировальный знак 82 52 Верхний корпус R
    35 23 Хеш 83 53 Верхний корпус S
    36 24 Доллар 84 54 Верхний корпус T
    37 25 Процент 85 55 Верхний ок. se U
    38 26 Ampersand 86 56 Верхний корпус V
    39 27 Апостроф 87 57 Верхний корпус W
    40 28 Открытый кронштейн 88 58 Верхний корпус X
    41 29 Закрытый кронштейн 89 59 Верхний корпус Y
    42 2A Asterisk 90 5A Верхний корпус Z
    43 2B Plus 91 5B Открытый квадратный кронштейн
    44 2C Запятая 92 5C Обратная косая черта
    45 2D Чертеж 93 5D Закрытый квадратный кронштейн
    46 2E Полная остановка 94 5E Каретка
    47 2F Слэш 95 5F Подчеркивание
    48 30 Ноль 96 60 Могильный акцент
    49 31 Один 97 61 Нижний корпус a
    50 32 Два 98 62 Нижний корпус b
    51 33 Три 99 63 Нижний корпус c
    52 34 9002 5

    Четыре 100 64 Нижний корпус d
    53 35 Пять 101 65 Нижний корпус e
    54 36 Шесть 102 66 Нижняя часть корпуса f
    55 37 Семь 103 67 Нижняя часть корпуса g
    56 38 Восемь 104 68 Нижняя часть корпуса h
    57 39 Девять 105 69 Нижняя часть корпуса i
    58 3A Колонка 106 6A Нижний регистр j
    59 3B Точка с запятой 107 6B Нижняя часть корпуса k
    60 3C Менее 108 6C Нижняя часть корпуса l
    61 3D Знак равенства 109 6D Нижний регистр m
    62 3E Больше чем 110 6E Нижний регистр n
    63 3F Вопросительный знак 111 6F Нижний корпус o
    64 40 При 112 70 Нижний корпус p
    65 41 Верхний корпус A 113 71 Нижний корпус q
    66 42 Верхний корпус B 72 Нижний корпус r
    67 43 Верхний корпус C 115 73 Нижний корпус s
    68 44 Верхний корпус D 116 74 Нижний корпус t
    69 45 Верхний корпус E 117 75 Нижний корпус u
    70 46 Верхний корпус F 118 76 Нижний корпус v
    71 47 Верхний корпус G 119 77 Нижний корпус w
    72 48 Верхний корпус H 120 78 Нижний корпус x
    73 49 Верхний корпус e I 121 79 Нижняя часть корпуса y
    74 4A Верхняя часть корпуса J 122 7A Нижняя часть корпуса z
    75 4B Верхний кожух K 123 7B Открытый раскос
    76 4C Верхний кожух L 124 7C Труба
    77 4D Верхняя часть M 125 7D Закрывающая скоба
    78 4E Верхняя часть N 126 7E Тильда
    79 4F Верхняя case O 127 7F Удалить

    Расширенный набор символов (128-255):

    900 24 C4

    90 024 207

    900

    900

    Dec Hex Char Описание Dec Hex Char Описание
    128 80 Кириллический нижний регистр dje 192 C0 Коробка рисунки светятся и справа
    129 81 Верхний регистр кириллицы DJE 193 C1 Чертежи светятся и горизонтально
    130 82 Нижний регистр кириллицы gje 194 C2 Чертежи коробки с подсветкой вниз и горизонтально
    131 83 Верхний регистр с кириллицей GJE 195 C3 Чертежи коробки с подсветкой вертикально и справа
    132 84 Кириллица в нижнем регистре io 196 Чертежи коробки световой горизонтальный
    133 85 Верхний регистр с кириллицей 197 C5 Чертежи коробки светлый вертикальный и горизонтальный
    134 86 Кириллический нижний регистр украинский IE 198 C6 Кириллица нижний регистр ka
    135 87 Кириллица верхний регистр украинский IE 199 C7 Кириллица верхний регистр KA
    136 88 Кириллица нижний регистр dze 200 C8 Чертежи коробки, сдвоенные вверх и вправо
    137 89 Верхний регистр кириллицы DZE 201 C9 Чертежи коробки, сдвоенные вниз и вправо
    138 8A 900 25

    Нижний регистр кириллицы белорусско-украинский i 202 CA Чертежи боксов, сдвоенные и горизонтальные
    139 8B Верхний регистр кириллицы белорусско-украинский I 203 CB Чертежи коробки, сдвоенные вниз и по горизонтали
    140 8C Строчная кириллица yi 204 CC Чертежи коробки двойные вертикальные и правые
    141 8D Кириллица верхний корпус YI 205 CD Чертежи коробки двойная горизонтальная
    142 8E Кириллица нижняя часть je 206 CE Чертежи коробки двойная вертикальная и горизонтальная
    143 8F Верхний регистр с кириллицей JE CF Знак валюты
    144 90 Строчная кириллица lje 208 D0 Строчная кириллица el
    145 91 Кириллица верхний регистр LJE 209 D1 Верхний регистр кириллицы EL
    146 92 Нижний регистр кириллицы nje 210 D2 Нижний регистр кириллицы em
    147 93 Верхний регистр кириллицы NJE 211 D3 Верхний регистр кириллицы EM
    148 94 Нижний регистр кириллицы tshe 212 D4 Кириллица нижний регистр
    149 95 Верхний регистр с кириллицей TSHE 2 13 D5 Верхний регистр кириллицы EN
    150 96 Нижний регистр кириллицы kje 214 D6 Нижний регистр кириллицы o
    151 97 Верхний регистр с кириллицей KJE215 D7 Верхний регистр с кириллицей O
    152 98 Кириллица с коротким регистром u 216 D8 Нижний регистр с кириллицей pe
    153 99 Верхний регистр кириллицы короткий U 217 D9 Чертежи коробки светятся и слева
    154 9A Нижний регистр кириллицы дже 218 DA Чертежи коробки светлые и правые
    155 9B Кириллица u pper case DZHE 219 DB Полный блок
    156 9C Кириллический нижний регистр yu 220 DC Нижний полублок
    157 9D Верхний регистр кириллицы YU 221 DD Верхний регистр кириллицы PE
    158 9E Жесткий знак нижнего регистра кириллицы 222 DE Нижний регистр кириллицы ya
    159 9F Кириллический верхний регистр жесткий знак 223 DF Верхний полублок
    160 A0 Кириллический нижний регистр a 224 E0 Верхний регистр с кириллицей YA
    161 A1 Верхний регистр с кириллицей A 9 0025

    225 E1 Нижний регистр кириллицы er
    162 A2 Нижний регистр кириллицы be 226 E2 Верхний регистр кириллицы ER
    163 A3 Верхний регистр с кириллицей BE 227 E3 Нижний регистр с кириллицей es
    164 A4 Кириллица с нижним регистром tse 228 E4 Кириллица с верхним регистром ES
    165 A5 Верхний регистр кириллицы TSE 229 E5 Нижний регистр кириллицы te
    166 A6 Нижний регистр кириллицы 230 E6 Кириллица верхняя часть корпуса TE
    167 A7 кириллица верхняя часть корпуса DE 900 25

    231 E7 Нижний регистр кириллицы u
    168 A8 Нижний регистр кириллицы т.е. 232 E8 Верхний регистр кириллицы U
    169 A9 Верхний регистр кириллицы IE 233 E9 Нижний регистр кириллицы
    170 AA Нижний регистр кириллицы ef 234 EA Верхний регистр кириллицы ZHE
    171 AB Верхний регистр кириллицы EF 235 EB Нижний регистр кириллицы ve
    172 AC Кириллица нижний регистр ghe 236 EC Кириллица верхняя часть корпуса VE
    173 AD кириллица верхняя часть корпуса GHE 237 ED Мягкий знак кириллицы нижнего регистра
    174 AE Двойные угловые кавычки, указывающие влево 238 EE Мягкий знак кириллицы верхнего регистра
    175 AF Двойные угловые кавычки, указывающие вправо 239 EF Цифровой знак
    176 B0 Светлый оттенок 240 F0 Мягкий перенос
    177 B1 Средний оттенок 241 F1 Нижний регистр кириллицы yeru
    178 B2 Темный оттенок 242 F2 Верхний регистр кириллицы
    179 B3 Чертежи коробки световой вертикальный 90 025

    243 F3 Нижний регистр с кириллицей ze
    180 B4 Чертежи коробки светлые вертикально и слева 244 F4 Верхний регистр с кириллицей ZE
    181 B5 Нижний регистр кириллицы ha 245 F5 Нижний регистр кириллицы sha
    182 B6 Верхний регистр кириллицы HA 246 F6 Верхний регистр кириллицы SHA
    183 B7 Нижний регистр кириллицы i 247 F7 Нижний регистр кириллицы e
    184 B8 Верхний регистр кириллицы I 248 F8 Верхний регистр с кириллицей e
    185 B9 Чертежи коробки дубль левая вертикальная и левая 249 F9 Кириллица нижняя ща
    186 BA Чертежи коробки двойная вертикальная 250 FA Кириллица верхняя ЩА
    187 BB Чертежи коробки сдвоены вниз и влево 251 FB ​​ Кириллица в нижнем регистре che
    188 BC Чертежи коробки сдвоены вверх и влево 252 FC Верхний регистр с кириллицей CHE
    189 BD Короткий нижний регистр с кириллицей i 253 FD Знак раздела
    190 BE Короткий верхний регистр с кириллицей I 254 FE Черный квадрат
    191 BF 90 025

    Чертежи на коробках светятся вниз и влево 255 FF Непрерывное пространство

    The Cyrillic Charset Soup

    The Cyrillic Charset Soup

    Несмотря на то, что ISO 8859 содержит стандарт
    Кодировка кириллицы, есть еще куча других кодировок кириллицы
    используется на компьютерах по всему миру.Эта страница пытается объяснить, почему
    это так, давая исторический обзор. Каждая кодировка проиллюстрирована
    с помощью растрового изображения GIF вместе с базовой таблицей сопоставления Unicode и
    Шрифт BDF (X / Unix).

    Кириллица

    Братья и православные славянские монахи Кирилл и Мефодий
    изобрел глаголицу в Македонии в 863 году как
    зашифрованный греческий алфавит с расширениями для особых славянских звуков.
    Их ученый Климент Охридский изобрел «кириллицу» позже, когда
    более читаемый преобразованный глаголический алфавит.В течение
    веками кириллица была распространена и преобразована, и она
    была модернизирована в ее нынешнюю романизированную форму (Гражданка) под
    Царь Петр Великий.

    В настоящее время кириллица используется более чем на 70 языках.
    от славянских языков Восточной Европы Русский (ru), украинский
    (uk), белорусский (be), болгарский (bg), сербский (sr) и македонский
    (mk) над алтайскими языками Центральной Азии, такими как азербайджанский (az), туркменский (tk),
    Курдский (ку), узбекский (uz), казахский (kk), киргизский (ky) другим, таким как
    Таджикский (tg) и монгольский (mn).В вашей библиотеке может быть буклет
    «Альфавиты языков народов СССР» Кенесбая Мусаевича Мусаева, который был
    опубликовано в 1965 году.

    С маленьким алфавитом без акцента русский и болгарский языки казались
    одинаково хорошо подходит для компьютерной обработки, как и английский.

    Самая старая стандартизированная кириллическая компьютерная кодировка, которую я нашел (в Иоанна
    Clews ‘Language Automation Worldwide) — государственный стандарт
    ГОСТ 13052, 7-битная кодировка, кодирующая буквы русского алфавита.
    алфавит (который также удовлетворяет все болгарские потребности) на вершине
    соответствующие буквы ASCII противоположного
    регистр (чтобы распознать русский текст типа «РУССКИЙ ТЕКСТ» по его регистру, когда
    представлены в кодировке ASCII.Я буду называть это свойство соответствием KOI), пожертвовал пунктиром, чтобы уменьшить алфавит до 32 букв.
    поместился в два ряда и убрал редко используемый ЗАПИСНОЙ ЖЕСТКИЙ ЗНАК на
    предотвратить его столкновение с DELETE в позиции = 7F или EOF = -1:

    charset = koi-0
    [ТЕКСТ]
    [BDF]

    Дело в том, что болгарский гораздо чаще использует ЗАГЛАВНЫЙ ЗНАК
    побудили некоторых болгар закодировать свой жесткий знак поверх
    ненужный русский YERY bI вместо этого.

    В 1974 г. ГОСТ опубликовал еще один
    государственный стандарт ГОСТ 19768-74, с двумя кодировками, которые обе
    смешали латинский и кириллический алфавиты в одном наборе, сохранив
    Оригинальная идея корреспонденции KOI жива:

    Первой была еще одна 7-битная кодировка под названием KOI-7 только с заглавной буквы.
    письма:

    кодировка = koi-7
    [ТЕКСТ]
    [BDF]

    Вторая кодировка определена в ГОСТе.
    19768-74 гг. Был знаменитый 8-битный Код для обмена и обработки
    Информации
    (КОИ-8), давшей расшифровываемую
    Текст ASCII, когда был удален старший бит, и по праву может быть
    называется кириллица ASCII.Вот
    изображение его верхней части (G1):

    кодировка = koi8-a
    [ТЕКСТ]
    [BDF]

    KOI-8 использовался на многих сетевых Unix-хостах.
    Естественно, прижился знак доллара ASCII $
    вместо знака международной валюты, хотя это не было
    политкорректно. Пунктирная (йо) добавлена ​​в столбец 3, поэтому
    что такие слова, как e (yeyo), больше не нужно писать без ударения
    ее.

    Вернее, последний шаг не происходил, пока компания Demos не начала портировать
    Поддержка кириллицы в ОС Unix для ПК, таких как Xenix в конце 1980-х и
    разработал новую российскую кодовую страницу КОИ-8, которая позже стала известна как
    KOI8-R с пунктирной точкой в ​​позиции от
    первый проект DIS-6937-8 / DIS-8859-5 и
    все нерусские буквы вычищены и заменены блочной графикой.

    Но многие поставщики шрифтов реализовали только подмножество букв. Позволь нам
    назовем его КОИ8-Б, это расширенная (большая) база КОИ-8, содержащая
    буквы (буквы) общие (баса) для всех современных вариантов КОИ-8:

    кодировка = koi8-b
    [ТЕКСТ]
    [BDF]

    В середине 1980-х годов ECMA
    комитет по разработке серии ISO-8859
    и его кириллица ISO-8859-5 хотела сохранить совместимость с
    установлена ​​база десятилетнего стандарта КОИ-8, и элегантно добавлены отсутствующие украинский, белорусский,
    Сербские и македонские буквы в неиспользуемых кодовых точках.Их проект был опубликован как 1-е издание стандарта ECMA-113 в 1986 году и
    проект международного стандарта DIS-8859-5 в 1987 г. и был зарегистрирован
    с номером 111 в Международном реестре ISO
    наборов символов, которые будут использоваться с escape-символом (ISO-2022)
    последовательности, отсюда и название ISO-IR-111 и псевдоним
    ECMA-кириллица:

    кодировка = koi8-e
    [ТЕКСТ]
    [BDF]

    ISO-IR-111 так и не был принят в качестве окончательного
    ISO-8859-5, потому что за это время ГОСТ пережил некоторую перестройку и объявил установленную базу и KOI
    соответствие менее важным и пересмотрело его стандарт 19768 года с 1974 по 1987 год в
    несовместимый новый ГОСТ 19768-87, в котором русские буквы перемещены на одну строку
    вверх и заказал их в родном русском словаре порядка (АБВГД)
    вместо порядка корреспонденции KOI (ABCDE):

    кодировка = ГОСТ-19768-87
    [ТЕКСТ]
    [BDF]

    ECMA сразу же последовала за ГОСТом
    по совету советских экспертов, пересмотрев свои первые
    предложение и перестановка их ISO-IR-111
    на позиции кода нового ГОСТ 19768-87.Дизайнеры не дошли до сортировки
    нерусские буквы в русский алфавит для обеспечения правильного
    порядок словаря для всех языков, как, например, в
    Стандарт ISO 9 (Транслитерация кириллицы). Пересмотренное предложение
    опубликовано как 2-е издание ECMA-113: 1988 (заменяющее исходное
    ECMA-113: 1986, который стал жить дальше
    (популярен благодаря сочетанию нерусских букв с КОИ-8
    совместимость) под своим ником ECMA-Cyrillic (хотя ECMA ссылается
    вы переходите к ISO-8859-5 сейчас) или ISO-IR-111) и приняли в ISO 8859 (несмотря на советское голосование против
    знак доллара) в качестве окончательного стандарта ISO-8859-5 (ISO-IR-144) в 1988 году.Многие
    люди, включая меня, считают, что это избавило бы нас от многих
    проблема, если исходный KOI8-совместимый DIS-8859-5: 1987 также был выбран ISO-8859-5: 1988. Теперь мы
    имеют международный стандарт ISO-8859-5, который так нестандартен
    что его почти никто не любит и не использует:

    кодировка = ISO-8859-5
    [ТЕКСТ]
    [BDF]

    после RFC 1341
    (MIME) предложил использовать кириллицу ISO-8859-5 в электронной почте.
    общение, пока русский раздел Интернета (группы новостей relcom. *) все еще использовал KOI-8,
    Андрей Чернов отправился в
    опубликовать его RFC
    1489 Регистрация набора символов кириллицы «КОИ8-Р» и
    установил KOI8-R как стандарт де-факто в Интернете.KOI8-R, который позже был также пронумерован как CP878, содержит пунктирный KOI8 плюс много
    графических персонажей:

    кодировка = koi8-r
    [ТЕКСТ]
    [BDF]

    Андрей Чернов предлагает много практической информации о КОИ8-Р.
    на его сайте.

    Со всеми этими кодировками есть особая украинская проблема.
    Украинцы читают букву GHE со штрихом вниз как хе. Написать
    исправьте ghe им нужна украинская буква GHE С UPTURN, которая была
    был подавлен сталинскими чиновниками и восстановлен в 1990 году.

    Можно злоупотребить акцентированным GHE (македонским GJE) в ISO-IR-111 или ISO-8859-5 для представления GHE WITH UPTURN, но это не похоже на
    быть предпочтительным вариантом. Украинцы, кажется, предпочитают кодировки, которые
    включить реальный GHE с UPTURN. GHE WITH UPTURN присутствует в
    Microsoft CP1251, Fingertip KOI8-Unified и, конечно же, Unicode. Тем не менее, эти варианты не казались близкими
    Достаточно KOI8-R, чтобы остановить украинских почтмейстеров от разработки
    новый КОИ8-У и его публикация
    как RFC2319 в
    Апрель 1998 г.КОИ8-У добавил только украинские буквы в позициях
    совместим с ISO-IR-111, используемым многими
    Украинцы и сохранили как можно больше персонажей-рисовальщиков, потому что
    многие пользователи в этой области все еще придерживаются MS-DOS. Потому что
    предпочтение, в нем отсутствуют короткое U с белорусским акцентом, сербское и
    Македонская поддержка:

    кодировка = koi8-u
    [ТЕКСТ]
    [BDF]

    Я предполагаю, что спецификация RFC2319 и RFC1489 пули KOI8-R как математическая
    U + 2219 BULLET OPERATOR — это ошибка, унаследованная от RFC1345 и должна
    быть исправлено на U + 2022 BULLET, как в собственных таблицах Келда Симонсена для
    IBM437 или KOI8-R.Обычно
    обратите внимание, что RFC1345 и все, что на нем основано, например, GNU recode 3.4.1
    содержал ряд ошибок, особенно в области кириллицы: его
    isoir111 больше похож на cp1251, чем на koi8. RFC2319 содержит
    дополнительная ошибка, которая кодирует Кириллическую ЗАГЛАВНУЮ БУКВУ UKRAINIAN IE как
    U + 0403 вместо U + 0404.

    Питер Кассетта из Fingertip
    Программное обеспечение, которое также опубликовало красивую кириллицу
    ссылка на кодировку для его клиентов уже разработана и
    предложил другое решение:

    Его KOI8-Unified объединяет все ISO-IR-111
    буквы с украинскими буквами КОИ8-У и
    базовая блочная графика KOI8-R и некоторые
    популярные символы из кодовых страниц Windows 1251
    и 1252, уравновешивая различные потребности
    совместимости:

    кодировка = koi8-f
    [ТЕКСТ]
    [BDF]

    Вы можете использовать этот шрифт koi8-f для отображения всего текста koi8- * и всего
    буквы будут отображаться правильно, но некоторые из менее используемых изображений
    символы в koi8-r могут отображаться неправильно.

    Еще один серьезный игрок на поле — WinCyrillic Windows от Microsoft.
    кодовая страница CP1251, для которой Microsoft зарегистрировала этикетку «Windows-1251», которая не должна быть
    ошибочно принят за предшественник сегодняшней Windows95 в 13 веке. По состоянию на
    В декабре 1997 года вас приветствует даже новый веб-сервер ГОСТ (Lotus Notes).
    с charset = WINDOWS-1251 — ГОСТ (Российская стандартизация
    органа и органа-члена ISO) не
    даже следуя собственным стандартам, любой
    более!

    CP1251 имеет богатый репертуар в порядке, не совместимом ни с ISO-IR-111 (KOI8), ни с ISO-8859-5:

    кодировка = Windows-1251
    [ТЕКСТ]
    [BDF]

    MacUkrainian (= MacCyrillic + GHE WITH UPTURN) имеет те же буквы
    в еще одном порядке:

    charset = MacУкраинский язык
    [ТЕКСТ]
    [BDF]

    Более старой популярной кодировкой является вариант Альтернативный, охватываемый
    MS-DOS CP866:

    кодировка = cp866
    [ТЕКСТ]
    [BDF]

    Болгарский Prawec 16 ПК и болгарский
    раскладка клавиатуры в Linux использует кодировку MIK:

    кодировка = болгарский-мик
    [ТЕКСТ]
    [BDF]

    Вы устали от этого множества кодировок, в которых
    лучшее? Хотели бы вы иметь одну хорошую кодировку, способную
    заменить все вышеперечисленное и везде примут? Не могли бы вы
    тоже любите писать неславянские кириллические языки? Вы получаете все
    это и многое другое с Unicode
    (ISO-10646), который просто кодирует
    все персонажи мира.

    Это блок кириллицы U + 0400 в Unicode. Это следует по порядку
    ISO-8859-5:

    кодировка = юникод-2-1
    [ТЕКСТ]
    [BDF]

    Ольга Лапко заявляет на страницах 175 и 179 блестящего выпуска TUGboat 17-2 (Труды
    Ежегодная встреча группы пользователей TeX в 1996 г. в Дубне, Россия), что около 100
    В Unicode по-прежнему отсутствуют кириллические буквы. Большинство из них кажутся
    кодируются с комбинированием акцентов, а остальные могут быть добавлены с помощью процедуры, описанной в
    Приложение B, однако, отправка новых символов стандарта Unicode.

    Каждая буква кириллицы кодируется двумя байтами в UTF-8. Стандартная схема сжатия для Unicode (SCSU) позволяет уменьшить это значение до традиционного — один байт на букву.

    Я все еще пишу свой Unicode-HOWTO для Linux. Я добавил
    Cyrillic.kmap, злоупотребляющий ISO
    9 транслитерация как метод ввода в текстовый редактор Yudit Unicode для X Window System.

    Я призываю вас присылать свои комментарии по адресу [email protected]. я благодарю
    Кристофер Неханив, Андреас Прилоп, Питер Кассетта
    <пит @ кириллица.com>, Андрей Чернов, Кельд Симонсен, Борислав
    Стоянов, Гюнчо
    Скордев, Илья Винарский, Дима Володин, Кристиан Вайсгербер, Алена
    Кесси и Юрию Демченко за предоставленную ценную информацию.

    Роман Чиборра

    1998-05-25 .. 1998-11-30

    Кодовая страница Windows 1251

    Кодовая страница Windows 1251

    Эта страница содержит таблицу кодовой страницы Microsoft Windows 1251 для русского и
    некоторые другие языки, написанные кириллицей. CP1251
    символы включены буквально в скобки слева от каждой строки.Если вы сохраните эту страницу, у вас будет таблица CP1251, которую вы можете использовать для тестирования вашего
    конфигурация набора символов эмулятора терминала.


    Кодовая страница Microsoft Windows 1251
    char dec col / row oct hex описание
    [] 128 08/00 200 80 КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА DJE
    [] 129 08/01 201 81 КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА GJE
    [] 130 08/02 202 82 НИЗКАЯ 9 ОДИНОЧНАЯ ЦИТАТА
    [] 131 08/03 203 83 Кирилическая строчная буква GJE
    [] 132 08/04 204 84 НИЗКАЯ 9 ДВОЙНАЯ ЦИТАТА
    [] 133 08/05 205 85 ЭЛЛИПСИС
    [] 134 08/06 206 86 КИНЖАЛ
    [] 135 08/07 207 87 ДВОЙНОЙ КИНЖАЛ
    [] 136 08/08 210 88 ЕВРО ЗНАК
    [] 137 08/09 211 89 ЗА МИЛ ЗНАК
    [] 138 08/10 212 8A ЗАГЛАВНАЯ БУКВА LJE
    [] 139 08/11 213 8B ЛЕВЫЙ КРОНШТЕЙН ОДИНОЧНОЙ ЦИТАТЫ
    [] 140 08/12 214 8C КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА NJE
    [] 141 08/13 215 8D КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА KJE
    [] 142 08/14 216 8E КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА TSHE
    [] 143 15.08 217 8F КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА ДЖЕ
    [] 144 09/00 220 90 КИРИЛИЧЕСКАЯ СТРОЧНАЯ БУКВА DJE
    [] 145 09/01 221 91 ВЫСОКАЯ 6 ОДИНОЧНАЯ ЦИТАТА
    [] 146 09/02 222 92 ВЫСОКАЯ 9 ОДИНОЧНАЯ ЦИТАТА
    [] 147 09/03 223 93 ВЫСОКАЯ 6 ДВОЙНАЯ ЦИТАТА
    [] 148 09/04 224 94 ВЫСОКАЯ 9 ДВОЙНАЯ ЦИТАТА
    [] 149 09/05 225 95 БОЛЬШАЯ ЦЕНТРАЛЬНАЯ ТОЧКА
    [] 150 09/06 226 96 RU ТИП
    [] 151 07.09 227 97 EM DASH
    [] 152 09/08 230 98 (НЕ ОПРЕДЕЛЕННО)
    [] 153 09/09 231 99 ТОВАРНЫЙ ЗНАК
    [] 154 09/10 232 9A СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА LJE
    [] 155 09/11 233 9B ПРАВЫЙ КРОНШТЕЙН ДЛЯ ОДИНОЧНОЙ ЦИТАТЫ
    [] 156 09/12 234 9C КИРИЛИЧЕСКАЯ СТРОЧНАЯ БУКВА NJE
    [] 157 09/13 235 9D КИРИЛИЧЕСКАЯ СТРОЧНАЯ БУКВА KJE
    [] 158 14.09 236 9E КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА TSHE
    [] 159 15.09 237 9F КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА ДЖЕ
    [] 160 10/00 240 A0 НЕПРЕРЫВНОЕ ПРОСТРАНСТВО
    [] 161 10/01 241 A1 КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА КОРОТКАЯ U
    [] 162 10/02 242 A2 КИРИЛИЧЕСКАЯ СТРОЧНАЯ БУКВА КОРОТКАЯ U
    [] 163 10/03 243 A3 КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА JE
    [] 164 10/04 244 ЗНАК ВАЛЮТЫ A4
    [] 165 10/05 245 A5 КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА GHE С ПОВОРОТОМ
    [] 166 10/06 246 A6 СЛОМАННЫЙ БАР
    [] 167 10/07 247 A7 ЗНАК ПАРАГРАФА
    [] 168 10/08 250 A8 КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА IO
    [] 169 10/09 251 A9 ЗНАК АВТОРСКОГО ПРАВА
    [] 170 10/10 252 AA КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА УКРАИНСКИЙ IE
    [] 171 10/11 253 AB ЛЕВЫЙ УГЛОВОЙ ЦИТАТНЫЙ ЗНАК
    [] 172 10/12 254 AC NOT SIGN
    [] 173 10/13 255 AD МЯГКИЙ ДЕФИС
    [] 174 10/14 256 AE ЗНАК ЗАРЕГИСТРИРОВАННОЙ ТОРГОВОЙ МАРКИ
    [] 175 10/15 257 AF КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА YI
    [] 176 11/00 260 B0 ЗНАК, КОЛЬЦО ВЫШЕ
    [] 177 11/01 261 B1 ЗНАК ПЛЮС-МИНУС
    [] 178 11/02 262 B2 Кирилическая прописная буква БЕЛОРУССИЯ-УКРАИНСКИЙ ЯЗЫК I
    [] 179 11/03 263 B3 СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА БЕЛОРУССИЯ-УКРАИНСКИЙ ЯЗЫК I
    [] 180 11/04 264 B4 СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА GHE С ПОВОРОТОМ
    [] 181 11/05 265 B5 МИКРОЗНАК
    [] 182 06/11 266 B6 ЗНАК ПИЛКРОУ
    [] 183 07/11 267 B7 СРЕДНЯЯ ТОЧКА
    [] 184 08/11 270 B8 СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА IO
    [] 185 11/09 271 B9 ЗНАК NUMERO
    [] 186 11/10 272 BA СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА УКРАИНСКИЙ IE
    [] 187 11/11 273 BB ЦИТАТНЫЙ ЗНАК ПРАВЫЙ УГОЛ
    [] 188 11/12 274 до н.э. Кирилическая строчная буква JE.
    [] 189 11/13 275 BD КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА DZE
    [] 190 14/11 276 БЫТЬ СТРОЧНОЙ КИРИЛИЧЕСКОЙ БУКВОЙ DZE
    [] 191 15/11 277 BF КИРИЛИЧЕСКАЯ СТРОЧНАЯ БУКВА YI
    [] 192 12/00 300 C0 КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА A
    [] 193 01/12 301 C1 КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА БЫТЬ
    [] 194 12/02 302 C2 КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА VE
    [] 195 12/03 303 C3 ЗАГЛАВНАЯ БУКВА GHE
    [] 196 12/04 304 C4 ЗАГЛАВНАЯ БУКВА DE
    [] 197 12/05 305 C5 КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА IE
    [] 198 12/06 306 C6 КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА ZHE
    [] 199 12/07 307 C7 ЗАГЛАВНАЯ БУКВА ZE
    [] 200 12/08 310 C8 ЗАГЛАВНАЯ БУКВА I
    [] 201 12/09 311 C9 КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА КОРОТКАЯ I
    [] 202 12/10 312 CA КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА KA
    [] 203 12/11 313 CB КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА EL
    [] 204 12/12 314 CC КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА EM
    [] 205 12/13 315 CD КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА EN
    [] 206 12/14 316 CE КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА O
    [] 207 15/12 317 CF КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА PE
    [] 208 13/00 320 D0 КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА ER
    [] 209 13/01 321 D1 ЗАГЛАВНАЯ БУКВА ES
    [] 210 13/02 322 D2 КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА TE
    [] 211 13/03 323 D3 КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА U
    [] 212 13/04 324 D4 КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА EF
    [] 213 13/05 325 D5 КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА HA
    [] 214 13/06 326 D6 КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА TSE
    [] 215 13/07 327 D7 КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА CHE
    [] 216 13/08 330 D8 КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА SHA
    [] 217 13/09 331 D9 КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА ЩА
    [] 218 13/10 332 DA КИРИЛЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА ЖЕСТКИЙ ЗНАК
    [] 219 13/11 333 КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА ДБ ЕРУ
    [] 220 13/12 334 DC КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА МЯГКИЙ ЗНАК
    [] 221 13/13 335 DD КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА E
    [] 222 13/14 336 Кириллическая прописная буква YU
    [] 223 13/15 337 DF КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА YA
    [] 224 14/00 340 E0 СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА A
    [] 225 14/01 341 E1 СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА BE
    [] 226 14/02 342 E2 СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА VE
    [] 227 14/03 343 E3 СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА GHE
    [] 228 14/04 344 E4 СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА DE
    [] 229 14/05 345 E5 СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА IE
    [] 230 14/06 346 E6 СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА ZHE
    [] 231 14/07 347 E7 СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА ZE
    [] 232 14/08 350 E8 СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА I
    [] 233 14/09 351 E9 СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА КОРОТКАЯ I
    [] 234 14/10 352 EA СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА KA
    [] 235 14/11 353 EB КИРИЛИЧЕСКАЯ СТРОЧНАЯ БУКВА EL
    [] 236 14/12 354 EC КИРИЛИЧЕСКАЯ СТРОЧНАЯ БУКВА EM
    [] 237 14/13 355 ED Кирилическая строчная буква EN
    [] 238 14/14 356 EE СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА O
    [] 239 14/15 357 EF КИРИЛИЧЕСКАЯ СТРОЧНАЯ БУКВА PE
    [] 240 15/00 360 F0 СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА ER
    [] 241 15/01 361 F1 КИРИЛИЧЕСКАЯ СТРОЧНАЯ БУКВА ES
    [] 242 15/02 362 F2 СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА TE
    [] 243 15/03 363 F3 СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА U
    [] 244 15/04 364 F4 СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА EF
    [] 245 15/05 365 F5 СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА HA
    [] 246 15/06 366 F6 СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА TSE
    [] 247 15/07 367 F7 СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА CHE
    [] 248 15/08 370 F8 СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА CHA
    [] 249 15/09 371 F9 СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА ЩА
    [] 250 15/10 372 FA КИРИЛЛИЧЕСКАЯ СТРОЧНАЯ БУКВА ЖЕСТКИЙ ЗНАК
    [] 251 15/11 373 FB КИРИЛИЧЕСКАЯ СТРОЧНАЯ БУКВА YERU
    [] 252 15/12 374 FC КИРИЛИЧЕСКАЯ СТРОЧНАЯ БУКВА МЯГКИЙ ЗНАК
    [] 253 15/13 375 FD СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА E
    [] 254 15/14 376 FE СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА YU
    [] 255 15/15 377 FF СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА YA
     

    Франк да Круз,
    Проект Кермит,
    Колумбийский университет,
    Март 2003 г.

    Кириллица в Unicode — IBM Developer

    Архивное содержимое

    Дата архивации: 2019-08-20

    Это содержимое больше не обновляется и не поддерживается.Контент предоставляется «как есть». Учитывая быстрое развитие технологий, некоторые материалы, шаги или иллюстрации могли измениться.

    Распад Советского Союза привел к расцвету компьютерной индустрии на территории нынешней России и соседних с ней государств. Экономические и социальные условия привели к тому, что Linux стала ведущей операционной системой в этом регионе. Русский и другие славянские языки написаны кириллицей, которая чаще всего представлена ​​с использованием наборов символов KOI8-R или ISO 8859-5.Это ASCII-совместимые системы, которые хорошо работали в прошлом, но создают проблемы с переводом и совместимостью.

    Unicode — это развивающийся стандарт, который позволяет отображать все языки мира. Благодаря своей многобайтовой системе Unicode делает десятки тысяч символов доступными в стандартном взаимозаменяемом формате.

    В этой статье рассказывается, как использовать кириллический скрипт на основе Unicode и его альтернативы на компьютере под управлением Linux.

    Кириллица на компьютере

    Кириллица

    может быть представлена ​​на компьютере Linux четырьмя основными способами: KOI8-R, ISO 8859-5, кодовая страница Windows 1251 и ISO 10646-1 UTF-8 Unicode 3.0.

    Кириллица

    Климент Охридский изобрел кириллицу как более удобочитаемую версию глаголического алфавита, изобретенного славянскими монахами Кириллом и Мефодием (братьями и его учителями) в Македонии около 863 года нашей эры.Глаголица была зашифрованным греческим алфавитом с расширениями для славянских звуков. Кириллица распространилась и преобразовалась в свою нынешнюю романизированную форму, называемую Гражданкой, при русском царе Петре Великом, и используется более чем на 70 языках в Европе и Западной Азии.

    Современная кириллица — это небольшой алфавит без диакритических знаков, что делает его пригодным для использования в качестве шрифта компьютерного интерфейса.

    КОИ8-Р

    KOI8-R расшифровывается как русский термин, означающий Код для обмена информацией, 8-битный, русский язык. Таблица кодовых страниц KOI8-R, показанная здесь, является фактическим стандартом для интернет-почты / новостей, всемирной паутины и других интерактивных сервисов на русском языке для всех бывших советских территорий. KOI8-R был разработан для русского и английского языков и охватывает только русские кириллические символы.

    Таблица 1: Таблица кодовых страниц KOI8-R

    KOI8-R полностью совместим с 7-битным ASCII. Кириллические символы расположены в верхней половине байтовых кодов (от 128 до 255 или от A0 до FF в шестнадцатеричном формате). Основным дизайнерским преимуществом KOI8-R является то, что расположение кириллических символов соответствует английским символам с той же фонетикой. Если установлен восьмой бит английского символа «a», результатом будет кириллица «a». Это означает, что в кириллическом тексте, написанном в KOI8-R, может быть удален восьмой бит из каждого символа, и в результате по-прежнему будет читаемый текст с английскими символами.Это важно из-за преобладания Интернет-приложений, особенно почтовых программ, которые незаметно отсекают восьмой бит. «Звездный путь» научил разработчиков программного обеспечения верить, что каждый человек во Вселенной говорит по-английски.

    Здесь показана раскладка клавиатуры для KOI8-R.

    Раскладка клавиатуры KOI8-R

    ISO-8859-5

    Наборы символов ISO 8859 были разработаны Европейской ассоциацией производителей компьютеров (ECMA) в середине 1980-х годов и одобрены Международной организацией по стандартизации (ISO).Вы можете просмотреть ISO-8859-5 здесь.

    Таблица 3: Набор символов ISO 8859-5

    Windows 1251 Кодовая страница

    Кодовая страница Windows 1251 — это система, которую Microsoft использует для представления кириллицы в Windows. Эта кодовая страница показывает еще одну, дополнительную стандартную таблицу. Набор символов 1251 полезен при монтировании файловой системы Windows. Это обеспечивает совместимость с кириллическими именами файлов, созданными в Windows.

    Таблица 4: Таблица кодовых страниц Windows 1251

    ISO 10646-1 UTF-8 Unicode 3.0

    Система кодирования Unicode UTF-8 содержит все символы из наборов символов ISO 8859-5, Microsoft Codepage, CP 1251 и KOI8-R. UTF-8 проще всего описать как набор кодовых таблиц, в которых один целочисленный индекс используется для идентификации таблицы, а другой — для символа. Однако это чрезмерное упрощение, поскольку Unicode более сложен. Unicode обеспечивает максимальную гибкость и совместимость всех решений для представления символов. К сожалению, большинство приложений для Linux его не поддерживают.

    Международный стандарт Unicode ISO 10646 определяет универсальный набор символов (UCS), который является надмножеством всех других стандартов набора символов, что обеспечивает совместимость между ними. Преобразование любой текстовой строки в UCS и обратно не потеряет никакой информации.

    Стандарт UTF-8 (формат преобразования UCS) использует от одного до шести байтов для представления символа. Другие методы Unicode — UCS-2 и UCS-4. Они используют два или четыре байта для представления символа. Большинство инструментов Linux / UNIX не могут обрабатывать 16- или 32-битные слова как символы.UTF-8 позволяет представлять символы ASCII как один байт.

    UTF-8 предлагает гораздо более гибкие возможности программирования. Программирование WIN32 обеспечивает поддержку UCS-2 или ASCII, но не обоих одновременно. Программа либо имеет #define UNICODE в источнике и использует TCHAR вместо char там, где это необходимо для Unicode, либо нет. Это требует создания двух версий программы. UTF-8 позволяет одной программе обрабатывать как ASCII, так и Unicode.

    Все символы UCS из U + 007F (Unicode 128) представляют собой закодированные вариантные многобайтовые последовательности.Может быть представлен 31 код UCS. Это позволяет Unicode работать в системе Posix (Linux / UNIX).

    См. Раздел «Ресурсы», чтобы узнать о шрифтах Linux Unicode, которые находятся в свободном доступе.

    Выбор системы представления символов

    Windows 1251 дает пользователю совместимость с MS Windows. ISO-8859-5 имеет лучшую поддержку и прост в настройке. KOI8-R является стандартом для России и других стран бывшего Советского Союза. Unicode — это стандарт, который будет использоваться в будущем на всех компьютерах и платформах; он предлагает действительно универсальную языковую поддержку.

    Сегодня наиболее популярны ISO-8859-5 или KOI8-R. Последний на сегодняшний день является самым популярным в России и, вероятно, должен использоваться всеми, кто в настоящее время работает с текстом русского происхождения.

    Проблема с KOI8-R заключается в том, что он не является универсальным стандартом и страдает множеством вариаций, чтобы приспособиться ко многим вкусам славянских языков. Юникод заменит его, но пройдет несколько лет, прежде чем он станет преобладающим.

    Решения для кириллицы, отличной от Unicode, обеспечивают немедленную поддержку славянского языка без проблем, связанных с необходимостью модификации Linux для поддержки многобайтовых символов.

    Linux Unicode Настройка кириллицы

    Чтобы использовать Юникод UTF-8 в Linux, вам нужна система, способная кодировать и декодировать Юникод UTF-8. Многие части Linux вообще не требуют модификаций, исправлений или замен. Приложения с потоком байтов, такие как cat, просто обрабатывают 8-битные последовательности и игнорируют кодировки. Программы, которые генерируют, отображают, подсчитывают и считывают символы, необходимо модифицировать для обработки многобайтовых данных UTF-8 путем добавления подпрограмм для кодирования / декодирования символов UTF-8.

    Пользовательские интерфейсы, такие как Gnome и KDE, должны изменять отображение интерфейса. Большинство дистрибутивов Linux теперь поддерживают UTF-8 и кириллицу в исходных конфигурациях.

    Способ изменения системы для поддержки UTF-8 зависит от того, используется ли Linux в режиме консольного символьного устройства или работает с GUI-подобным GNOME или KDE. Чтобы попробовать команды изменения консоли, переключитесь на альтернативную консоль и войдите в систему как «root», нажав комбинацию клавиш CTRL + ALT +. Это можно использовать из графического интерфейса.Не путайте это с функциональной клавишей ALT +, которая меняет виртуальные рабочие столы.

    Поддержка UTF-8

      unicode_start
    установить шрифт /usr/lib/kbd/consolefonts/UniCyr_8x16.psf.gz
    loadkeys /usr/lib/kbd/keymaps/i386/qwerty/ru.kmap
      

    Показать ещеПоказать еще значок

    Команда mapscrn не используется при использовании Unicode.

    Интересный тест доступных шрифтов Unicode можно сделать следующим образом:

      # Тест для проверки карт юникода, соответствующих различным шрифтам.Пытаться
    для i в 01 02 03 04 05 06 07 08 09 10
    делать
    unicode_start iso $ i.f16 iso $ i
    less -r utflist # отобразить этот файл
    сделано
    unicode_stop
      

    Показать ещеПоказать еще значок

    Поддержка восьмибитных символов

    Чтобы изменить символы на консоли, создайте файл сценария, создав файл, который загружает соответствующие раскладки клавиатуры и шрифты из их каталогов. Пример:

     , если [notset. $ DISPLAY! = Notset. ]; потом
    echo "` basename $ 0`: не может работать под X11 "
    выход
    фи
    
    loadkeys / usr / lib / kbd / keymaps / i386 / qwerty / ru.kmap # загружаем файл русской раскладки
    setfont /usr/lib/kbd/consolefonts/koi8-8x16.psf # Загрузите кириллические шрифты koi8
    mapscrn /usr/lib/kbd/consoletrans/koi8-r.acm.gzÂ
    echo -ne "\ 033 (K" # Это последовательность, которая включает набор символов G0Â
    карта загружается
    # \ 033 - escape-символ
    echo -ne "\ 007" # beep
    echo "Используйте правую клавишу Ctrl, чтобы переключить режим ..." # уведомить пользователя об изменении
      

    Показать ещеПоказать еще значок

    Команда: mapscrn [-o map.orig] файл карты используется для загрузки определяемой пользователем таблицы сопоставления символов в драйвер консоли.Это позволяет пользователю перевести драйвер консоли в режим определяемой пользователем таблицы отображения, отправив управляющую последовательность «(K» для набора символов G0 и «) K» (см. Листинг 3) для набора символов G1. Если задана опция -o, старая карта сохраняется в map.orig (или под любым именем, которое вы выберете). Используемый шрифт был установлен командой setfont. Дополнительную информацию о команде mapscrn см. В разделе «Ресурсы».

    Другой пример:

      setfont uni-511-14.psf
    loadkeys UniBalt.kmap
    mapscrn /usr/lib/kbd/consoletrans/koi8-u.acm.gz
    echo -ne "\ 033) K" Â # \ 033 - escape-символ.) K Загружает карту G1
      

    Показать ещеПоказать еще значок

    Кодовый набор KOI8-U может быть лучше, чем KOI8-R, поскольку он идентичен KOI8-R, но добавляет больше непонятных украинских символов.

    Создание файлов скриптов для загрузки шрифтов

    Убедитесь, что для создаваемого файла сценария атрибут разрешений установлен на исполняемый файл. Войдите в альтернативную консоль и запустите сценарий: «./ имя сценария ». Теперь при нажатии правой клавиши CTRL отображаются символы кириллицы. Повторное нажатие переключает дисплей обратно на ASCII. Оператор «if» предотвращает запуск этого сценария в графическом интерфейсе пользователя X11. Если вы попробуете это сделать, отобразится имя файла и сообщение «Невозможно запустить под X11», и сценарий будет прерван.

    UTF-8 можно включать и отключать с помощью команд unicode_start и unicode_stop . Не запускайте их в оболочке эмуляции терминала под X11; система выйдет из строя.Эти команды поставляются с пакетом kbd. Если этот пакет недоступен в вашем дистрибутиве, см. Ресурсы для сайта, где можно получить kdb и расширенную версию (пакет console-tools-0.2.3).

    Команда unicode_start [font [screen font map]] устанавливает вывод на экран консоли как UTF-8, а клавиатура переводится в режим Unicode (для получения подробной информации введите man kbd_mode в командной строке).

    Если соответствующая карта экранных шрифтов не загружена, клавиатура может стать непригодной для использования.

    Установка скриптовых шрифтов

    Рекомендуется установить как можно больше различных скриптовых шрифтов. Даже если шрифт не является специфичным для UTF-8, его можно использовать для отображения кириллицы и других скриптов.

    Чтобы отображать символы из разных сценариев на одном экране, используйте консольный шрифт Unicode для загрузки и установки пакетов. Ссылки для загрузки и установки см. В разделе Ресурсы.

    Они содержат шрифт (LatArCyrHeb- {08,14,16,19} .psf), который содержит латинские, кириллические, еврейские и арабские шрифты.Включены части 1-6, 8, 9 и 10 ISO 8859 (5 — кириллица). Чтобы установить этот шрифт, скопируйте его в / usr / lib / kbd / consolefonts / и выполните "/ usr / bin / setfont usr / lib / kbd / consolefonts / LatArCyrHeb-14.psf" .

    Команды установки шрифта

    Установка шрифтов — это простая процедура, которую можно выполнить в несколько быстрых шагов. Вот типичная процедура установки:

      gunzip unifont.hex.gz # распаковать шрифт
    hex2bdf  unifont.bdf # измените его на формат bdf
    bdftopcf -o unifont.pcf unifont.bdf # создать формат pcf для использования
    gzip -9 unifont.pcf # сжать его лучшим способом
    cp unifont.pcf.gz / usr / X11R6 / lib / X11 / fonts / unifont # скопируйте его в каталог шрифтов
    компакт-диск / usr / X11R6 / библиотека / X11 / шрифты / unifont
    mkfontdir # установите шрифт для X11, используйте xset fp rehash
      

    Показать ещеПоказать еще значок

    Для установки шрифтов также используются следующие программы:

    • dumpkeys -l | Менее отображает все доступные ключи.
    • Каталог mkfontdir подготавливает каталог шрифтов для использования X-сервером. Его необходимо выполнить после установки шрифтов в каталог.
    • xset fp + directory добавляет каталог к ​​текущему пути шрифта X-сервера. Чтобы добавить каталог навсегда, добавьте строку FontPath в ваш файл / etc / XF86Config в разделе «Файлы».
    • xset fp rehash необходимо выполнить после вызова mkfontdir в каталоге, который уже содержится в текущем пути шрифтов X-сервера.
    • xfontsel позволяет просматривать установленные шрифты, выбирая различные свойства шрифта.
    • xlsfonts -fn fontpattern перечисляет все шрифты, соответствующие шаблону шрифта. Он также отображает различные свойства шрифта. Команда xlsfonts -ll -fn font перечисляет свойства шрифта CHARSET_REGISTRY и CHARSET_ENCODING, которые вместе определяют кодировку шрифта.

    UTF-8 вырезать и вставить

    Для вырезания и вставки с консолями UTF-8 требуется патч linux-2.3.12-console.diff от Эдмунда Томаса Гримли Эванса и Станислава Вороного. Его можно найти по адресу: ftp://ftp.ilog.fr/pub/Users/haible/utf8/linux-2.3.12-console.diff.

    Команда patch используется с файлом diff для добавления изменений в исходный файл, таким образом исправляя файл. Заголовок файла diff объясняет изменения, внесенные в исходный код console.c.

    Поддержка UTF-8 в приложениях

    UTF-8 хорошо поддерживается во многих приложениях Linux, и большинство программ можно легко настроить для его поддержки.

    Многие браузеры отображают HTML-документы, использующие UTF-8. В заголовке документа должно быть следующее определение:

      
    
    
    
    
      

    Показать ещеПоказать еще значок

    Другие приложения, уже поддерживающие UTF-8, — это такие редакторы, как vi, Emacs и xedit. Они готовы и могут быть настроены для UTF-8.

    Еще одно приложение, специально разработанное для использования UTF-8, — это редактор Mined 2000 (см. Ресурсы).Makefile немного сложно приспособить к Linux. Если у вас возникнут проблемы, пришлите мне электронное письмо, и я проведу вас через адаптацию.

    Программы электронной почты

    , похоже, создают большое количество проблем при использовании с UTF-8. Необходимо убедиться, что восьмой бит не удален, а поддержка шрифтов установлена ​​для Unicode UTF-8.

    Заключение

    Хотя Unicode UTF-8 не является ни самым распространенным, ни самым популярным решением, он является наиболее гибким вариантом и единственным, который сохраняет совместимость с ASCII и всеми установленными кодовыми наборами символов.Через несколько лет UTF-8 должен преобладать в качестве стандартной кодовой системы во всех дистрибутивах Linux. Это сделает Linux первой действительно международной операционной системой, сохранив при этом возможность обработки кода ASCII.

    Кириллица под DMDX

    Кириллица под DMDX

    После некоторой борьбы мне удалось сгенерировать файлы RTF.
    которые приемлемо работают под DMDX для самостоятельного изучения чтения в маске в
    Русский. Эта страница документирует все, что вам нужно сделать, чтобы никто другой
    нужно повторить мои оплошности.В общем информация тут наверное
    обобщается и на другие расширенные наборы символов, но я не
    подтвердил это. YMMV — не создавайте ошибочного впечатления, что я
    понимать все это очень глубоко!

    Необходимые ингредиенты

    1. DMDX
    2. Окна
      Кодовая страница 1251. Кириллические символы представлены в формате RTF.
      документ в экранированной форме — например, будет представлен как
      \ ‘e4 \’ f0 \ ‘f3 \’ ea — и кодовая страница Windows 1251 сообщает вам, какой
      escape-последовательности соответствуют символам кириллицы.
    3. Кириллический шрифт. Если у вас Windows NT, 2000 или Windows XP, вы
      эти шрифты должны быть предварительно установлены; в противном случае вам нужно установить
      их сами (думаю, это происходит автоматически, если вы включите
      Русская многоязычная поддержка в Панели управления).

    Документ RTF состоит из (1) заголовка; и (2) собственно документ.
    Заголовок содержит информацию о различных свойствах, которые содержат или
    упоминаются в тексте документа. Что особенно важно,
    заголовок содержит таблицу шрифтов , где все шрифты, используемые в
    документ должен быть указан и пронумерован.Например, если вы хотите
    используйте шрифт Courier New, вы можете включить запись

    {\ f0 \ fmodern \ fprq1 \ fcharset0 Courier New;}

    В этой спецификации всякий раз, когда вы включаете тег \ f0 в тело
    документа вы будете сигнализировать о том, что предстоящий текст находится в
    шрифт Courier New. (Подробнее см. Официальную спецификацию RTF
    подробности о значении других включенных тегов.) В шрифте
    таблицу, вам нужно добавить запись, чтобы связать номер шрифта с
    Кириллический шрифт, например Times New Roman Cyrillic и / или Courier New.
    Кириллица:

    {\ f38 \ froman \ fcharset204 \ fprq2 Times New Roman Cyr;}
    {\ f58 \ fmodern \ fcharset204 \ fprq1 Courier New Cyr;}

    Используя только эти три шрифта, ваша полная таблица шрифтов будет выглядеть следующим образом:

    {\ fonttbl
    {\ f0 \ fmodern \ fprq1 \ fcharset0 Courier New;}
    {\ f38 \ froman \ fcharset204 \ fprq2 Times New Roman Cyr;}
    {\ f58 \ fmodern \ fcharset204 \ fprq1 Courier New Cyr;}
    }

    После этого добавление кириллических символов в ваш RTF-документ очень
    просто: если вы связали кириллический шрифт с номером шрифта N
    в таблице шрифтов введите тег \ f N , а затем введите escape
    последовательности символов кириллицы, которые вы хотите отобразить.если ты
    никогда не нужно переключаться между наборами символов, кроме латиницы и
    Кириллические символы это особенно легко: кириллические шрифты все могут
    отображать латинские символы без труда, поэтому переключитесь один раз в свой
    Кириллический шрифт и никогда не вводите другой тег шрифта!

    Я собрал самый простой из возможных файлов элементов для
    замаскированное самостоятельное изучение чтения на русском языке здесь. Обратите внимание, что входы # 29 и # 157 относятся к
    к левой и правой клавишам управления соответственно.

    См. Также

    • Я пробовал некоторые из якобы моноширинных кириллических шрифтов, доступных под Windows, читайте о моих результатах здесь
    • последняя спецификация RTF

    Вернуться на мою домашнюю страницу.

    черновик-winitzki-koi8c-encoding-00

     Internet Draft Serge Winitzki
    черновик-winitzki-koi8c-encoding-00.txt
    Истекает: Апрель 2002
    
                                            Расширенный набор символов кириллицы
    KOI8-C
    
    Статус этого меморандума
    
      Эта памятка является Интернет-проектом и регулируется всеми положениями.
      раздела 10 RFC2026.
    
      Интернет-проекты - это рабочие документы Интернета.
      Инженерная рабочая группа (IETF), ее области и работа
      группы.Обратите внимание, что другие группы также могут распространять рабочие
      документы как Интернет-проекты.
    
      Интернет-проекты - это черновики документов, действительные не более шести лет.
      месяцев и может быть обновлен, заменен или исключен другими
      документы в любое время. Нецелесообразно использовать
      Интернет-проекты в качестве справочного материала или для их цитирования, кроме
      как «незавершенное производство».
    
      Со списком текущих Интернет-проектов можно ознакомиться по адресу
      http://www.ietf.org/ietf/1id-abstracts.txt Список
      Интернет-черновики теневых каталогов доступны по адресу
      http: // www.ietf.org/shadow.html.
    
    Автор
    
       Серж Виницки 
    
    Абстрактный
    
      В этом документе содержится информация о кодировке символов.
      KOI8-C (KOI8 Cyrillic) предлагается для использования с русским языком (в том числе
      старая орфография), украинский, белорусский, сербский, македонский
      языки со специальными знаками препинания. KOI8-C совместим
      с КОИ8-Р [1] и КОИ8-У [2] в зоне русского, украинского
      и белорусскими буквами, и дополняет их буквами для старых
      Русская орфография, югославские буквы кириллицы и
      типографские символы в позициях, совместимых с CP1251 для использования
      в устаревших приложениях.Предлагаемое имя набора символов MIME: koi8-c
    
    Вступление
    
      В этом документе содержится информация о предлагаемом новом персонаже.
      кодирование KOI8-C, расширение стандартов KOI8-R и KOI8-U.
      Это расширение поддерживает все русские буквы.
      (в том числе необходимые для древнерусской орфографии), а также
      Кириллица в белорусском, македонском, сербском и белорусском языках.
      Украинские языки и некоторые часто используемые типографские
      символы заимствованы из кодировки CP1251. Кодировка KOI8-C
      совместим с существующими кодировками KOI8-RU и CP1251 в
      соответствующие персонажи.Мотивация
    
      Семейство кодировок KOI8 издавна используется для электронных
      обмен кириллическими текстами [1,2]. Следующие соображения
      заставили автора предложить расширение KOI8.
    
      1) Большая область таблицы кодирования KOI8 (большая часть 0x80-0xBF
      диапазон) по историческим причинам занят символами
      псевдографика, которая не используется в современном ПО. Эти символы
      отсутствуют в большинстве реализаций шрифтов KOI8 без какого-либо влияния
      по производительности пользователей. Эти места в таблице кодирования могут быть
      используется для представления наиболее часто используемых символов.2) Недавнее доминирование операционной среды "MS Windows".
      привело к широкому распространению текстовых процессоров, использующих код
      страница 1251 "для отображения кириллицы. Многие Интернет-документы
      таким образом преобразуются в KOI8 из CP1251 и часто включают
      определенные типографские знаки, такие как апострофы, цитаты или
      тире, не представленные в кодировках KOI8, но оставленные без
      изменение автоматическими преобразователями. Эти типографские символы падают
      в неиспользуемой области псевдографики KOI8.3) Тексты в древнерусской орфографии (до 1918 г.) содержат четыре
      Кириллические буквы не представлены ни одним из широко используемых
      Кириллические кодировки. Хотя инструменты на основе Unicode будут в
      принцип адекватен для рендеринга этих символов, текущий
      программное обеспечение в основном не имеет необходимой поддержки. Это было бы
      удобно иметь 8-битную кодировку, представляющую старый русский язык
      символы и иметь возможность помещать их прямо в шрифт
      карта кодирования и раскладка клавиатуры, совместимая с широким диапазоном
      текущего программного обеспечения.Реализация
    
      Автор реализовал кодировку KOI8-C в соответствии с этими
      рекомендации: (1) совместимость с символом KOI8-R и KOI8-U
      наборов, (2) совместимость с набором символов CP1251 в области
      типографские символы и югославская кириллица; (3) должно быть
      умеет конвертировать шрифты в другие кодировки кириллицы.
    
      Нижняя часть набора символов KOI8-C является полной копией
      ASCII в диапазоне печатаемых символов (0x20 - 0x7F). В
      диапазон (0x00 - 0x1F) занят псевдографикой и прочими
      редко используются специальные символы.Верхняя часть набора символов KOI8-C содержит весь русский язык,
      Белорусские и украинские буквы в позициях, определенных в KOI8-R
      и КОИ8-У; часто используемые типографские символы (кавычки,
      тире и символы валют) и югославской кириллицы как
      определяется кодировкой CP1251; и старинные русские буквы. Большая коробка
      рисование персонажей из KOI8-R, а также некоторые математические
      символы, были удалены.
    
      Результирующий набор символов содержит все символы ISO 8859-5.
      кроме SOFT HYPHEN и охватывает CP1251 за исключением 5 знаков препинания
      персонажей (все также в CP1252).Веб-страница
      
      содержит авторские разработки, связанные с KOI8-C
      кодировка и тексты в древнерусской орфографии. Бесплатное растровое изображение
      шрифты семейства Cronyx для оконной системы X были адаптированы
      в кодировку KOI8-C, реализующую полную карту KOI8-C (256
      символов) во всех шрифтах (проект "xcyr"). Расширение
      раскладка клавиатуры, содержащая старые русские буквы, была
      предложенный. Словарь для проверки орфографии для древнерусского языка
      орфография с использованием кодировки KOI8-C.Отношение к другим усилиям
    
      Эта кодировка была разработана как модификация [1,2]. An
      независимый проект разработки шрифтов "CYR-RFX" использует
      альтернативное кодирование «КОИ8-О» с аналогичными целями
      совместимость с KOI8-R и CP1251, но не содержит
      Югославские символы кириллицы.
    
    Спецификация кодовой страницы KOI8-C
    
      Описание всех персонажей верхней половины KOI8-C
      кодовая страница задается в соответствии с набором символов Unicode ISO 10646
      (ПСК).
    
        # <описание>
    
      0x01 U25C6 # ЧЕРНЫЙ АЛМАЗ
      0x02 U2592 # СРЕДНИЙ ОТТЕНК
      0x03 U00D7 # ЗНАК УМНОЖЕНИЯ
      0x04 U00F7 # ЗНАК РАЗДЕЛЕНИЯ
      0x05 U2030 # ЗНАК НА МЕЛЬНИЦУ
      0x06 U2248 # ПОЧТИ РАВНО
      0x07 U00B5 # МИКРОЗНАК
      0x08 U00B1 # ЗНАК ПЛЮС-МИНУС
      0x09 U00B6 # ЗНАК ПИЛКРОУ
      0x0A U2021 # ДВОЙНОЙ КИНЖАЛ
      0x0B U2518 # ЧЕРТЕЖИ КОРОБКИ СВЕТИЛЬНИКИ ВВЕРХ И ВЛЕВО
      0x0C U2510 # ЧЕРТЕЖИ КОРОБКИ СВЕТЛЫЕ ВНИЗ И ВЛЕВО
      0x0D U250C # ЧЕРТЕЖИ КОРОБКИ СВЕТЛЫЙ ВНИЗ И ВПРАВО
      0x0E U2514 # ЧЕРТЕЖИ КОРОБКИ СВЕТИЛЬНИКИ И ВПРАВО
      0x0F U253C # КОРОБКА ЧЕРТЕЖЕЙ СВЕТЛАЯ ВЕРТИКАЛЬНАЯ И ГОРИЗОНТАЛЬНАЯ
      0x10 UFFFD # ХАРАКТЕР ЗАМЕНЫ
      0x11 UFFFD # ХАРАКТЕР ЗАМЕНЫ
      0x12 U2500 # КОРОБКА ЧЕРТЕЖЕЙ СВЕТЛАЯ ГОРИЗОНТАЛЬНАЯ
      0x13 UFFFD # ХАРАКТЕР ЗАМЕНЫ
      0x14 UFFFD # ХАРАКТЕР ЗАМЕНЫ
      0x15 U251C # ЧЕРТЕЖИ КОРОБКИ СВЕТЛЫЕ ВЕРТИКАЛЬНО И ПРАВО
      0x16 U2524 # ЧЕРТЕЖИ КОРОБКИ СВЕТЛЫЕ ВЕРТИКАЛЬНО И СЛЕВА
      0x17 U2534 # ЧЕРТЕЖИ КОРОБКИ СВЕТИЛЬНО И ГОРИЗОНТАЛЬНО
      0x18 U252C # ЧЕРТЕЖИ НА КОРОБКЕ СВЕТЛЫЙ ВНИЗ И ГОРИЗОНТАЛЬНО
      0x19 U2502 # ЧЕРТЕЖИ КОРОБКИ СВЕТЛЫЙ ВЕРТИКАЛЬНЫЙ
      0x1A U2264 # МЕНЬШЕ ИЛИ РАВНО
      0x1B U2265 # БОЛЬШЕ ИЛИ РАВНО
      0x1C U03C0 # ГРЕЧЕСКАЯ СТРОЧНАЯ БУКВА PI
      0x1D U2260 # НЕ РАВНО
      0x1E U00A4 # ЗНАК ВАЛЮТЫ
      0x1F U00B2 # СУПЕРСКРИПТ ДВА
      0x20 U0020 # ПРОБЕЛ
      0x21 U0021 # Восклицательный знак
      0x22 U0022 # ЦИТАТНЫЙ ЗНАК
      0x23 U0023 # НОМЕРНЫЙ ЗНАК
      0x24 U0024 # ЗНАК ДОЛЛАРА
      0x25 U0025 # ЗНАК ПРОЦЕНТА
      0x26 U0026 # АМПЕРСАНД
      0x27 U0027 # АПОСТРОФ
      0x28 U0028 # ЛЕВЫЙ ПАРЕНТЕЗ
      0x29 U0029 # ПРАВЫЙ ПАРЕНТЕЗ
      0x2A U002A # ASTERISK
      0x2B U002B # ПЛЮС ЗНАК
      0x2C U002C # ЗАПЯТАЯ
      0x2D U002D # ДЕФИС-МИНУС
      0x2E U002E # ПОЛНАЯ ОСТАНОВКА
      0x2F U002F # SOLIDUS
      0x30 U0030 # ЦИФРОВОЙ НУЛЬ
      0x31 U0031 # ЦИФРА ОДИН
      0x32 U0032 # ЦИФРА ДВА
      0x33 U0033 # ЦИФРА ТРИ
      0x34 U0034 # ЦИФРА ЧЕТЫРЕ
      0x35 U0035 # ЦИФРА ПЯТЬ
      0x36 U0036 # ШЕСТЬ ЦИФРОВ
      0x37 U0037 # ЦИФРА СЕМЬ
      0x38 U0038 # ЦИФРА ВОСЬМАЯ
      0x39 U0039 # ЦИФРА ДЕВЯТЬ
      0x3A U003A # COLON
      0x3B U003B # СЕМИКОЛОН
      0x3C U003C # МЕНЬШЕ ЗНАКА
      0x3D U003D # ЗНАК РАВНО
      0x3E U003E # БОЛЬШЕ, ЧЕМ ЗНАК
      0x3F U003F # ВОПРОСНЫЙ ЗНАК
      0x40 U0040 # КОММЕРЧЕСКИЙ АТ
      0x41 U0041 # ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА A
      0x42 U0042 # ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА B
      0x43 U0043 # ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА C
      0x44 U0044 # ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА D
      0x45 U0045 # ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА E
      0x46 U0046 # ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА F
      0x47 U0047 # ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА G
      0x48 U0048 # ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА H
      0x49 U0049 # ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА I
      0x4A U004A # ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА J
      0x4B U004B # ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА K
      0x4C U004C # ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА L
      0x4D U004D # ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА M
      0x4E U004E # ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА N
      0x4F U004F # ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА O
      0x50 U0050 # ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА P
      0x51 U0051 # ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА Q
      0x52 U0052 # ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА R
      0x53 U0053 # ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА S
      0x54 U0054 # ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА T
      0x55 U0055 # ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА U
      0x56 U0056 # ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА V
      0x57 U0057 # ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА W
      0x58 U0058 # ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА X
      0x59 U0059 # ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА Y
      0x5A U005A # ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА Z
      0x5B U005B # КВАДРАТНЫЙ КРОНШТЕЙН ЛЕВЫЙ
      0x5C U005C # ОБРАТНЫЙ SOLIDUS
      0x5D U005D # КРОНШТЕЙН ПРАВЫЙ КВАДРАТНЫЙ
      0x5E U005E # CIRCUMFLEX ACCENT
      0x5F U005F # НИЗКАЯ СТРОКА
      0x60 U0060 # GRAVE ACCENT
      0x61 U0061 # СТРОЧНАЯ ЛАТИНСКАЯ БУКВА A
      0x62 U0062 # СТРОЧНАЯ ЛАТИНСКАЯ БУКВА B
      0x63 U0063 # СТРОЧНАЯ ЛАТИНСКАЯ БУКВА C
      0x64 U0064 # СТРОЧНАЯ ЛАТИНСКАЯ БУКВА D
      0x65 U0065 # СТРОЧНАЯ ЛАТИНСКАЯ БУКВА E
      0x66 U0066 # СТРОЧНАЯ ЛАТИНСКАЯ БУКВА F
      0x67 U0067 # СТРОЧНАЯ ЛАТИНСКАЯ БУКВА G
      0x68 U0068 # СТРОЧНАЯ ЛАТИНСКАЯ БУКВА H
      0x69 U0069 # СТРОЧНАЯ ЛАТИНСКАЯ БУКВА I
      0x6A U006A # СТРОЧНАЯ ЛАТИНСКАЯ БУКВА J
      0x6B U006B # СТРОЧНАЯ ЛАТИНСКАЯ БУКВА K
      0x6C U006C # СТРОЧНАЯ ЛАТИНСКАЯ БУКВА L
      0x6D U006D # СТРОЧНАЯ ЛАТИНСКАЯ БУКВА M
      0x6E U006E # СТРОЧНАЯ ЛАТИНСКАЯ БУКВА N
      0x6F U006F # СТРОЧНАЯ ЛАТИНСКАЯ БУКВА O
      0x70 U0070 # СТРОЧНАЯ ЛАТИНСКАЯ БУКВА P
      0x71 U0071 # СТРОЧНАЯ ЛАТИНСКАЯ БУКВА Q
      0x72 U0072 # СТРОЧНАЯ ЛАТИНСКАЯ БУКВА R
      0x73 U0073 # СТРОЧНАЯ ЛАТИНСКАЯ БУКВА S
      0x74 U0074 # СТРОЧНАЯ ЛАТИНСКАЯ БУКВА T
      0x75 U0075 # СТРОЧНАЯ ЛАТИНСКАЯ БУКВА U
      0x76 U0076 # СТРОЧНАЯ ЛАТИНСКАЯ БУКВА V
      0x77 U0077 # СТРОЧНАЯ ЛАТИНСКАЯ БУКВА W
      0x78 U0078 # СТРОЧНАЯ ЛАТИНСКАЯ БУКВА X
      0x79 U0079 # СТРОЧНАЯ ЛАТИНСКАЯ БУКВА Y
      0x7A U007A # СТРОЧНАЯ ЛАТИНСКАЯ БУКВА Z
      0x7B U007B # КРОНШТЕЙН ЛЕВЫЙ ИЗОЛИРУЮЩИЙ
      0x7C U007C # ВЕРТИКАЛЬНАЯ ЛИНИЯ
      0x7D U007D # ПРАВЫЙ КРОНШТЕЙН
      0x7E U007E # ТИЛЬДА
      0x7F U00AC # НЕ ПОДПИСАТЬ
      0x80 U0402 # КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА DJE
      0x81 U0403 # КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА GJE
      0x82 U00B8 # CEDILLA
      0x83 U0453 # СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА GJE
      0x84 U201E # ДВОЙНОЙ ЦИТАТНЫЙ ЗНАК НИЗКОГО-9
      0x85 U2026 # ГОРИЗОНТАЛЬНЫЙ ЭЛЛИПСИС
      0x86 U2020 # КИНЖАЛ
      0x87 U00A7 # ЗНАК РАЗДЕЛА
      0x88 U20AC # ЗНАК ЕВРО
      0x89 U00A8 # ДИАРЕЗИС
      0x8A U0409 # КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА LJE
      0x8B U2039 # ОДИН ЛЕВЫЙ УГОЛ ЦИТАТЫ
      0x8C U040A # КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА NJE
      0x8D U040C # КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА KJE
      0x8E U040B # КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА TSHE
      0x8F U040F # КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА ДЖЕ
      0x90 U0452 # СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА DJE
      0x91 U2018 # ОДИН ЦИТАТНЫЙ МАРК ЛЕВЫЙ
      0x92 U2019 # ОДИНОЧНЫЙ ЦИТАТНЫЙ ЗНАК ПРАВЫЙ
      0x93 U201C # ЛЕВЫЙ ДВОЙНОЙ ЦИТАТНЫЙ МАРК
      0x94 U201D # ПРАВЫЙ ДВОЙНОЙ ЦИТАТНЫЙ МАРК
      0x95 U2022 # ПУЛЯ
      0x96 U2013 # EN DASH
      0x97 U2014 # EM DASH
      0x98 U00A3 # ЗНАК ФУНТА
      0x99 U00B7 # СРЕДНЯЯ ТОЧКА
      0x9A U0459 # СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА LJE
      0x9B U203A # ОДИН УКАЗАТЕЛЬ ПРАВЫЙ УГОЛ ЦИТАТЫ
      0x9C U045A # СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА NJE
      0x9D U045C # СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА KJE
      0x9E U045B # СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА TSHE
      0x9F U045F # СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА ДЖЕ
      0xA0 U00A0 # ПРОБЕЛ БЕЗ ПЕРЕРЫВА
      0xA1 U0475 # СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА ИЖИЦА
      0xA2 U0463 # СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА YAT '
      0xA3 U0451 # СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА IO
      0xA4 U0454 # СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА УКРАИНСКИЙ IE
      0xA5 U0455 # СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА DZE
      0xA6 U0456 # СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА БЕЛОРУССКО-УКРАИНСКОЕ I
      0xA7 U0457 # СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА YI
      0xA8 U0458 # СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА JE
      0xA9 U00AE # ЗАРЕГИСТРИРОВАННЫЙ ЗНАК
      0xAA U2122 # ЗНАК ТОВАРНОЙ МАРКИ
      0xAB U00AB # ДВОЙНОЙ УГЛОВОЙ ЦИТАТНЫЙ МАРК, УКАЗАННЫЙ ВЛЕВО
      0xAC U0473 # СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА FITA
      0xAD U0491 # СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА GHE С ПОВОРОТОМ
      0xAE U045E # СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА КОРОТКАЯ U
      0xAF U00B4 # ОСТРЫЙ АКЦЕНТ
      0xB0 U00B0 # ЗНАК СТЕПЕНИ
      0xB1 U0474 # КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА ИЖИЦА
      0xB2 U0462 ​​# КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА YAT '
      0xB3 U0401 # КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА IO
      0xB4 U0404 # КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА УКРАИНСКИЙ IE
      0xB5 U0405 # КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА DZE
      0xB6 U0406 # КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА БЕЛОРУССКО-УКРАИНСКАЯ I
      0xB7 U0407 # КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА YI
      0xB8 U0408 # КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА JE
      0xB9 U2116 # ЗНАК ЧИСЛА
      0xBA U00A2 # ЦЕНТРАЛЬНЫЙ ЗНАК
      0xBB U00BB # ДВОЙНОЙ УГЛОВОЙ ЦИТАТНЫЙ МАРК, УКАЗАННЫЙ ВПРАВО
      0xBC U0472 # КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА FITA
      0xBD U0490 # КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА GHE С ПОВОРОТОМ
      0xBE U040E # КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА КОРОТКАЯ U
      0xBF U00A9 # ЗНАК АВТОРСКОГО ПРАВА
      0xC0 U044E # СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА YU
      0xC1 U0430 # СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА A
      0xC2 U0431 # СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА BE
      0xC3 U0446 # СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА TSE
      0xC4 U0434 # СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА DE
      0xC5 U0435 # КИРИЛИЧЕСКАЯ СТРОЧНАЯ БУКВА IE
      0xC6 U0444 # СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА EF
      0xC7 U0433 # СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА GHE
      0xC8 U0445 # СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА HA
      0xC9 U0438 # СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА I
      0xCA U0439 # КИРИЛИЧЕСКАЯ СТРОЧНАЯ БУКВА КОРОТКАЯ I
      0xCB U043A # СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА KA
      0xCC U043B # СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА EL
      0xCD U043C # СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА EM
      0xCE U043D # СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА EN
      0xCF U043E # СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА O
      0xD0 U043F # СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА PE
      0xD1 U044F # СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА YA
      0xD2 U0440 # СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА ER
      0xD3 U0441 # СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА ES
      0xD4 U0442 # СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА TE
      0xD5 U0443 # СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА U
      0xD6 U0436 # СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА ZHE
      0xD7 U0432 # СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА VE
      0xD8 U044C # КИРИЛИЧЕСКАЯ СТРОЧНАЯ БУКВА МЯГКИЙ ЗНАК
      0xD9 U044B # СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА YERU
      0xDA U0437 # СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА ZE
      0xDB U0448 # СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА SHA
      0xDC U044D # СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА E
      0xDD U0449 # СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА ЩА
      0xDE U0447 # СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА CHE
      0xDF U044A # КИРИЛИЧЕСКАЯ СТРОЧНАЯ БУКВА ЖЕСТКИЙ ЗНАК
      0xE0 U042E # КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА YU
      0xE1 U0410 # КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА A
      0xE2 U0411 # КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА BE
      0xE3 U0426 # КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА TSE
      0xE4 U0414 # КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА DE
      0xE5 U0415 # КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА IE
      0xE6 U0424 # КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА EF
      0xE7 U0413 # КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА GHE
      0xE8 U0425 # КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА HA
      0xE9 U0418 # КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА I
      0xEA U0419 # КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА КОРОТКАЯ I
      0xEB U041A # КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА KA
      0xEC U041B # КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА EL
      0xED U041C # КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА EM
      0xEE U041D # КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА EN
      0xEF U041E # КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА O
      0xF0 U041F # КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА PE
      0xF1 U042F # КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА YA
      0xF2 U0420 # КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА ER
      0xF3 U0421 # КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА ES
      0xF4 U0422 # КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА TE
      0xF5 U0423 # КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА U
      0xF6 U0416 # КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА ZHE
      0xF7 U0412 ​​# КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА VE
      0xF8 U042C # КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА МЯГКИЙ ЗНАК
      0xF9 U042B # КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА ЙЕРУ
      0xFA U0417 # КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА ZE
      0xFB U0428 # КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА SHA
      0xFC U042D # КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА E
      0xFD U0429 # КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА ЩА
      0xFE U0427 # КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА CHE
      0xFF U042A # КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА ЖЕСТКИЙ ЗНАК
    
    Соображения безопасности
    
      Эта памятка не поднимает известных проблем безопасности.Благодарности
    
      Автор благодарит Маркуса Куна (Computer Science
    Лаборатория Кембриджского университета, Великобритания) за помощь в создании
    Таблица кодировки KOI8-C.
    
    использованная литература
    
      [1] Чернов А., «Регистрация набора символов кириллицы», RFC.
               1489 г., июль 1993 г.
    
      [2] Набор украинских символов KOI8-U, RFC 2319. 1998.
    
    Адрес автора
    
       Серж Виницки
       4 Аризона Тер. # 2
       Арлингтон, Массачусетс 02474
       Соединенные Штаты Америки
     

    Как я могу отобразить русские кириллические символы на рисунке в MATLAB 7.7 (R2008b)? — Ответы MATLAB

    Вам нужно изменить настройку локали. Ваш языковой стандарт — финский, и этот параметр поддерживает кодировку windows-1252 в Windows. Он не поддерживает русские символы, поэтому русские символы не обрабатываются должным образом.

    MATLAB не поддерживает Unicode. Это означает, что количество поддерживаемых символов ограничено. Поддерживаемые символы определяются на основе текущей настройки локали во время выполнения. Вы выбрали windows-1252. Если вы хотите правильно отображать русские символы, необходимо указать локаль, поддерживающую windows-1251.Существует несколько локалей, поддерживающих windows-1251, и русский язык является одним из них.

    В предыдущих версиях MATLAB использовал системную локаль для обработки преобразования кода символа. MATLAB 7.7 (R2008b) использует локаль пользователя.

    Языковой стандарт пользователя и языковой стандарт системы должны иметь одно и то же значение. Если эти значения не совпадают, вы можете увидеть искаженный текст или неправильные символы.

    В Windows вы управляете следующими настройками локали:

    • локаль пользователя

    • локаль системы

    В приведенных ниже инструкциях описывается, как установить локаль на платформах Windows:

    Настройка локали пользователя:

    Windows 7

    1.Выберите Пуск -> Панель управления -> Язык и региональные стандарты

    2. Откройте вкладку Форматы

    3. Выберите элемент из раскрывающегося списка

    Windows Vista

    1. Выберите Пуск -> Панель управления -> Язык и региональные стандарты. Языковые параметры

    2. Откройте вкладку «Форматы»

    3. Выберите элемент из раскрывающегося списка

    Windows XP

    1. Выберите Пуск -> Панель управления -> Язык и региональные стандарты

    2. Откройте вкладку Региональные параметры.

    3.Выберите элемент из раскрывающегося списка

    Windows 2000

    1. Выберите Пуск -> Панель управления -> Региональные параметры

    2. Откройте вкладку Общие

    3. Выберите элемент из раскрывающегося списка

    Система Настройка языкового стандарта

    При изменении языкового стандарта необходимо перезагрузить систему; в противном случае вы можете увидеть неожиданное поведение при настройке локали.

    Windows 7

    1. Выберите Пуск -> Панель управления -> Язык и региональные стандарты

    2.Откройте вкладку «Администрирование»

    3. В разделе «Язык для программ, не поддерживающих Юникод» нажмите кнопку «Изменить язык системы …»

    4. Выберите элемент из раскрывающегося списка

    5. Перезагрузите систему

    Windows Vista

    1. Выберите Пуск -> Панель управления -> Язык и региональные стандарты

    2. Откройте вкладку «Администрирование»

    3. Нажмите кнопку «Изменить язык системы …»

    4. Выберите элемент из раскрывающегося списка

    5. Перезагрузите система

    Windows XP

    1.Выберите Пуск -> Панель управления -> Язык и региональные стандарты

    2. Откройте вкладку «Дополнительно»

    3. Выберите элемент из раскрывающегося списка

    4. Перезагрузите систему

    Windows 2000

    1. Выберите Пуск — > Панель управления -> Региональные параметры

    2. Откройте вкладку Общие

    3. Нажмите кнопку Установить по умолчанию …

    4. Выберите элемент из раскрывающегося списка

    5. Перезагрузите систему

    — —————————

    Другой обходной путь, особенно если у вас нет прав администратора для изменения настроек, заключается в следующем.

    Добавить комментарий

    Ваш адрес email не будет опубликован. Обязательные поля помечены *