Таблиця кодів символів windows 1251: ASCII Windows (Win-1251)

Содержание

Таблицы кодировок ASCII, CP1251 (windows1251), ISO-8859-5 — Микроконтроллеры для всех

Таблица ASCII

Таблица ASCII (American standard code for information interchange) является мировым стандартом для кодирования букв английского алфавита, популярных спец символов (! $ # % & и т.д.) и некоторых непечатных символов (например, возврат каретки 0x0D и перенос строки 0х0А).

Таблица создавалась те времена, когда возникла необходимость связать символы и числа. А такое соответствие необходимо было для того что бы с помощью чисел можно было передать текстовое сообщение между разными устройствами с цифровой связью.

Таблица CP1251 (windows-1251)

Эта кодировочная таблица может называться или CP1251 или Windows-1251 Это стандарт кодирования кириллических символов в операционных системах windows с русскоязычным интерфейсом.

Первая часть этой таблицы (до байта 0x7F) повторяет таблицу ASCII, а вторая часть (от 0x80 до 0xFF) кодирует кириллические символы в алфавитном порядке.

CP1251 (windows-1251)

Таблица IS0-8859-5

Эта кодировка применяется в дисплеях Nextion для кодирования кириллических символов.

Стоит обратить внимание, что в данной таблице кириллические символы расположены в алфавитном порядке и сдвинуты ровно на 16 байт по сравнению с кодировочной таблицей windows-1251.

Кодировка UTF-8
(Unicode Transformation Format)

Очень распространенный формат кодирования символов, позволяющий кодировать символы переменным количеством байт.

Например, если для кодирования номера символа требуется 21 бит, то используется 4 байта для кодировки. Если для кодирования достаточно 11 бит, то используют 2 байта. А если номер символа может быть закодирован 7 битами, то используется один байт.

Кодировка UTF-8

Все ASCII символы в кодировке UTF8 закодированы без изменений, то есть 1 байтом, как в стандартной таблице ASCII.

А вот остальные символы закодированы количеством байт от 2 до 4.

Кириллические символы закодированы двумя байтами.

Кодування символів » Народна Освіта

1.    Що таке кодування повідомлень? З якою метою кодують повідомлення?

2.    Наведіть приклади кодування повідомлень.

3.    Що таке декодування повідомлень?

КОДУВАННЯ СИМВОЛІВ ТЕКСТУ

Для опрацювання текстових повідомлень з використанням комп’ютера символи повідомлення кодують числами.

Телетайп (лат. tele — віддалений, англ. type — друкування) — електромеханічна друкуюча машина, яку використовують для передавання текстових повідомлень дротами.

Для кодування тексту використовують таблиці кодів символів, у яких для кожного символа, що може бути використаний у текстовому повідомленні, ставиться у відповідність деяке число. У 1963 р. у США було розроблено набір таких кодів символів для передавання повідомлень телетайпом. Пізніше він став стандартом для використання в комп’ютерній техніці й отримав назву таблиці кодів символів ASCII (англ. American Standard Code for Information Interchange — американський стандартний код для обміну інформацією).

У таблиці ASCII літерам англійського алфавіту, цифрам, розділовим знакам, символам редагування та форматування тексту ставляться у відповідність числа від 0 до 127 (табл. 1.1).

Таблиця 1.1

Групи кодів символів таблиці ASCII





Діапазон

кодів

Група символів

Приклад

коду

Відповідний символ

Від 0 до 31, 127

Спеціальні

символи

10

Символ, що відповідає перенесенню курсора на новий рядок

13

Символ, що відповідає поверненню курсора на початок рядка

27

Символ, що відповідає натисканню клавіші Ебс

Продовження таблиці 1.1











Діапазон

кодів

Група символів

Приклад

коду

Відповідний символ

Від 32 до 64,

від 91 до 96, від 123 до 126

Розділові знаки та цифри

32

пропуск

48

цифра 0

123

{

Від 65 до 90

Великі літери англійського алфавіту

65

А

66

В

90

Z

Від 97 до 122

Малі літери англ і й-ського алфавіту

97

а

98

ь

122

2

 

Текстові символи, що кодуються в таблиці А8СІІ числами від 32 до 127, наведено у додатку 1, який можна переглянути на сайті Інформатика для всіх (allinf.at.ua) у розділі Матеріали до підручників. 8 клас. Підручник.

Кирилиця — алфавіт для групи слов’янських мов, до яких належать українська, російська, білоруська, болгарська та інші мови.

Англійська мова та деякі інші західноєвропейські мови мають алфавіт, який називають латиницею.

 

Таблиця кодів символів А8СІІ містить коди літер лише англійського алфавіту. Для кодування літер інших алфавітів було розроблено інакші таблиці кодів символів. Наприклад, таблиці КОІ8-Н (КОІ — код обміну інформацією) і Windows-1251 містять без змін усі коди таблиці А8СІІ, а також — коди літер кирилиці. Цим літерам ставляться у відповідність натуральні числа від 128 до 255.

Таблиця кодів символів Windows-1251 є стандартом для кодування літер кирилиці в операційній системі Windows. У ній, наприклад, літері «а» українського алфавіту ставиться у відповідність число 224, літері «і» -число 179, літері «ґ»- число 180 та ін. Текстові символи, що кодуються у таблиці Windows-1251 числами від 128 до 255, наведені в додатку 2. Додаток можна знайти на сайті Інформатика для всіх (allinf.at.ua) у розділі Матеріали до підручників. 8 клас. Підручник.

Цілих чисел від 0 до 255 вистачає, щоб закодувати символи двох алфавітів — латиниці й кирилиці та деякі інші символи. Але для кодування символів інших алфавітів (грецького чи арабського алфавітів, ієрогліфів тощо) потрібно значно більше значень кодів. Для них розроблено таблицю кодів символів Юнікод (англ. Ппісойв — уніфіковане кодування).

Таблиця Юнікод складається з 17 наборів по 65 536 значень кодів у кожному та дає можливість закодувати 1 114 112 різних символів, тобто майже всі символи писемності всіх світових мов. Як і в інших таблицях кодів, у Юнікоді незмінними залишаються перші 128 значень кодів, що відповідають таблиці А8СІІ. Окремий розділ у таблиці Юнікод містить коди літер кирилиці. Наприклад, літері «а» українського алфавіту ставиться у відповідність код 53 424, літері «і» — код 53 654, літері «ґ» -код 53 905 та ін.

Наразі у новітніх операційних системах використовується таблиця кодів Юнікод.

Порівняння структур різних таблиць кодів символів наведено в таблиці 1.2.

Таблиця 1.2

Порівняння структури таблиць кодів символів






Таблиця кодів символів

Кількість кодів символів

Символи з кодами від 0 до 127

Символи з кодами від 128 до 255

Символи з кодами, більшими за 255

ASCII

128

Літери англійського алфавіту, цифри, розділові знаки, спеціальні символи

Немає

Немає

KOI8-U

256

Як у таблиці ASCII

Символи кирилиці та деякі інші символи

Немає

Windows-1251

256

Як у таблиці ASCII

Символи кирилиці та деякі інші символи

Немає

Юнікод

1 114 112

Як у таблиці ASCII

Символи алфавітів різних мов світу та деякі інші символи

У таблиці Юнікод містяться коди не лише літер та цифр, а й символів, які позначають торговельні марки, грошові одиниці, символи транскрипцій, ідеограми тощо. Таблиця символів, після чого відкриється вікно програми (мал. 1.5).

Використовуючи цю програму, можна побачити різні групи символів, що призначені для вставлення в документи. Для цього потрібно:

1.    Встановити позначку прапорця Додаткові параметри перегляду у вікні програми.

2.    У полі Набір символів у нижній частині вікна вибрати Юнікод.

3.    У полі Групування вибрати Діапазони Юнікоду.

4.    У списку вікна Групування, що відкриється, вибрати діапазон кодів, символи з якого потрібно вставити в документ (мал. 1.6).

Якщо в таблиці вибрати деякий символ, то в рядку статусу вікна програми ліворуч буде відображено код цього символу в таблиці кодів символів Юнікод та його опис англійською мовою, а праворуч — сполучення клавіш, яке потрібно натиснути для вставлення цього символу в документ. Наприклад, на малюнку 1.6 вибрано символ © — знак авторського права, у рядку статусу вікна наведено його опис -U+00A9 Copyright Sign та сполучення клавіш Alt+0169 для вставлення цього символу в документ. Копіювати.

3.    Вибрати місце в документі.

4.    Вставити скопійований символ з Буферу обміну.

Після вибору кнопки Вибрати символ виводиться в поле Для копіювання. Якщо вибрати ще один символ та кнопку Вибрати, то в полі відобразяться обидва символи. Таким способом можна підготувати для копіювання кілька символів. Усі вони разом будуть скопійовані та вставлені в документ.

Для опрацювання текстових повідомлень з використанням комп’ютера символи повідомлення кодують числами. Для цього можуть використовуватися різні таблиці кодів символів, наприклад А8СІІ, КОІ8-и, Windows-1251, Юнікод.

Таблиця кодів символів А8СІІ містить коди 128 символів, КОІ8-и, Windows-1251 — 256 символів, Юнікод — 1 114 112 символів. У всіх таблицях кодів символів незмінними залишаються перші 128 кодів, що відповідають таблиці А8СІІ.

У кожного веб-браузера є інструменти для вибору таблиці кодів символів, з використанням якої будуть відображатися символи на веб-сторінці.

Службова програма Таблиця символів операційної системи Windows призначена для перегляду, пошуку та вставлення в документи символів з різних шрифтів, поданих з використанням різних таблиць кодів символів.

 

Дайте відповіді на запитання

1*. Як кодують символи текстових повідомлень під час опрацювання їх з використанням комп’ютера?

2°. Які таблиці кодів символів ви знаєте?

3*. Які символи можуть бути закодовані з використанням таблиць кодів символів ASCII, KOI-8U, Windows-1251, Юнікод?

4*. Що спільного та чим відрізняються таблиці кодів символів ASCII, KOl-8U, Windows-1251, Юнікод?

5°. У яких ситуаціях потрібно змінювати таблицю кодів символів під час перегляду веб-сторінок?

6*. Як вибрати таблицю кодів символів під час перегляду веб-сторінок у браузері Google Chrome?

7°. Яке призначення програми Таблиця символів?

8°. Як запустити на виконання програму Таблиця символів?

9*. Як уставити до документа символи з використанням програми Таблиця символів?

Виконайте завдання

1*. Повідомлення закодовано з використанням таблиці кодів символів ASCII. Декодуйте його (скористайтеся додатком 11): а) 83 117 110;    б) 104 111 109 101.

2*. Закодуйте повідомлення з використанням таблиці кодів символів Windows-1251 (скористайтеся додатком 21): а) Підручник «Інформатика»;    б) ваше прізвище та ім’я.

3*. Окремі слова в повідомленні закодовані з використанням таблиці кодів символів Юнікод. Знайдіть символи за їх кодами в таблиці та декодуйте повідомлення. Запишіть отриманий текст. Для пошуку символів можна використовувати сайт Таблица символов Юникода (unicode-table.com).

Сьогодні з ранку 9925. Синоптики обіцяють 9928. Збираючись у 127979, не забудьте взяти з собою 9730.

4*. Перегляньте веб-сторінку ІТ в Україні: історії та особистості (ua. uacomputing.com) з використанням таблиць кодів символів Кирилиця (Windows-1251) та Кирилиця (КОІ8-П). Установіть, за вибору якої таблиці кодів символів текст веб-сторінки придатний для розуміння.

5*. Уставте до текстового документа всі символи, що є позначеннями грошових одиниць, використовуючи програму Таблиця символів. Збережіть створений документ у вашій папці у файлі з іменем завдання 1.2.5 та розширенням імені, що відповідає версії текстового процесора.

Додатки можна переглянути на сайті Інформатика для всіх (allinf.at.ua) у розділі Матеріали до підручників. 8 клас. Підручник.

Уставте до текстового документа буквоподібні символи, використовуючи програму Таблиця символів. Збережіть створений документ у вашій папці у файлі з іменем завдання 1.2.6 та розширенням імені, що відповідає версії текстового процесора.

 

Визначте, які символи будуть уставлені до текстового документа шляхом введення їх коду за натиснутої клавіші ЛИ, для кодів 1234, 3754, 8986, 9708, 9415, 10001, 10239.

 

Це матеріал з підручника Інформатика 8 клас Ривкінд

 

Кодування символів — урок. Інформатика, 8 клас.

Сучасні комп’ютери допомагають нам опрацьовувати інформацію, що подана у різному вигляді, у том числі у текстовому. Для того, щоб опрацювати текстові дані за допомогою техніки, їх кодують числами, використовуючи спеціальні таблиці кодів символів. У таких таблицях кожному символу надається у відповідність певне число.

У світі стандартом для комп’ютерів та пристроїв техніки прийнята таблиця кодів символів ASCII (від англ. American Standard Code for Information Interchange — Американський стандарт кодів для обміну інформацією). Вона була розроблена у \(1963\) р. у США. За допомогою таблиці ASCII числами від \(0\) до \(127\) можна закодувати літери латинського алфавіту, арабські цифри та розділові знаки.

 

Групи кодів символів таблиці ASCII

Діапазон кодів

Група символів

Приклад коду

Відповідний символ

Від \(0\) до \(31\), \(127\)

Спеціальні символи

\(8\)

Символ, що відповідає натисканню клавіши Backspace (слугує для видалення попереднього символа)

Від \(32\) до \(64\), від \(91\) до \(96\), від \(123\)—\(126\)

Розділові знаки та цифри

\(55\)

Цифра \(7\)

Від \(65\) до \(90\)

Великі літери латинського алфавіту

\(68\)

Літера D

Від \(97\) до \(122\)

Маленькі літери латинського алфавіту

\(110\)

Літера n

 

Пізніше таблицю ASCII розширили до \(256\) символів, в якій у діапазон від \(128\) до \(255\) можна було додати символи іншої мови. Окрім цього, для кодування літер з інших алфавітів було розроблено схожі таблиці кодування. Наприклад, КОІ8-U, Windows-1251 та Юнікод.

Стандартом для кодування символів кирилиці в операційній системі Windows є таблиця Windows-1251. У новітніх операційних системах сьогодні використовують таблицю кодування Юнікод, що включає в собі можливість закодувати \(1 114 112\) символів, що містить символи майже всіх мов у світі. Але у всіх цих таблицях кодування спільним є те, що перші \(128\) кодів відповідають таблиці ASCII.

 

Порівняння таблиць кодів символів

Таблиця кодів символів

Кількість кодів

Діапазон кодів від \(0\) до \(127\)

Діапазон кодів від \(128\) до \(255\)

Діапазон кодів більше ніж \(255\)

ASCII

\(128\)

Літери латинського алфавіту, арабські цифри та розділові знакиНемаєНемає
Windows-1251

\(256\)

Коди таблиці ASCIIСимволи кирилиціНемає
Юнікод

\(1 114 112\)

Коди таблиці ASCIIСимволи алфавітів мов світуСимволи алфавітів мов світі

Джерела:

Інформатика : підруч. для 8-го кл. загальноосвіт. навч. закл. / Й.Я.Ривкінд [та ін.]. — Київ: Генеза, 2016. — 288с. : іл.

Universal online Cyrillic decoder — recover your texts

Universal online Cyrillic decoder — recover your texts

Version: 20210806
By the same author: Virtour.fr — visites virtuelles

Output

The resulting text will be displayed here…

Guestbook

Please link to this site!
<a href=»https://2cyr.com/decode/»>Universal Cyrillic decoder</a>

Custom Work
For a small fee I can help you quickly recode/recover large pieces of data — texts, databases, websites… or write custom functions you can use (invoice available).
FAQ and contact information.

About the program

Welcome!

You may find this site useful, if you have recieved some texts that you believe are written in the Cyrillic alphabet, but instead are displayed in some strange combination of bizarre characters. This program will try to guess the encoding, and if it does not, it will show samples, examples of all encoding-combinations, so as you will be able to select the good one.

How to

  • Paste the text to decode in the big text area. The first few words will be analyzed so they should be (scrambled) in supposed Cyrillic.
  • The program will try to decode the text and will print the result below.
  • If the translation is successful, you will see the text in Cyrillic characters and will be able to copy it and save it if it’s important.
  • If the translation isn’t successful (still the text is not in Cyrillic but in the same or other unintelligible characters), you can choose from the newly created select-listbox the variant that is in Cyrillic (if there are more than one, select the longest). By pressing the button OK you will have the correct text converted.
  • If the text is not totally converted, try all other variants in Cyrillic from the select-listbox.

Limits

  • If your text contains question marks «???? ?? ??????», the problem is with the sender and no recovery will be possible. Ask them to resend the text, eventually as an ordinary text file or in LibreOffice/OpenOffice/MSOffice format.
  • There is no claim that every text is recoverable, even if you are certain that the text is in Cyrillic.
  • The analyzed and converted text is limited to 100 KiB.
  • A 100% precision is not always achieved — in a conversion from a codepage to another code page, some characters may be lost, like the Bulgarian quotes or rarely some single letters. Some of this depends on your Windows Clipboard character handling.
  • The program will try a maximum of 7245 variants in two or three levels: if there had been a multiple encoding like koi8(utf(cp1251(utf))), it will not be detected or tested. Usually the possible and displayed correct variants are between 32 and 255.
  • If a part of the text is encoded with one code page, and another part — with another code page, the program could recognize only one of the parts at a time.

Terms of use

Please notice that this freeware program is created with the hope that it would be useful, but has no warranty, not even an implied warranty for fitness for any particular use. Please use it at your own risk.

If you have very long texts to translate, please make sure you have a backup copy.

What’s new

  • March 2021 : After a server upgrade, the program stopped working and some parts of it had to be rewritten.
  • May 2020 : Added Тоҷикӣ/Tajik translation, thanks to Анвар/Anvar.
  • October 2017 : Added «Select all / Copy» button.
  • July 2016 : SSL Certificate installed, you can now access the Decoder on a secure connection.
  • October 2013 : I am trying different optimizations for the system which should make the decoder run faster and handle more text. If you notice any problem, please notify me ASAP.
  • March 2013 : My hosting provider sent me a warning that the Decoder is using too much server CPU power and its processes were killed more than 100 times. I am making some changes so that the program will use less CPU, especially when reposting a previously sampled text, however, the decoded form may load somewhat slower. Please contact me if you have some difficulties using the program.
  • 2012-08-09 : Added French translation, thanks to Arnaud D.
  • 2011-03-06 : Added Belorussian translation, thanks to Зыль and Aliaksandr Hliakau.
  • 31.07.10 : Added Serbian translation, thanks to Miodrag Danilovic (Boston — Beograd).
  • 07.05.09 : Raised limit of MAX text size to 50 kiB.
  • may 2009 : Added Ukrainian interface thanks to Barmalini.
  • 2008-2009 : A number of small fixes and tweaks of the detection algorithm. Changed interface to default to automatic decoding.
  • 12.08.07 : Fixed Russian language translation, thanks to Petr Vasilyev. This page will be significantly restructured in the near future.
  • 10.11.06 : Three new postfilters added: «base64», «unix-to-unix» и «bin-to-hex», theoretically the tested combinations are 4725. Changes to the frequency analysis function (testing).
  • 11.10.06 : The main site is on a new hardware server, should run faster.
  • 11.09.06 : The program now uses PHP5 and should run times faster.
  • 19.08.06 : Because of a broken DNS entry, this site was inaccessible from 06:00 on 15 august up to 15:00 on 18 august. That was the reason for me to set two «mirror» sites (5ko.free.fr/decode and www.accent.bg/decode) with the same program. If the original has a problem, you can find the copies in Google and recover your texts.
  • 17.06.06 : Added two more antique Cyrillic encodings, MIK и KOI-7, but you better not need them.
  • 03.03.06 : Added Slovak translation, thanks to Martin from KPR Slovakia.
  • 15.02.06 : More encodings added and tested.
  • 20.10.05 : Small improvement to the frequency-analysis function: for texts, written in all-capital letters.
  • 14.10.05 : Two more gmail-Cyrillic encodings were added. Theoretically the tested combinations are 2112.
  • 15.06.05 : Russian language interface was added. Big thanks to chAlx!
  • 16.02.05 : One more postfilter decoding is added, for strings like this: «%u043A%u0438%u0440%u0438%u043B%u0438%u0446%u0430».
  • 05.02.05 : More encodings tests added, the number of tested encodings is doubled, but thus the program may work slightly slower.
  • 03.02.05 : The frequency analysis function that detects the original encoding works much better now. Currently the program recognises most of the encodings if the first few words are not too weird. It although still needs some improvement.
  • 15.01.05 : The input text limit is raised from 10 to 20 kB.
  • 01.12.04 : First public release.

Back to the Latin to Cyrillic convertor.

Таблиця кодів символів у Windows

Таблиця кодів символів у сучасних комп ‘ютерах може бути використана будь-яким юзером. Що це таке? І де знайти подібний елемент? Як їм користуватися і для яких цілей? Далі постараємося дати відповіді на всі перераховані питання. Зазвичай таблиці символів дозволяють друкувати унікальні знаки в текстових документах. Головне — знати, якими вони бувають, а також де шукати відповідну інформацію. Все набагато простіше, ніж здається.

Визначення

Що таке таблиця кодів символів? Це, як неважко здогадатися, база даних. У ній користувачі можуть побачити поєднання числових значень, під час обробки яких у вказане місце тексту вставляється символ. Наприклад, знак порожній або порожній. На клавіатурі таких символів немає і бути не може.

Таблиця символів допомагає користувачам вставляти унікальні знаки в текстові документи. Тут ви можете побачити кодування елемента та спосіб його інтерпретації.

Якими бувають

Кодування символів — тип поєднання літер, цифр і знаків, які після обробки операційною системою перетворюються на знак. Вони бувають різними.

Сьогодні можна зіткнутися з такими кодуваннями:

  1. ASCII — спосіб друку спеціальних знаків, унікальні коди яких представлені цифрами. Це найпоширеніший тип кодування. Він був розроблений в 1963 році в США. Кодування є семибітним.
  2. Windows-1251 — стандартне кодування для російськомовного «» Віндовс «». Вона не дуже обширна і майже не користується попитом у юзерів.
  3. Unicode — 16-бітове кодування для сучасних операційних систем. Вона служить для представлення символів і літер будь-якою мовою. Використовується сучасними користувачами нарівні з ASCII.

Тепер зрозуміло, якими бувають кодування. Загостримо увагу на першому і останньому варіанті. Вони користуються найбільшим попитом у сучасних користувачів ПК.

Де шукати у Windows

Типові таблиці кодів символів вмонтовані в операційну систему «Віндовс». За їх допомогою юзер зможе друкувати літери та спеціальні знаки в будь-якому текстовому редакторі або документі.

Для того, щоб знайти таблицю символів у «Віндовс», потрібно:

  1. Відкрити пункт меню «Пуск».
  2. Розгорнути розділ «Всі програми» «.
  3. Вибрати теку «Стандартні»
  4. Клікнути за написом «» Службові «».
  5. Заглянути в програму «Таблиця символів».

Справу зроблено. Тепер можна вивчити всі можливі знаки, які тільки можуть сприйматися операційною системою. Якщо двічі клацнути на мініатюрі того чи іншого символу, а потім клацнути на кнопці «Копіювати», відповідний знак буде перенесено до буфера обміну. Ви можете вивантажити дані до текстового документа.

Важливо: у нижній частині вікна праворуч можна побачити поєднання клавіш для швидкого друку вибраного елемента, а ліворуч — «Юнікод» для набору в тексті.

В MS Word

Таблицю кодів символів можна знайти навіть у текстових редакторах. Розгляньмо алгоритм дій у MS Word. Це найбільш популярна і поширена утиліта для роботи з документами в «» Віндовс «».

Відкриття таблиці кодів символів здійснюється так:

  1. Зайти в Word на комп ‘ютері. Можна відкрити порожній документ і текст.
  2. Клацніть у верхній частині цього пункту за пунктом «Вставка». Бажано розгорнути весь список параметрів.
  3. Навести курсор і клацнути ЛКМ за написом «» Спеціальний знак «…».

Ось і все. По центру екрана з ‘явиться таблиця символів. Тут можна переглянути таблицю ASCII, «Юнікода» «і не тільки. Для цього в нижній частині вікна у спадному списку потрібно вибрати після напису «» з «…» відповідне кодування.

Вставлення знака може здійснюватися через подвійний клік за елементом у таблиці або за допомогою активації кнопки «Вставити».

Способи обробки коду

Як ми вже говорили, таблиця кодів символів допомагає вивчити цифро-алфавітний код того чи іншого символу. Як можна перетворити їх?

Як правило, «Юнікод» обробляється наступним чином:

  1. Користувач пише унікальний код відповідного символу. Зазвичай він починається з U +….
  2. Юзер натискає комбінацію клавіш Alt + X у текстовому редакторі.
  3. Операційна система зчитує код, після чого на місці запису з ‘являється спеціальний знак.

Коди обробляються по одному. Це вкрай важливо. ASCII обробляються аналогічним чином.

Деякі символи можна надрукувати за допомогою кнопки Alt. Зазвичай її потрібно затиснути, а потім на цифирній панелі клавіатури набрати відповідний код. У цьому випадку доведеться заздалегідь активувати режим Num Lock.

1.3.2. Кодування текстових даних : Основи інформатики та інформатизації – Автор невідомий : Книги по праву, правоведение

При кодуванні текстових даних кожному символу алфавіту
ставиться у відповідність визначений двоїчний код. Восьми двоїчних розрядів
досить для кодування 256 різних символів. Цього вистачить, щоб виразити різними
комбінаціями восьми бітів усі символи англійського і російського алфавітів, як
рядкові, так і прописні, а також розділові знаки, символи основних арифметичних
дій і деякі загальноприйняті спеціальні символи, наприклад символ @ .

Технічно це виглядає дуже просто, однак завжди існували
досить вагомі організаційні складності. В перші роки розвитку обчислювальної
техніки вони були зв’язані з відсутністю необхідних стандартів, а в даний час
викликані, навпаки, достатком одночасно діючих і суперечливих стандартів. Для
того, щоб увесь світ однаково кодував текстові дані, потрібні єдині таблиці
кодування, а це поки неможливо через протиріччя між символами національних
алфавітів, а також протиріч корпоративного характеру.

Для англійської мови, що захватила де-факто нішу
міжнародного засобу спілкування, протиріччя вже зняті. Інститут стандартизації
США ввів у дію систему кодування ASCII (American Standard Code for Information
Interchange – стандартний код інформаційного обміну США). У системі ASCII
закріплені дві таблиці кодування: базова і розширена. Базова таблиця закріплює
значення кодів від 0 до 127, а розширена відноситься до символів з номерами від
128 до 255.

Перші 32 коди базової таблиці, починаючи з нульового,
віддані виробникам апаратних засобів. У цій області розміщаються так називані
керуючі коди, яким не відповідають ніякі символи мов, і відповідно ці коди не
виводяться ні на екран, ні на пристрої печатки, але ними можна керувати
процесом виводу інших даних. Починаючи з коду 32 по код 127 розміщені коди
символів англійського алфавіту, цифр, розділових знаків, арифметичних дій і
деяких допоміжних символів. Базова таблиця кодування ASCII приведена в таблиці
1.1

Таблиця 1.1. Базова таблиця кодування ASCII



32

33

пробіл

!

48

49

0

1

64

65

@

A

80

81

P

Q

96

97

`

a

112

113

p

q

34

35

36

37

38

39

40

41

42

43

44

45

46

47

«

#

$

%

&

(

)

*

+

,

.

/

50

51

52

53

54

55

56

57

58

59

60

61

62

63

2

3

4

5

6

7

8

9

:

;

=

?

66

67

68

69

70

71

72

73

74

75

76

77

78

79

B

C

D

E

F

G

H

I

J

K

L

M

N

O

82

83

84

85

86

87

88

89

90

91

92

93

94

95

R

S

T

U

V

W

X

Y

Z

[

\

]

ˆ

_

98

99

100

101

102

103

104

105

106

107

108

109

110

111

b

c

d

e

f

g

h

I

j

k

l

m

n

o

114

115

116

117

118

119

120

121

122

123

124

125

126

127

r

s

t

u

v

w

x

y

z

{

|

}

~

 

Аналогічні системи кодування текстових даних були розроблені
й в інших країнах. Так, наприклад, у СРСР у цій області діяла система кодування
КОИ-7 (код обміну інформацією, семизначний). Однак підтримка виробників
устаткування і програм вивела американський код ASCII на рівень міжнародного
стандарту й інші системи кодування, у тому числі і КОИ-7, широкого поширення не
одержали.

Компанія Microsoft увела своє кодування для символів
російського й українського алфавітів, що відоме як кодування Windows – 1251 (табл.
1.2.)

Таблиця 1.2. Кодування Windows 1251


128

129

130

131

132

133

134

135

136

137

138

139

140

141

142

143

Ђ

Ѓ

,

ѓ

Љ

Њ

Ќ

Ћ

Џ

144

145

146

147

148

149

150

151

152

153

154

155

156

157

158

159

ђ

љ

њ

ќ

ћ

џ

160

160

162

163

164

165

166

167

168

169

170

171

172

173

174

175

 

Ў

ў

Ј

Ґ

|

§

Ё

©

є

«

¬

­

®

Ї

176

177

178

179

180

181

182

183

184

185

186

187

188

189

190

191

·

±

І

і

ґ

μ

·

ё

є

»

ј

Ѕ

ѕ

ї

192

193

194

195

196

197

198

199

200

201

202

203

204

205

206

207

А

Б

В

Г

Д

Е

Ж

З

И

Й

К

Л

М

Н

О

П

208

209

210

211

212

213

214

215

216

217

218

219

220

221

222

223

Р

С

Т

У

Ф

Х

Ц

Ч

Ш

Щ

Ъ

Ы

Ь

Э

Ю

Я

224

225

226

227

228

229

230

231

232

233

234

235

236

237

238

239

а

б

в

г

д

е

ж

з

и

й

к

л

м

н

о

п

240

241

242

243

244

245

246

247

248

249

250

251

252

253

254

255

р

с

т

у

ф

х

ц

ч

ш

щ

ъ

ы

ь

э

ю

я

 

Це кодування використовується на більшості локальних
комп’ютерів, що працюють на платформі Windows. Де-факто вона стала стандартною
в українському секторі World Wide Web.

Якщо кодувати символи не восьмирозрядними двоїчними числами,
а числами з великою кількістю розрядів, то і діапазон можливих значень кодів
стане набагато більше. Така система, заснована на 16-розрядному кодуванні
символів, одержала назву універсальної – UNICODE. Шістнадцять розрядів
дозволяють забезпечити унікальні коди для 65536 різних символів – цього поля
досить для розміщення в одній таблиці символів більшості мов планети.

Незважаючи на очевидність такого підходу, простий механічний
перехід на дану систему довгий час стримувався через недостатні ресурси засобів
обчислювальної техніки (у системі UNICODE усі текстові документи автоматично
стають удвічі довшими). В другій половині 1990-х років технічні засоби досягли
необхідного рівня, і сьогодні ми спостерігаємо поступовий переклад документів і
програмних засобів на універсальну систему кодування, хоча це ще більше додає
турбот для індивідуальних користувачів при узгодженні документів, виконаних у
різних системах кодування.

 

Програма автоматичного визначення кодової таблиці текстового файлу

НАЦІОНАЛЬНИЙ ТЕХНІЧНИЙ УНІВЕРСИТЕТ УКРАЇНИ
«КИЇВСЬКИЙ ПОЛІТЕХНІЧНИЙ ІНСТИТУТ»
ім. Ігоря Сікорського
Кафедра системного проектування
РОЗРАХУНКОВО-ГРАФІЧНА РОБОТА
з дисципліни
«Теорія інформації і кодування»
на тему: Програма автоматичного визначення
кодової таблиці текстового файлу
Студента 2го курсу
групи ДА-61
Кравченко Богдана Євгеновича
Керівник доц., к.т.н. Капшук О.О.
Зміст
Короткі відомості
ASCII
Windows-1251
Unicode
Версії Юнікод
UTF-8
UTF-16 і UTF32
Розробка програми
Інтерфейс програми
Існуючі програми для перевірки кодування
Тестування
Висновок
Список літератури
Зміст
Мета роботи
Розробити програму автоматичного визначення
кодової таблиці текстового файлу
Короткі відомості
Безліч символів, за допомогою яких записується текст, називається алфавітом.
Число символів в алфавіті — це його потужність.
Формула визначення кількості інформації: N = 2b, де N – потужність алфавіту (кількість
символів), b — кількість біт (інформаційна вага символу).
В алфавіт потужністю 256 символів можна помістити практично всі необхідні символи.
Такий алфавіт називається достатнім.
Оскільки 256 = 28, то вага 1 символу — 8 біт.
Одиниці виміру 8 біт присвоїли назву 1 байт:
1 байт = 8 біт.
Двійковий код кожного символу в комп’ютерному тексті займає 1 байт пам’яті.
Зміст
ASCII
ASCII (англ. American Standard Code for Information Interchange) — американський
стандартний код для обміну інформацією.
ASCII представляє собою кодування для представлення десяткових цифр, латинської та
національного алфавітів, розділових знаків і керуючих символів. Спочатку розроблена як
7-бітна, з широким розповсюдженням 8-бітного байта ASCII стала сприйматися як
половина 8-бітної.
Зміст
Таблиця ASCII
Зміст
Windows-1251
Windows-1251 (також вживаються назви Win1251, CP1251) — кодування символів, що є
стандартним 8-бітовим кодуванням для всіх локалізованих українських і російських
версій Microsoft Windows. Користується досить великою популярністю. Була створена на
базі кодувань, що використалися в ранніх «саморобних» русифікаторах Windows в
1990—1991 рр. спільно представниками «Параграфа», «Діалогу» і російського відділення
Microsoft. Початковий варіант кодування помітно відрізнявся від сучасного, приведеного
нижче в таблиці (зокрема, там було значне число «білих плям»).
Зміст
Таблиця Windows-1251
Зміст
Має три недоліки:
мала (рядкова) буква «я» має код 0xFF (255 в 10-овій системі). Вона є «винуватицею»
ряду несподіваних проблем в програмах без підтримки чистого 8-го біту.
відсутні символи псевдографіки.
при сортуванні в алфавітному порядку літери не йдуть підряд, оскільки між літерами
ўЎіІєЄЇґҐёЁ і основним блоком літер йдуть спецсимволи.
Зміст
Unicode
Юнікод (англ. Unicode) — стандарт кодування символів, що включає в себе знаки майже
всіх письмових мов світу. В даний час стандарт є домінуючим в Інтернеті. Стандарт
запропонований в 1991 році некомерційною організацією «Консорціум Юнікоду» (англ.
Unicode Consortium, Unicode Inc.). Застосування цього стандарту дозволяє закодувати
дуже велике число символів з різних систем писемності: в документах, закодованих за
стандартом Юнікод, можуть бути сусідами китайські ієрогліфи, математичні символи,
букви грецького алфавіту, латиниці і кирилиці, символи музичної нотної нотації, при
цьому стає непотрібним переключення кодових сторінок.
Зміст
Стандарт складається з двох основних частин: універсального набору символів (англ.
Universal character set, UCS) і сімейства кодувань (англ. Unicode transformation format,
UTF). Універсальний набір символів перераховує допустимі за стандартом Юнікод
символи і привласнює кожному символу код у вигляді невід’ємного цілого числа, що
записується зазвичай в шістнадцятковій формі з префіксом U +, наприклад, U + 040F.
Сімейство кодувань визначає способи перетворення кодів символів для передачі в потоці
або в файлі.Коди в стандарті Юнікод розділені на кілька областей. Область з кодами від
U + 0000 до U + 007F містить символи набору ASCII, і коди цих символів збігаються з їх
кодами в ASCII. Далі розташовані області символів інших систем писемності, знаки
пунктуації та технічні символи. Частина кодів зарезервована для використання в
майбутньому. Під символи кирилиці виділені області знаків з кодами від U + 0400 до U +
052F, від U + 2DE0 до U + 2DFF, від U + A640 до U + A69F (див. Кирилиця в Юникоде).
Зміст
Cпособи представлення
Юнікод має кілька форм представлення (англ. Unicode transformation format, UTF): UTF-8,
UTF-16 (UTF-16BE, UTF-16LE) і UTF-32 (UTF-32BE, UTF-32LE). Була розроблена також форма
подання UTF-7 для передачі по семибітним каналах, але через несумісність з ASCII вона
не набула поширення і не включена в стандарт.
Зміст
Версії Юнікода
UTF-8
UTF-8 — уявлення Юникода, що забезпечує найбільшу компактність і зворотну сумісність з
7-бітної системою ASCII; текст, що складається тільки з символів з номерами менше 128,
при записі в UTF-8 перетворюється в звичайний текст ASCII і може бути відображений
будь-якою програмою, що працює з ASCII; і навпаки, текст, закодований 7-бітної ASCII
може бути відображений програмою, призначеної для роботи з UTF-8. Решта символів
Юнікоду зображуються послідовностями довжиною від 2 до 4 байт, в яких перший байт
завжди має маску 11xxxxxx, а решта — 10xxxxxx. В UTF-8 не використовуються сурогатні
пари.
Зміст
UTF-16 і UTF-32
UTF-16 — кодування, що дозволяє записувати символи Юнікоду в діапазонах U + 0000 … U +
D7FF і U + E000 … U + 10FFFF (загальною кількістю 1 112 064). При цьому кожен символ
записується одним або двома словами (сурогатна пара). Кодування UTF-16 описана в
додатку Q до міжнародного стандарту ISO / IEC 10646, а також їй присвячений документ
IETF RFC 2781 під назвою «UTF-16, an encoding of ISO 10646».
UTF-32 — спосіб представлення Юнікоду, при якому кожен символ займає рівно 4 байта.
Головна перевага UTF-32 перед кодуваннями змінної довжини полягає в тому, що символи
Юнікод в ній безпосередньо індексованих, тому знайти символ за номером його позиції в
файлі можна надзвичайно швидко, і отримання будь-якого символу n-ї позиції при цьому є
операцією, що займає завжди однакове час. Це також робить заміну символів в рядках
UTF-32 дуже простий. Навпаки, кодування зі змінною довжиною вимагають послідовного
доступу до символу n-ї позиції, що може бути дуже витратною за часом операцією.
Головний недолік UTF-32 — це неефективне використання простору, так як для зберігання
будь-якого символу використовується чотири байти. Символи, що лежать за межами
нульовий (базової) площині кодового простору, рідко використовуються в більшості текстів.
Тому подвоєння, в порівнянні з UTF-16, займаного рядками в UTF-32 простору, часто не
виправдано.
Зміст
Розробка програми
Рис. Алгоритм
Зміст
Інтерфейс програми
Зміст
Існуючі програми для перевірки
кодування
NotePad++
http://foxtools.ru/Text
Зміст
Тестування програми
File name
euc.txt
iso2022jp.txt
shiftjis.txt
utf8.txt
utf8n.txt
utf16le.txt
Створена програма
EUC-JP
ISO-2022-JP
Shift-JIS
UTF-8
UTF-8
UTF-16LE
Зміст
Онлайн тест
ISO-2022-JP
Shift-JIS
EUC-JP
UTF-8
UTF-8
UTF-16LE
Висновок
При виконанні розрахунково-графічної роботи було розглянуто кодування файлів. Було
описано основні кодування текстових файлів.
У процесі виконання було розроблено програму, що реалізує автоматичне визначення
кодової таблиці текстового файлу. Було виконано ряд тестів, які підтвердили правильність
роботи програми(правильність визначення кодування текстового файлу)
Зміст
Список літератури
Вернер.М. Основы кодирования. Учебник для ВУЗов. Москва: Техносфера. 2004. – 288с.
Dave Tomas, Endi Hat — The Pragmatic Programmer, 1999
https://ru.wikibooks.org/wiki/Кодирование_текста
http://school497.ru/download/u/02/les10/les.html
https://uk.wikipedia.org/wiki/Windows-1251
https://uk.wikipedia.org/wiki/КОІ-8
https://uk.wikipedia.org/wiki/CP866
https://ru.wikipedia.org/wiki/MacCyrillic
https://uk.wikipedia.org/wiki/UTF-8
https://uk.wikipedia.org/wiki/UTF-16
Зміст
Дякую за увагу!

Таблица сравнения символов в Windows-1252, ISO-8859-1, ISO-8859-15

Кодировки символов ISO-8859-1, ISO-8859-15 и Windows-1252 очень похожи, и их легко перепутать. Это приводит к нескольким типичным проблемам.
Следующая диаграмма показывает различия между этими кодировками и полезна для отладки связанных проблем.

ISO-8859-1 по сравнению с Windows-1252

ISO-8859-1 (также называемый Latin-1) идентичен Windows-1252 (также называемый CP1252), за исключением кодовых точек 128-159 (0x80-0x9F).ISO-8859-1 назначает несколько управляющих кодов в этом диапазоне. Windows-1252 имеет несколько символов, пунктуацию, арифметику и бизнес.
символы, присвоенные этим кодовым точкам.

Типичные проблемы
  • Неправильная маркировка текста, закодированного в Windows-1252 как ISO-8859-1, а затем преобразование из ISO-8859-1 в Unicode или другие кодировки приводит к появлению символов
    в диапазоне 128-159 теряться. Они преобразуются, как если бы они были управляющими кодами, и обычно отображаются в виде белого пространства, специального вопросительного знака,
    или квадрат, показывающий 4 шестнадцатеричных цифры кодовой точки.
  • Использование шрифта ISO-8859-1, который не имеет правильных глифов для символов Windows-1252
    приведет к неправильному отображению символов.

  • HTML и XML используют кодовые точки Unicode в качестве значений в ссылках на числовые символы (NCR). Ссылки на числовые символы — это escape-символы
    записывается как & # dddd; или & # xhhhh; где десятичные или шестнадцатеричные значения являются кодовыми точками Unicode. Поскольку первые 256 символов в Юникоде
    идентичны символам в ISO-8859-1, люди привыкают использовать знакомый им кодовый знак для создания NCR.Однако для символов в диапазоне 128–159 в Windows-1252 это неправильные значения. Например, евро (€)
    в кодовой точке 0x80 в Windows-1252, но в Unicode это U + 20AC.
    & # x80; является NCR для контрольного кода и не будет отображаться как евро. Правильный NCR — & # x20AC ;.

В сравнительной таблице ниже показаны кодовые точки Unicode, связанные с Windows-1252.
символы в диапазоне 128-159.

ISO-8859-1 в сравнении с ISO-8859-15

Эти 2 кодировки идентичны, за исключением 8 кодовых точек, что вызывает путаницу между ними, а также с Windows-1252.Для получения дополнительной информации о ISO-8859-15,
см. Сравнение ISO-8859-1 и ISO-8859-15.

Сравнительная таблица

Вот символы в диапазоне 128-159 в Windows 1252 с их кодовыми точками Unicode,
Значения байтов UTF-8 и кодовые точки ISO-8859-15, если они отличаются от ISO-8859-1.

Примечание по терминологии:

  • NCR = Ссылка на цифровые символы
  • CER = Ссылка на сущность символа
  • CP1252 = Окна-1252
Сравнение символов в Windows-1252, ISO-8859-1, ISO-8859-15
Кодовый пункт UTF-8 байтов NCR * Персонаж CER * или NCR * Имя персонажа
CP1252 * ISO 8859-15 Юникод
(декабрь) (шестигранник) (шестигранник) (шестигранник) # 1 # 2 # 3 (декабрь) (шестигранник)
128 80 A4 20AC E2 82 AC & # 8364; и евро; Знак евро
129 81 НЕ НАЗНАЧЕН
130 82 201A E2 80 9A & # 8218; & sbquo; Одиночный малый 9 кавычки
131 83 192 C6 92 & # 402; ƒ & # x192; Строчная латинская буква F с крючком
132 84 201E E2 80 9E & # 8222; & bdquo; Двойной Low-9 Котировальный знак
133 85 2026 E2 80 A6 & # 8230; & hellip; Горизонтальное многоточие
134 86 2020 E2 80 A0 & # 8224; & кинжал; Кинжал
135 87 2021 E2 80 A1 & # 8225; и кинжал; Двойной кинжал
136 88 2C6 CB 86 & # 710; ˆ & circ; Буква-модификатор Circumflex Accent
137 89 2030 E2 80 B0 & # 8240; & permil; Знак промилле
138 8A A6 160 C5 A0 & # 352; Š и Scaron; Латинская заглавная буква S с кароном
139 2039 E2 80 B9 & # 8249; & lsaquo; Кавычка с одинарным левым углом
140 8C г. до н.э. 152 C5 92 & # 338; Œ и OElig; Лигатура латинской заглавной буквы OE
141 8D НЕ НАЗНАЧЕН
142 8E B4 17D C5 BD & # 381; Ž & # x17D; Латинская заглавная буква Z с кароном
143 8F НЕ НАЗНАЧЕН
144 90 НЕ НАЗНАЧЕН
145 91 2018 E2 80 98 & # 8216; & lsquo; Одинарный кавычка левый
146 92 2019 E2 80 99 & # 8217; & rsquo; Одинарный кавычка, правый
147 93 201C E2 80 9C & # 8220; & ldquo; Двойные кавычки слева
148 94 201D E2 80 9D & # 8221; & rdquo; Двойные кавычки справа
149 95 2022 E2 80 A2 & # 8226; и бык; Пуля
150 96 2013 E2 80 93 & # 8211; & ndash; En Dash
151 97 2014 E2 80 94 & # 8212; & mdash; Em Dash
152 98 2DC CB 9C & # 732; ˜ & тильда; Маленькая тильда
153 99 2122 E2 84 A2 & # 8482; и торговля; Знак торговой марки
154 9A A8 161 C5 A1 & # 353; š & scaron; Строчная латинская буква S с кароном
155 203A E2 80 BA & # 8250; & rsaquo; Одинарный кавычочный знак, указывающий вправо
156 9C BD 153 C5 93 & # 339; œ & oelig; Строчная латинская лигатура OE
157 9D НЕ НАЗНАЧЕН
158 9E B8 17E C5 BE & # 382; × & # x17E; Строчная латинская буква Z с кароном
159 9F BE 178 C5 B8 & # 376; Ÿ и Yuml; Латинская заглавная буква Y с диэрезисом

Дополнительные ссылки

Авторские права © 2010, 2011 Tex Texin.Все права защищены.

вернуться наверх

Руководство пользователя

Глава 6: Поддержка Unicode и не-ASCII

Глава 6. Поддержка Unicode и не-ASCII

6.1 Формат для печати в кавычках
6.2 Символы не-ASCII в заголовках
6.3 Unicode и UTF-8
6.4 Поддержка UTF-8 в AspEmail
6.5 Допустимые значения CharSet

6.1 Формат цитируемой печати

AspEmail может отправлять сообщения в алфавитах, отличных от US-ASCII.
за счет поддержки формата «Цитата для печати».Этот формат описан в
RFC-2045. Идея формата заключается в том, что символы с кодами меньше 33 и больше
чем 126 представлены знаком «=», за которым следует двузначное шестнадцатеричное представление.
ценности персонажа. Например, десятичное значение 12 (подача формы US-ASCII)
представлен как = 0C , а десятичное значение 61 (US-ASCII «=») может быть представлено
как = 3D .

AspEmail кодирует тело сообщения в формате Quoted-Printable
автоматически, если для свойства ContentTransferEncoding установлено значение
строка «Quoted-Printable» (регистр букв не имеет значения).Вы также можете установить свойство Charset
к соответствующему набору символов. Следующий фрагмент кода отправляет
сообщение на русском языке:

<% @ codepage = 1251%>

<%

Mail.Charset = «Windows-1251»
Mail.Body = «-«.
Mail.ContentTransferEncoding = «Quoted-Printable»
%>

Директива <% @ codepage = 1251%> предписывает
интерпретатор ASP для обработки жестко запрограммированных символов в сценарии
в виде русских символов (1251 — русская кодовая страница).Как результат,
Свойство Body получит русскую строку Unicode.

6.2 Символы не-ASCII в заголовках

Если вы хотите отправить сообщение с определенными заголовками, такими как Тема: ,
To: или From: , содержащие символы, отличные от US-ASCII, следует использовать
метод Mail.EncodeHeader для кодирования строки символов в соответствии с
RFC 1522.Метод принимает один обязательный параметр, строку заголовка,
и один необязательный параметр, набор символов, который по умолчанию равен « ISO-8859-1 ».
Например:

<% @ codepage = 1251%>

<%
Mail.Subject = Mail.EncodeHeader («-«, «Windows-1251»)
Mail.FromName = Mail.EncodeHeader («», «Windows-1251»)
Mail.AddAddress «[email protected]», Mail.EncodeHeader («»)
%>

6.3 Unicode и UTF-8

Из MSDN: «Юникод — это 16-битный стандарт кодировки символов фиксированной ширины, который
охватывает практически все символы, обычно используемые на компьютерах сегодня.
Это включает в себя большинство письменных языков мира, а также издательские персонажи,
математические и технические символы и знаки препинания «.

Из Unicode.org: «Компьютеры … хранят буквы и другие символы
присвоение номера каждому.До изобретения Unicode существовало
сотни различных систем кодирования для присвоения этих чисел.
Ни одна кодировка не может содержать достаточно символов …
Unicode предоставляет уникальный номер для каждого символа,
независимо от того, какая платформа, какая программа, на каком языке ».

Например, основная латинская буква «А» имеет шестнадцатеричный код 0041 (65), русский
буква имеет код Hex 0416 (1046), а китайский иероглиф
имеет код Hex 32A5 (12965).

UTF-8 (формат преобразования Unicode, 8-битная форма кодирования) рекомендуется
формат, который будет использоваться для отправки данных на основе Unicode по сетям, в частности, через Интернет.
UTF-8 представляет значение Unicode как последовательность из 1, 2 или 3 байтов.

Символы Юникода в диапазоне от 0000 до 007F кодируются просто как байты.
00 до 7F. Это означает, что файлы и строки, содержащие только 7-битный ASCII
символы имеют одинаковую кодировку как в ASCII, так и в UTF-8.Следовательно, Unicode 0041 («A») в UTF-8 — это Hex 41.

Символы Юникода в диапазоне от 0080 до 07FF кодируются как последовательность из двух байтов.
Например, Unicode 0416 ()
кодируется как Hex D0 96. Кодируются символы Unicode в диапазоне от Hex 0800 до FFFF.
как последовательность из трех байтов. Например, Unicode 32A5 ()
кодируется как Hex E3 8A A5.

Начиная с Unicode 2.0, символы больше не ограничиваются диапазоном от шестнадцатеричного 0000 до шестнадцатеричного FFFF, называемого базовой многоязычной плоскостью (BMP).Также поддерживаются символы в диапазоне от Hex 10000 до Hex 10FFFF, называемые дополнительными кодовыми точками .
Среди последних — Emoji символов, такие как:

Значок Кодовая точка (шестнадцатеричная) Кодировка (шестнадцатеричная)
😂 1F602 D83D DE02
🌹 1F339 D83C DF39

Поскольку символы Emoji (и другие дополнительные кодовые точки) превышают шестнадцатеричный FFFF, они должны быть представлены двумя 16-битными числами вместо одного,
как показано в правом столбце таблицы выше.Эти два числа называются старшей суррогатной кодовой точкой и младшей суррогатной кодовой точкой .
Формулы для преобразования дополнительной кодовой точки в ее высокие и низкие суррогаты следующие:

привет = (cp — 0x10000) / 0x400 + 0xD800
lo = (cp — 0x10000)% 0x400 + 0xDC00

Эти числа пригодятся, когда Emojis нужно включить в тему электронного письма, как показано в следующем разделе.

6.4 Поддержка UTF-8 в AspEmail

AspEmail 5.0 предлагает полную поддержку UTF-8 как в теле сообщения, так и в заголовках.
Чтобы отправить сообщение в кодировке UTF-8, вы должны установить CharSet
свойство к строке « UTF-8 » (регистр несущественен),
и ContentTransferEncoding в « Quoted-Printable ».
Вы также должны передать UTF-8 в качестве второго аргумента для EncodeHeader .

В следующем примере кода демонстрируется использование UTF-8:






<%
‘изменить на адрес вашего собственного SMTP-сервера
strHost = «smtp.myisp.net «

‘Включить UTF-8 -> Перевод Unicode для элементов формы
Session.CodePage = 65001 ‘Код UTF-8

Если Запрос («Отправить») «» То
Установите Mail = Server.CreateObject («Persits.MailSender»)
‘введите действительный SMTP-хост
Mail.Host = strHost

Mail.From = «[email protected]» ‘с адреса
Mail.FromName = Mail.EncodeHeader (Запрос («FromName»), «utf-8»)
Почта.Запрос AddAddress («Кому»)

‘тема сообщения
Mail.Subject = Mail.EncodeHeader (Запрос («Тема»), «utf-8»)

‘тело сообщения
Mail.Body = Request («Body»)

‘Параметры UTF-8
Mail.CharSet = «UTF-8»
Mail.ContentTransferEncoding = «Quoted-Printable»
Mail.Send ‘отправить сообщение
Response.Write «Сообщение отправлено» & Request («To»)
Конец, если
%>




AspEmail: Unicode.asp

<ТЕЛО>


<ТАБЛИЦА ЯЧЕЙКИ = 0 ЯЧЕЙКА = 0>
Введите адрес электронной почты:
Введите свое имя:
Введите тему:
Введите текст:



В этом примере кода есть несколько важных элементов, которые нельзя упускать из виду:

Этот тег META определяет набор символов для этой страницы как UTF-8.Это, помимо прочего, указывает браузеру кодировать все элементы формы в кодировке UTF8.
когда форма отправлена.

Session.CodePage = 65001

Эта строка указывает нашему сценарию ASP преобразовывать элементы формы в кодировке UTF8.
(возвращается коллекцией Request.Form) обратно к обычным строкам Unicode. Номер
65001 — это кодовая страница UTF-8.

Mail.Subject = Mail.EncodeHeader (Запрос («Тема»), «utf-8»)

Второй необязательный аргумент установлен в «UTF-8» для правильного кодирования заголовка.


Mail.CharSet = «UTF-8»
Mail.ContentTransferEncoding = «Quoted-Printable»

Эти две строки обеспечивают правильную кодировку UTF-8 тела сообщения.

Щелкните ссылки ниже, чтобы запустить этот пример кода:

http: //localhost/aspemail/NonAscii/Unicode.asp
http: //localhost/aspemail/NonAscii/Unicode.aspx

Метод EncodeHeader также можно использовать для включения символов Emoji в тему сообщения.Двухзначная кодировка Emoji должна использоваться вместе со встроенным кодом VBScript ChrW .
функция, которая преобразует число в 2-байтовый (Unicode) символ. В следующих фрагментах кода добавлены два эмодзи, смеющееся лицо и роза (упомянутые в предыдущем разделе).
в тему:


Mail.Subject = Mail.EncodeHeader («Emoji Test:» + ChrW (& HD83D) & ChrW (& HDE02) & ChrW (& HD83C) & ChrW (& HDF39), «utf-8»)

6.5 Допустимые значения CharSet

Вы можете указать следующие строковые значения для свойства CharSet ,
а также второй необязательный аргумент метода EncodeHeader :

Значение Значение
«УТФ-8» UTF-8
«УТФ-7» UTF-7
«Окна-1250»
«cp1250»
ANSI — Центральная Европа
«Окна-1251»
«cp1251»
ANSI — кириллица
«Windows-1252»
«cp1252»
«ascii»
«us-ascii»
Латиница I
«Окна-1253»
«cp1253»
ANSI — греческий
«Окна-1254»
«cp1254»
ANSI — турецкий
«Окна-1255»
«cp1255»
ANSI — иврит
«Окна-1256»
«cp1256»
ANSI — арабский
«Окна-1257»
«cp1257»
ANSI — Балтика
«Окна-1258»
«cp1258»
ANSI — вьетнамский
«ISO-8859-1» Latin I (значение по умолчанию)
«ИСО-8859-2» Центральная Европа
«ISO-8859-3» Латиница 3
«ISO-8859-4» Балтика
«ISO-8859-5» Кириллица
«ISO-8859-6» Арабский
«ISO-8859-7» Греческий
«ISO-8859-8» Еврейский
«ISO-8859-9» Латиница 5
«ISO-8859-15» Латиница 9
«cp866» Русский DOS
«КОИ8-Р» Русский
«КОИ8-У» Украинский
«shift_jis» Японская Windows
«ks_c_5601-1987»
«корейский»
Корейский
«EUC-KR»
«корейский»
EUC — корейский
«БОЛЬШОЙ5» Традиционный китайский Windows
«GB2312»
«китайский»
Китайский упрощенный
«HZ-GB-2312» Упрощенный китайский HZ
«EUC-JP» EUC — Японский
«X-EUC-TW» EUC — традиционный китайский

PHP: Поддерживаемые кодировки символов — Руководство

В настоящее время следующие кодировки символов поддерживаются
mbstring модуль.Любая из этих кодировок символов
можно указать в параметре кодировка параметра
mbstring функций.

В этом PHP поддерживаются следующие кодировки символов.
расширение:

  • UCS-4 *
  • UCS-4BE
  • UCS-4LE *
  • UCS-2
  • UCS-2BE
  • UCS-2LE
  • UTF-32 *
  • UTF-32BE *
  • UTF-32LE *
  • UTF-16 *
  • UTF-16BE *
  • UTF-16LE *
  • UTF-7
  • UTF7-IMAP
  • UTF-8 *
  • ASCII *
  • EUC-JP *
  • SJIS *
  • eucJP-выигрыш *
  • SJIS-выиграть *
  • ISO-2022-JP
  • ISO-2022-JP-MS
  • CP932
  • CP51932
  • SJIS-mac (псевдоним: MacJapanese)
  • SJIS-Mobile # DOCOMO (псевдоним: SJIS-DOCOMO)
  • SJIS-Mobile # KDDI (псевдоним: SJIS-KDDI)
  • SJIS-Mobile # SOFTBANK (псевдоним: SJIS-SOFTBANK)
  • UTF-8-Mobile # DOCOMO (псевдоним: UTF-8-DOCOMO)
  • UTF-8-Mobile # KDDI-A
  • UTF-8-Mobile # KDDI-B (псевдоним: UTF-8-KDDI)
  • UTF-8-Mobile # SOFTBANK (псевдоним: UTF-8-SOFTBANK)
  • ISO-2022-JP-MOBILE # KDDI (псевдоним: ISO-2022-JP-KDDI)
  • JIS
  • JIS-ms
  • CP50220
  • CP50220raw
  • CP50221
  • CP50222
  • ISO-8859-1 *
  • ISO-8859-2 *
  • ISO-8859-3 *
  • ISO-8859-4 *
  • ISO-8859-5 *
  • ISO-8859-6 *
  • ISO-8859-7 *
  • ISO-8859-8 *
  • ISO-8859-9 *
  • ISO-8859-10 *
  • ISO-8859-13 *
  • ISO-8859-14 *
  • ISO-8859-15 *
  • ISO-8859-16 *
  • байт2be
  • байт2ле
  • byte4be
  • байт4ле
  • BASE64
  • HTML-ENTITIES (псевдоним: HTML)
  • 7 бит
  • 8 бит
  • EUC-CN *
  • CP936
  • ГБ18030
  • Гц
  • EUC-TW *
  • CP950
  • БОЛЬШОЙ-5 *
  • EUC-KR *
  • UHC (псевдоним: CP949)
  • ISO-2022-KR
  • Windows-1251 (псевдоним: CP1251)
  • Windows-1252 (псевдоним: CP1252)
  • CP866 (псевдоним: IBM866)
  • КОИ8-Р *
  • КОИ8-У *
  • ArmSCII-8 (псевдоним: ArmSCII8)

* обозначает кодировки, которые можно использовать также в регулярных выражениях.

Любая запись php.ini , которая принимает имя кодировки
также можно использовать значения « авто » и
« перевал ».
mbstring функций, которые принимают кодировку
name также может использовать значение « auto ».

Если задано « проход », ни одного символа
преобразование кодировки выполняется.

Если установлено « авто », оно расширяется до
список кодировок, определенных в NLS.
Например, если для NLS установлено значение Японский ,
значение предполагается равным
« ASCII, JIS, UTF-8, EUC-JP, SJIS ».

См. Также mb_detect_order ()

Таблица символов ASCII и ANSI

C Дек Шестнадцатеричный Октябрь Двоичный Сущность Имя
160 A0 240 10100000 & nbs Беспрерывное пространство
¡ 161 A1 241 10100001 & iexcl; Перевернутый восклицательный знак
¢ 162 A2 242 10100010 & cent; Знак центов
£ 163 A3 243 10100011 & фунт; Знак фунта
¤ 164 A4 244 10100100 & curren; Знак валюты
¥ 165 A5 245 10100101 & йен; Знак йены
¦ 166 A6 246 10100110 & brvbar; Сломанный стержень
§ 167 A7 247 10100111 & sect; Знак раздела
¨ 168 A8 250 10101000 & DoubleDot; Диэрезис
© 169 A9 251 10101001 и копия; Знак авторских прав
ª 170 AA 252 10101010 & ordf; Женский порядковый указатель
« 171 AB 253 10101011 & laquo; Двойные угловые кавычки, указывающие влево
¬ 172 AC 254 10101100 & not; Без знака
173 AD 255 10101101 & shy; Мягкий перенос
® 174 AE 256 10101110 & reg; Зарегистрированный знак
¯ 175 AF 257 10101111 & macr; Макрон
° 176 B0 260 10110000 & deg; Знак градуса
± 177 B1 261 10110001 & plusmn; Знак плюс-минус
² 178 B2 262 10110010 & sup2; Верхний индекс два
³ 179 B3 263 10110011 & sup3; Три надстрочных индекса
´ 180 B4 264 10110100 & DiacriticalAcute; Острый акцент
µ 181 B5 265 10110101 & микро; Микро знак
182 B6 266 10110110 и пара; Знак Pilcrow
· 183 B7 267 10110111 & CenterDot; Средняя точка
¸ 184 B8 270 10111000 & Cedilla; Cedilla
¹ 185 B9 271 10111001 & sup1; Верхний индекс один
º 186 BA 272 10111010 & ordm; Мужской порядковый указатель
» 187 BB 273 10111011 & raquo; Двойные угловые кавычки, указывающие вправо
¼ 188 BC 274 10111100 & frac14; Вульгарная фракция одна четверть
½ 189 BD 275 10111101 & половина; Вульгарная фракция, половина
¾ 190 BE 276 10111110 & frac34; Вульгарная фракция три четверти
¿ 191 BF 277 10111111 & iquest; Перевернутый вопросительный знак
À 192 C0 300 11000000 & Agrave; Латинская заглавная буква A с могилой
Á 193 C1 301 11000001 & Aacute; Заглавная латинская буква A с острым ударением
 194 C2 302 11000010 & Acirc; Заглавная латинская буква A с циркумфлексом
à 195 C3 303 11000011 & Atilde; Заглавная латинская буква A с тильдой
Ä 196 C4 304 11000100 & Auml; Заглавная латинская буква A с тремой
Å 197 C5 305 11000101 & Aring; Заглавная латинская буква A с кольцом сверху
Æ 198 C6 306 11000110 & AElig; Заглавная латинская буква AE
Ç 199 C7 307 11000111 & Ccedil; Заглавная латинская буква C с седилем
È 200 C8 310 11001000 & Egrave; Латинская заглавная буква E с могилой
É 201 C9 311 11001001 & Eacute; Заглавная латинская буква E с острым ударением
Ê 202 CA 312 11001010 & Ecirc; Заглавная латинская буква E с циркумфлексом
Ë 203 CB 313 11001011 & Euml; Заглавная латинская буква E с тремой
Ì 204 CC 314 11001100 & Igrave; Латинская заглавная буква I с могилой
Í 205 CD 315 11001101 & Iacute; Заглавная латинская буква I с острым ударением
Î 206 CE 316 11001110 & Icirc; Заглавная латинская буква I с циркумфлексом
Ï 207 CF 317 11001111 & Iuml; Заглавная латинская буква I с тремой
ì 208 D0 320 11010000 & ETH; Заглавная латинская буква Eth
Ñ 209 D1 321 11010001 & Ntilde; Заглавная латинская буква N с тильдой
Ò 210 D2 322 11010010 & Огрейв; Латинская заглавная буква O с могилой
Ó 211 D3 323 11010011 & Oacute; Заглавная латинская буква O с острым ударением
Ô 212 D4 324 11010100 & Ocirc; Заглавная латинская буква O с циркумфлексом
Õ 213 D5 325 11010101 & Otilde; Заглавная латинская буква O с тильдой
Ö 214 D6 326 11010110 & Ouml; Заглавная латинская буква O с тремой
× 215 D7 327 11010111 & раз; Знак умножения
Ø 216 D8 330 11011000 & Oslash; Заглавная латинская буква O со штрихом
Ù 217 D9 331 11011001 & Ugrave; Латинская заглавная буква U с могилой
Ú 218 DA 332 11011010 & Uacute; Латинская заглавная буква U с острым ударением
Û 219 DB 333 11011011 & Ucirc; Заглавная латинская буква U с циркумфлексом
Ü 220 DC 334 11011100 & Uuml; Заглавная латинская буква U с тремой
Ý 221 DD 335 11011101 & Yacute; Заглавная латинская буква Y с острым ударением
Þ 222 DE 336 11011110 & THORN; Заглавная латинская буква Thorn
ß 223 DF 337 11011111 & szlig; Строчная латинская буква с острым концом s
à 224 E0 340 11100000 & agrave; Строчная латинская буква а с тупиком
á 225 E1 341 11100001 & aacute; Строчная латинская буква a с острым ударением
â 226 E2 342 11100010 & acirc; Строчная латинская буква a с циркумфлексом
ã 227 E3 343 11100011 & atilde; Строчная латинская буква a с тильдой
ä 228 E4 344 11100100 & auml; Строчная латинская буква a с тремой
å 229 E5 345 11100101 & aring; Строчная латинская буква a с кольцом сверху
æ 230 E6 346 11100110 & aelig; Строчная латинская буква ae
ç 231 E7 347 11100111 & ccedil; Строчная латинская буква c с седилем
è 232 E8 350 11101000 & egrave; Строчная латинская буква е с тупым ударением
é 233 E9 351 11101001 & eacute; Строчная латинская буква e с острым ударением
ê 234 EA 352 11101010 & ecirc; Строчная латинская буква e с циркумфлексом
ë 235 EB 353 11101011 & euml; Строчная латинская буква e с тремой
ì 236 EC 354 11101100 & igrave; Строчная латинская буква i с могилой
í 237 ED 355 11101101 & iacute; Строчная латинская буква i с острым ударением
î 238 EE 356 11101110 & icirc; Строчная латинская буква i с циркумфлексом
ï 239 EF 357 11101111 & iuml; Строчная латинская буква i с тремой
ð 240 F0 360 11110000 & eth; Строчная латинская буква eth
ñ 241 F1 361 11110001 & ntilde; Строчная латинская буква n с тильдой
ò 242 F2 362 11110010 & ograve; Строчная латинская буква o с могилой
ó 243 F3 363 11110011 & oacute; Строчная латинская буква o с острым ударением
ô 244 F4 364 11110100 & ocirc; Строчная латинская буква o с циркумфлексом
х 245 F5 365 11110101 & otilde; Строчная латинская буква o с тильдой
ö 246 F6 366 11110110 & ouml; Строчная латинская буква o с тремой
÷ 247 F7 367 11110111 & div; Знак деления
ø 248 F8 370 11111000 & oslash; Строчная латинская буква o со штрихом
ù 249 F9 371 11111001 & ugrave; Строчная латинская буква u с могилой
ú 250 FA 372 11111010 & uacute; Строчная латинская буква u с острым ударением
û 251 FB 373 11111011 & ucirc; Строчная латинская буква u с циркумфлексом
ü 252 FC 374 11111100 & uuml; Строчная латинская буква u с тремой
ý 253 FD 375 11111101 & yacute; Строчная латинская буква y с острым ударением
þ 254 FE 376 11111110 & thorn; Строчная латинская буква шип
ÿ 255 FF 377 11111111 & yuml; Строчная латинская буква y с диэрезисом

Преобразование кодировки символов — ABAP Development

SAP предоставляет программу конвертера CCC для преобразования символов из одной кодировки в другую.

Оглавление

Кодировка символов — это имя («utf-8», «iso-8859-1» и т. Д.) И таблица эквивалентности с набором символов и значений октетов для каждого из них. символы.

Кодовая страница — это имя, которое SAP использует вместо кодировки символов. Кодовые страницы имеют 4-значное число вместо имени символа.

Эквивалентности между международным именем кодировки символов и номером кодовой страницы SAP

Некоторые программы SAP ожидают:

  • либо четырехзначный код: затем вам необходимо ввести номер кодовой страницы SAP.
    • Номер кодовой страницы SAP можно найти в имя в международной кодировке символов, вызвав функциональный модуль SCP_CODEPAGE_BY_EXTERNAL_NAME.Или вы можете посмотреть таблицу базы данных TCP00A.
  • или код из 20 символов: обычно вы можете ввести кодировку символов или кодовую страницу SAP. Обычно регистр кодировки символов игнорируется.

Примеры нескольких эквивалентов:

9002 900 4102

Кодовая страница SAP

Кодировка символов международное название

124

IBM EBCDIC 00693/0029

1100

iso-8859-1

1105

US-ASCII (7 бит)

1160

windows-1252

utf-16be

4103

utf-16le

4110

utf-8

8

8

800084

8300

BIG5

  • Преобразование из одной кодовой страницы в другую может быть невозможно для всех символов исходной кодовой страницы, поскольку они не существуют в целевой кодовой странице.
    • Например, конвертировать big5 (китайский) в us-ascii нет смысла. Если вы думаете, что это должно быть возможно, то вы, вероятно, сделали неправильный выбор.
    • В этом случае мы должны предоставить символ замены конвертеру CCC.
  • Последовательность байтов не распознается как символ на исходной кодовой странице. Это означает, что:
    • либо программа-отправитель не соблюдает кодовую страницу (затем попросит программу-отправитель исправить ошибку)
    • , либо вам следует выбрать другую кодовую страницу (иногда различия между кодовыми страницами очень незначительны)
    • или ваша программа ошибочно сократила входные байты, последний входной (е) байт (а) ничего не значит.
    • Например, 2 только байта D8 00 ничего не значат в utf-16le: ожидается, что 2 следующих байта смогут идентифицировать символ (здесь закодированы 4 байтами).

Конвертер CCC — это программа ядра, к которой могут обращаться несколько программ:

  • Класс CL_ABAP_CODEPAGE, доступный с 7.02. Кодовая страница не может быть номером SAP, это должно быть либо «международное имя в кодировке символов», либо имя, используемое в языке java.
  • CL_ABAP_CONV_ * классы, начиная с 6.10, где CL_ABAP_CONV_OBJ — это мастер-класс, предоставляющий полный доступ к конвертеру CCC. Существуют также эти классы, которые вызывают конвертер CCC со значениями по умолчанию:
    • CL_ABAP_CONV_IN_CE: преобразует байты, представляющие символы в данной кодовой странице, в символьную или строковую переменную
    • CL_ABAP_CONV_OUT_CE: преобразует символьную или строковую переменную в байты, представляющие символы в данной кодовой странице
    • CL_ABAP_CONV_X2X_CE: преобразует байты, представляющие символы в данной кодовой странице, в байты, представляющие символы в другой данной кодовой странице
  • Функциональный модуль SCP_TRANSLATE_CHARS, работает со всеми выпусками

Примечание: CCC означает Кэш преобразования набора символов, область памяти, в которой SAP хранит кодовые страницы, необходимые для преобразований.

Набор символов, кодовые страницы, кодировки одним нажатием кнопки

Набор символов, кодовые страницы, кодировки одним нажатием кнопки

Кодовые страницы, кодировки символов от поставщиков программного обеспечения и органов по стандартизации

Здесь вы можете найти информацию о наборе символов и кодовых страницах от поставщиков программного обеспечения.
(Microsoft, HP, IBM, Sun и т. Д.) И международных организаций по стандартизации (например, ISO, ECMA, INCITS и т. Д.)).
Нажмите любую «кнопку» и вы попадете либо на схему кодовой страницы.
предоставленные поставщиком, или веб-страница поставщика со ссылками на диаграммы кодовых страниц.
Это дает вам быстрый доступ к популярным кодовым страницам, а также доступ к более полным спискам диаграмм кодовых страниц.

Организация

Ссылки (в основном) организованы поставщиком или стандартной организацией.
Некоторые кодовые страницы перечислены повторно, обычно потому, что кодовая страница описывается разными поставщиками.
Иногда разница важна.Например, представление кодовой страницы одним поставщиком может отличаться от
чужой. Конечно, таблицы преобразования или сопоставления символов могут сильно отличаться. Иногда кодовая страница была
обновлено, и один поставщик все еще ссылается на более раннюю версию кодовой страницы.

кодировки символов, форматы преобразования, двухбайтовые, многобайтовые, UTF …

Обратите внимание, что «кодовая страница» также известна под разными именами:
кодовая страница, кодировка, набор символов, набор символов, набор кодированных символов, (CCS),
набор графических символов, карта символов и др.Некоторые из них
более конкретные имена DBCS (двухбайтовый набор символов), MBCS
(многобайтовый набор символов). Некоторые кодировки являются результатом
преобразования и известны как форматы преобразования,
примеры включают Unicode UTF-8, UTF-16, UTF-32.

Unicode UTF-16 суррогатные кодовые точки или дополнительные символы

Если вас интересуют суррогатные кодовые точки UTF-16 или дополнительные символы, см.

Настройка Microsoft Windows NT, 2000 или Windows XP для поддержки дополнительных символов Unicode
а также

Таблица преобразования: суррогаты Unicode в скалярное значение / UTF-32.

Другие страницы Unicode на этом сайте, которые могут быть интересны, включают:
Шпаргалка: Исходный код Microsoft C / C ++ с поддержкой Unicode,
Персонажи хираганы,
Ивритские символы,
Преимущества стандарта Unicode и
Замечательная демонстрация Unicode.

Нажмите кнопку, чтобы получить информацию о кодовой странице

Вот много таблиц перекодирования, выраженных в файлах XML с использованием
Язык разметки символов
(CharMapML, UTR 22).Данные преобразования кодировки используются в
Компоненты интернационализации для библиотеки с открытым исходным кодом Unicode (ICU).

На следующих веб-страницах свинцовые байты обозначены светом.
затенение серого фона. Каждый из этих свинцовых байтов ссылается на новый
страница, показывающая блок из 256 символов, связанный с этим
лидбайт. Неиспользуемые свинцовые байты обозначаются темно-серым цветом.
фон.

Авторские права © 2002, 2003, 2004, 2005 Tex Texin.Все права защищены.

Начало страницы

Как разработать кириллическую HTML-страницу

Как разработать кириллическую HTML-страницу

Как разработать кириллическую HTML-страницу

На этой странице объясняется, как разработчик может создать файл .html с кириллическим текстом внутри.

Примечание. Английский алфавит как частный случай (отличный от немецкого).
Кириллический набор символов, как и любой другой набор символов в мире
(Японский, китайский, центральноевропейский и др.) содержит, помимо национальной символики, набор символов
называется ASCII — в каждой устаревшей кодировке символы ASCII занимают первые 128 позиций
таблицы кодировок, а национальные буквы занимают вторую половину таблицы.

Символы ASCII (например, знаки препинания и т. Д.) Включают также английского алфавита .
То есть английские буквы являются частью набора символов кириллицы!

Таким образом, наличие веб-страницы с русскими и английскими буквами не означает , а не , что у вас есть
многоязычная страница.Нет, на этой странице используется одна кодировка кириллицы, и эта кодировка содержит английский язык.
буквы (точнее — символы ASCII).

Другой случай: настоящие многоязычных страниц, где, скажем, русские буквы должны сочетаться с немецкими
буквы либо польские, либо японские.
Этот случай описан на другой странице моего сайта —

«Как разработать многоязычную страницу HTML»

То есть эта статья — о создании кириллической (например, русской) веб-страницы, т.е.е. Интернет
страница, которая объявляет себя кириллицей (указана кириллица).

Очень разных сценариев : когда вы хотите создать не кириллическую веб-страницу (например,
Страница западноевропейской кодировки) и просто поместите туда пару русских слов —
он НЕ рассматривается здесь, он рассматривается в другой статье , одна из которых упоминалась выше —
«Как разработать многоязычную страницу HTML»

Шрифт создан для определенной кодировки, и поскольку каждая кодировка содержит ASCII,
каждый шрифт в мире также содержит ASCII.Итак, любой кириллический шрифт содержит английских букв.


Чтобы создать кириллический (или кириллица + английский) HTML-файл, то есть текст с одним набором символов,
разработчик просто пишет
немного кириллического (+ английского) текста при использовании кириллического шрифта и
соответствующий режим клавиатуры.

Большинство русскоязычных веб-страниц (более 90% наверняка) сделаны в настоящее время в кодировке Windows-1251, a.k.а. «Кириллица (Windows)»,
просто потому, что большинство авторов в настоящее время работают под MS Windows, а 1251 — это то, что Microsoft использует для кириллицы,
поэтому встроенные в Windows Cyrillic шрифты и клавиатура инструменты предназначены для кодирования Windows-1251.
Поэтому гораздо проще набрать текст в кодировке «Кириллица (Windows-1251)» в текстовом редакторе Windows.
чем набирать текст в кодировке «Кириллица (KOI8-R)».
Набрать текст в кодировке «Кириллица, ISO-8859-5» под MS Windows практически невозможно.

Но на самом деле , а не , имеет значение, какую кодировку использовал автор —
основные браузеры отлично работают с
все кодировок кириллицы, и если веб-страница сделана правильно (ниже), она будет отображаться
конечному пользователю тоже правильно. Последняя часть этой страницы обсуждает создание страницы KOI8-R —
на всякий случай.

Как написать по-русски, используя шрифты и инструменты клавиатуры — с индикатором «RU» на панели задач —
объясняется
в «Введение.Кириллица в Windows «»
раздел моего сайта

«Кириллица (русская): инструкция для Windows и Интернета»

Если кириллица написана правильно, то конечный пользователь сможет прочитать эту страницу,
например, переключившись на кириллицу
в браузере (например, View / Encoding / Cyrillic (Windows) или
Просмотр / Кодировка / Кириллица (KOI8-R) в Internet Explorer)

если на странице не указана кодировка.

Примечание. Кириллица в странице НАЗВАНИЕ
Если вы или ваши будущие читатели работаете под нерусской Windows, это , а не
хорошая идея использовать кириллические буквы
в заголовке вашей страницы
(текст внутри HTML-тегов и).

Например, MS Internet Explorer вер. 5 и выше
(а также Netscape версии 7.1 и выше и Mozilla версии 1.4 и выше)
может отображать такой заголовок только под Windows 2000 / XP

и не может под Windows 95/98 / ME / NT,
а Netscape 4.x — 7.0x вообще не сможет этого сделать.

Вот моя тестовая страница (написана действительно для выпуска закладок в Netscape — это текст заголовка
который идет в закладки)
, который объясняет это:
«Заголовок с текстом, отличным от системной кодовой страницы Windows»


Теперь давайте рассмотрим некоторые методы создания текста HTML с русским языком.

1. Редакторы Plain Text — разработчик кодирует HTML вручную

В таком случае все, что нужно сделать разработчику, — это выбрать кириллический шрифт в качестве рабочего шрифта в простом тексте.
редактор, которым он пользуется.Переведите клавиатуру в режим «RU» и начните печатать.
Вот и все. Зная, как использовать шрифты и клавиатуру, чтобы писать по-русски, это
разработчик просто вводит содержимое HTML-файла — текст и теги.

Я лично использую очень хороший условно-бесплатный текстовый редактор.
UltraEdit очень подходит для HTML.
Он использует цвет для тегов HTML, а также позволяет мне создавать свои собственные макросы. Например,
Нажимаю Ctrl / L и сразу в тексте появляется такая конструкция:

 

Все, что мне нужно сделать, чтобы начать писать кириллический HTML, — это выбрать кириллический шрифт, например:
Просмотр / установка шрифта — «Courier New», скрипт — «Кириллица»

Теперь, переключаясь между «EN» и «RU», я могу писать теги HTML и немного англо-русского контента.

2. WYSIWYG HTML-редактор — создает HTML-текст для вас

Если вы работаете с каким-либо редактором WYSIWYG HTML (который записывает HTML-код / ​​теги будущей веб-страницы
для вас молча, «за кулисами»), тогда вы должны узнать, как
для создания таких кириллических (+ английских) файлов HTML —
распространенная проблема — когда автор делал , а не , настраивал редактор для
Кириллица до , начало разработки и, следовательно, HTML-файл
создается как файл « Western »
(charset = windows-1252 или charset = iso-8859-1 или charset = us-ascii)

а не как страница « Кириллица » (ф.е. charset = windows-1251).

Обычно в таком случае нет кириллица
буквы в этом HTML-файле — только объекты SGML, такие как & aacute;
или некоторые числовые коды, например & # 1076; — вместо букв кириллицы.

В вашем браузере, когда вы делаете View / Source для такой страницы, есть
нет читаемого русского текста — явный признак того, что эта кириллическая страница была неправильно написана .

Кроме того, вверху такой некорректно разработанной страницы «Кириллица» можно было увидеть, что
он помечен как «Western», потому что в нем есть строка
Как настроить WYSIWYG HTML Editor для создания

правильных Cyrillic HTML

Каждый HTML-редактор WYSIWYG требует уникальной настройки для кириллицы,
и разработчик должен выяснить это , прежде чем начнет писать код. Некоторые редакторы
может вообще не работать с кириллицей …

Ниже приведены инструкции по настройке для некоторых редакторов WYSIWYG HTML.

Важно. После вы читаете инструкцию по настройке для выбранного вами редактора,
сделать не забыть прочитать общий (применимо для любого редактора)
«Заключительные примечания для кириллицы HTML»
часть этой страницы, где перечислены распространенных ошибок, которые совершают человек.
в результате страница становится нечитаемой для некоторых читателей.

Я лично пробовал шаги настройки кириллицы только для следующих редакторов WYSIWYG HTML:

  • Netscape Composer
  • MS Передняя страница 2000
  • MS Word 97 и MS Word 2000 (настройка Word XP , вероятно, такая же, как и для Word 2000)

Есть еще пара редакторов, которые я видел , а не , но нашел шаги по настройке в Интернете:


Вот инструкции по настройке (на примере кодировки кириллицы (Windows-1251)):

  • MS Передняя страница 2000

    Откройте новый документ и сразу укажите, что вы создаете Кириллица
    Текст HTML, а не западный:

    • Файл / Свойства / Язык
    • В обоих полях раздела «Кодировка HTML» укажите «Кириллица»
      (что на самом деле означает «Кириллица, Windows-1251»)

    Это будет гарантировать, что, когда вы не введете текст, будут представлены кириллические буквы.
    правильно — как обычные буквы, а не какие-то числовые значения.

    Front Page 2000 вставит следующую строку вверху исходного HTML-кода:
    fontgroup = «Кириллица» winfontcharset = 204
    macfontscript = 7 filename = «iso88595.xml» /> «

  • Теперь вставьте перед строку, указанную выше, следующую строку («приклейте» текст ниже
    в одну строку ):
    « charset = «windows-1251» fontgroup = «Cyrillic» winfontcharset = 204
    macfontscript = 7 filename = «Win1251.xml «/>»

Примечание. Насколько я слышал, есть проблема с загрузкой в
в новой версии Dreamweaver некоторые файлы, которые были , а не , были созданы с использованием вышеуказанного
rules, и, таким образом, код , а не , содержится внутри строки спецификации кодирования .
То есть Dreamweaver не знает, что это кириллический файл. Так что на кириллице
компьютер, скажем, западный, такой файл загружается как файл западной кодировки и
теперь он поврежден.
Обходной вариант — (опубликовано В.Зиновьевым в
macromedia.dreamweaver Newsgroup)
:

  • после загрузки такого файла перейдите в Modify / Page properties / Title / Encoding.
  • выберите там «Cyrillic (Windows)» (или любую другую кодировку, в которой, по вашему мнению, находится этот файл)
  • нажмите «Обновить»

Теперь файл будет перезагружен с указанной кодировкой, и DW будет
теперь знаю, что такое кодировка.

Важно! Если вы НЕ набираете русский текст прямо в Dreamwever
но вместо этого вы копируете текст, скажем, из MS Word, тогда вы можете столкнуться с проблемой:
вы получите просто набор вопросительных знаков — ??? вместо русского текста в результате копирования / вставки.
В таком случае см. Решения в главе 2 «Копирование / вставка».
раздела «Юникод и кириллица» на моем сайте.
Вот прямая ссылка на эту главу:
«Unicode: проблемы копирования / вставки».

  • MS Word 2000 (Word XP , вероятно, работает так же)
    , а не , рекомендуется использовать Word для создания HTML-файла,
    поскольку Word создает для вас HTML-код, содержащий множество ненужных HTML-тегов,
    файл большой и т. д.
    Но в любом случае вот как это сделать в Word 2000.
    Есть два разных сценария: либо вы создаете новый текст HTML, либо конвертируете существующий.документ в .html.

    1. Создание нового текста HTML

    • Файл / Новый / Веб-страница
    • Сообщите Word сразу, что вы создаете файл HTML Cyrillic
      перейдите в Инструменты / Параметры и:

      • в окне вкладки «Общие» нажмите кнопку «Параметры Интернета».
      • в окне «Параметры Интернета» перейдите на вкладку «Кодировка».
      • выберите «Кириллица (Windows)» в списке «Сохранить этот документ как».
    • Теперь вы можете печатать кириллицей
    • Файл / Сохранить как.Не используйте русский язык в имени файла.
      Нажмите кнопку «Заголовок»
      в диалоговом окне File / SaveAs, чтобы при необходимости изменить заголовок —
      это , а не — хорошая идея использовать кириллицу в заголовке веб-страницы.

    Вновь созданный HTML-файл будет содержать внутри обычные буквы кириллического алфавита, а также Word.
    вставляет следующую строку вверху HTML-кода (вы можете увидеть это, используя
    Просмотр / HTML-код):
    Заключительные примечания относительно

    правильных Кириллица HTML

    После того, как вы разработали кириллическую HTML-страницу «вручную» (с помощью текстового редактора
    и самостоятельно набирая HTML-код / ​​теги) или позволяя редактору WYSIWYG HTML писать HTML-код / ​​теги за вас,
    Вам необходимо убедиться, что эта кириллическая веб-страница будет читаема для любого конечного пользователя.
    Вот несколько распространенных ошибок, которые совершает разработчик, заставляя страницу
    нечитаемые для некоторых пользователей (в зависимости от их браузера и / или типа компьютера).

    Первые два уже упоминались выше, но стоит перечислить здесь всех позиций в одном месте.

    Вам необходимо проверить исходный HTML-код, созданный для вас редактором WYSIWYG HTML, чтобы убедиться, что
    вы не совершали типичных ошибок, перечисленных ниже.

    Вы можете проверить исходный HTML-текст с помощью опции View / Source вашего браузера, редактора HTML или
    открытием.html в текстовом редакторе, который позволяет просматривать простой текст Кириллица —
    HTML-текст — это простой текст, такой же, как в файле .TXT.

    Ошибка 1. Кириллица в HTML-тексте не содержит нормальных букв кириллического алфавита.
    Обычно это происходит, когда автор использует какой-нибудь WYSIWYG HTML-редактор, который был настроен на , а не на .
    создание текста HTML Cyrillic .
    В результате View / Source будет показывать на странице следующее вместо кириллицы
    письма:

    • Субъекты SGML, такие как & aacute;
      или
    • числовые коды (значения Unicode), например & # 1076;

    Ошибка 2. Страница объявляется как «западноевропейская», а не как «кириллица».
    То есть кодировка (кодировка) для этой страницы не кириллица
    (например, windows-1251 ), но «Western» — iso-8859-1 или windows-1252 или us-ascii .

    Значение набора символов (кодировки) может быть установлено либо в заголовке HTTP, отправленном веб-сервером.
    в браузер вместе с самой страницей или в «теле» HTML-текста этой страницы,
    в его части заголовка, например

    Примечание. Создание страницы

    КОИ8-Р .

    Хотя в настоящее время большинство русскоязычных веб-страниц имеют кодировку кириллицы (Windows-1251), одна
    мог разработать русскую страницу в кодировке кириллицы ( KOI8-R ).

    Как было объяснено в разделе «Кириллические шрифты и кодировки»
    раздел моего сайта

    «Кириллица (русская): инструкции для Windows и Интернета»,

    современные приложения, такие как Netscape 4 + / Mozilla, Internet Explorer, Front Page 2000 и т. д.позволяют пользователю работать с родным для MS Windows набором шрифтов и клавиатурных инструментов —
    кодирования «Кириллица (Windows-1251)» и обработать KOI8-R автоматически , без
    KOI8-R шрифты и инструменты клавиатуры.

    Для разработчика кириллической HTML-страницы это означает следующее:

    • Разработчик вводит текст будущей страницы KOI8-R, используя шрифты Windows-1251, такие как «Arial (Cyrillic)»
      и инструменты клавиатуры Windows-1251 («RU» на панели задач),
      так что то, что он / она действительно имеет в окне редактора, — это текст Windows-1251 (или Unicode), а не текст KOI8-R
    • Но если в качестве кодировки для этого HTML-файла был указан KOI8-R, то современные
      Редакторы WYSIWYG HTML незаметно «за кадром» преобразуют текст из
      Windows-1251 — KOI8-R и поместите текст KOI8-R на жесткий диск в формате.html
      Они также поместят следующую строку вверху HTML-текста:

      Добавить комментарий

      Ваш адрес email не будет опубликован. Обязательные поля помечены *