Кодировка кириллица: Кодировки UTF-8, Windows-1251, CP-866…. или русский язык в Arduino IDE

Содержание

Использование UTF-8 в HTTP заголовках – CUBA Platform

Как известно, HTTP 1.1 — это текстовой протокол передачи данных. HTTP сообщения закодированы, используя ISO-8859-1 (которую условно можно считать расширенной версией ASCII, содержащей умляуты, диакритику и другие символы, используемые в западноевропейских языках). При этом в теле сообщений можно использовать другую кодировку, которая должна быть обозначена в заголовке «Content-Type». Но что делать, если нам необходимо задать non-ASCII символы не в теле сообщения, а в самих заголовках? Наверное, самый распространенный кейс — это проставление имени файла в «Content-Disposition» заголовке. Это, казалось бы, довольно распространенная задача, но ее реализация не так очевидна.

TL;DR: Используйте кодировку, описанную в RFC 6266, для «Content-Disposition» и преобразуйте текст в латиницу (транслит) в остальных случаях.

Небольшая вводная в кодировки

В статье упоминаются и используются кодировки US-ASCII (часто именуемую просто ASCII), ISO-8859-1 и UTF-8.8 = 256 вариантов.

ISO-8859-1 — кодировка, предназначенная для западноевропейских языков. Содержит французскую диакритику, немецкие умляуты и т.д.

Кодировка содержит 256 символов и, таким образом, может быть представлена одним байтом. Первая половина (128 символов) полностью совпадает с ASCII. Таким образом, если первый бит = 0, то это обычный ASCII символ. Если 1, то это символ, специфичный для ISO-8859-1.

UTF-8 — одна из самых известных кодировок наравне с ASCII. Способна кодировать 1.112.064 символов. Размер каждого символа варьируется от 1-го до 4-х байт (раньше допускались значения до 6 байт).


Программа, работающая с этой кодировкой, определяет по первым битам, как много байтов входит в символ. Если октет начинается с 0, то символ представлен одним байтом. 110 — два байта, 1110 — три байта, 11110 — 4 байта.

Как и в случае с ISO-8859-1, первые 128 символов полностью соответствуют ASCII. Поэтому тексты, использующие только ASCII символы, будут абсолютно идентичны в бинарном представлении, вне зависимости от того, использовалась ли для кодирования US-ASCII, ISO-8859-1 или UTF-8.

Использование UTF-8 в теле сообщения

Прежде чем перейти к заголовкам, давайте быстро взглянем, как использовать UTF-8 в теле сообщений. Для этого используется заголовок «Content-Type».

Если «Content-Type» не задан, то браузер должен обрабатывать сообщения, как будто они написаны в ISO-8859-1. Браузер не должен пытаться отгадать кодировку и, тем более, игнорировать «Content-Type». Но, что реально отобразится в ситуации, когда «Content-Type» не передан, зависит от реализации браузера. Например, Firefox сделает согласно спецификации и прочитает сообщение, будто оно было закодировано в ISO-8859-1. Google Chrome, напротив, будет использовать кодировку операционной системы, которая для многих российских пользователей равна Windows-1251. В любом случае, если сообщение было в UTF-8, то оно будет отображено некорректно.

Проставляем UTF-8 сообщение в значение заголовка

С телом сообщения все достаточно просто. Тело сообщения всегда следует после заголовков, поэтому здесь не возникает технических проблем. Но как быть с заголовками? В спецификации недвусмысленно заявляется, что порядок заголовков в сообщении не имеет значения. Т.е. задать кодировку в одном заголовке через другой заголовок не представляется возможным.

Что будет, если просто взять и записать UTF-8 значение в значение заголовка? Мы видели, что такой трюк с телом сообщения приведет к тому, что значение будет просто прочитано в ISO-8859-1. Логично было бы предположить, что то же самое произойдет с заголовком. Но это не так. Фактически, во многих, если не в большинстве, случаях такое решение будет работать. Сюда включаются старые айфончики, IE11, Firefox, Google Chrome. Единственным из находящихся у меня под рукой браузеров, когда я писал эту статью, который не захотел работать с таким заголовком, является Edge.

Такое поведение не зафиксировано в спецификациях. Возможно, разработчики браузеров решили облегчить жизнь разработчиков и автоматически определять, что в заголовках сообщение закодировано в UTF-8. В общем-то, это не является такой сложной задачей. Смотрим на первый бит: если 0, то ASCII, если 1 — то, возможно, UTF-8.

Нет ли в этом случае пересечения с ISO-8859-1? На самом деле, практически нет. Возьмем для примера UTF-8 символ из 2-х октетов (русские буквы представлены двумя октетами). Символ в бинарном представлии будет иметь вид: 110xxxxx 10xxxxxx. В HEX представлении: [0xC0-0x6F] [0x80-0xBF]. В ISO-8859-1 этими символами едва ли можно закодировать что-то, несущее смысловую нагрузку. Поэтому риск того, что браузер неправильно расшифрует сообщение, очень мал.

Однако, при попытке использовать этот способ можно столкнуться с техническими проблемами: ваш веб-сервер или фреймворк может просто не разрешить записывать UTF-8 символы в значение заголовка. Например, Apache Tomcat вместо всех UTF-8 символов проставляет 0x3F (вопросительный знак). Разумеется, это ограничение можно обойти, но, если само приложение бьет по рукам и не дает что-то сделать, то, возможно, вам и не нужно это делать.

Но, независимо от того, разрешает ли вам ваш фреймворк или сервер записать UTF-8 сообщения в заголовок или нет, я не рекомендую этого делать. Это не задокументированное решение, которое в любой момент времени может перестать работать в браузерах.

Транслит

Я думаю, что использовать транслит — eto bolee horoshee reshenie. Многие крупные популярные русские ресурсы не брезгуют использовать транслит в названиях файлов. Это гарантированное решение, которое не сломается с выпуском новых браузеров и которое не надо тестировать отдельно на каждой платформе. Хотя, разумеется, надо подумать, как преобразовывать весь спектр возможных символов, что может быть не совсем тривиально. Например, если приложение рассчитано на российскую аудиторию, то в имя файла могут попасть татарские буквы ә и ң, которые надо как-то обработать, а не просто заменять на «?».

RFC 2047

Как я уже упомянул, томкат не позволил мне проставить UTF-8 в заголовке сообщения. Отражена ли эта особенность поведения в Java docs для сервлетов? Да, отражена:

Упоминается RFC 2047. Я пробовал кодировать сообщения, используя этот формат, — браузер меня не понял. Этот метод кодировки не работает в HTTP. Хотя работал раньше. Вот, например, тикет на удаление поддержки этой кодировки из Firefox.

RFC 6266

В тикете, ссылка на который содержится в предыдущем разделе, есть упоминания, что даже после прекращения поддержки RFC 2047, все еще есть способ передавать UTF-8 значения в названии скачиваемых файлов: RFC 6266. На мой взгляд, это самое правильно решение на сегодняшний день. Многие популярные интернет ресурсы используют его. Мы в CUBA Platform также используем именно этот RFC для генерации «Content-Disposition».

RFC 6266 — это спецификация, описывающая использование “Content-Disposition” заголовка. Сам способ кодировки подробно описан в другой спецификации — RFC 8187.

Параметр “filename” содержит название файла в ASCII, “filename*” — в любой необходимой кодировке. При наличии обоих атрибутов “filename” игнорируется во всех современных браузерах (включая IE11 и старые версии Safari). Совсем старые браузеры, напротив, игнорируют “filename*”.

При использовании данного способа кодирования в параметре сначала указывается кодировка, после » идет закодированное значение. Видимые символы из ASCII кодирования не требуют. Остальные символы просто пишутся в hex представлении, со стоящим «%» перед каждым октетом.

Что делать с другими заголовками?

Кодирование, описанное в RFC 8187, не является универсальным. Да, можно поместить в заголовок параметр с * префиксом, и это, возможно, будет даже работать для некоторых браузеров, но спецификация предписывает не делать так.

В каждом случае, где в заголовках поддерживается UTF-8, на настоящий момент есть явное упоминание об этом в релевантном RFC. Помимо «Content-Disposition» данная кодировка используется, например, в Web Linking и Digest Access Authentication.

Следует учесть, что стандарты в этой области постоянно меняются. Использование описанной выше кодировки в HTTP было предложено лишь в 2010. Использование данной кодировки именно в «Content-Disposition» было зафиксировано в стандарте в 2011. Несмотря на то, что эти стандарты находятся лишь на стадии «Proposed Standard», они поддержаны повсеместно. Вариант, что в будущем нас ожидают новые стандарты, которые позволят более унифицировано работать с различными кодировками в заголовках, не исключен. Поэтому остается только следить за новостями в мире стандартов HTTP и уровня их поддержки на стороне браузеров.

Основные кодировки символов текста веб-страниц.

Из предыдущей заметки вы уже имеете определенное представление о том, что такое кодировка веб-страниц.

Сейчас давайте остановимся на вопросе какие бывают кодировки.

На заре развития компьютерной техники, когда компьютеры были слабые и не было большого объема памяти, кодировки представляли собой таблицу все символы, которой могли быть представлены всеми возможными комбинациями числа в 16-ричной системе счисления (это 1 байт информации) или 256 возможных символов.

По этой причине не было возможности создать единую кодировку для всех языков в мире. Каждая кодировка содержала в себе символы своего национального алфавита.

Для символов латиницы, как правило, использовалась кодировка ASCII.

Вот, как эта таблица выглядит:

Для символов кириллицы были созданы кодировки windows-1251 и KOI8-R. Это произошло из-за того, что этими кодировками занимались сразу несколько фирм, чтобы обеспечить поддержку русского языка для своих компьютеров.

Вот таблица с кодировкой Windows-1251

Кодировка KOI8-R:

При таком разнообразии кодировок, была одна проблема: если текст, который написан кириллицей воспроизвести с помощью кодировки ASCII или любой другой кодировкой, которая не содержит символов кириллицы, появляются кракозябры.

Стоило даже текст на кириллице, который сохранен в кодировке windows-1251 открыть в кодировке KOI8-R, как тут же появлялись проблемы.

Нужно было искать какое-то решение.

С развитием вычислительной мощности компьютеров, стало возможным для кодирования различным символов использовать намного больше единиц информации и решено было создать универсальную кодировку для всех языков в мире. Такой кодировкой стала кодировка UTF (Юникод).

Это огромная таблица, которая содержит более 1 миллиона закодированных символов.

Вот небольшая часть этой таблицы:

В настоящее время эта кодировка стала стандартом для всех компьютеров в мире. Юникод содержит не только символы мировых алфавитов, но и различные значки, смайлики и др. символы.

При создании современных веб-страниц, желательно пользоваться именно ей. В этом случае, ваши документы будут более универсальными и будут открываться практически во всех случаях.

А сейчас приступаем к конкретным методам, которые будут позволять менять кодировку наших веб-страниц.

Ко всем урокам курса «Быстрый старт в HTML для начинающих»

HTML Кодировки



Чтобы правильно отобразить html-документ, браузер должен знать какая кодировка символов использовалась при создании документа.
ASCII — одна из самых старых компьютерных кодировок, в которой каждому символу соответствует строго определенное число. Например, символу «a» соответствует число 97, а символу «A» — число 65.
Эта аббревиатура расшифровывается как American Standard Code for Information Interchange (американская стандартная кодировочная таблица для печатных символов и некоторых специальных кодов).

ASCII — это однобайтовая кодировка, в которую изначально заложено всего 128 символов: буквы латинского алфавита, арабские цифры и т.д.
Вы можете посмотреть на полный комплект Печатаемых символов ASCII.

Позже ASCII была расширена (изначально она не использовала все 8 бит), поэтому появилась возможность использовать уже не 128, а 256 (2 в 8 степени) различных символов, которые можно закодировать в одном байте информации.
Такое усовершенствование позволило добавлять в кодировку ASCII символы национальных языков разных стран, помимо уже существующей латиницы.
Вариантов расширенной кодировки ASCII существует очень много по причине того, что языков в мире тоже немало. Думаю, что многие из вас слышали о такой кодировке, как KOI8 (Код Обмена Информацией, 8 бит) — это тоже расширенная кодировка

ASCII. KOI8 включала в себя цифры, буквы латинского и русского алфавита, а также знаки пунктуации, спецсимволы и псевдографику.

Кодировка ISO

Организация Международных стандартов (International Standards Organization) создала диапазон кодировок для различных алфавитов/языков.

Кодировки серии ISO 8859

КодировкаОписание
ISO 8859-1 (Latin-1)Расширенная латиница, включающая символы большинства западноевропейских языков (английский, датский, ирландский, исландский, испанский, итальянский, немецкий, норвежский, португальский, ретороманский, фарерский, шведский, шотландский (гэльский) и частично голландский, финский, французский), а также некоторых восточноевропейских (албанский) и африканских языков (африкаанс, суахили). В Latin-1 отсутствуют знак евро и заглавная буква Ÿ. Эта кодовая страница считается кодировкой по умолчанию для HTML-документов и сообщений электронной почты. Также этой кодовой странице соответствуют первые 256 символов Юникода.
ISO 8859-2 (Latin-2)Расширенная латиница, включающая символы центральноевропейских и восточноевропейских языков (боснийский, венгерский, польский, словацкий, словенский, хорватский, чешский). В Latin-2, как и в Latin-1, отсутствуют знак евро.
ISO 8859-3 (Latin-3)Расширенная латиница, включающая символы южноевропейских языков (мальтийский, турецкий и эсперанто).
ISO 8859-4 (Latin-4)Расширенная латиница, включающая символы североевропейских языков (гренландский, эстонский, латышский, литовский и саамские языки).
ISO 8859-5 (Latin/Cyrillic)Кириллица, включающая символы славянских языков (белорусский, болгарский, македонский, русский, сербский и частично украинский).
ISO 8859-6 (Latin/Arabic)Символы, используемые в арабском языке. Символы других языков с письмом на основе арабского не поддерживаются. Для корректного отображения текста в кодировке ISO 8859-6 требуется поддержка двунаправленного письма и контекстно-зависимых форм символов.
ISO 8859-7 (Latin/Greek)Символы современного греческого языка. Может использоваться также для записи древнегреческих текстов в монотонической орфографии.
ISO 8859-8 (Latin/Hebrew)Символы современного иврита. Используется в двух вариантах: с логическим порядком следования символов (требует поддержки двунаправленного письма) и с визуальным порядком следования символов.
ISO 8859-9 (Latin-5)Вариант Latin-1, в котором редко используемые символы исландского языка заменены на турецкие. Используется для турецкого и курдского языков.
ISO 8859-10 (Latin-6)Вариант Latin-4, более удобный для скандинавских языков.
ISO 8859-11 (Latin/Thai)Символы тайского языка.
ISO 8859-13 (Latin-7)Вариант Latin-4, более удобный для балтийских языков.
ISO 8859-14 (Latin-8)Расширенная латиница, включающая символы кельтских языков, таких как шотландский (гэльский) и бретонский.
ISO 8859-15 (Latin-9)Вариант Latin-1, в котором редко используемые символы заменены на необходимые для полной поддержки финского, французского и эстонского языков. Кроме того, в Latin-9 был добавлен знак евро.
ISO 8859-16 (Latin-10)Расширенная латиница, включающая символы южноевропейских и восточноевропейских (албанский, венгерский, итальянский, польский, румынский, словенский, хорватский), а также некоторых западноевропейских языков (ирландский в новой орфографии, немецкий, финский, французский). Как и в Latin-9, в Latin-10 был добавлен знак евро.

Для документов на английском и большинстве других западноевропейских языков, широко поддерживается кодирование

ISO-8859-1.

Таблица кодов символов ISO-8859-1

В HTML ISO-8859-1 является кодировкой по умолчанию (в XHTML и в HTML5 кодировкой по умолчанию является UTF-8).
При использовании кодировки страницы, отличной от ISO-8859-1, вам необходимо указать это в теге <meta>.

Для HTML4:

<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-1">

Для HTML5:

<meta charset="UTF-8">

Примером ANSI-кодировки является всем известная Windows-1251.

Windows-1251 выгодно отличается от других 8 битных кириллических кодировок (таких как CP866 и ISO 8859-5) наличием практически всех символов, использующихся в русской типографике для обычного текста (отсутствует только знак ударения). Она также содержит все символы для других славянских языков: украинского, белорусского, сербского, македонского и болгарского.

Ниже приведены десятичные значения символов кодировки Windows-1251.

Для отображения символов таблицы в HTML-документе воспользуйтесь следующим синтаксисом:

&&num; + код + ;

Кодировка Windows-1251 (CP1251)

 .0.1.2.3.4.5.6.7.8.9.A.B.C.D.E.F
 
8.
 
Ђ
402
Ѓ
403

201A
ѓ
453

201E

2026

2020

2021

20AC

2030
Љ
409

2039
Њ
40A
Ќ
40C
Ћ
40B
Џ
40F
 
9.
 
ђ
452

2018

2019

201C

201D

2022

2013

2014

2122
љ
459

203A
њ
45A
ќ
45C
ћ
45B
џ
45F
 
A.
 
 
A0
Ў
40E
ў
45E
Ј
408
¤
A4
Ґ
490
¦
A6
§
A7
Ё
401
©
A9
Є
404
«
AB
¬
AC
­
AD
®
AE
Ї
407
 
B.
 
°
B0
±
B1
І
406
і
456
ґ
491
µ
B5

B6
·
B7
ё
451

2116
є
454
»
BB
ј
458
Ѕ
405
ѕ
455
ї
457
 
C.
 
А
410
Б
411
В
412
Г
413
Д
414
Е
415
Ж
416
З
417
И
418
Й
419
К
41A
Л
41B
М
41C
Н
41D
О
41E
П
41F
 
D.
 
Р
420
С
421
Т
422
У
423
Ф
424
Х
425
Ц
426
Ч
427
Ш
428
Щ
429
Ъ
42A
Ы
42B
Ь
42C
Э
42D
Ю
42E
Я
42F
 
E.
 
а
430
б
431
в
432
г
433
д
434
е
435
ж
436
з
437
и
438
й
439
к
43A
л
43B
м
43C
н
43D
о
43E
п
43F
 
F.
 
р
440
с
441
т
442
у
443
ф
444
х
445
ц
446
ч
447
ш
448
щ
449
ъ
44A
ы
44B
ь
44C
э
44D
ю
44E
я
44F

Таблица кодов символов Windows-1251

Кодировки стандарта UNICODE

Юникод (англ. Unicode) — стандарт кодирования символов, позволяющий представить знаки почти всех письменностей мира, и специальных символов. Представляемые в юникоде символы кодируются целыми числами без знака. Юникод имеет несколько форм представления символов в компьютере: UTF-8, UTF-16 (UTF-16BE, UTF-16LE) и UTF-32 (UTF-32BE, UTF-32LE). (Англ. Unicode transformation format — UTF).
UTF-8 — это в настоящее время распространённая кодировка, которая нашла широкое применение в операционных системах и веб-пространстве. Текст, состоящий из символов Unicode с номерами меньше 128 (область с кодами от U+0000 до U+007F), содержит символы набора ASCII с соответствующими кодами. Далее расположены области знаков различных письменностей, знаки пунктуации и технические символы. Под символы кириллицы выделены области знаков с кодами от U+0400 до U+052F, от U+2DE0 до U+2DFF, от U+A640 до U+A69F.

Кодировка UTF-8 является универсальной и имеет внушительный резерв на будущее. Это делает ее наиболее удобной кодировкой для использования в интернете.

Таблица кодов символов UTF-8 кирилица






Декодер Involta: дешифратор кодировок текста онлайн

  1. Инвольта
  2. Инструменты
  3. Смена кодировки
CP-1251UTF-8Base64TranslitUnicode EscapePercent EncodingKOI8-RKOI8-UCP866CP855CP437CP1250CP1252CP1253CP1254CP1255CP1256CP1257CP1258ISO-8859-1ISO-8859-2ISO-8859-3ISO-8859-4ISO-8859-5ISO-8859-6ISO-8859-7ISO-8859-8ISO-8859-9ISO-8859-10ISO-8859-11ISO-8859-12ISO-8859-13ISO-8859-14ISO-8859-15ISO-8859-16GB2312EUC-JPEUC-KRCP-1251UTF-8Base64TranslitUnicode EscapePercent EncodingKOI8-RKOI8-UCP866CP855CP437CP1250CP1252CP1253CP1254CP1255CP1256CP1257CP1258ISO-8859-1ISO-8859-2ISO-8859-3ISO-8859-4ISO-8859-5ISO-8859-6ISO-8859-7ISO-8859-8ISO-8859-9ISO-8859-10ISO-8859-11ISO-8859-12ISO-8859-13ISO-8859-14ISO-8859-15ISO-8859-16GB2312EUC-JPEUC-KR Расшифровать

При онлайн передаче электронных документов (почтовая рассылка, скачивание с сайта и т.д.) в файле может сбиться кодировка. В результате вместо привычных слов, предложений и абзацев вы получаете последовательность непонятных символов. Так случается из-за того, что кодирование и декодирование информации происходит некорректно, и устройства отправителя и получателя просто не понимают друг друга. Чтобы расшифровать зашифрованный текст, обратитесь к нашему онлайн декодеру. Decoder (дешифратор или декодер онлайн) от компании Involta способен подобрать нужную кодировку и изменить текст так, чтобы Вы смогли быстро прочитать непонятные «иероглифы».

Наш инструмент имеет множество возможностей для декодирования. Он позволяет расшифровать base64 и определить исходные данные, а также перевести информацию в любую другую кодировку онлайн, например, UTF-8, CP-1251, ASCII. Encoder может функционировать как шифратор и дешифратор, то есть вы можете закодировать текст и защитить его содержимое от посторонних глаз. Если вам прислали ссылку с непонятным адресом, то URL-decoder online покажет, на какой сайт она ведет. Еще одна полезная функция сервиса – создать или раскодировать транслит, если нужно сделать перевод с кириллицы на латиницу и наоборот. Декодер работает в режиме онлайн и доступен на любом устройстве с доступом в интернет.

Как исправить отображение кириллицы в Windows 10

&nbsp windows

Одна из возможных проблем, с которыми можно столкнуться после установки Windows 10 — кракозябры вместо русских букв в интерфейсе программ, а также в документах. Чаще неправильное отображение кириллицы встречается в изначально англоязычных и не совсем лицензионных версиях системы, но бывают и исключения.

В этой инструкции — о том, как исправить «кракозябры» (или иероглифы), а точнее — отображение кириллицы в Windows 10 несколькими способами. Возможно, также будет полезным: Как установить и включить русский язык интерфейса в Windows 10 (для систем на английском и других языках).

Исправление отображения кириллицы с помощью настроек языка и региональных стандартов Windows 10

Самый простой и чаще всего работающий способ убрать кракозябры и вернуть русские буквы в Windows 10 — исправить некоторые неправильные настройки в параметрах системы.

Для этого потребуется выполнить следующие шаги (примечание: привожу также названия нужных пунктов на английском, так как иногда необходимость исправить кириллицу возникает в англоязычных версиях системы без нужды менять язык интерфейса).

  1. Откройте панель управления (для этого можно начать набирать «Панель управления» или «Control Panel» в поиске на панели задач.
  2. Убедитесь, что в поле «Просмотр» (View by) установлено «Значки» (Icons) и выберите пункт «Региональные стандарты» (Region). 
  3. На вкладке «Дополнительно» (Administrative) в разделе «Язык программ, не поддерживающих Юникод» (Language for non-Unicode programs) нажмите по кнопке «Изменить язык системы» (Change system locale). 
  4. Выберите русский язык, нажмите «Ок» и подтвердите перезагрузку компьютера. 

После перезагрузки проверьте, была ли решена проблема с отображением русских букв в интерфейсе программ и (или) документах — обычно, кракозябры бывают исправлены после этих простых действий.

Как исправить иероглифы Windows 10 путем изменения кодовых страниц

Кодовые страницы представляют собой таблицы, в которых определенным байтам сопоставляются определенные символы, а отображение кириллицы в виде иероглифов в Windows 10 связано обычно с тем, что по умолчанию задана не та кодовая страница и это можно исправить несколькими способами, которые могут быть полезны, когда требуется не изменять язык системы в параметрах.

С помощью редактора реестра

Первый способ — использовать редактор реестра. На мой взгляд, это самый щадящий для системы метод, тем не менее, рекомендую создать точку восстановления прежде чем начинать. Совет про точки восстановления относится и ко всем последующим способам в этом руководстве.

  1. Нажмите клавиши Win+R на клавиатуре, введите regedit и нажмите Enter, откроется редактор реестра.
  2. Перейдите к разделу реестра
    HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\Nls\CodePage
    и в правой части пролистайте значения этого раздела до конца. 
  3. Дважды нажмите по параметру ACP, установите значение 1251 (кодовая страница для кириллицы), нажмите Ок и закройте редактор реестра. 
  4. Перезагрузите компьютер (именно перезагрузка, а не завершение работы и включение, в Windows 10 это может иметь значение).

Обычно, это исправляет проблему с отображением русских букв. Вариация способа с помощью редактора реестра (но менее предпочтительная) — посмотреть на текущее значение параметра ACP (обычно — 1252 для изначально англоязычных систем), затем в том же разделе реестра найти параметр с именем 1252 и изменить его значение с c_1252.nls на c_1251.nls.

Путем подмена файла кодовой страницы на c_1251.nls

Второй, не рекомендуемый мной способ, но иногда выбираемый теми, кто считает, что правка реестра — это слишком сложно или опасно: подмена файла кодовой страницы в C:\ Windows\ System32 (предполагается, что у вас установлена западно-европейская кодовая страница — 1252, обычно это так. Посмотреть текущую кодовую страницу можно в параметре ACP в реестре, как было описано в предыдущем способе).

  1. Зайдите в папку C:\ Windows\ System32 и найдите файл c_1252.NLS, нажмите по нему правой кнопкой мыши, выберите пункт «Свойства» и откройте вкладку «Безопасность». На ней нажмите кнопку «Дополнительно». 
  2. В поле «Владелец» нажмите «Изменить». 
  3. В поле «Введите имена выбираемых объектов» укажите ваше имя пользователя (с правами администратора). Если в Windows 10 используется учетная запись Майкрософт, вместо имени пользователя укажите адрес электронной почты. Нажмите «Ок» в окне, где указывали пользователя и в следующем (Дополнительные параметры безопасности) окне. 
  4. Вы снова окажетесь на вкладке «Безопасность» в свойствах файла. Нажмите кнопку «Изменить».
  5. Выберите пункт «Администраторы» (Administrators) и включите полный доступ для них. Нажмите «Ок» и подтвердите изменение разрешений. Нажмите «Ок» в окне свойств файла. 
  6. Переименуйте файл c_1252.NLS (например, измените расширение на .bak, чтобы не потерять этот файл).
  7. Удерживая клавишу Ctrl, перетащите находящийся там же в C:\Windows\System32 файл c_1251.NLS (кодовая страница для кириллицы) в другое место этого же окна проводника, чтобы создать копию файла. 
  8. Переименуйте копию файла c_1251.NLS в c_1252.NLS.
  9. Перезагрузите компьютер.

После перезагрузки Windows 10 кириллица должна будет отображаться не в виде иероглифов, а как обычные русские буквы.

remontka.pro в Телеграм | Другие способы подписки

А вдруг и это будет интересно:

7. Использование кириллицы в программах электронной почты и чтения новостей | The Linux Cyrillic HOWTO (rus)

Настройка программ электронной почты и чтения новостей для распознавания кириллицы не очень сложна, хотя вам следует знать основные принципы работы электронной почты и новостей.

Обычно программы Internet электронной почты состоят из двух частей: MUA (Mail User Agent — пользовательская программа электронной почты) и MTA (Mail Transfer Agent — программа рассылки электронной почты). MUA — это программа, которую вы используете для чтения, составления и посылки электронных сообщений. Однако пользовательская программа электронной почты сама письма не посылает; вместо этого она вызывает программу рассылки электронной почты, которая отвечает за посылку сообщения в соответствующем направлении, используя соответствующий протокол. Пример пользовательской программы электронной почты — Pine, программы рассылки электронной почты — qmail.

До недавнего времени и MTA, и MUA по умолчанию не были чисто 8-ми битными программами. Поэтому, когда вы посылаете сообщение, скажем, из Америки в Россию, то вы никогда не будете уверены в том, что какая-нибудь промежуточная программа рассылки электронной почты не «откусит» в вашем сообщении 8-ой бит у каждой буквы в вашем сообщении. Поэтому был разработан ряд протоколов, которые позволяют закодировать любой тип данных с использованием только печатаемых символов из 7-ми битного ASCII. Эта группа протоколов зовется MIME (MultimedIa Mail Encoding — мультимедийная кодировка электронных сообщений).

Так как MIME обычно сконфигурирован по умолчанию довольно правильно, мы не будем обсуждать его здесь. Мы поговорим о MIME, когда будет обсуждаться совместимость между русскими кодировками (См. раздел mime).

Мы начнем с настройки пользовательской программы электронной почты, потому что именно с этой программой вы работаете непосредственно. Ей нужно указать:

  1. что письма будут содержать 8-битные символы,
  2. с какой кодировкой вы работаете, и
  3. с какой кодировкой письма будут посылаться.

Кодировки нужно обозначать не произвольными именами, а согласно рекомендаций IANA.

Конечно, указывая кодировку для посылаемых писем, вы должны действовать в соответствии с существующими стандартами. Стандарт для России: для электронной почты используется KOI8-R, именем этой кодировки согласно рекомендаций IANA является charset=utf-8. В Болгарии же для электронной почты используется кодировка cp1251, имя согласно IANA — windows-1251.

(Письма, которые получал (и посылал) Антон Зиновьев в Сербию и Македонию, использовали кодировку ISO-8859-5.Content-Type: *text/plain; *charset=»?(iso-8859-1|US-ASCII|UNKNOWN-8BIT)»? | formail -i «Content-Type: text/plain; charset=windows-1251»

Emacs

Если вы уже настроили emacs как таковой, то вам не нужно специально настраивать программу электронной почты, которая обеспечивается средствами Emacs. (Для настройки Emacs смотрите раздел Emacs и XEmacs).

elm

Добавьте следующую запись в ваш ~/.elm/elmrc:

CHARSET=charset=utf-8

pine

Добавьте следующую запись в ~/.pinerc для персональной настройки или в /usr/lib/pine.conf для настройки всей системы (эту опцию можно настроить прямо из pine):

character-set=charset=utf-8

Вы можете также изменить настройку вашего Pine для того, чтобы предотвратить посылку письма в quoted-printable кодировке.

enable-8bit-nntp-posting
enable-8bit-esmtp-negotiation

Кроме того, удостоверьтесь, что вы имеете свежую версию pine. До недавнего времени эта программа имела различные проблемы с русским кодировками.

Дополнение: Чтобы настроить перекодировку win в koi в pine в .pinerc следует прописать нечто вроде (это можно сделать и из самого pine):

  display-filters=_CHARSET(iso8859-5)_ /usr/local/bin/icat,
          _CHARSET(utf-8)_ /usr/local/bin/ucat,
          _CHARSET(windows-1251)_ /usr/local/bin/wcat

Вместо icat, wcat и ucat можно написать, скажем, iconv -from что-надо -to что-надо, или recode. Главное — писать с полным путем, а то у нее паранойя (и это правильно).

mutt

Добавьте следующую запись в ваш ~/.muttrc:

set charset=charset=utf-8
set allow_8bit

Эта программа автоматически перекодирует получаемые письма, если они написаны не в стандартной кодировке. Кроме того, она умеет перекодировать отправляемые письма, если вы используете кодировку, отличную от стандартной для электронной почты в вашей стране — если вы хотите воспользоваться этой особенностью, то укажите это в ~/.muttrc.

Например, если вы живете в России и используете cp1251, то, чтобы ваши письма отправлялись в KOI8-R, поместите следующие три строки в ~/.muttrc:

set charset=windows-1251
set send_charset=charset=utf-8
set allow_8bit

Если версия sendmail старше 8, то, вероятно, в ~/.muttrc следует добавить директиву:

set use_8bitmime

В «природе»  существует несколько программ рассылки электронной почты (MTA), доступных для вас. Это sendmail, qmail, smail, exim, и так далее.

sendmail

Начиная с версии 8, sendmail по умолчанию правильно обрабатывает 8ми битные данные. Если этого не происходит — проверьте опцию EightBitMode и опцию 7 в разделе mailers в вашем файле /etc/sendmail.cf. Подробнее смотрите руководство «Sendmail. Operation and Installation Guide».

В данный момент sendmail больше не откусывает 8-мой бит. Однако он может закодировать 8-ми битные данные с помощью специального base64 формата кодировки. Хотя большинство программ чтения электронных сообщений распознают и декодируют подобные сообщения обратно в 8ми битный текст, вы, вероятно, хотите посылать просто текст и быть уверенным, что все работает нормально.

Другие программы рассылки электронной почты

Я немного знаю о других программах рассылки почты. Если вы что-то знаете, что может быть важно для настройки кириллицы, то пожалуйста, сообщите мне.

Читать новостные группы можно с помощью Emacs (раздел Emacs и XEmacs) или pine (раздел pine), но лучше воспользоваться специализированными программами — такими как tin.

tin

Если ваш tin работает, то есть вы можете читать/вводить кириллицу, то лучше ничего не менять, если же у вас возникают проблемы, то выполните следующие действия:

Про mime: Так нужен или не нужен mime?

Сергей Дубров:В news-ах — скорее нет, чем да — с mime проблем больше, с тем же «сабжектом». Пишите себе в KOI8-R, без mime — вас поймут. А вот в e-mail лучше mime все-таки использовать.

Отличие utf-8 и windows 1251

В начале 90-х, когда произошел развал СССР и границы России были открыты, к нам стали поступать программные продукты западного производства. Естественно, все они были англоязычными. В это же время начинает развиваться Интернет. Остро встала проблема русификации ресурсов и программ. Тогда и была придумана русская кодировка Windows 1251. Она позволяет корректно отображать буквы славянских алфавитов:

  • русского;
  • украинского;
  • белорусского;
  • сербского;
  • болгарского;
  • македонского.

Разработка велась русским представительством Microsoft совместно с и «Параграф». За основу были взяты самописные разработки, которые в 1990-91гг имели хождение среди немногочисленных идеологов ИТ в России.

На сегодняшний день разработан более универсальный способ кодировать символы — UTF-8 (Юникод). В нем представлено почти 90% всех программных и веб-ресурсов. Windows 1251 применяется в 1,6% случаев. (Информация по исследованиям Web Technology Surveys)

Чем отличаются utf-8 и windows 1251

UTF-8 — это много-байтовая кодировка, а Windows- 1251 однобайтовая. И более того, отличие только в кириллице.

Количество байтов кириллицы в UTF-8 будет в 2 раза больше, чем 1). латиницы в UTF-8 и 2). латиницы + кириллицы в Windows- 1251 → пример

Главное отличие кодировок – это используемый набор символов. В UTF-8 гораздо больше количество символов возможно представить, чем в Windows- 1251. Кодировка Windows- 1251 однобайтовая, т.е. представить в ней можно только 255 символов. Для кириллицы, впрочем, этого вполне достаточно, именно поэтому однобайтовые кодировки до сих пор так массово применяются.

Оглавление

  • Интернет: две
    основные кодировки кириллицы для пользователя MS Windows
  • Микрософтовские
    шрифты с кириллицей,
    включённые
    в поставку MS Windows
  • Бесплатные не-Микрософтовские
    , старые (сделанные для Windows 3.1) кириллические шрифты
  • Программы-перекодировщики: из одной кодировки в другую
  • Интернет: 2 основные кодировки кириллицы для пользователя MS Windows

    Итак, Вы работаете под MS Windows и хотите работать с русскими сайтами в Интернете или же просто читать/писать по-русски в редакторе.
    Авторы кириллических сайтов Интернета используют разные

    методы представления алфавита, используют разные
    кодировки
    кириллицы.

    Кодировка определяет числовой код

    , присваиваемый каждому элементу набора символов. Скажем, букве
    ‘л’
    присвоены разные коды в различных кодировках кириллицы, например:

      219
      в кодировке ISO-8859-5 (используется для русского на некоторых UNIX-машинах, а также, например, в странах бывшей Югославии)
    • 235
      в кодировке Windows-1251 (используется в странах бывшего СССР для русских, украинских, белорусских и т.п. текстов, а также в Болгарии и странах бывшей Югославии)
    • 204
      в кодировке KOI8-R (используется для русских текстов)
    • 171
      в кодировке DOS-866 (используется в сети Fido7 и на компьютерах с OS/2)

    Кодировка тесно связана со шрифтами — шрифт обычно делается под конкретную кодировку, то есть, например в шрифте кодировки KOI8-R позиция 204

    отведена под
    ‘л’
    . В шрифте кодировки Windows-1251 буква
    ‘л’
    находится совсем на другой позиции (
    235
    ), а
    204
    отведена под букву
    ‘М’
    . Поэтому текст, набранный в кодировке KOI8-R будет нечитабельным, если для его просмотра в редакторе использовать шрифт кодировки Windows-1251 — вместо
    ‘л’
    будет высвечиваться
    ‘М’
    и т.д.

    То есть, кодировки кириллицы несовместимы между собой (так исторически сложилось).

    А вот у букв английского алфавита — противоположная ситуация: английские буквы, а также цифры, знаки препинания, кавычки и т.п. — так называемый набор ASCII — присутствуют в каждой
    из ‘старых’ кодировок мира (новая кодировка Unicode немного по-другому устроена) — кириллических, японских, китайских, … и в каждой из этих кодировок им присвоено одно и то же значение, то есть в
    любой
    такой кодировке (а, значит, и в любом шрифте):

    • английская ‘r’ — код 114
    • цифра 5 — код 53
    • двоеточие — 58

    Поэтому английское слово ‘dog’ будет нормально читаться, какой бы шрифт не был выбран в редакторе — хоть японский, хоть русский.

    Это был маленький кусок ‘теории’, а теперь — к практике.

    Русскоговорящий пользователь MS Windows

    обычно сталкивается в Интернете с
    двумя
    кодировками кириллицы:

    • Windows-1251
      В меню выбора кодировки в браузерах это выглядит обычно как «Cyrillic(Windows)» или «Cyrillic(Windows-1251)»
    • KOI8-R
      В меню выбора кодировки в браузерах это выглядит обычно как «Cyrillic(KOI8-R)»

    Примечание. В не

    -Интернетовских приложениях MS Windows — таких как, например, текстовые редакторы или программы MS Office, используется в настоящее время только
    одна
    кодировка кириллицы -Windows-1251. Фирма Микрософт выбрала именно эту кодировку для платформы MS Windows, и поэтому когда Вы видите
    ‘Cyrillic’
    в меню выбора скрипта для шрифта или
    ‘Russian’
    в меню выбора клавиатурной раскладки, то на самом деле там подразумевается ‘кодировка Windows-1251’, то есть надо понимать как «Cyrillic, Windows-1251» и «Russian, Windows-1251» соответственно.

    Все Микрософтовские шрифты, содержащие кириллицу («Arial», «Times New Roman», …) поддерживают именно кодировку Windows-1251, и клавиатурные раскладки Микрософт обеспечивает только для кодировки Windows-1251.

    Современные Интернетовские приложения — браузеры, почтовые и новостные программы, такие, как MS Internet Explorer, Outlook Express, MS Outlook 2000, Netscape вер. 4 и выше, Mozilla, и др.. —не

    требуют наличия KOI8-R
    шрифтов
    , они и без этого умеют обрабатывать KOI8-R тексты (Web-страницы, e-mail, …). Как? Пояснения будут даны ниже, в следующем разделе, посвящённом KOI8-R.

    Старые системы (например, Windows 3.1/3.11) и старые программы (например, Netscape 3
    ) требовали от пользователя установки KOI8-R шрифтов. Некоторые программы и сейчас требуют KOI8-R шрифты для работы с KOI8-R текстом, но таких программ мало, и они не относятся к разряду часто используемых. Это некоторые терминальные программы и т.п.

    У меня на данной странице предлагается сгрузить KOI8-R шрифты для таких старых систем и/или старых или специфических программ, но я поместил эту информацию в самый конец страницы, так как она редко

    кому нужна. Это раздел данной страницы, который называется «Бесплатные
    не-Микрософтовские
    , старые (от Windows 3.1) кириллические шрифты»

    Зачем пользователю Windows знать про кодировку KOI8-R? Почему такому пользователю не нужны KOI8-Rшрифты?

    Кодировка KOI8-R, так же, как и другие кириллические кодировки, используется для представления русских текстов, например, на Интернетовской странице, но её основное предназначение — быть сетевой, транспортной

    кодировкой, каковой она и является де-факто с самых ранних дней Интернета. Ведь разные компьютеры используют разные
    локальные
    (т.е. только для данной платформы) кодировки для русского:

      MS Windows — «Windows-1251»
    • OS/2 и DOS (что включает сеть FIDO7) — «CP-866»
    • UNIX — «ISO-8859-5» (в России — чаще KOI8-R)
    • Apple Macintosh — «Mac Cyrillic»

    К сожалению, все эти кодировки несовместимы
    между собой, по-разному кодируют русские буквы. Так исторически сложилось, тут уж ничего не поделаешь. То есть, пользователь Макинтоша
    не
    сможет вот так просто прочесть русский в файле, если текст там — в кодировке «Windows-1251», нужно использовать спец. средства, конвертеры, и т.п. То же самое — для пользователя Windows, если ему дать текст в кодировке «Mac Cyrillic».

    Как же тогда всем этим разным

    (в плане кодировок) компьютерам обмениваться русскими сообщениями через Интернет? Используется общая для всех,
    транспортная, сетевая
    кодировка KOI8-R, которую понимают все компьютеры. То есть, большинство Интернетовских программ с самого начала поддержки русского ‘знали’, что приходящие и уходящие сообщения — в KOI8-R, и скажем, почтовой программе под Макинтошем не надо было уметь обрабатывать все многочисленные русские кодировки, достаточно было своей локальной и KOI8-R в качестве ‘транспортной’.

    Если все эти разные компьютеры стали бы слать в Интернет русские сообщения в локальной

    кодировке (из-под Windows — в Windows-1251, из-под Mac — в «Mac Cyrillic», и т.д.), то ситуация была бы непростая

    Самый простой пример — новостные конференции, Newsgroups. В дискуссии в такой конференции могут участвовать пользователи различных систем — Mac, Windows, Unix. Тогда просто напрашивается правило использования некой общей для всех кодировки сообщений, чтобы на любой платформе читалось. Исторически такой кодировкой стала KOI8-R. А представьте теперь, что так не произошло, и в некой конкретной дискуссии в русской конференции, где тема дискуссии тоже русская, люди бы стали отвечать каждый в кодировке своей платформы: одно сообщение — от пользователя Unix, ответ — от пользователя Макинтоша, ответ ему — от пользователя OS/2 или Windows. Ничего прочесть было бы нельзя…

    Поэтому в большинстве русских новостных конференций все посылают сообщения в KOI8-R, на какой бы платформе ни работали. Естественно, если это узко-специальная конференция, где пользователи — только с одной платформы, например, Windows, то тогда они могут договориться и посылать в кодировке «Windows-1251″… Но, кстати, даже в конференциях иерархии microsoft.public.ru.russian.*

    (microsoft.public.ru.russian.windowsxp и др.) всё-таки все пользуются KOI8-R

    То же самое для e-mail — большинство писем ‘путешествует’ по сети в виде KOI8-R текстов, и опять же, если группа друзей (все — под Windows) решила для себя, что будут посылать e-mail в кодировке Windows-1251, то это понятно и нормально.

    То есть, KOI8-R

    это де-факто стандарт для обмена русскими сообщениями в Интернете, это
    сетевая, транспортная
    кодировка для русского, в то время как на каждом типе компьютеров используется
    локальная
    кодировка для русского. Одна из таких
    локальных
    кодировок — «Windows-1251», это то, что используется для русского под
    MS Windows
    .

    Кодировка KOI8-R и Интернетовские программы под MS Windows

    Пользователь MS Windows должен иметь возможность работать с текстами в кодировке KOI8-R, а не только с текстами в ‘родной’ для Windows кодировки Windows-1251:

    • некоторые русские Web-страницы
      — в кодировке KOI8-R. То есть, браузер должен уметь показывать KOI8-R текст. Кроме того, такие страницы иногда содержат
      формы
      ввода текста, то есть, там предполагается вводKOI8-R текста в дополнение к выводу KOI8-R на экран.
    • e-mail
      . Часто нужно и отсылать и получать KOI8-R письма по электронной почте
    • Русскоязычные новостные конференции — Usenet Newsgroups
      (Discussion Groups) — часто используют KOI8-R, то есть, KOI8-R используется и при отсылке и при высвечивании сообщений.

    Если у Вас старая

    программа типа Netscape
    3
    , то для работы с KOI8-R в указанных выше ситуациях, Вам придётся установить KOI8-R
    шрифты
    (они предлагаются ниже на данной странице) и, если надо не только читать, но и писать, то придётся установить
    клавиатурные
    средства для KOI8-R (они предлагаются в разделе Клавиатура моего сайта).

    Но в настоящее время при современных

    программах, этого
    не
    требуется! То есть,
    не
    нужно ни KOI8-R шрифтов, ни KOI8-R клавиатуры. Более того, современные программы просто не могут работать с KOI8-R шрифтами. Подробности — ниже.

    Современные Интернетовские программы (браузеры, почтовые и новостные), такие как

    • Internet Explorer
    • Outlook Express
    • MS Outlook вер. 2000 и выше
    • Netscape вер. 4 и выше и его Почтовый (Mail) и Новостной (News) компоненты
    • Мозилла и её Почтовый (Mail) и Новостной (News) компоненты

    позволяют Вам работать только с ‘родными’, локальными для MS Windows шрифтами и клавиатурными средствами — кодировки Windows-1251 («Cyrillic(Windows)»), даже если надо читать KOI8-R тексты и/или писать в KOI8-R.
    Современные программы позволяют, например, чтобы письмо ушло в Интернет

    в сетевой, транспортной кодировке KOI8-R, а вот
    создавали
    Вы его с помощью Windows-1251 шрифтов и обычной Windows-1251 клавиатуры.

    Как эти современные программы это делают? Они, незаметно для пользователя, перекодируют

    тексты между KOI8-R и Windows-1251:

    • чтение
      KOI8-R текстов Эти программы сначала конвертируют KOI8-R текст в Windows-1251 текст, а уж потом показывают Вам полученный Windows-1251текст — используя ‘родные’ для Windows шрифты кодировки Windows-1251 типа «Arial» или «Courier New».

      Это делается, например, в следующих случаях:

      когда надо показать KOI8-R
      Web-страницу

    • когда надо показать пришедшее письмо (e-mail
      ), если оно путешествовало в Интернете в виде текста сетевой, транспортной кодировки KOI8-R
    • когда надо показать статью в новостной конференции (Newsgroup
      , (Discussion Group)) (напомню, что большинство русских Newsgroups используют KOI8-R как ‘общую для всех платформ’ кодировку, то есть это KOI8-R тексты)
  • Когда нужно писать
    в KOI8-R, то есть, создавать KOI8-R текст. Эти программы сначала дают Вам вводить текст, использую ‘родные’ для MS Windows шрифты и клавиатурные средства кодировки Windows-1251 — точно так же, как Вы, скажем, в MS Word вводите текст. Потом, когда ввод окончен, эти программы незаметно для Вас конвертируют введённый текст в KOI8-R текст!

    Например:

      Вы готовите письмо (e-mail
      ) или сообщение в новостную конференцию (Newsgroup) и хотите, чтобы
      в Интернет Ваш текст ушёл
      в кодировке KOI8-R, как большинство делает.

      Современные программы дают Вам ввести текст, используя обычные (не KOI8-R), шрифты и клавиатурные средства для русского, а потом перекодируют введённый текст в KOI8-Rперед тем

      , как послать Ваше сообщение в Интернет — чтобы оно путешествовало в Интернете в виде текста сетевой, транспортной кодировки KOI8-R.

      Естественно, чтобы программа так

      работала,
      Вы
      должны ей указать, что хотите именно в KOI8-R отправить, т.е. в меню надо выбрать эту кодировку.

  • Ввод текста в форму
    на KOI8-R Web-странице. То же самое — Вы вводите текст, используя обычные шрифты и клавиатурные средства для русского MS Windows, и только когда нажмёте кнопку для отсылки введённого, вот тогда браузер, зная, что страница — в кодировке KOI8-R, перекодирует введённый текст в KOI8-R и только потом текст уйдёт из браузера.

Все упомянутые выше программы должны быть настроены на русский

, чтобы так работать. Настройка на русский для Internet Explorer, Outlook Express, MS Outlook вер. 2000 и выше, и для Netscape/Mozilla с их почтовыми (Mail) и новостными (News) компонентами описана в разделе
«Русский в браузерах, Почтовых, Новостных программах»
моего сайта. Но его следует читать только
после
того, как Вы закончите чтение данной страницы о русских шрифтах и кодировках.

Другие программы, не
упомянутые выше (другие e-mail программы; графические программы, музыкальные, и т.п.) требуют своей собственной, уникальной настройки на русский. Я лично пробовал и знаю только программы, упомянутые в предыдущих параграфах, так что если Вам надо настроить на русский WinAmp, Eudora или что ещё — смотрите
ссылки на сайты других авторов
в разделе
«Ещё о русификации. Вопросы и Ответы, ссылки
«
моего сайта.

Web и два типа шрифтов

В общем, не углубляясь в детали, в Интернете используются 2

метода показа
текста
на экране:

  • Гипертекстовые
    страницы — обычные страницы, HTML и т.п. Например, страница поискового сервиса Yandex -https://www.yandex.ru/
    index.html
    .
  • Простой Текст
    — например, экран, показывающий
    каталог
    на FTP-сайте антивирусной программы McAfee -ftp://ftp.nai.com/pub/datfiles/english/ или экран, показывающий
    содержимое
    некоего
    простого текстового
    файла в таком каталоге, например, файла readme.
    txt
    : ftp://ftp.nai.com/pub/datfiles/english/readme.
    txt

Каждый из этих 2-х типов экранов использует свой собственный стиль шрифта в браузере:

К Оглавлению

Микрософтовские Windows-1251 шрифты, включённые в Windows

В следующей главке предлагаются для загрузки старые (сделанные для Windows 3.1)не-Микрософтовские кириллические шрифты — и для кодировки KOI8-R, и для кодировки Windows-1251.

Но, как писалось выше, Микрософт использует для кириллицы в своих продуктах как раз кодировку Windows-1251 («Cyrillic(Windows)»). В терминологии Операционных Систем это Code Page 1251

— «Кодовая Страница 1251», поэтому часто можно видеть фразы типа «шрифты CP-1251», где CP — от
C
ode
P
age.

То есть, когда в диалогах Windows Вы видите «Cyrillic», то это на самом деле означает «Cyrillic, CP-1251

«.

Поэтому в 99% случаев нет никакого смысла загружать из Интернета некие не-Микрософтовские русские шрифты кодировки Windows-1251, т.к. в Windows уже включены такие шрифты, а кроме того, качество Микрософтовских шрифтов обычно намного лучше. Более того, большинство современных

приложений просто-напросто не могут работать с такими старыми не-Микрософтовскими шрифтами, а работают с современными юникодовыми шрифтами, включёнными в Windows, такими, как «Arial» и др. (Точно так же в 99% случаев нет смысла загружать из Интернета KOI8-Rшрифты — как было описано выше, современные программы с ними не работают, они обрабатывают KOI8-R тексты без этого.)

Какие же из стандартных шрифтов Windows включают кириллицу? Обычно это многоязычные шрифты «Arial», «Times New Roman», и «Courier New», а часто ещё и «Verdana», «Tahoma», и др.

Кириллица есть в таких стандартных шрифтах Windows даже если сама Windows не русская, а обычная английская (немецкая, …). (для совсем старых версий Windows — 3.1/3.11

— это не так, в то время для английской версии надо было доставать откуда-то русские шрифты типа тех, что предлагаются в следующей главке — они и сделаны были как раз для Windows
3.1
)

Ниже приводится процедура проверки наличия русских Windows-1251 шрифтов в составе Windows 95/98/ME/NT 4.0/2000/XP/2003/Vista и их активации

, если это требуется

1. Русская (локализованная) версия MS Windows

Пользователи такой системы конечно имеют кириллицу в стандартных шрифтах Windows (как и пользователи Пан-Европейской

Windows 95).

Для проверки вызовите редактор Wordpad (Start/Programs/Accessories/Wordpad) и увидите, что стандартные шрифты поддерживают кириллицу

в дополнение к другим скриптам, таким, как «Western», например:

  • Пропорциональные шрифты (Proportional fonts) — «Arial (Cyrillic)», «Times New Roman (Cyrillic)»
  • Равноширокий шрифт (Fixed font) — «Courier New (Cyrillic)»

2. Windows 95/98/ME

Пользователи английской

(и инсталлированной как английская) или другой нерусской версии Windows
95/98/MEизначально
не имеют кириллицы в стандартных шрифтах. Чтобы активировать поддержку кириллицы в стандартных шрифтах,
требуется
запустить Микрософтовский пакет многоязычной поддержки -«
MS Multilanguage Support
» — что делается обычно через Control Panel. (при этом заодно и
клавиатурные
файлы для русского появляются).

Вот моя короткая инструкция по этому пакету: «Поддержка кириллицы в Windows 95/98/ME — MS Multilanguage Support».

3. Windows NT 4.0/2000/XP/2003/Vista

Пользователи английской

(и инсталлированной как английская) или другой нерусской версии Windows
NT 4.0/2000/XP/2003/Vista
уже имеют кириллицу в стандартных шрифтах!

Это легко проверить, вот пара способов:

  • Если есть доступ к Интернету, пойти на русский сайт, например, «Поисковая система Яндекс» и убедиться, что русский текст читается, то есть шрифты типа «Arial» или «Times News Roman» — стандартные Микрософтовские, те, что браузер использует для показа, содержат кириллицу, а иначе бы сайт не читался.
  • Вызовите редактор Wordpad (Start/Programs/Accessories/Wordpad) и увидите, что стандартные шрифты поддерживают кириллицу
    в дополнение к другим скриптам, таким, как «Western», например: Пропорциональные шрифты (Proportional fonts) — «Arial (Cyrillic)», «Times New Roman (Cyrillic)»
  • Равноширокий шрифт (Fixed font) — «Courier New (Cyrillic)»

Важное замечание — только для Windows 2000:

Хотя шрифты кодировки Windows-1251изначально

активны под Windows 2000, эта версия Windows, в отличие от Windows NT 4.0 и Windows XP/2003/Vista, требует
дополнительного
шага активации кириллицы. Этот шаг обеспечивает
полную
поддержку кириллицы, например, активирует таблицы перекодировки между разными кириллическими кодировками, копирует файлы клавиатурной раскладки для языков, которые кириллицу используют и т.п. Итак, пользователь Windows 2000
обязан
сделать следующее (что не требуется под Windows NT 4.0 и Windows XP/2003/Vista):

  1. Start / Settings / Control Panel
  2. Щёлкнуть на иконку-глобус Regional Options
  3. В окне Regional Options, в разделе General
    , нижняя часть экрана отведена под пользовательские языковые установки —
    Language Settings for the System
    .
  4. Найдите там строку «Cyrillic» и если слева не стоит ‘галка’, то поставьте её и нажмите кнопку Apply
    . Система попросит вставить инсталялционный CD-ROM Windows 2000 и начнёт установку пакета поддержки кириллицы.

Выше было описано, как активировать поддержку кириллицы (кодировки Windows-1251) в стандартных Микрософтовских шрифтах Windows 95/98/ME/NT 4.0/2000/XP/2003/Vista.

Итак, если в Вашей

версии MS Windows теперь:

  • кириллица есть в стандартных шрифтах типа «Arial» и
  • Вам не
    нужны шрифты кодировку
    KOI8-R
    (то есть, как было описано выше, Вы работаете с
    современными
    Интернетовскими программами, которые дают работать с KOI8-R текстами,
    не
    требуя KOI8-R шрифтов и клавиатуры; или же Вы вообще не работаете с русским в Интернете, только в редакторах типа MS Word)

то Вам не
надо дальше читать данную страницу, т.к. ниже — информация для тех, у кого
старые
Интернетовские программы, например, Netscape
3
и/или старая Windows — версии 3.1/3.11: там описано, как пользоваться (например, в Netscape 3 и/или под Windows 3.1)
не
-Микрософтовскими шрифтами типа «ER Bukinist»и/или шрифтами KOI8-R. Ни те, ни другие шрифты просто-напросто не работают в современных программх типа Internet Explorer, Outlook Express, Mozilla, и т.д. поэтому пользователям таких программ и не надо дальше эту страницу читать. (Современные программы работают с современными, юникодовыми шрифтами типа «Arial»).

К Оглавлению

Старые не-Микрософтовские кириллические шрифты

Как загрузить эти шрифты с моего сайта

Ниже Вы найдёте ссылку для загрузки старых не-Микрософтовских шрифтов — несколько Windows-1251

шрифтов и несколько
KOI8-R
шрифтов, которые я в своё время нашёл в Интернете и протестировал на пригодность работы, а также их детальное описание. Но такие шрифты нужны в настоящее время
только
в исключительных случаях:

Важно!

Как объяснялось в конце предыдущей главки, Вам могут потребоваться такие старые (сделанные для Windows 3.1) шрифты
только
в следующих
нестандартных
ситуациях (
большинству
пользователей такие шрифты не нужны):

  • Вы работаете с очень старыми версиями Windows -Windows 3.1/3.11
    или
  • Вам нужны шрифты кодировки KOI8-R
    . Как было объяснено в начале данной страницы, Вам требуются шрифты KOI8-R
    только
    если Вы работаете с некой несовременной Интернетовской программой, например, Netscape версии
    3
    . Редкий случай! Современные программы, как было описано выше,
    не
    нуждаются в KOI8-R шрифтах при обработке текстов кодировки KOI8-R (и не могут работать с такими шрифтами).

Ниже на данной странице — инструкции только для такой, нестандартной

ситуации, как одна из описанных выше. Поэтому если это не Ваш случай, то данная страница закончена, дальше читать не надо.

Все предлагаемые старые шрифты позволяют Вам читать на Web-странице одновременно и русский, и английский текст.

Вам надо создать каталог(directory,folder

), куда Вы будете загружать из Интернета (
download
) файл со шрифтами, например, каталог
C:\RUSFONTS
.

Я собрал все найденные шрифты в один файл(архив) —ForWWW.

zip. Чтобы загрузить этот файл, просто щёлкните мышкой на подчеркнутом имени файла ниже, и Ваш браузер предложит Вам
Сохранить Файл на диске
(
SAVE FILE
диалог). Там Вы должны будете указать на каталог, созданный Вами для хранения русских шрифтов —
C:\RUSFONTS
.

ПРИМЕЧАНИЕ :
Если вместо предложения «
Сохранить Файл
» Ваш браузер пытается
показать содержимое
этого файла на экране (редко, но бывает), тогда попробуйте загрузить этот файл снова, но при этом нажмите и держите клавишу
SHIFT
в то время, когда Вы щелкаете мышкой на подчеркнутом имени файла.

Вот она, ссылка для загрузки:

файл ForWWW.zip

После записи этого файла-архива на Ваш компьютер, Вам надо раз-архивировать

, извлечь шрифты, хранящиеся в нём —
extract files
.

Для этого Вы можете использовать программу WinZip for Windows, если она у Вас есть, ИЛИ

простую MS DOS программу
pkunzip
. Если у Вас нет программы
pkunzip
, тогда загрузите ее, щёлкнув мышкой на подчеркнутом имени файла -pkunzip.exe, в каталог
C:\WINDOWS
(
C:\WinNT
в NT 4.0/2000) на Вашем компьютере.

Чтобы извлечь файлы из архива с помощью программы pkunzip

, выполните следующие 2 команды MS DOS(первая из них — переход в нужный каталог, вторая — собственно открытие архива):
C:\……..> cd \RUSFONTS C:\RUSFONTS> pkunzip forwww.zip Эти команды можно ввести и будучи в MS Windows — надо открыть окно-приложение MS-DOS Prompt
:

  • в Windows 3.1, 3.11 это иконка «MS-DOS Prompt» в группе Main
  • в Windows 95/98/ME — Start / Programs / MS-DOS Prompt
  • в Windows NT 4.0 — Start / Programs / Command Prompt
  • в Windows 2000/XP/2003/Vista — Start / Programs / Accessories / Command Prompt
Краткое описание загруженных шрифтов

ПРИМЕЧАНИЕ :
Я собрал в файл ForWWW.zip такие шрифты, которые точно работают в старых версиях Netscape — вер. 2,3 — под всеми вариациями Windows. Если же Вы где-то нашли
другую
версию того же самого шрифта, то он может неверно работать с Netscape 2,3 или с какой-то из версий Windows (например, Windows NT 4.0).

Напоминаю, что при работе со старым

браузером типа Netscape 3 Вам необходимо установить как минимум
4
русских шрифта:

  • Proportional и Fixed шрифты для кодировки KOI8-R
  • Proportional и Fixed шрифты для кодировки CP-1251(Windows)
    («Windows-1251»)

(как было описано выше на данной странице, современные
браузеры
не
нуждаются в KOI8-R шрифтах, работают
только
с Windows-1251 шрифтами)

а)

Шрифты кодировки
KOI8-R
:

  • ‘ER Bukinist KOI-8 Normal’
    Proportional(Пропорциональный) шрифт — файл
    bkkoi8n.TTF
    — датирован 20.12.95
  • ‘ROL:KOI8-Courier’
    Fixed(Равноширокий) шрифт — файл
    rolk8c1.TTF
    — датирован 27.02.97.

    Примечание.
    Под Windows
    NT 4.0
    — версии
    до
    Service Pack 3 — шрифт
    ‘ROL:KOI8-Courier’
    работает с ошибкой при показе
    списков
    , как например, на странице поиска Yahoo!. Поэтому в
    этих
    версиях
    NT
    надо использовать другой Fixed KOI8-R шрифт:

    ‘ER Kurier KOI-8 Normal’

    Fixed(Равноширокий) шрифт — файл
    cokoi8n.TTF
    — датирован 15.11.95

б)

Шрифты кодировки
CP-1251(Windows)
:

  • ‘ER Bukinist 1251’
    Proportional(Пропорциональный) шрифт — файл
    bk1251n.TTF
    — датирован 05.03.95
  • ‘ER Kurier 1251’
    Fixed(Равноширокий) шрифт — файл
    co1251n.TTF
    — датирован 17.09.95

К Оглавлению

Что такое кодировка windows 1251

Windows-1251 – набор символов и кодировка, являющаяся стандартной 8-битной кодировкой для всех русских версий Microsoft Windows. Пользуется довольно большой популярностью. Windows-1251 выгодно отличается от других 8‑битных кириллических кодировок (таких как CP866, KOI8-R и ISO 8859-5) наличием практически всех символов, использующихся в русской типографике для обычного текста; она также содержит все символы для близких к русскому языку языков: украинского, белорусского, сербского и болгарского.

Что такое кодировка UTF-8

UTF-8 – в настоящее время распространённая кодировка, реализующая представление Юникода, совместимое с 8-битным кодированием текста. Нашла широкое применение в операционных системах и веб-пространстве. Текст, состоящий только из символов Юникода с номерами меньше 128, при записи в UTF-8 превращается в обычный текст ASCII. Остальные символы Юникода изображаются последовательностями длиной от 2 до 6 байт.

Символ в кодировке UTF-8 может кодироваться аж 6 байтами (пока используется только 4 и больше не планируется). Для русского языка, например, символ занимает 2 байта. Все символы, которые есть в таблице символов – поддерживаются этой кодировкой. К примеру, если вам нужен знак копирайта (©), то вам не нужно искать особый шрифт или же изображать символов в графическом формате.

Скопировать ссылку

Решения проблемы с кодировкой в CMD. 2 Способ.

Теперь рассмотрим ещё одну ситуацию, когда могут возникнуть проблемы с кодировкой в CMD.

Допустим, ситуация требует сохранить результат выполнения той или иной команды в обычный «TXT» файл. В приделах этого поста возьмём для примера команду «HELP».

Задача

: Сохранить справку CMD в файл «HelpCMD.txt. Для этого создайте Bat файл и запишите в него следующие строки.

После выполнения Bat файла в корне диска «C:» появится файл «HelpCMD.txt» и вместо справки получится вот что:

Естественно, такой вариант не кому не понравится и что бы сохранить справку в понятном для человека виде, допишите в Bat файл строку.

Теперь содержимое кода будет такое.

После выполнения «Батника» результат будет такой:

The Cyrillic Charset Soup

The Cyrillic Charset Soup Несмотря на то, что ISO 8859 содержит стандарт Кодировка кириллицы, есть еще куча других кодировок кириллицы используется на компьютерах по всему миру. Эта страница пытается объяснить, почему это так, давая исторический обзор. Каждая кодировка проиллюстрирована с помощью растрового изображения GIF вместе с базовой таблицей сопоставления Unicode и Шрифт BDF (X / Unix).

Кириллица

Братья и православные славянские монахи Кирилл и Мефодий изобрел глаголицу в Македонии в 863 году как зашифрованный греческий алфавит с расширениями для особых славянских звуков.Их ученый Климент Охридский изобрел «кириллицу» позже, когда более читаемый преобразованный глаголический алфавит. В течение веками кириллица была распространена и преобразована, и она была модернизирована в ее нынешнюю романизированную форму (Гражданка) под Царь Петр Великий.

В настоящее время кириллица используется более чем на 70 языках. от славянских языков Восточной Европы русский (ру), украинский (uk), белорусский (be), болгарский (bg), сербский (sr) и македонский (mk) над алтайскими языками Средней Азии, такими как азербайджанский (az), туркменский (tk), Курдский (ку), узбекский (uz), казахский (kk), киргизский (ky) другим, таким как Таджикский (tg) и монгольский (mn).В вашей библиотеке может быть буклет «Альфавиты языков народов СССР» Кенесбая Мусаевича Мусаева, который был опубликовано в 1965 году.

С маленьким алфавитом без акцента русский и болгарский языки казались одинаково хорошо подходит для компьютерной обработки, как и английский.

Самая старая стандартизированная кириллическая компьютерная кодировка, которую я нашел (в Иоанна Clews ‘Language Automation Worldwide) — государственный стандарт ГОСТ 13052, 7-битная кодировка, кодирующая буквы русского языка. алфавит (который также удовлетворяет все болгарские потребности) на вершине соответствующие буквы ASCII противоположного регистр (чтобы распознать русский текст типа «РУССКИЙ ТЕКСТ» по его регистру, когда представлены в кодировке ASCII.Я буду называть это свойство соответствием KOI), пожертвовал пунктиром, чтобы уменьшить алфавит до 32 букв. поместился в два ряда и убрал редко используемый ЗАПИСНОЙ ЖЕСТКИЙ ЗНАК на предотвратить его столкновение с DELETE в позиции = 7F или EOF = -1:


charset = koi-0 [ТЕКСТ] [BDF]

Дело в том, что болгарский гораздо чаще использует ЗАГЛАВНЫЙ ЗНАК побудили некоторых болгар закодировать свой жесткий знак поверх ненужный русский YERY bI вместо этого.

В 1974 г. ГОСТ опубликовал еще один государственный стандарт ГОСТ 19768-74, с двумя кодировками, которые обе смешали латинский и кириллический алфавиты в одном наборе, сохранив Оригинальная идея корреспонденции KOI жива:

Первой была еще одна 7-битная кодировка под названием KOI-7 только с заглавной буквы. письма:


charset = koi-7 [ТЕКСТ] [BDF]

Вторая кодировка определена в ГОСТе. 19768-74 был знаменитый 8-битный Код для обмена и обработки Informacii (KOI-8), которая дала расшифровываемую Текст ASCII, когда был удален старший бит, и по праву может быть называется кириллица ASCII.Вот изображение его верхней части (G1):


кодировка = koi8-a [ТЕКСТ] [BDF]

KOI-8 использовался на многих сетевых Unix-хостах. Естественно, прижился знак доллара ASCII $ вместо знака международной валюты, хотя это не было политкорректно. Пунктирная (йо) добавлена ​​в столбец 3, поэтому что такие слова, как e (yeyo), больше не нужно писать без ударения ее.

Вернее, последний шаг не происходил, пока компания Demos не начала портировать Поддержка кириллицы для ОС Unix для ПК, таких как Xenix в конце 1980-х и разработал новую российскую кодовую страницу КОИ-8, которая позже стала известна как KOI8-R с пунктирной точкой в ​​позиции от первый проект DIS-6937-8 / DIS-8859-5 и все нерусские буквы вычищены и заменены блочной графикой.

Но многие поставщики шрифтов реализовали только подмножество букв. Позволь нам назовем его КОИ8-Б, это расширенная (большая) база КОИ-8, содержащая буквы (буквы) общие (баса) для всех современных вариантов КОИ-8:


кодировка = koi8-b [ТЕКСТ] [BDF]

В середине 1980-х годов ECMA комитет по разработке серии ISO-8859 и его кириллица ISO-8859-5 хотела сохранить совместимость с установлена ​​база десятилетнего стандарта КОИ-8 и элегантно добавлены отсутствующие украинский, белорусский, Сербские и македонские буквы в неиспользуемых кодовых точках.Их проект был опубликован как 1-е издание стандарта ECMA-113 в 1986 году и проект международного стандарта DIS-8859-5 в 1987 г. и был зарегистрирован с номером 111 в Международном реестре ISO наборов символов, которые будут использоваться с (ISO-2022) escape последовательности, отсюда и название ISO-IR-111 и псевдоним ECMA-кириллица:


кодировка = koi8-e [ТЕКСТ] [BDF]

ISO-IR-111 так и не был принят в качестве окончательного ISO-8859-5, потому что за это время ГОСТ пережил некоторую перестройку и объявил установленную базу и KOI соответствие менее важным и пересмотрело его стандарт 19768 года с 1974 по 1987 год в несовместимый новый ГОСТ 19768-87, в котором русские буквы перемещены на одну строку вверх и заказал их в родном русском словаре порядка (АБВГД) вместо порядка корреспонденции KOI (ABCDE):


кодировка = ГОСТ-19768-87 [ТЕКСТ] [BDF]

ECMA сразу же последовала за ГОСТом по совету советских экспертов, пересмотрев свои первые предложение и перестановка их ISO-IR-111 на позиции кода нового ГОСТ 19768-87.Дизайнеры не дошли до сортировки нерусские буквы в русский алфавит для обеспечения правильного порядок словаря для всех языков, как, например, в Стандарт ISO 9 (Транслитерация кириллицы). Пересмотренное предложение опубликовано как 2-е издание ECMA-113: 1988 (заменяющее исходное ECMA-113: 1986, который стал жить дальше (популярен благодаря сочетанию нерусских букв с КОИ-8 совместимость) под своим ником ECMA-Cyrillic (хотя ECMA ссылается на вы переходите к ISO-8859-5 сейчас) или ISO-IR-111) и приняли в ISO 8859 (несмотря на советское голосование против знак доллара) как окончательный ISO-8859-5 (ISO-IR-144) в 1988 году.Много люди, включая меня, считают, что это избавило бы нас от многих проблема, если исходный KOI8-совместимый DIS-8859-5: 1987 также был выбран ISO-8859-5: 1988. Сейчас мы имеют международный стандарт ISO-8859-5, который так нестандартен что его почти никто не любит и не использует:


кодировка = ISO-8859-5 [ТЕКСТ] [BDF]

после RFC 1341 (MIME) предложил использовать кириллицу ISO-8859-5 в электронной почте. общение, пока русский раздел Интернета (группы новостей relcom. *) все еще использовал KOI-8, Андрей Чернов отправился в опубликовать его RFC 1489 Регистрация набора символов кириллицы «КОИ8-Р» и установил KOI8-R как стандарт де-факто в Интернете.KOI8-R, который позже был также пронумерован как CP878, содержит пунктирный KOI8 плюс много графических персонажей:


кодировка = koi8-r [ТЕКСТ] [BDF]

Андрей Чернов предлагает много практической информации о КОИ8-Р. на его сайте.

Со всеми этими кодировками есть особая украинская проблема. Украинцы читают букву GHE со штрихом вниз как хе. Написать исправьте ghe им нужна украинская буква GHE С UPTURN, которая была был подавлен сталинскими чиновниками и восстановлен в 1990 году.

Можно злоупотребить акцентированным GHE (македонским GJE) в ISO-IR-111 или ISO-8859-5 для представления GHE WITH UPTURN, но это не похоже на быть предпочтительным вариантом. Украинцы, кажется, предпочитают кодировки, которые включить реальный GHE с UPTURN. GHE WITH UPTURN присутствует в Microsoft CP1251, Fingertip KOI8-Unified и, конечно же, Unicode. Тем не менее, эти варианты не казались близкими Достаточно KOI8-R, чтобы остановить украинских почтмейстеров от разработки новый КОИ8-У и его публикация как RFC2319 в Апрель 1998 г.КОИ8-У добавил только украинские буквы в позициях совместим с ISO-IR-111, используемым многими Украинцы и сохранили как можно больше фигурок-рисовальщиков, потому что многие пользователи в этой области все еще придерживаются MS-DOS. Потому что предпочтение, в нем отсутствуют короткое U с белорусским акцентом, сербское и Македонская поддержка:


кодировка = koi8-u [ТЕКСТ] [BDF]

Я предполагаю, что спецификация RFC2319 и RFC1489 пули KOI8-R как математическая U + 2219 BULLET OPERATOR — это ошибка, унаследованная от RFC1345 и должна быть исправлено на U + 2022 BULLET, как в собственных таблицах Келда Симонсена для IBM437 или KOI8-R.В целом обратите внимание, что RFC1345 и все, что на нем основано, например, GNU recode 3.4.1 содержал ряд ошибок, особенно в области кириллицы: его isoir111 больше похож на cp1251, чем на koi8. RFC2319 содержит дополнительная ошибка, которая кодирует Кириллическую ЗАГЛАВНУЮ БУКВУ UKRAINIAN IE как U + 0403 вместо U + 0404.

Питер Кассетта из Fingertip Программное обеспечение, которое также опубликовало красивую кириллицу ссылка на кодировку для его клиентов уже разработана и предложил другое решение: Его KOI8-Unified объединяет все ISO-IR-111 буквы с украинскими буквами КОИ8-У и базовая блочная графика KOI8-R и некоторые популярные символы из кодовых страниц Windows 1251 и 1252, уравновешивая различные потребности совместимости:


кодировка = koi8-f [ТЕКСТ] [BDF]

Вы можете использовать этот шрифт koi8-f для отображения всего текста koi8- * и всего буквы будут отображаться правильно, но некоторые из менее используемых изображений символы в koi8-r могут отображаться неправильно.

Еще один серьезный игрок на поле — WinCyrillic Windows от Microsoft. кодовая страница CP1251, для которой Microsoft зарегистрировала этикетку «Windows-1251», которая не должна быть ошибочно принят за предшественник сегодняшней Windows95 в 13 веке. По состоянию на В декабре 1997 года вас приветствует даже новый веб-сервер ГОСТ (Lotus Notes). с charset = WINDOWS-1251 — ГОСТ (Российская стандартизация органа и органа-члена ISO) не даже следуя собственным стандартам, любой более! CP1251 имеет богатый репертуар в порядке, не совместимом ни с ISO-IR-111 (KOI8), ни с ISO-8859-5:


кодировка = Windows-1251 [ТЕКСТ] [BDF]

MacUkrainian (= MacCyrillic + GHE WITH UPTURN) имеет те же буквы в еще одном порядке:


charset = MacУкраинский язык [ТЕКСТ] [BDF]

Более старой популярной кодировкой является вариант Альтернативный, охватываемый MS-DOS CP866:


кодировка = cp866 [ТЕКСТ] [BDF]

Болгарский Prawec 16 ПК и болгарский раскладка клавиатуры в Linux использует кодировку MIK:


кодировка = болгарский-мик [ТЕКСТ] [BDF]

Вы устали от этого множества кодировок без самый лучший? Хотели бы вы иметь одну хорошую кодировку, способную заменить все вышеперечисленное и везде примут? Не могли бы вы тоже любите писать неславянские кириллические языки? Вы получаете все это и многое другое с Unicode (ISO-10646), который просто кодирует все персонажи мира.

Это блок кириллицы U + 0400 в Unicode. Это следует по порядку ISO-8859-5:


кодировка = юникод-2-1 [ТЕКСТ] [BDF]

Ольга Лапко заявляет на страницах 175 и 179 блестящего выпуска TUGboat 17-2 (Труды Ежегодная встреча группы пользователей TeX в 1996 г. в Дубне, Россия), что около 100 В Unicode по-прежнему отсутствуют кириллические буквы. Большинство из них кажутся кодируются с комбинированием акцентов, а остальные могут быть добавлены с помощью процедуры, описанной в Приложение B, однако, отправка новых символов стандарта Unicode.

Каждая кириллическая буква кодируется двумя байтами в UTF-8. Стандартная схема сжатия для Unicode (SCSU) позволяет уменьшить это значение до традиционного — один байт на букву.

Я все еще пишу Unicode-HOWTO для Linux. Я добавил Cyrillic.kmap, злоупотребляющий ISO 9 транслитерация как метод ввода в текстовый редактор Yudit Unicode для X Window System.

Я призываю вас присылать свои комментарии по адресу [email protected]. я благодарю Кристофер Неханив, Андреас Прилоп, Питер Кассетта <пит @ кириллица.com>, Андрей Чернов, Кельд Симонсен, Борислав Стоянов, Гюнчо Скордев, Илья Винарский, Дима Володин, Кристиан Вайсгербер, Алена Кесси и Юрию Демченко за предоставленную ценную информацию.

Роман Чиборра
1998-05-25 .. 1998-11-30

Проект документации Linux


Информация о LDP
FAQ
Манифест / лицензия
История
Волонтеры / сотрудники
Должностные инструкции
Списки рассылки
IRC
Обратная связь

Автор / внесение вклада
Руководство для авторов LDP
Внесите свой вклад / Помогите
Ресурсы
Как отправить
Репозиторий GIT
Загрузок
Контакты

Спонсор сайта LDP
Мастерская

LDP Wiki : LDP Wiki — это отправная точка для любой незавершенной работы
Члены | Авторы | Посетители
Документы

HOWTO : тематическая справка
последние обновления | основной индекс | просматривать по категориям
Руководства : более длинные и подробные книги
последние обновления / основной индекс
Часто задаваемые вопросы : Часто задаваемые вопросы
последние обновления / основной индекс
страницы руководства : справка по отдельным командам (20060810)
Бюллетень Linux : Интернет-журнал
Поиск / Ресурсы

Ссылки
Поиск OMF
Объявления / Разное


Обновления документов
Ссылка на HOWTO, которые были недавно обновлены.

Кириллица (русская) в Gmail

Кириллица (русская) в Gmail

Кириллица в Gmail

1. Как на

отправить электронное письмо кириллицей (рус.) Из Gmail

Gmail предоставляет два варианта для отправки текстов не западноевропейского происхождения.
По умолчанию Gmail пытается «угадать» кодировку набранного вами текста. (это первый вариант), а затем отправляет ваше сообщение, используя эту кодировку.

Если я наберу русский текст, Gmail его разберет и подготовит исходящие. сообщение в русской кодировке «Кириллица (KOI8-R)».

Если я наберу русский и немного немецкий , Gmail тоже правильно решает, что кодировка должна быть Unicode (UTF-8).

Если вы не хотите полагаться на такие «догадки» или иметь с ними проблемы, то есть второй вариант — нажмите «Настройки» вверху слева. строку параметров и на этой странице перейдите к параметру «Кодировка исходящих сообщений» и выберите их 2-ю — просить Gmail использовать -всегда — кодировку UTF-8 для каждого сообщение, которое вы отправляете.

Сможет ли получатель прочитать такое русское письмо (где русский текст представлен как текст кодировки UTF-8, а не как текст какого-то русского кодировка) или нет, зависит от программного обеспечения, которое он использует.
Gmail формирует правильный системный заголовок со спецификацией кодировки:
. charset = utf-8

Современные программы электронной почты, такие как Outlook Express, Mozilla (Thunderbird), MS Outlook, прекрасно отображают такие входящие письма UTF-8.

Если получатель не использует почтовую программу , но использует современную веб-службу электронной почты, такую ​​как как Mail2web.com, то тоже должно быть хорошо -. Ему / ей просто нужно выбрать кодировку UTF-8 в меню браузера, чтобы прочитать такое входящее электронное письмо:

  • Internet Explorer — просмотр / кодировка / Unicode (UTF-8)
  • Mozilla / Firefox — Просмотр / Кодировка символов / Юникод (UTF-8)

2. Как

читать входящее письмо на кириллице (Россия) в Gmail

GMail работает с входящими русскими (польский, греческий и т. Д.).) письмо следующим образом:

он всегда использует кодировку UTF-8, то есть преобразует всех входящих сообщений электронной почты в UTF-8.

Следовательно:

  • нет смысла пытаться изменить кодировку в меню вашего браузера — либо русский читается сразу , либо не читается совсем.
  • Если электронное письмо было отправлено в GMail из современной программы Mail с правильным системным заголовком — заголовок MIME с указанной кодировкой, например как charset = windows-1251 для русской почты в кодировке «Кириллица, Windows-1251»,
    то GMail сразу отобразит читаемый русский текст :

    сначала, зная кодировку входящего электронного письма, Gmail преобразует текст в кодировку UTF-8 , то есть, используя приведенный выше пример, Gmail выполнит преобразование
    «Кириллица (Windows)» —> UTF-8

    а затем покажет текст на своей странице UTF-8.

  • Во всех остальных случаях (см. Ниже) письмо будет Нечитаемым, просто какая-то тарабарщина. Случаи могут быть:
      Электронное письмо
    1. было отправлено из Outlook Express, где отправитель НЕ менял настройки по умолчанию. Настройки по умолчанию (в Tools / Options / Send): «без MIME-заголовка, используйте Uuencode», то есть электронные письма отправляются без MIME-заголовка и, следовательно, НЕТ спецификации кодировки!
      (чтобы правильно настроить Outlook Express, Mozilla Mail или Thunderbitd, пожалуйста см. раздел этого сайта «Кириллица (русская) в браузерах / почте / новостях»

      Таким образом, Gmail получает электронное письмо с неизвестной кодировкой.Таким образом, Gmail предполагает, что кодировка является «западноевропейской» и выполняет — по русскому тексту! — преобразование в UTF-8 по схеме
      «Западноевропейский» —> UTF-8

      Очевидно, что портит всех букв кириллицы!

      Более того, поскольку теперь это текст UTF-8 на странице UTF-8, а не русская или, скажем, немецкая страница, тогда нет смысла пытаться изменить кодировку в меню браузера -UTF-8 текст будет , а не , почтовое сообщение останется нечитаемым.

    2. электронное письмо было отправлено не из реальной почтовой программы, а через Интернет. почтовый сервис, такой как Mail2Web.com.

      Такие услуги:

      • либо вообще не формируют MIME-заголовок, поэтому буквы , а не указывают свою кодировку, что фактически приводит к проблеме, описанной в (1) выше — нечитаемый текст

        или

      • , как и Mail2Web.com, сформируем неверный MIME-заголовок, всегда указав там «Западная» кодировка (iso-8859-1), даже если в письме есть русский, польский или греческий или любой другой текст.

        Тогда Gmail будет использовать — для русского текста — неправильное преобразование кодировки
        «Западноевропейский» —> UTF-8

        что также дает результат case (1) — нечитаемый текст.

Временное решение для нечитаемых сообщений электронной почты:

  • Откройте электронную почту на странице Gmail
  • Найдите «дополнительные параметры» стрелка в правом верхнем углу фрейма письма (рядом со словом «Ответить»)
  • щелкните по нему и выберите там «Текст сообщения искажен?»
  • Затем на этой специальной странице просмотра вы можете выбрать кодировку в меню вашего браузера, чтобы текст был читабельным, например, в Internet Explorer попробуйте View / Encoding / «Cyrillic (Windows)», и это не поможет, тогда попробуйте Кодировка KOI8-R.То есть пробуйте разные, пока не увидите читаемый текст.


Как разработать кириллическую HTML-страницу

Как разработать кириллическую HTML-страницу

Как разработать кириллическую HTML-страницу

На этой странице объясняется, как разработчик может создать файл .html с кириллическим текстом внутри.

Примечание. Английский алфавит как частный случай (отличный от, скажем, немецкого).
Кириллический набор символов, как и любой другой набор символов в мире (Японский, китайский, среднеевропейский и др.) Содержит, помимо национальной символики, набор символов называется ASCII — в каждой устаревшей кодировке символы ASCII занимают первые 128 позиций таблицы кодировок, а национальные буквы занимают вторую половину таблицы.

Символы ASCII (например, знаки препинания и т. Д.) включает также английский алфавит .
То есть английские буквы являются частью набора символов кириллицы!

Итак, наличие веб-страницы с русскими и английскими буквами не означает, что , а не , означает, что у вас есть многоязычная страница . Нет, на этой странице используется одна кодировка кириллицы, и эта кодировка содержит английский язык. буквы (точнее — символы ASCII).

Другой случай: настоящие многоязычные страницы , где, скажем, русские буквы должны сочетаться с немецкими буквы либо польские, либо японские.
Этот случай описан на другой странице моего сайта — «Как разработать многоязычную HTML страницу»

То есть эта статья — о создании кириллической (например, русской) веб-страницы, т.е. страница, которая объявляется как кириллица (указана кириллица).

Очень другой сценарий : когда вы хотите создать не кириллическую веб-страницу (например, Страница западноевропейской кодировки) и просто поместите туда пару русских слов —
он НЕ рассматривается здесь, он описан в другой статье , одна из которых упомянута выше —
«Как разработать многоязычную HTML-страницу »

Шрифт создан для определенной кодировки, и поскольку каждая кодировка содержит ASCII, каждый шрифт в мире также содержит ASCII.Итак, любой кириллический шрифт содержит английских букв.


Чтобы создать кириллический (или кириллица + английский) HTML-файл, то есть текст с одним набором символов, разработчик просто пишет немного кириллического (+ английского) текста при использовании кириллического шрифта и соответствующий режим клавиатуры.

Большинство русскоязычных веб-страниц (наверняка более 90%) в настоящее время выполнены в кодировке Windows-1251 a.k.а. «Кириллица (Windows)», просто потому, что большинство авторов в настоящее время работают под MS Windows, а 1251 — это то, что Microsoft использует для кириллицы, поэтому встроенные в Windows кириллица шрифты и клавиатура инструменты предназначены для кодирования Windows-1251.
Поэтому гораздо проще набрать текст в кодировке «Кириллица (Windows-1251)» в текстовом редакторе Windows. чем набирать текст в кодировке «Кириллица (KOI8-R)».
Набрать текст в кодировке «Кириллица, ISO-8859-5» под MS Windows практически невозможно.

Но на самом деле , а не , имеет значение, какую кодировку использовал автор — основные браузеры отлично работают с все кириллических кодировок, и если веб-страница сделана правильно (ниже), она будет отображаться конечному пользователю тоже правильно. Последняя часть этой страницы обсуждает создание страницы KOI8-R — на всякий случай.

Как написать по-русски с помощью шрифтов и клавиатуры — с индикатором «RU» на панели задач — объясняется в «Введение.Кириллица в Windows » раздел моего сайта «Кириллица (русская): инструкция для Windows и Интернета»

Если кириллица написана правильно, то конечный пользователь сможет прочитать эту страницу, например, переключившись на кириллицу в браузере (например, View / Encoding / Cyrillic (Windows) или Просмотр / Кодировка / Кириллица (KOI8-R) в Internet Explorer) если на странице не указана ее кодировка.

Примечание. Кириллица в странице НАЗВАНИЕ
Если вы или ваши будущие читатели работаете под нерусской Windows, то это , а не хорошая идея использовать кириллические буквы в заголовке вашей страницы
(текст внутри HTML-тегов и).

Например, MS Internet Explorer вер. 5 и выше (а также Netscape версии 7.1 и выше и Mozilla версии 1.4 и выше)
может отображать такой заголовок только под Windows 2000 / XP и не может под Windows 95/98 / ME / NT, а Netscape 4.x — 7.0x вообще не сможет этого сделать.

Вот моя тестовая страница (написана действительно для выпуска закладок в Netscape — это текст заголовка который идет в Закладки) , который объясняет это:
«Заголовок с текстом, отличным от системной кодовой страницы Windows»


Теперь давайте рассмотрим некоторые методы создания текста HTML с русским языком.

1. Текстовые редакторы — код разработчика HTML вручную

В таком случае все, что нужно сделать разработчику, — это выбрать кириллический шрифт в качестве рабочего шрифта в простом тексте. редактор, которым он пользуется.Переведите клавиатуру в режим «RU» и начните печатать.
Вот и все. Зная, как использовать шрифты и клавиатуру, чтобы писать по-русски, это разработчик просто вводит содержимое HTML-файла — текст и теги.

Я лично использую очень хороший условно-бесплатный текстовый редактор. UltraEdit очень подходит для HTML.
Он использует цвет для тегов HTML, а также позволяет мне создавать собственные макросы. Например, Нажимаю Ctrl / L и сразу в тексте появляется такая конструкция:

 

Все, что мне нужно сделать, чтобы начать писать кириллический HTML, — это выбрать кириллический шрифт, например:
Просмотр / установка шрифта — «Courier New», скрипт — «Кириллица»

Теперь, переключаясь между «EN» и «RU», я могу писать теги HTML и немного англо-русского контента.

2. WYSIWYG HTML-редактор — создает HTML-текст для вас

Если вы работаете с каким-либо редактором WYSIWYG HTML (который записывает HTML-код / ​​теги будущей веб-страницы для вас молча, «за кадром»), то вы должны узнать, как для создания таких кириллических (+ английских) файлов HTML —
распространенная проблема — когда автор делал , а не , настраивал редактор для Кириллица перед началом разработки и, следовательно, HTML-файл создается как файл « Western »
(charset = windows-1252 или charset = iso-8859-1 или charset = us-ascii)
а не как страница « Кириллица » (ф.е. charset = windows-1251).

Обычно в таком случае бывает нет кириллица буквы в этом HTML-файле — только объекты SGML, такие как & aacute; или некоторые числовые коды, например & # 1076; — вместо букв кириллицы.
В вашем браузере, когда вы делаете View / Source для такой страницы, есть нет читаемого русского текста — явный признак того, что эта кириллическая страница была неправильно написана .

Кроме того, вверху такой некорректно разработанной страницы «Кириллица» можно было увидеть, что он помечен как «Western», потому что в нем есть строка
Как настроить редактор WYSIWYG HTML для создания правильного Кириллица HTML

Каждый HTML-редактор WYSIWYG требует уникальной настройки для кириллицы, и разработчик должен выяснить это до того, как начнет писать код. Некоторые редакторы может вообще не работать с кириллицей …

Ниже приведены инструкции по настройке для некоторых редакторов WYSIWYG HTML.

Важно. После вы прочитаете инструкцию по настройке для редактора по вашему выбору, сделать , а не , забыть прочесть общий (применимо для любого редактора) «Заключительные примечания для кириллицы HTML» часть этой страницы, в которой перечислены распространенных ошибок, которые совершают человек из-за чего страница становится нечитаемой для некоторых читателей.

Я лично пробовал шаги настройки кириллицы только для следующих редакторов WYSIWYG HTML:

  • Netscape Composer
  • MS Front Page 2000
  • MS Word 97 и MS Word 2000 (настройка Word XP , вероятно, такая же, как и для Word 2000)

Есть еще пара редакторов, которые я видел , а не , но нашел шаги по настройке в Интернете:


Вот инструкции по настройке (на примере кодировки кириллицы (Windows-1251)):

  • MS Передняя страница 2000

    Откройте новый документ и сразу укажите, что вы создаете Кириллица Текст HTML, а не западный:

    • Файл / Свойства / Язык
    • В обоих полях раздела «Кодировка HTML» укажите «Кириллица»
      (что на самом деле означает «Кириллица, Windows-1251»)

    Это будет гарантировать, что, когда вы не введете текст, будут представлены кириллические буквы. правильно — как обычные буквы, а не какие-то числовые значения.

    Front Page 2000 вставит следующую строку вверху исходного HTML-кода:
    fontgroup = «Кириллица» winfontcharset = 204
    macfontscript = 7 filename = «iso88595.xml» /> «

  • Теперь вставьте перед строку, указанную выше, следующую строку (‘приклейте’ текст ниже в одна строка ):
    « charset = «windows-1251» fontgroup = «Cyrillic» winfontcharset = 204
    macfontscript = 7 filename = «Win1251.xml «/>»

Примечание. Насколько я слышал, есть проблема с загрузкой в новая версия Dreamweaver некоторые файлы, которые были , а не , были созданы с использованием вышеуказанного rules и, таким образом, , а не , содержится внутри строки спецификации кодирования .
То есть Dreamweaver не знает, что это кириллический файл. Так что на кириллице компьютер, скажем, западный, такой файл загружается как файл западной кодировки и теперь он поврежден.
Обходной путь — следующий (опубликовано В.Зиновьевым в macromedia.dreamweaver Newsgroup) :

  • после загрузки такого файла перейдите в Modify / Page properties / Title / Encoding.
  • выберите там «Cyrillic (Windows)» (или любую другую кодировку, в которой, по вашему мнению, находится этот файл)
  • нажмите «Обновить»

Теперь файл будет перезагружен с указанной кодировкой, и DW будет теперь знаю, что такое кодировка.

Важно! Если вы НЕ набираете русский текст прямо в Dreamwever но вместо этого вы копируете текст, скажем, из MS Word, тогда вы можете столкнуться с проблемой:
вы получите просто набор вопросительных знаков — ??? вместо русского текста в результате копирования / вставки.
В таком случае см. Решения в главе 2 «Копирование / вставка». раздела «Юникод и кириллица» на моем сайте.
Вот прямая ссылка на эту главу:
«Unicode: проблемы копирования / вставки».

  • MS Word 2000 (Word XP , вероятно, работает так же)
    не рекомендуется использовать Word для создания файла HTML, поскольку Word создает для вас HTML-код, содержащий множество ненужных HTML-тегов, файл большой и т. д.
    Но в любом случае вот как это сделать в Word 2000.
    Есть два разных сценария: либо вы создаете новый текст HTML, либо конвертируете существующий.документ в .html.

    1. Создание нового текста HTML

    • Файл / Новый / Веб-страница
    • Сообщите Word сразу, что вы создаете файл HTML Cyrillic
      перейдите в Инструменты / Параметры и:
      • в окне вкладки «Общие» нажмите кнопку «Параметры Интернета»
      • в окне «Параметры Интернета» перейдите на вкладку «Кодировка»
      • выберите «Кириллица (Windows)» в списке «Сохранить этот документ как»
    • Теперь вы можете печатать кириллицей
    • Файл / Сохранить как.Не используйте русский язык в имени файла.
      Нажмите на кнопку «Заголовок». в диалоговом окне File / SaveAs, чтобы при необходимости изменить заголовок — это , а не — хорошая идея использовать кириллицу в заголовке веб-страницы.

    Вновь созданный HTML-файл будет содержать внутри обычные буквы кириллического алфавита, а также Word. вставляет следующую строку вверху HTML-кода (вы можете увидеть это, используя Просмотр / HTML-код):
    Заключительные примечания относительно правильных Кириллица HTML

    После того, как вы разработали кириллическую HTML-страницу «вручную» (с помощью текстового редактора и самостоятельно набирая HTML-код / ​​теги) или позволяя редактору WYSIWYG HTML писать HTML-код / ​​теги за вас, вам необходимо убедиться, что эта кириллическая веб-страница будет читаемой для любого конечного пользователя.
    Вот несколько распространенных ошибок, которые совершает разработчик, заставляя страницу нечитаемые для некоторых пользователей (в зависимости от их браузера и / или типа компьютера).

    Первые два уже упоминались выше, но стоит перечислить и здесь в одном месте.

    Вам необходимо проверить исходный HTML-код, созданный для вас редактором WYSIWYG HTML, чтобы убедиться, что вы не совершали типичных ошибок, перечисленных ниже.
    Вы можете проверить исходный HTML-текст с помощью опции View / Source вашего браузера, редактора HTML или открытием.html в текстовом редакторе, который позволяет вам просматривать простой текст Cyrillic — HTML-текст — это простой текст, такой же, как в файле .TXT.

    Ошибка 1. Кириллица в HTML-тексте не содержит обычных букв кириллического алфавита.
    Обычно это происходит, когда автор использует какой-нибудь WYSIWYG HTML-редактор, который был настроен на , а не на . создание текста HTML Cyrillic .
    В результате View / Source будет показывать на странице следующее вместо кириллицы письма:

    • Субъекты SGML, такие как & aacute;
      или
    • числовые коды (значения Unicode), например & # 1076;

    Ошибка 2. Страница объявляется как «западноевропейская», а не как «кириллица».
    То есть кодировка Значение (кодировка) для этой страницы не кириллическое. (например, windows-1251 ), но «Western» — iso-8859-1 или windows-1252 или us-ascii .

    Значение набора символов (кодировки) может быть установлено либо в заголовке HTTP, отправленном веб-сервером. в браузер вместе с самой страницей или в «теле» HTML-текста этой страницы, в его части заголовка, например

    Примечание. Создание страницы

    КОИ8-Р .

    Хотя в настоящее время большинство русскоязычных веб-страниц имеют кодировку кириллицы (Windows-1251), одна мог разработать русскую страницу в кириллической ( KOI8-R ) кодировке.

    Как было объяснено в разделе «Кириллические шрифты и кодировки» раздел моего сайта «Кириллица (русская): инструкции для Windows и Интернета»,

    современные приложения, такие как Netscape 4 + / Mozilla, Internet Explorer, Front Page 2000 и т. д.позволяют пользователю работать с родным для MS Windows набором шрифтов и клавиатурных инструментов — кодирования «Кириллица (Windows-1251)» и обработать KOI8-R автоматически , без KOI8-R шрифты и инструменты клавиатуры.

    Для разработчика кириллической HTML-страницы это означает следующее:

    • Разработчик вводит текст будущей страницы KOI8-R, используя шрифты Windows-1251, такие как «Arial (Cyrillic)» и инструменты клавиатуры Windows-1251 («RU» на панели задач), так что то, что он / она действительно имеет в окне редактора, — это текст Windows-1251 (или Unicode), а не текст KOI8-R
    • Но если в качестве кодировки для этого HTML-файла был указан KOI8-R, то современные Редакторы WYSIWYG HTML незаметно «за кадром» конвертируют текст из Windows-1251 — KOI8-R и поместите текст KOI8-R на жесткий диск.HTML
      Они также поместят следующую строку вверху HTML-текста:
      Base64 Кодирование «кириллицы» — Base64 Encode and Decode

      Около Встречайте Base64 Decode and Encode, простой онлайн-инструмент, который делает именно то, что говорит: декодирует из кодировки Base64, а также быстро и легко кодирует в нее.Base64 кодирует ваши данные без проблем или декодирует их в удобочитаемый формат. Схемы кодирования

      Base64 обычно используются, когда необходимо кодировать двоичные данные, особенно когда эти данные необходимо хранить и передавать на носителях, предназначенных для работы с текстом. Это кодирование помогает гарантировать, что данные останутся нетронутыми без изменений во время транспортировки. Base64 обычно используется в ряде приложений, включая электронную почту через MIME, а также для хранения сложных данных в XML или JSON.

      Дополнительные параметры

      • Набор символов: На нашем веб-сайте используется набор символов UTF-8, поэтому ваши входные данные передаются в этом формате. Измените этот параметр, если вы хотите преобразовать данные в другой набор символов перед кодированием. Обратите внимание, что в случае текстовых данных схема кодирования не содержит набора символов, поэтому вам, возможно, придется указать соответствующий набор в процессе декодирования. Что касается файлов, по умолчанию используется двоичный параметр, который не учитывает преобразование; эта опция требуется для всего, кроме текстовых документов.
      • Разделитель новой строки: В системах Unix и Windows используются разные символы разрыва строки, поэтому перед кодированием любой вариант будет заменен в ваших данных выбранным параметром. Для раздела файлов это частично не имеет значения, поскольку файлы уже содержат соответствующие разделители, но вы можете определить, какой из них использовать для функций «кодировать каждую строку отдельно» и «разбивать строки на фрагменты».
      • Кодируйте каждую строку отдельно: Даже символы новой строки преобразуются в их закодированные в Base64 формы.Используйте эту опцию, если вы хотите закодировать несколько независимых записей данных, разделенных разрывами строк. (*)
      • Разделить строки на фрагменты: Закодированные данные станут непрерывным текстом без пробелов, поэтому отметьте этот параметр, если хотите разбить его на несколько строк. Применяемое ограничение на количество символов определено в спецификации MIME (RFC 2045), в которой указывается, что длина закодированных строк не должна превышать 76 символов. (*)
      • Выполнить безопасное кодирование URL: Использование стандартного Base64 в URL требует кодирования символов «+», «/» и «=» в их процентной форме, что делает строку излишне длиннее.Включите эту опцию для кодирования в вариант Base64, удобный для URL и имени файла (RFC 4648 / Base64URL), где символы «+» и «/» соответственно заменены на «-» и «_», а также заполнение «= знаки опущены.
      • Режим реального времени: Когда вы включаете эту опцию, введенные данные немедленно кодируются с помощью встроенных функций JavaScript вашего браузера, без отправки какой-либо информации на наши серверы. В настоящее время этот режим поддерживает только набор символов UTF-8.
      (*) Эти параметры нельзя включить одновременно, поскольку результирующий вывод не будет действителен для большинства приложений.

      Надежно и надежно

      Все коммуникации с нашими серверами осуществляются через безопасные зашифрованные соединения SSL (https). Мы удаляем загруженные файлы с наших серверов сразу после обработки, а полученный загружаемый файл удаляется сразу после первой попытки загрузки или 15 минут бездействия (в зависимости от того, что короче). Мы никоим образом не храним и не проверяем содержимое отправленных данных или загруженных файлов. Ознакомьтесь с нашей политикой конфиденциальности ниже для получения более подробной информации.

      Совершенно бесплатно

      Наш инструмент можно использовать бесплатно.Отныне вам не нужно скачивать какое-либо программное обеспечение для таких простых задач.

      Подробная информация о кодировании Base64

      Base64 — это общий термин для ряда аналогичных схем кодирования, которые кодируют двоичные данные, обрабатывая их численно и переводя в представление base-64. Термин Base64 происходит от конкретной кодировки передачи содержимого MIME.

      Дизайн

      Конкретный выбор символов для создания 64 символов, необходимых для Base64, зависит от реализации.Общее правило состоит в том, чтобы выбрать набор из 64 символов, который является 1) частью подмножества, общего для большинства кодировок, и 2) также пригодным для печати. Эта комбинация оставляет маловероятным изменение данных при передаче через такие системы, как электронная почта, которые традиционно не были 8-битными чистыми. Например, реализация MIME Base64 использует A-Z, a-z и 0-9 для первых 62 значений, а также «+» и «/» для последних двух. Другие варианты, обычно производные от Base64, разделяют это свойство, но отличаются символами, выбранными для последних двух значений; Примером является безопасный для URL и имени файла вариант «RFC 4648 / Base64URL», в котором используются «-» и «_».

      Пример

      Вот отрывок цитаты из Левиафана Томаса Гоббса:

      « Человек отличается не только по своей причине, но и … »

      Это представлено как последовательность байтов ASCII и закодировано в MIME. Схема Base64 выглядит следующим образом:

      TWFuIGlzIGRpc3Rpbmd1aXNoZWQsIG5vdCBvbmx5IGJ5IGhpcyByZWFzb24sIGJ1dCAuLi4 =

      В приведенной выше цитате закодированное значение 00 Man TWF . Закодированные в ASCII буквы «M», «a» и «n» сохраняются как байты 77, 97, 110, которые эквивалентны «01001101», «01100001» и «01101110» в базе 2.Эти три байта объединяются в 24-битный буфер, образуя двоичную последовательность «010011010110000101101110». Пакеты из 6 бит (6 бит имеют максимум 64 различных двоичных значения) преобразуются в 4 числа (24 = 4 * 6 бит), которые затем преобразуются в соответствующие им значения в Base64.


      Как показывает этот пример, кодирование Base64 преобразует 3 некодированных байта (в данном случае символы ASCII) в 4 закодированных символа ASCII.

      Чтение и запись кириллицы

      Если вы используете Windows, вы можете загрузить точный шрифт, использованный для создания этих страниц, нажав ЗДЕСЬ .Если вы установите его на 10 pt., Вы должны получить очень точное совпадение со шрифтами в графике. Компьютеры Macintosh выглядят лучше, если шрифты ER Bukinist установлены на 12 пунктов. Они доступны ЗДЕСЬ . Если вы используете другую платформу, установите размер шрифта 10 pts. должен дать вам наилучшее совпадение со словами действия, встроенными в текст.

      После того, как вы установили шрифты KOI8-R на свой компьютер, вы также должны настроить Netscape Navigator или MS Internet Explorer 5.0 для доступа к ним. Чтобы настроить Netscape Navigator 4.5, необходимо выполнить три шага:

      1. Откройте меню «Правка» и выберите «Настройки» и «Шрифты», а затем выберите «Кириллица» в окне «Для кодировки документа». Если у вас есть многоязычная поддержка, вы можете использовать шрифт Times New Roman или Arial. Если вы не используете многоязычную поддержку, выберите шрифты KOI8-R (новый русский или ERBukinist) для «пропорционального шрифта» и KOI8-R Courier (Courier Cyrillic или Bukinist) для выбора «шрифта фиксированной ширины» в Папка «Шрифты».

      2. В разделе «Просмотр» откройте «Набор символов» и установите для него «Кириллица (KOI8-R)»

      3. Наконец, вернитесь в «Набор символов» и нажмите «Установить по умолчанию», если вы хотите, чтобы этот шрифт изначально появлялся в навигаторе каждый раз, когда вы его открываете.

      Для MS Internet Explorer 5.0 выберите «Свойства обозревателя» в меню «Инструменты». Внизу страницы выберите «Шрифты» и выберите подходящий шрифт для вашего языкового сценария «Кириллица».Все остальное MSIE сделает за вас. Возможно, вам придется установить «Кодировку» в «Вид» для «Кириллица (KOI-8)» для некоторых страниц; однако все страницы в этой грамматике должны автоматически открываться шрифтами KOI8. Однако, хотя страница может открываться в KOI8 автоматически, клавиатура может не работать без ручной настройки кодировки страницы на «Кириллица (KOI8)».

      Письменный русский

      Если вы хотите записать упражнения в справочную грамматику, помимо установки шрифтов KOI8-R вам потребуется (1) установить кириллическую клавиатуру и (2) настроить ваш браузер для кодирования документов KOI8-R.

      KOI8-R Клавиатуры

      Чтобы установить буквенно-буквенную кириллическую клавиатуру учащегося, вы должны приобрести ее или загрузить в Интернете. Следуйте инструкциям по его установке. Если вы используете Windows 95/98, загрузите Bucknell KOI8 Keyboard Package здесь. Он основан на Tavultesoft Keyboard Manager Летнего института лингвистики. Пакет Bucknell поставляется со стандартной русской раскладкой клавиатуры и буквенной раскладкой учащегося, где русские буквы соответствуют латинским буквам с таким же или похожим звуком.Инструкции по установке Tavultesoft Keyboard Manager включены в пакет. Теперь есть менеджер клавиатуры Tavultesoft для Windows NT, доступный от автора за 30 долларов.

      Если вы используете Mac, вы можете получить клавиатуру с раскладкой, аналогичной латинице, загрузив наш пакет шрифтов ERBukinist выше. Вы устанавливаете клавиатуру, перетаскивая ее в системный каталог, затем вы должны установить расширение клавиатуры (под яблоком) на KOI8-R.

      Печать кириллицей

      Если у вас нет цветного принтера, перед печатью этих страниц проверьте в Netscape в разделе «Файл / Параметры страницы» и убедитесь, что установлен флажок «Черный текст». Когда вы распечатываете эти страницы, сами генерируемые слова будут отображаться как основа + окончание, а не как полностью производное слово. (В конце концов, именно поэтому электронный формат предпочтительнее.)

      Таблица ASCII для кодировки кириллицы (CP855)

      Американский стандартный код для обмена информацией ( ASCII ) — широко используемая система кодирования символов , представленная в 1963 году.

      Исходный набор символов , который теперь называется стандартным набором символов, изначально состоял из 128 символов (7-битный код). Первые 32 символа — это управляющие символы (также называемые непечатаемыми символами), которые используются для управления потоками данных, а также такими устройствами, как принтеры. Позже он был расширен для поддержки 256 символов (8-битный код), чтобы обеспечить языковые символы, различные символы, а также символы для рисования прямоугольников: элементы, используемые для целей презентации, позволяющие рисовать различные типы рамок и прямоугольников.Символы в диапазоне 128–255 называются расширенным ASCII.

      Кодовая страница 855 является альтернативой кодовая страница , используемая для написания языков на основе кириллицы: белорусский, боснийский, болгарский, македонский, русский, сербский, украинский (славянские языки) и казахский, киргизский, молдавский, монгольский, таджикский, узбекский ( неславянский). Он не очень популярен, наиболее широко используется кодовая страница 866. Только расширенный набор символов отличается от исходной кодовой страницы, причем как управляющие символы, так и стандартный набор символов представляют собой простой ASCII.

      Таблица символов ниже показывает графическое представление каждого символа с точностью до пикселя вместе с текстовым описанием.

      Управляющие символы (0 — 31):

      ST Начало текста) BS8
      Дек Hex Char Описание Dec Hex Char Описание
      0 0

      78 913LE 913LE (Прерывание канала передачи данных)
      1 1 SOH (начало заголовка) 17 11 DC1 (Управление устройством 1)
      200 2 18 12 DC2 (Управление устройством 2)
      3 3 ETX (Конец текста) 19 13 DC3 (Управление устройством 3 )
      4 4 EOT (конец передачи) 20 14 DC4 (Device Control 4)
      5 5 901 17 ENQ (запрос) 21 15 NAK (отрицательное подтверждение)
      6 6 ACK (подтверждение) 22 SYN
      7 7 BEL (Bell) 23 17 ETB (конец блока передачи)
      8 8 18 CAN (Отмена)
      9 9 HT (горизонтальная таблица) 25 19 EM (конец среды)
      10147
      10 LF (перевод строки) 26 1A SUB (замена)
      11 B VT (вертикальное табулирование) 27 1B ESC (выход)
      12 C FF (подача формы) 28 1C FS (разделитель файлов)
      (Возврат каретки) 29 1D GS (Разделитель групп)
      14 E SO (Shift Out) 30 1E RS (Разделитель записи)
      15 F SI (Shift In) 31 1F US (Разделитель единиц)

      Стандартный набор символов (32-127):

      U

      7

      78 84

      9117 Три7 3D 913ALS7800 9138 9138 109 9137 8 114 Верхняя часть корпуса D 9117 9117 9117 Верхний корпус F 72117 9137 9137 75117 Верхняя часть M case O
      Dec Hex Char Описание Dec Hex Char Описание
      32 20

      78 Space

      33 21 Восклицательный знак 81 51 Верхний корпус Q
      34 22 Котировальный знак 527800
      35 23 Хеш 83 53 Верхний корпус S
      36 24 Доллар

      78 84

      37 25 Процент 85 55 Верхний ок. se U
      38 26 Ampersand 86 56 Верхняя часть V
      39 27 Upostrophe
      40 28 Открытая скоба 88 58 Верхняя часть корпуса X
      41 29 Закрывающая скоба 89147
      42 2A Asterisk 90 5A Верхняя часть Z
      43 2B Plus Plus
      44 2C Запятая 92 5C Обратная косая черта
      45 2D Dash 93 5D Закрытый квадратный кронштейн
      46 2E Полный упор 9011E 47 2F Слэш 95 5F Нижний слой
      48 30 Нулевой 96 60 Один 97 61 Нижний корпус a
      50 32 Два 98 62 Нижний корпус b
      99 63 Нижний корпус c
      52 34 9011 7 Четыре 100 64 Нижняя часть корпуса d
      53 35 Пять 101 65 Нижняя часть корпуса e Шесть 102 66 Нижний корпус f
      55 37 Семь 103 67 Нижний корпус g14ight 104 68 Нижняя часть корпуса h
      57 39 Девять 105 69 Нижняя часть корпуса i
      106 6A Нижний регистр j
      59 3B Точка с запятой 107 6B Нижняя часть корпуса k
      60 3C Менее 108 6C Нижняя часть корпуса l
      6D Нижняя часть корпуса m
      62 3E Больше чем 110 6E Нижняя часть корпуса n
      111 6F Нижняя часть корпуса o
      64 40 At 112 70 Нижняя часть корпуса p
      65 113 71 Нижняя часть корпуса q
      66 42 Верхняя часть корпуса B 72 Нижняя часть корпуса r
      67 43 Верхняя часть корпуса C 115 73 Нижняя часть корпуса s
      44
      44 116 74 Нижняя часть корпуса t
      69 45 Верхняя часть корпуса E 117 75 Нижняя часть 70117 118 76 Нижний корпус v
      71 47 Верхний корпус G 119 77 Нижний корпус w
      Верхний корпус H 120 78 Нижний корпус x
      73 49 Верхний корпус e I 121 79 Нижняя часть корпуса y
      74 4A Верхняя часть корпуса J 122 7A Нижняя часть корпуса z
      Верхняя часть K 123 7B Раскос
      76 4C Верхняя часть L 124 7C Труба 125 7D Закрывающая скоба
      78 4E Верхняя часть N 126 7E Tilde 127 7F Удалить

      Расширенный набор символов (128-255):

      913 78 C48 горизонтальная двойная 143 91 378207 em Верхний регистр с кириллицей KJE

      78 D8 9117 153

      DE Верхний регистр кириллицы YA ER3 верхний регистр 9137 ES4 верхняя часть корпуса TE 913HE 9137 верхний регистр Cyrillic B581
      Dec Hex Char Описание Dec Hex Char Описание
      128 80 Cyrillic Cyrillic нижняя часть корпуса рисунки светятся и справа
      129 81 Верхний регистр с кириллицей DJE 193 C1 Чертежи светятся и горизонтально
      13000 82 194 C2 Чертежи коробки светлые и горизонтальные
      131 83 Верхний регистр с кириллицей GJE 195 C3 132 9011 132 вертикальный и правый 9011 Световые чертежи коробки 84 Кириллица в нижнем регистре io 196 Чертежи коробки светлые горизонтальные
      133 85 Кириллица верхний регистр IO 197 C5 Чертежи коробок светлые вертикальные и горизонтальные
      Кириллица строчная украинская ie 198 C6 строчная кириллица ka
      135 87 Кириллица верхняя украинская IE 199 CI 199 C 136 88 Кириллица нижний регистр dze 200 C8 Чертежи коробки удвоение вверх и вправо
      137 89 Кириллица верхний регистр DZE Чертежи коробки, сдвоенные вниз и вправо
      138 8A 901 17 Нижний регистр кириллицы белорусско-украинский i 202 CA Чертежи прямоугольной формы с двойным расположением вверх и по горизонтали
      139 8B Кириллица верхний регистр 2078117 9117 9117 Беларусь 9117 9117 Украина Чертежи коробки, сдвоенные по вертикали и по горизонтали
      140 8C Строчная кириллица yi 204 CC Чертежи коробки двойные, вертикальные и правые
      14100ic верхний корпус YI 205 CD Чертежи коробки двойная горизонтальная
      142 8E Кириллица нижняя часть je 206 CE 8F Верхний регистр с кириллицей JE CF Знак валюты
      144 90 Строчная кириллица lje 208 D0 Строчная кириллица 147800 верхний регистр LJE 209 D1 Верхний регистр кириллицы EL
      146 92 Нижний регистр кириллицы nje 210 D27 93 Верхний регистр с кириллицей NJE 211 D3 Верхний регистр с кириллицей EM
      148 94 Нижний регистр с кириллицей1378 en
      149 95 Верхний регистр с кириллицей TSHE 2 13 D5 Верхний регистр с кириллицей EN
      150 96 Нижний регистр с кириллицей kje 214 D6 Кириллица 9117 9137 9137
    • 9001
    • 215 D7 Верхний регистр с кириллицей O
      152 98 Нижний регистр кириллический короткий u 216 99 Верхний регистр с кириллицей короткий U 217 D9 Чертежи коробки светятся и слева
      154 9A DA DA137 9117 Чертежи коробки с подсветкой вниз и вправо
      155 9B Кириллица u pper case DZHE 219 DB Полный блок
      156 9C Кириллица нижний регистр yu 220 DC Верхний регистр кириллицы YU 221 DD Верхний регистр кириллицы PE
      158 9E Нижний регистр кириллицы жесткий знак 227800 Cyrillic
      159 9F Жесткий знак кириллицы в верхнем регистре 223 DF Верхний полублок
      160 A0
      161 A1 Верхний регистр кириллицы A 9 0117 225 E1 Нижний регистр кириллицы er
      162 A2 Нижний регистр кириллицы be 226 E2 Верхний регистр с кириллицей BE 227 E3 Нижний регистр с кириллицей es
      164 A4 Кириллица нижний регистр tse 228108 228 165 A5 Верхний регистр с кириллицей TSE 229 E5 Нижний регистр с кириллицей te
      166 A6 Cyrillic
      167 A7 кириллица верхняя часть корпуса DE 901 17 231 E7 Нижний регистр кириллицы u
      168 A8 Нижний регистр кириллицы, т.е. 232 E8 U9117 верхний регистр Верхний регистр кириллицы IE 233 E9 Нижний регистр кириллицы zhe
      170 AA Кириллица нижний регистр ef234 EA234 171 AB Верхний регистр с кириллицей EF 235 EB Нижний регистр с кириллицей ve
      172 AC Cyherillic 9011 9011 Cyherillic 9011 9011 EC верхняя часть корпуса VE
      173 AD кириллица верхняя часть корпуса GHE 237 ED Кириллический нижний регистр мягкий знак
      174 AE Двойная угловая кавычка, указывающая влево 238 EE верхний регистр AF Двойные угловые кавычки, указывающие вправо 239 EF Цифровой знак
      176 B0 Светлый оттенок 240 240
      177 B1 Средний оттенок 241 F1 Нижний регистр кириллицы yeru
      178 B2 913ER верхний корпус темного цвета
      179 B3 Чертежи коробки светлые вертикальные 90 117 243 F3 Нижний регистр кириллицы ze
      180 B4 Чертежи коробки светятся вертикально и слева 244 F4 Нижний регистр кириллицы ha 245 F5 Кириллица нижний регистр sha
      182 B6 Верхний регистр кириллицы HA 247 Верхний регистр кириллицы HA 247
      183 B7 Нижний регистр кириллицы i 247 F7 Нижний регистр кириллицы e
      184 B8 Верхний регистр с кириллицей e
      185 B9 Чертежи коробки двойные левая вертикальная и левая 249 F9 Кириллица нижняя ща
      186 BA Коробка чертежи двойная вертикальная 250 FA SHCHrillic BB Чертежи коробки сдвоены вниз и слева 251 FB Кириллица нижний регистр che
      188 BC Чертежи коробки сдвоены вверх и налево 9142 Верхний регистр с кириллицей CHE
      189 BD Нижний регистр с кириллицей укороченный i 253 FD Знак раздела
      18 Cyrillic 254 FE Черный квадрат
      191 BF 90 117 Чертежи коробки светятся вниз и влево 255 FF Бесперебойное пространство
      .
  • Оставить комментарий

    Добавить комментарий

    Ваш адрес email не будет опубликован. Обязательные поля помечены *