Кодировка символов в windows: Кодировки — Win32 apps | Microsoft Learn

1. Работа с текстом и кодировки

Лекция

  1. Исходный текст.

    1. Создайте свой каталог на учебном компьютере.
    2. В этом каталоге создайте текстовый файл и откройте его в редакторе.
    3. Переключите кодировку текста на «CP 866».
    4. Наберите в текстовом файле фразу «Hello, мир-25!» и сохраните его.
  2. Шестнадцатеричное представление текста

    1. Откройте набранный файл в программе «Frhed».
    2. Допишите справа от текста цифры 0, 1 и 2. Чему равны шестнадцатеричные коды этих символов?
    3. Найдите в шестнадцатеричном представлении код запятой, дефиса и восклицательного знака. Чему они равны в десятичной системе счисления?
  3. Кодировки символов

    1. Клинув в строке статуса в программе «Frhed» по надписи «OEM» измените кодировку. Как изменился текст в правой половине окна и почему? Верните исходную кодировку.
    2. В текстовом редакторе измените кодировку на «Windows 1251» (основная кодировка операционной системы windows) и сохраните файл.
      Какие варианты изменения кодировки поддерживаются в текстовом редакторе?
    3. Запустите еще один экземпляр программы «Frhed» и откройте в нем новую версию файла. Сравните шестнадцатеричные коды версий текстовых файлов в различных кодировках. Для каких символов коды совпадают?
    4. Проделайте аналогичные операции с текстом для кодировки «UTF-8». Определите, почему текст в этой кодировке занимает больше символов.
    5. Наберите текст из букв русского алфавита: «абвгдеёжзийклмнопрстуфхцчшщъыьэюя АБВГДЕЁЖЗИЙКЛМНОПРСТУФХЦЧШЩЪЫЬЭЮЯ». Посмотрите его шестнадцатеричное представление в трех рассмотренных кодировках. Какие кодировки можно использовать для сортировки русских слов по алфавиту и с какими ограничениями?
  4. Специальные символы

    1. В меню «View» текстового редактора установите галочки «Render Whitespace» и «Render Control Characters». Установите расширение «code-eol». Вставьте в текстовый файл символ конца строки (нажмите «Enter») и табуляции (возьмите тут: « »).
      Как отображаются эти символы в vs code?
    2. Откройте текстовый файл в программе «Frhed». Какие коды имеют набранные символы?
    3. В правом нижнем углу, левее символов текущей кодировки, найдите обозначение текущего способа обозначение конца строки: «LF» (используется по умолчанию в Linux) или «CR LF» (Windows). Поменяйте способ обозначение конца строки и опишите, что произошло с текстом.
    4. Из List of Unicode characters возьмите символы длинного (—) и короткого тире (–) и символы принятых в русском языке кавычек елочек (как, например, в предыдущих предложениях). Составьте предложение, включающее эти символы. Определите коды этих символов.
    5. Откройте окно «Keyboard Shortcuts», в дополнительных операциях этого окна нажмите найдите команду «Open Keyboard Shortcuts(JSON)». По образцу для длинного тире создайте горячие клавиши для ввода символов из предыдущего параграфа (в параметре «key» указывается сочетание клавиш, в «text» — символ):
    [
        {
            "key": "alt+k m",
            "command": "type",
            "args": {
                "text": "—"
            }
        },
        // Другие горячие клавиши        
    ]
    

1250 | это.

.. Что такое Windows-1250?

Кодировка Windows-1250 используется в Microsoft Windows для представления ряда языков Центральной и Восточной Европы, использующих латиницу: сербохорватского, словенского, чешского, словацкого, польского, верхне- и нижнелужицкого, венгерского, румынского.

Расположение букв не совпадает с ISO 8859-2.

Таблица кодировки Windows-1250

Нижняя часть таблицы кодировки (0—7F) полностью соответствует кодировке ASCII. Числа под буквами обозначают 16-ричный код данного символа в Юникоде.

.0.1.2.3.4.5.6.7.8.9.A.B.C.D.E.F
 
8.
 

20AC
 
201A
 
201E

2026

2020

2021
 
2030
Š
160

2039
Ś
15A
Ť
164
Ž
17D
Ź
179
 
9.
 
 
2018

2019

201C

201D

2022

2013

2014
 
2122
š
161

203A
ś
15B
ť
165
ž
17E
ź
17A
 
A.
 
 
A0
ˇ
2C7
˘
2D8
Ł
141
¤
A4
Ą
104
¦
A6
§
A7
¨
A8
©
A9
Ş
15E
«
AB
¬
AC
­
AD
®
AE
Ż
17B
 
B.
 
°
B0
±
B1
˛
2DB
ł
142
´
B4
µ
B5

B6
·
B7
¸
B8
ą
105
ş
15F
»
BB
Ľ
13D
˝
2DD
ľ
13E
ż
17C
 
C.
 
Ŕ
154
Á
C1
Â
C2
Ă
102
Ä
C4
Ĺ
139
Ć
106
Ç
C7
Č
10C
É
C9
Ę
118
Ë
CB
Ě
11A
Í
CD
Î
CE
Ď
10E
 
D.
 
Đ
110
Ń
143
Ň
147
Ó
D3
Ô
D4
Ő
150
Ö
D6
×
D7
Ř
158
Ů
16E
Ú
DA
Ű
170
Ü
DC
Ý
DD
Ţ
162
ß
DF
 
E.
 
ŕ
155
á
E1
â
E2
ă
103
ä
E4
ĺ
13A
ć
107
ç
E7
č
10D
é
E9
ę
119
ë
EB
ě
11B
í
ED
î
EE
ď
10F
 
F.
 
đ
111
ń
144
ň
148
ó
F3
ô
F4
ő
151
ö
F6
÷
F7
ř
159
ů
16F
ú
FA
ű
171
ü
FC
ý
FD
ţ
163
˙
2D9

Внешние ссылки

  • Таблица Windows-1250 на сайте www.unicode.org

Кодовые таблицы символов в Windows
1250 | 1251 | 1252 | 1253 | 1254 | 1255 | 1256 | 1257 | 1258

Кодировки символов
Основы →алфавит • текст ( файл • данные ) • набор символов • конверсия
Исторические кодировки →Докомп. : семафорная (Макарова) • Морзе • Бодо • МТК-2Комп.: 6 бит • УПП • RADIX-50 • EBCDIC ( ДКОИ-8 ) • КОИ-7 • ISO 646
совре-
менное
8-битное
представ-
ление
символы →ASCII ( управляющие • печатные )не-ASCII ( псевдографика )
8бит. код.стр.Разные →   Кириллица: КОИ-8 • ГОСТ 19768-87 • MacCyrillic
ISO 8859 →1(лат.) 2 3 4 5(кир.) 6 7 8 9 10 11 12 13 14 15(€) 16
Windows →
1250 1251(кир.) 1252 1253 1254 1255 1256 1257 1258 | WGL4
IBM&DOS →437 • 850 • 852 • 855 • 866 «альт.» • ( МИК ) • ( НИИ ЭВМ )
Много-
байтные
Традиционные →DBCS ( GB2312 ) • HTML
Unicode →UTF-16 • UTF-8 • список символов ( кириллица )
Связанные
темы →
интерфейс пользователя • раскладка клавиатуры • локаль • перевод строки • шрифт • кракозябры • транслит • нестандартные шрифты • текст как изображениеУтилиты: iconv • recode

Как определить набор символов, используемый Windows на тайваньском языке?

спросил

Изменено 7 лет назад

Просмотрено 782 раза

Я использую Windows 7 Home в Тайваньский на работе, и знание используемого набора символов было бы для меня бесценным.

  • Как определить набор символов, используемый Windows на тайваньском языке?

Я читал, что кодовая страница Microsoft 950 является известным вариантом кодировки символов Taiwan Big5 (википедия), но я хочу быть уверенным.

Если поможет, вот скриншот шрифта по умолчанию, используемого в блокноте: (изображение скопировано из этой оригинальной ссылки):

  • windows-7
  • кодировка символов
  • китайский
  • набор символов

По справочнику API поддержки национальных языков (NLS), Китайский (Тайвань) Идентификатор LCID/культуры: 0x0404 (= 1028 в десятичном формате). Кодовая страница OEM , а также кодовая страница ANSI : 950 . Вы можете убедиться в этом с помощью команды PowerShell

 Get-Culture | Format-Custom -Property TextInfo
 

или, если китайский (Тайвань) не , язык вашей системы:

 [System. Globalization.CultureInfo]::GetCultureInfo(0x0404) | `
    Format-Custom -Property TextInfo
 

Выход :

 класс CultureInfo
{
  ТекстИнфо =
    класс ТекстИнфо
    {
      АНСИкодепаже = 950
      ОЕМкодепаже = 950
      МакКодПейдж = 10002
      EBCDICCodePage = 500
      LCID = 1028
      CultureName = zh-TW
      ТолькоЧитать = Истина
      Разделитель списка = ,
      ИсправоЛефт = Ложь
    }
}
 

В другой статье Microsoft кодовая страница 950 называется Традиционный китайский Big5.

Зарегистрируйтесь или войдите в систему

Зарегистрируйтесь с помощью Google

Зарегистрироваться через Facebook

Зарегистрируйтесь, используя электронную почту и пароль

Опубликовать как гость

Электронная почта

Требуется, но не отображается

Опубликовать как гость

Электронная почта

Требуется, но не отображается

Нажимая «Опубликовать свой ответ», вы соглашаетесь с нашими условиями обслуживания, политикой конфиденциальности и политикой использования файлов cookie

.

В чем разница между файлами .txt для Linux и Windows (кодировка Unicode)

Используемая кодировка Unicode не зависит от ОС.

Даже Windows notepad.exe имеет перечисленные параметры (в скобках я укажу, что означает блокнот) ANSI (не Unicode), Unicode (блокнот означает Unicode LE), Unicode Big Endian (BE), UTF-8

ANSI — это не Unicode, он включает очень ограниченное количество символов, так что давайте отложим это в сторону.

Но посмотрите, даже блокнот может делать LE, или BE, или UTF-8

И кроме блокнота, UTF-8 может быть с спецификацией или без нее.

И я использую Windows с Cygwin, хотя порты Windows вполне могут выполнять \r\n, даже когда вы указываете \n. Я видел, как это делает sed.

Не существует единого правила относительно того, какую кодировку Unicode использует конкретная ОС. Если бы она была, это не была бы очень гибкая ОС.

Чтобы действительно увидеть различия, знайте Программное обеспечение, какое кодирование использует или предлагает часть программного обеспечения.

Получите Cygwin и xxd и/или шестнадцатеричный редактор и посмотрите, что на самом деле находится внутри файла. Используйте команду «файл», чтобы помочь идентифицировать файл. Тогда вы действительно увидите, что такое UTF 16bit LE. Что такое UTF 16bit BE. Что такое UTF-8 (и UTF-8 может быть со спецификацией или без нее).

Иногда вы можете сказать блокноту сохранить как юникод (под которым блокнот означает юникод 16 бит с прямым порядком байтов), но он не будет. Но выберите шрифт Unicode, такой как arial unicode, и скопируйте некоторые символы Unicode из charmap, и это будет … И хороший способ увидеть, что делает блокнот или другое программное обеспечение, — это посмотреть на шестнадцатеричный файл 9Часть байта, в которой хранится 61, является частью с меньшим значением, которая с LE сохраняется первой.

Команда dd (команда *nix, которую я запускаю из cygwin в Windows) может переключать его

 C:\asdf>xxd -p a.a
fffe6100610061006161610d
C:\asdf>файл a.
Оставить комментарий

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *