1. Работа с текстом и кодировки
Лекция
Исходный текст.
- Создайте свой каталог на учебном компьютере.
- В этом каталоге создайте текстовый файл и откройте его в редакторе.
- Переключите кодировку текста на «CP 866».
- Наберите в текстовом файле фразу «Hello, мир-25!» и сохраните его.
Шестнадцатеричное представление текста
- Откройте набранный файл в программе «Frhed».
- Допишите справа от текста цифры 0, 1 и 2. Чему равны шестнадцатеричные коды этих символов?
- Найдите в шестнадцатеричном представлении код запятой, дефиса и восклицательного знака. Чему они равны в десятичной системе счисления?
Кодировки символов
- Клинув в строке статуса в программе «Frhed» по надписи «OEM» измените кодировку. Как изменился текст в правой половине окна и почему? Верните исходную кодировку.
- В текстовом редакторе измените кодировку на «Windows 1251» (основная кодировка операционной системы windows) и сохраните файл.
- Запустите еще один экземпляр программы «Frhed» и откройте в нем новую версию файла. Сравните шестнадцатеричные коды версий текстовых файлов в различных кодировках. Для каких символов коды совпадают?
- Проделайте аналогичные операции с текстом для кодировки «UTF-8». Определите, почему текст в этой кодировке занимает больше символов.
- Наберите текст из букв русского алфавита: «абвгдеёжзийклмнопрстуфхцчшщъыьэюя АБВГДЕЁЖЗИЙКЛМНОПРСТУФХЦЧШЩЪЫЬЭЮЯ». Посмотрите его шестнадцатеричное представление в трех рассмотренных кодировках. Какие кодировки можно использовать для сортировки русских слов по алфавиту и с какими ограничениями?
Специальные символы
- В меню «View» текстового редактора установите галочки «Render Whitespace» и «Render Control Characters». Установите расширение «code-eol». Вставьте в текстовый файл символ конца строки (нажмите «Enter») и табуляции (возьмите тут: « »). Как отображаются эти символы в vs code?
- Откройте текстовый файл в программе «Frhed». Какие коды имеют набранные символы?
- В правом нижнем углу, левее символов текущей кодировки, найдите обозначение текущего способа обозначение конца строки: «LF» (используется по умолчанию в Linux) или «CR LF» (Windows). Поменяйте способ обозначение конца строки и опишите, что произошло с текстом.
- Из List of Unicode characters возьмите символы длинного (—) и короткого тире (–) и символы принятых в русском языке кавычек елочек (как, например, в предыдущих предложениях). Составьте предложение, включающее эти символы. Определите коды этих символов.
- Откройте окно «Keyboard Shortcuts», в дополнительных операциях этого окна нажмите найдите команду «Open Keyboard Shortcuts(JSON)». По образцу для длинного тире создайте горячие клавиши для ввода символов из предыдущего параграфа (в параметре «key» указывается сочетание клавиш, в «text» — символ):
[ { "key": "alt+k m", "command": "type", "args": { "text": "—" } }, // Другие горячие клавиши ]
1250 | это.
.. Что такое Windows-1250?Кодировка Windows-1250 используется в Microsoft Windows для представления ряда языков Центральной и Восточной Европы, использующих латиницу: сербохорватского, словенского, чешского, словацкого, польского, верхне- и нижнелужицкого, венгерского, румынского.
Расположение букв не совпадает с ISO 8859-2.
Таблица кодировки Windows-1250
Нижняя часть таблицы кодировки (0—7F) полностью соответствует кодировке ASCII. Числа под буквами обозначают 16-ричный код данного символа в Юникоде.
.0 | .1 | .2 | .3 | .4 | .5 | .6 | .7 | .8 | .9 | .A | .B | .C | .D | .E | .F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
8. | € 20AC | ‚ 201A | „ 201E | … 2026 | † 2020 | ‡ 2021 | ‰ 2030 | Š 160 | ‹ 2039 | Ś 15A | Ť 164 | Ž 17D | Ź 179 | |||
9. | ‘ 2018 | ’ 2019 | “ 201C | ” 201D | • 2022 | – 2013 | — 2014 | ™ 2122 | š 161 | › 203A | ś 15B | ť 165 | ž 17E | ź 17A | ||
A. | A0 | ˇ 2C7 | ˘ 2D8 | Ł 141 | ¤ A4 | Ą 104 | ¦ A6 | § A7 | ¨ A8 | © A9 | Ş 15E | « AB | ¬ AC | AD | ® AE | Ż 17B |
B. | ° B0 | ± B1 | ˛ 2DB | ł 142 | ´ B4 | µ B5 | ¶ B6 | · B7 | ¸ B8 | ą 105 | ş 15F | » BB | Ľ 13D | ˝ 2DD | ľ 13E | ż 17C |
C. | Ŕ 154 | Á C1 | Â C2 | Ă 102 | Ä C4 | Ĺ 139 | Ć 106 | Ç C7 | Č 10C | É C9 | Ę 118 | Ë CB | Ě 11A | Í CD | Î CE | Ď 10E |
D. | Đ 110 | Ń 143 | Ň 147 | Ó D3 | Ô D4 | Ő 150 | Ö D6 | × D7 | Ř 158 | Ů 16E | Ú DA | Ű 170 | Ü DC | Ý DD | Ţ 162 | ß DF |
E. | ŕ 155 | á E1 | â E2 | ă 103 | ä E4 | ĺ 13A | ć 107 | ç E7 | č 10D | é E9 | ę 119 | ë EB | ě 11B | í ED | î EE | ď 10F |
F. | đ 111 | ń 144 | ň 148 | ó F3 | ô F4 | ő 151 | ö F6 | ÷ F7 | ř 159 | ů 16F | ú FA | ű 171 | ü FC | ý FD | ţ 163 | ˙ 2D9 |
Внешние ссылки
- Таблица Windows-1250 на сайте www.unicode.org
Кодовые таблицы символов в Windows |
---|
1250 | 1251 | 1252 | 1253 | 1254 | 1255 | 1256 | 1257 | 1258 |
Основы → | алфавит • текст ( файл • данные ) • набор символов • конверсия | ||
Исторические кодировки → | Докомп. : семафорная (Макарова) • Морзе • Бодо • МТК-2 | Комп.: 6 бит • УПП • RADIX-50 • EBCDIC ( ДКОИ-8 ) • КОИ-7 • ISO 646 | |
совре- менное 8-битное представ- ление | символы → | ASCII ( управляющие • печатные ) | не-ASCII ( псевдографика ) |
8бит. код.стр. | Разные → Кириллица: КОИ-8 • ГОСТ 19768-87 • MacCyrillic | ||
ISO 8859 → | 1(лат.) 2 3 4 5(кир.) 6 7 8 9 10 11 12 13 14 15(€) 16 | ||
Windows → | 1250 1251(кир.) 1252 1253 1254 1255 1256 1257 1258 | WGL4 | ||
IBM&DOS → | 437 • 850 • 852 • 855 • 866 «альт.» • ( МИК ) • ( НИИ ЭВМ ) | ||
Много- байтные | Традиционные → | DBCS ( GB2312 ) • HTML | |
Unicode → | UTF-16 • UTF-8 • список символов ( кириллица ) | ||
Связанные темы → | интерфейс пользователя • раскладка клавиатуры • локаль • перевод строки • шрифт • кракозябры • транслит • нестандартные шрифты • текст как изображение | Утилиты: iconv • recode |
Как определить набор символов, используемый Windows на тайваньском языке?
спросил
Изменено 7 лет назад
Просмотрено 782 раза
Я использую Windows 7 Home в Тайваньский на работе, и знание используемого набора символов было бы для меня бесценным.
- Как определить набор символов, используемый Windows на тайваньском языке?
Я читал, что кодовая страница Microsoft 950
является известным вариантом кодировки символов Taiwan Big5
(википедия), но я хочу быть уверенным.
Если поможет, вот скриншот шрифта по умолчанию, используемого в блокноте: (изображение скопировано из этой оригинальной ссылки):
- windows-7
- кодировка символов
- китайский
- набор символов
По справочнику API поддержки национальных языков (NLS), Китайский (Тайвань) Идентификатор LCID/культуры: 0x0404
(= 1028
в десятичном формате). Кодовая страница OEM
, а также кодовая страница ANSI
: 950
. Вы можете убедиться в этом с помощью команды PowerShell
Get-Culture | Format-Custom -Property TextInfo
или, если китайский (Тайвань) не , язык вашей системы:
[System. Globalization.CultureInfo]::GetCultureInfo(0x0404) | ` Format-Custom -Property TextInfo
Выход :
класс CultureInfo { ТекстИнфо = класс ТекстИнфо { АНСИкодепаже = 950 ОЕМкодепаже = 950 МакКодПейдж = 10002 EBCDICCodePage = 500 LCID = 1028 CultureName = zh-TW ТолькоЧитать = Истина Разделитель списка = , ИсправоЛефт = Ложь } }
В другой статье Microsoft кодовая страница 950
называется Традиционный китайский Big5.
Зарегистрируйтесь или войдите в систему
Зарегистрируйтесь с помощью Google
Зарегистрироваться через Facebook
Зарегистрируйтесь, используя электронную почту и пароль
Опубликовать как гость
Электронная почта
Требуется, но не отображается
Опубликовать как гость
Электронная почта
Требуется, но не отображается
Нажимая «Опубликовать свой ответ», вы соглашаетесь с нашими условиями обслуживания, политикой конфиденциальности и политикой использования файлов cookie
.В чем разница между файлами .txt для Linux и Windows (кодировка Unicode)
Используемая кодировка Unicode не зависит от ОС.
Даже Windows notepad.exe имеет перечисленные параметры (в скобках я укажу, что означает блокнот) ANSI (не Unicode), Unicode (блокнот означает Unicode LE), Unicode Big Endian (BE), UTF-8
ANSI — это не Unicode, он включает очень ограниченное количество символов, так что давайте отложим это в сторону.
Но посмотрите, даже блокнот может делать LE, или BE, или UTF-8
И кроме блокнота, UTF-8 может быть с спецификацией или без нее.
И я использую Windows с Cygwin, хотя порты Windows вполне могут выполнять \r\n, даже когда вы указываете \n. Я видел, как это делает sed.
Не существует единого правила относительно того, какую кодировку Unicode использует конкретная ОС. Если бы она была, это не была бы очень гибкая ОС.
Чтобы действительно увидеть различия, знайте Программное обеспечение, какое кодирование использует или предлагает часть программного обеспечения.
Получите Cygwin и xxd и/или шестнадцатеричный редактор и посмотрите, что на самом деле находится внутри файла. Используйте команду «файл», чтобы помочь идентифицировать файл. Тогда вы действительно увидите, что такое UTF 16bit LE. Что такое UTF 16bit BE. Что такое UTF-8 (и UTF-8 может быть со спецификацией или без нее).
Иногда вы можете сказать блокноту сохранить как юникод (под которым блокнот означает юникод 16 бит с прямым порядком байтов), но он не будет. Но выберите шрифт Unicode, такой как arial unicode, и скопируйте некоторые символы Unicode из charmap, и это будет … И хороший способ увидеть, что делает блокнот или другое программное обеспечение, — это посмотреть на шестнадцатеричный файл 9Часть байта, в которой хранится 61, является частью с меньшим значением, которая с LE сохраняется первой.
Команда dd (команда *nix, которую я запускаю из cygwin в Windows) может переключать его
C:\asdf>xxd -p a.a fffe6100610061006161610d C:\asdf>файл a.