Кодировка символов в windows: Кодировки UTF-8, Windows-1251, CP-866…. или русский язык в Arduino IDE

Ascii кодировка символов (cp windows-1251)


жүктеу/скачать 494.5 Kb.

бет1/4
Дата23.02.2016
өлшемі494.5 Kb.
#7277

  1   2   3   4

    Бұл бет үшін навигация:
  • Знаки пунктуации, препинания, математические, денежные и специальные символы 33 – 47
  • Десятичные (арабские) цифры 48 – 57

Системы счисления

Символ

Описание

2

8

10

16

Управляющие символы 0 – 32

0000 0000

0

0

0

nul

Null character, пустой. Всегда игнорировался. На перфолентах 1 представлялось дырочкой, 0 — отсутствием дырочки. Поэтому пустые части перфоленты до начала и после конца сообщения состояли из таких символов. Сейчас используется во многих языках программирования как конец строки. (Строка понимается как последовательность символов.) В некоторых операционных системах NUL — последний символ любого текстового файла.

0000 0001

&O1


&h2

soh

start of heading, начало заголовка

0000 0010

&O2


&h3

stx

start of text, начало текста. Текстом называлась часть сообщения, предназначенная для печати. Адрес, контрольная сумма и т. д. входили или в заголовок, или в часть сообщения после текста

0000 0011

&O3


&h4

etx

end of text, конец текста. Здесь телетайп прекращал печатать. Использование символа Ctrl-C, имеющего код 03, для прекращения работы чего-то (обычно программы), восходит к ранним временам

0000 0100

&O4


&h5

eot

end of transmission, конец передачи. В системе UNIX Ctrl-D, имеющий тот же код, означает конец файла при вводе с клавиатуры

0000 0101

&O5


&H5

enq

enquire, прошу подтверждения

0000 0110

&O6


&H6

asc

acknowledgement, подтверждаю

0000 0111

&O7


&H7

bel

bell, звонок, звуковой сигнал. Сейчас тоже используется. В языках программирования Си С++ обозначается \a.

0000 1000

&O10


&H8

bs

backspace, возврат на один символ. Сейчас стирает предыдущий символ (стирание слева от курсора)

0000 1001

&O11


&H9

ht

horizontal tab, горизонтальная табуляция, tabulation. Обозначался также HT — Horizontal Tabulation, горизонтальная табуляция. Во многих языках программирования обозначается \t

0000 1010

&O12


&HA

n1

new line, line feed, новая строка, перевод строки. Сейчас в конце каждой строчки текстового файла ставится либо этот символ, либо CR, либо и тот и другой (CR, затем LF), в зависимости от операционной системы. Во многих языках программирования обозначается \n и при выводе текста приводит к переводу строки.

0000 1011

&O13


&HB

vt

vertical tab вертикальная табуляция (в Windows не используется)

0000 1100

&O14


&HC

ff

form feed, новая страница

0000 1101

&O15



&HD

cr

carriage return, возврат каретки. Во многих языках программирования этот символ, обозначаемый \r, можно использовать для возврата в начало строчки без перевода строки. В некоторых операционных системах этот же символ, обозначаемый Ctrl-M, ставится в конце каждой строчки текстового файла перед LF сдвиг каретки

0000 1110

&O16


&HE

so

shift out, измени цвет ленты (использовался для двуцветных лент; цвет менялся обычно на красный). В дальнейшем обозначал начало использования национальной кодировки

0000 1111

&O17


&HF

si

shift in, обратно к shift out

0001 0000

&O20


&h20

dle

data link escape, следующие символы имеют специальный смысл

0001 0001

&O21


&h21

dc1

device control 1, 1-й символ управления устройством — включить устройство чтения перфоленты

0001 0010

&O22


&h22

dc2

device control 2, 2-й символ управления устройством — включить перфоратор

0001 0011

&O23


&h23

dc3

device control 3, 3-й символ управления устройством — выключить устройство чтения перфоленты

0001 0100

&O24


&h24

dc4

device control 4, 4-й символ управления устройством — выключить перфоратор

0001 0101

&O25


&h25

nak

negative acknowledgment, не подтверждаю.
Обратно к acknowledgment

0001 0110

&O26


&h26

syn

synchronization. Этот символ передавался, когда для синхронизации было необходимо что-нибудь передать

0001 0111

&O27


&h27

etb

end of text block, конец текстового блока. Иногда текст по техническим причинам разбивался на блоки

0001 1000

&O30


&h28

can

cancel, отмена (того, что было передано ранее)

0001 1001

&O31


&h29

em

end of medium, кончилась перфолента и т. Д

0001 1010

&O32


&h2A

sub

substitute, подставить. Следующий символ — другого цвета или из дополнительного набора символов. Сейчас Ctrl-Z используется как конец файла при вводе с клавиатуры в системах DOS иWindows. У этой функции нет никакой очевидной связи с символом SUB

0001 1011

&O33


&h2B

esc

escape, отмена системного действия. Следующие символы — что-то специальное

0001 1100

&O34


&h2C

fs

file separator, разделитель файлов

0001 1101

&O35


&h2D

gs

group separator, разделитель групп

0001 1110

&O36


&h2E

rs

request to send/record separator, разделитель записей

0001 1111

&O37


&h2F

us

unit separator, разделитель юнитов. То есть поддерживалось 4 уровня структуризации данных: сообщение могло состоять из файлов, файлы из групп, группы из записей, записи из юнитов (юнит – единица измерения записей)

0010 0000

&O40


&h30

sp

space, пробел

Знаки пунктуации, препинания, математические, денежные и специальные символы 33 – 47

0010 0001

&O41

!

&h31

!

exclamation mark, восклицательный знак

0010 0010

&O42

»

&h32

«

double quote, кавычки

0010 0011

&O43

#

&h33

#

number sign, решётка

0010 0100

&O44

$

&h34

$

dollar sign, доллар

0010 0101

&O45

%

&h35

%

percent sign, процент (сотая часть числа)

0010 0110

&O46

&

&h36

&

ampersand, амперсанд, знак конкатенации

0010 0111

&O47



&h37



single quote, апостроф

0010 1000

&O50

(

&h38

(

left parenthesis, открывающая круглая скобка

0010 1001

&O51

)

&h39

)

right parenthesis, закрывающая круглая скобка

0010 1010

&O52

*

&h3A

*

asterix, звёздочка

0010 1011

&O53

+

&h3B

+

plus, плюс

0010 1100

&O54

,

&h3C

,

comma, запятая

0010 1101

&O55



&h3D



minus/dash, минус

0010 1110

&O56

.

&h3E

.

dot/period, точка

0010 1111

&O57

/

&h3F

/

forward slash, косой правый штрих, знак обычного деления, правый слеж при записи адресов в Windows

Десятичные (арабские) цифры 48 – 57

0011 0000

&O60

0

&h40

0

zero, ноль

0011 0001

&O61

1

&h41

1

one, единица

0011 0010

&O62

2

&h42

2

two, двойка

0011 0011

&O63

3

&h43

3

three, тройка

0011 0100

&O64

4

&h44

4

four, четвёрка

0011 0101

&O65

5

&h45

5

five, пятёрка

жүктеу/скачать 494. 5 Kb.


Достарыңызбен бөлісу:

  1   2   3   4


©dereksiz.org 2023
әкімшілігінің қараңыз

    Басты бет

Как изменить кодировку в Блокноте: стандарты и способы

Иногда при открытии текстового файла в блокноте можно увидеть «кракозябры» — так называют нечитаемые символы. Причина их появления кроется в несовпадении кодировок открываемого документа и используемой по умолчанию в операционной системе. Чтобы прочитать данный файл, необходимо знать, как изменить кодировку в блокноте.

Содержание статьи

  1. Таблицы кодировок русской раскладки клавиатуры
  2. Создание нового текстового документа в Windows
  3. Смена кодировки текстового файла с помощью Блокнота в Windows
  4. Как сменить кодировку в Блокноте по умолчанию
  5. Как сменить кодировку с ANSI на другую с помощью внешних программ
  6. Notepad++
  7. Akelpad
  8. Комментарии пользователей

Таблицы кодировок русской раскладки клавиатуры

Компьютер воспринимает любую информацию в двоичном коде. Чтобы машина поняла вводимый символ, необходимо сопоставить его с определенной цифровой последовательностью. Первой таблицей стала ASCII — для кодировки использовался 1 байт информации, всего можно было описать с ее помощью 128 символов, включавших в себя латинские буквы, цифры, знаки пунктуации.

Однако, подобное сопоставление не учитывало множество национальных языков. Были созданы отдельные разновидности ASCII, но система получалась слишком громоздкой и неудобной.

Следующим шагом стало изобретение таблицы ANSI, которая сейчас используется по умолчанию в системе Windows. Это расширенная версия ASCII, совмещающая множество различных языков.

Внимание! ANSI — это совокупность различных наборов символов. Для разных групп языков используется собственная кодировка. Для русского и других алфавитов, использующих кириллицу, устанавливается вариант Windows-1251. Реальный вид кодировки прописывается в реестре системы с помощью средств ОС Windows.

У ANSI есть «конкурент» — Unicode. Этот набор символов установлен по умолчанию на компьютерах с ОС типа «*nix», например Linux, Unix. Так как эти системы являются бесплатными и имеют открытый код, то большинство серверов используют их. Наиболее распространенной версией Unicode является UTF-8.

Текст, написанный на UTF-8, не будет распознан в ANSI, и пользователь получит «кракозябры». Чтобы прочитать данный файл или создать новый документ на UTF-8 в OS Windows необходимо знать, как изменить кодировку текста в блокноте.

Создание нового текстового документа в Windows

Создать документ можно с помощью встроенного текстового редактора Notepad или «Блокнот». Существует несколько способов:

  1. Вызвать меню «Выполнить», нажав одновременно на клавиши Win и R. В появившемся окне вписать «notepad. exe» и подтвердить.

  1. Кликнуть ПКМ по рабочему столу, выбрать в окне пункт «Создать» или «New». Затем в контекстном меню кликнуть ЛКМ по строке «Текстовой документ» или «Text document».

  1. После проведенных действий откроется страница приложения «Блокнот», где можно создавать простейшие тексты.

Процесс создания текстового документа с помощью редактора «Блокнот» одинаков для актуальных версий ОС Windows.

Смена кодировки текстового файла с помощью Блокнота в Windows

После того, как все необходимые данные были внесены в текстовой файл, можно сохранить его, изменив кодировку. Для этого необходимо воспользоваться следующим алгоритмом действий:

  1. Кликнуть по пункту «Файл» в левом верхнем углу редактора и выбрать строку «Сохранить как …».

  1. Появится окно с опциями сохранения файла. В нижней части кликнуть по пункту «Кодировка» и выбрать один из вариантов, например. UTF-8.

  1. После выбора необходимой кодировки, нажать на «Сохранить».

  1. Если файл был создан ранее, то система спросит разрешение на перезапись. Подтвердить изменения.

С помощью описанного способа можно также изменить кодировку в Блокноте Windows 10 и 11.

Как сменить кодировку в Блокноте по умолчанию

Стандартно редактор «Блокнот» в Windows настроен на сохранение документов в кодировке ANSI. Это значит, что все текстовые файлы с русской речью создаются в Windows-1251. Иногда необходимо знать, как изменить кодировку файла в блокноте так, чтобы вновь создаваемые документы имели по умолчанию другой набор символов, например UTF-8. Для этого нужно проделать следующие изменения в системе:

  1. Создать и сохранить документ в стандарте UTF-8, назвав его, например, UTF-new.txt.
  2. Переместить файл в папку, находящуюся по следующему адресу: C:\Windows\ShellNew

  1. Открыть реестр Windows. Для этого необходимо вызвать окно «Выполнить» с помощью одновременного нажатия клавиш Win и R. Затем вписать в него команду «regedit» и подтвердить.

  1. В реестре нужно найти ветвь HKEY_CLASSES_ROOT / .txt / ShellNew /
  2. Создать в ней строковый параметр с именем «FileName», а в качестве значения указать «UTF-new.txt» — имя файла, созданного ранее.

После проведенных действий вновь создаваемые документы будут кодироваться в UTF-8.

Внимание! Подобным образом меняется по умолчанию набор символов для текстовых файлов, создающихся с помощью контекстного меню, например, на рабочем столе. Если сначала открывается Блокнот, а уже в нем создаются документы, то стандартно опять будет кодировка ANSI.

Как сменить кодировку с ANSI на другую с помощью внешних программ

Возможности Блокнота ограничены — он не может открыть файлы больших размеров, также недоступны для редактора некоторые кодировки, например, DOS 866. В этом случае можно прибегнуть к помощи сторонних приложений.

Notepad++

Один из самых универсальных текстовых редакторов. Скачать его можно бесплатно. Поддерживает большое количество кодировок и множеством дополнительных функций. Чтобы выбрать необходимый набор символов, нужно открыть пункт «Кодировки» и выполнить действия, показанные на рисунке.

Также легко можно изменить существующую кодировку на другую.

Akelpad

Продвинутая версия стандартного Блокнота. Скачать программу можно также бесплатно. Чтобы открыть файл в нужной кодировке, необходимо запустить приложение, затем:

  1. Кликнуть по пункту «Файл» и нажать на «Открыть…»

  1. Убрать галочку с чек-бокса «Автовыбор» и указать нужную кодировку.

  1. Можно изменить кодировку файла при необходимости, выбрав в пункте «Файл» опцию «Сохранить как…».

Приложение Akelpad имеет больше вариантов для изменения кодировки, чем стандартное приложение и Notepad++.

Изменить кодировку Блокнота бывает необходимо, если нужный файл имеет другую систему набора символов, например, UTF-8. Встроенный редактор имеет небольшие возможности. Поэтому иногда нужно прибегнуть к помощи сторонних приложений, если размер текста велик или используется редкая кодировка. Также можно настроить Windows на создание по умолчанию файлов в отличной от ANSI кодировке.

Как определить набор символов, используемый Windows на тайваньском языке?

спросил

Изменено 7 лет, 3 месяца назад

Просмотрено 864 раза

Я использую Windows 7 Home в Тайваньский на работе, и знание используемого набора символов имело бы для меня неоценимое значение.

  • Как определить набор символов, используемый Windows на тайваньском языке?

Я читал, что кодовая страница Microsoft 950 является известным вариантом кодировки символов Taiwan Big5 (википедия), но я хочу быть уверенным.

Если поможет, вот скриншот шрифта по умолчанию, используемого в блокноте: (изображение скопировано из этой исходной ссылки):

  • windows-7
  • кодировка символов
  • китайский
  • набор символов

По справочнику API поддержки национальных языков (NLS), Китайский (Тайвань) Идентификатор LCID/культуры: 0x0404 (= 1028 в десятичном формате). Кодовая страница OEM , а также кодовая страница ANSI : 950 . Вы можете убедиться в этом с помощью команды PowerShell

 Get-Culture | Format-Custom -Property TextInfo
 

или, если китайский (Тайвань) не , язык вашей системы:

 [System.Globalization.CultureInfo]::GetCultureInfo(0x0404) | `
    Format-Custom -Property TextInfo
 

Выход :

 класс CultureInfo
{
  ТекстИнфо =
    класс ТекстИнфо
    {
      АНСИкодепаже = 950
      ОЕМкодепаже = 950
      МакКодПейдж = 10002
      EBCDICCodePage = 500
      LCID = 1028
      CultureName = zh-TW
      ТолькоЧитать = Истина
      Разделитель списка = ,
      ИсправоЛефт = Ложь
    }
}
 

В другой статье Microsoft кодовая страница 950 называется Традиционный китайский Big5.

Зарегистрируйтесь или войдите в систему

Зарегистрируйтесь с помощью Google

Зарегистрироваться через Facebook

Зарегистрируйтесь, используя электронную почту и пароль

Опубликовать как гость

Электронная почта

Требуется, но не отображается

Опубликовать как гость

Электронная почта

Требуется, но не отображается

Нажимая «Опубликовать свой ответ», вы соглашаетесь с нашими условиями обслуживания и подтверждаете, что прочитали и поняли нашу политику конфиденциальности и кодекс поведения.

окон — Изменяет ли буфер обмена кодировку символов?

спросил

Изменено 2 года, 2 месяца назад

Просмотрено 1к раз

У меня проблема, связанная с UTF8, в программном обеспечении — оно жалуется, что некоторый текст, содержащий специальные символы, не является допустимым UTF8. Но всякий раз, когда я копирую и вставляю его в онлайн-инструмент проверки или в электронное письмо в группе пользователей, он сообщает как действительный UTF8.

Есть подозрение, что это может быть какой-то старый формат до UTF8, но мне интересно, как только он попадет в буфер обмена или вставится в мой браузер, он будет преобразован в UTF8? Это первый вопрос.

«Оскорбительный» текст представлен на веб-странице HTTP, поэтому, во-вторых, как я могу окончательно увидеть, что обслуживается, как именно представлены специальные символы?

  • windows
  • google-chrome
  • буфер обмена
  • кодировка символов

Буфер обмена содержит копию, а затем позже вставляет ее в принимающее приложение.

Буфер обмена не меняет кодировку символов или другие атрибуты по пути.

Старые специальные символы могут вызывать проблемы как в исходном, так и в принимающем приложении, поэтому вам следует обновить эти символы.

API буфера обмена в Windows может выполнять преобразование между многими форматами, но не все форматы.

Оставить комментарий

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *