Windows 1252 кодировка: Кодировка от Windows-1252 до UTF-8

Содержание

windows-1252

ISO/IEC 8859-1 (также известная как ISO 8859-1 и Latin-1) — кодовая страница, предназначенная для западноевропейских языков; она базируется на символьном наборе популярных в прошлом терминалов VT220. Кодовые позиции 0—31 (0x0—0x1F) и 127—159 (0x7F—0x9F) не определены. По образцу ISO 8859-1 сделаны все остальные кодировки серии ISO 8859.

ISO-8859-1 — кодировка, зарегистрированная IANA в 1992 г. В отличие от ISO/IEC 8859-1, кодовые позиции 0—31 и 127—159 здесь заполнены управляющими символами (большинство из которых используется весьма редко). В HTML ISO-8859-1 является кодировкой по умолчанию (в XHTML, однако, кодировкой по умолчанию является UTF-8).

IANA разрешает использовать следующие варианты названия: ISO_8859-1:1987, ISO_8859-1, ISO-8859-1, iso-ir-100, sISOLatin1, latin1, l1, IBM819, CP819.

В Юникоде первые 256 кодовых позиций совпадают с ISO-8859-1.

В Microsoft Windows для западноевропейских языков используется кодировка Windows-1252, которая отличается от ISO-8859-1 тем, что позиции 128—159 (0x80—0x9F) здесь заняты разными полезными типографскими символами. Большинство браузеров не различает ISO-8859-1 и Windows-1252 — фактически, и в том, и в другом случае они отображают текст как Windows-1252.

Такая путаница между этими двумя кодировками привела к тому, что многие программы, генерирующие файлы HTML, ошибочно обозначали символы их кодами из Windows−1252 вместо кодов Юникода (исходя из того, что номер символа в ISO-8859-1 равен его номеру в Юникоде): например, тире (—) обозначалось — вместо правильного —, многоточие обозначалось … вместо правильного … и т. д.; из-за распространённости этого явления современные браузеры продолжают показывать, например, — как тире, хотя на самом деле — — это управляющий символ «end of guarded area», применение которого в HTML бессмысленно.

В проекте стандарта HTML 5 предписывается показывать ISO-8859-1 как Windows-1252.[1]

Таблицы

Нижняя часть (0—127) таблиц кодировки не показана, поскольку полностью соответствует обычному ASCII. Числа под буквами обозначают шестнадцатеричный код буквы в Юникоде.

ISO-8859-1

.0.1.2.3.4.5.6.7.8.9.A.B.C.D.E.F
 
8.
 
PAD
80
HOP
81
BPH
82
NBH
83
IND
84
NEL
85
SSA
86
ESA
87
HTS
88
HTJ
89
VTS
8A
PLD
8B
PLU
8C
RI
8D
SS2
8E
SS3
8F
 
9.
 
DCS
90
PU1
91
PU2
92
STS
93
CCH
94
MW
95
SPA
96
EPA
97
SOS
98
SGCI
99
SCI
9A
CSI
9B
ST
9C
OSC
9D
PM
9E
APC
9F
 
A.
 
 
A0
¡
A1
¢
A2
£
A3
¤
A4
¥
A5
¦
A6
§
A7
¨
A8
©
A9
ª
AA
«
AB
¬
AC
­
AD
®
AE
¯
AF
 
B.
 
°
B0
±
B1
²
B2
³
B3
´
B4
µ
B5

B6
·
B7
¸
B8
¹
B9
º
BA
»
BB
¼
BC
½
BD
¾
BE
¿
BF
 
C.
 
À
C0
Á
C1
Â
C2
Ã
C3
Ä
C4
Å
C5
Æ
C6
Ç
C7
È
C8
É
C9
Ê
CA
Ë
CB
Ì
CC
Í
CD
Î
CE
Ï
CF
 
D.
 
Ð
D0
Ñ
D1
Ò
D2
Ó
D3
Ô
D4
Õ
D5
Ö
D6
×
D7
Ø
D8
Ù
D9
Ú
DA
Û
DB
Ü
DC
Ý
DD
Þ
DE
ß
DF
 
E.
 
à
E0
á
E1
â
E2
ã
E3
ä
E4
å
E5
æ
E6
ç
E7
è
E8
é
E9
ê
EA
ë
EB
ì
EC
í
ED
î
EE
ï
EF
 
F.
 
ð
F0
ñ
F1
ò
F2
ó
F3
ô
F4
õ
F5
ö
F6
÷
F7
ø
F8
ù
F9
ú
FA
û
FB
ü
FC
ý
FD
þ
FE
ÿ
FF

Интересно расположение символов × и ÷ посреди букв: первоначально там планировалось разместить лигатуру Œœ, но в конечном итоге было решено, что она не нужна, и освободившиеся два места были заполнены небуквенными символами.

[2]

Windows−1252

В первоначальной версии этой кодировки отсутствовали символы: € (0x80), ˆ (0x88), ˜ (0x98), Ž (0x8E), ž (0x9E).

.0.1.2.3.4.5.6.7.8.9.A.B.C.D.E.F
 
8.
 

20AC

201A
ƒ
192

201E

2026

2020

2021
ˆ
2C6

2030
Š
160

2039
Œ
152
Ž
17D
 
9.
 

2018

2019

201C

201D

2022

2013

2014
˜
2DC

2122
š
161

203A
œ
153
ž
17E
Ÿ
178
 
A.
 
 
A0
¡
A1
¢
A2
£
A3
¤
A4
¥
A5
¦
A6
§
A7
¨
A8
©
A9
ª
AA
«
AB
¬
AC
­
AD
®
AE
¯
AF
 
B.
 
°
B0
±
B1
²
B2
³
B3
´
B4
µ
B5

B6
·
B7
¸
B8
¹
B9
º
BA
»
BB
¼
BC
½
BD
¾
BE
¿
BF
 
C.
 
À
C0
Á
C1
Â
C2
Ã
C3
Ä
C4
Å
C5
Æ
C6
Ç
C7
È
C8
É
C9
Ê
CA
Ë
CB
Ì
CC
Í
CD
Î
CE
Ï
CF
 
D.
 
Ð
D0
Ñ
D1
Ò
D2
Ó
D3
Ô
D4
Õ
D5
Ö
D6
×
D7
Ø
D8
Ù
D9
Ú
DA
Û
DB
Ü
DC
Ý
DD
Þ
DE
ß
DF
 
E.
 
à
E0
á
E1
â
E2
ã
E3
ä
E4
å
E5
æ
E6
ç
E7
è
E8
é
E9
ê
EA
ë
EB
ì
EC
í
ED
î
EE
ï
EF
 
F.
 
ð
F0
ñ
F1
ò
F2
ó
F3
ô
F4
õ
F5
ö
F6
÷
F7
ø
F8
ù
F9
ú
FA
û
FB
ü
FC
ý
FD
þ
FE
ÿ
FF

Примечания

Ссылки

windows-1252

ISO/IEC 8859-1 (также известная как ISO 8859-1 и Latin-1) — кодовая страница, предназначенная для западноевропейских языков; она базируется на символьном наборе популярных в прошлом терминалов VT220. Кодовые позиции 0—31 (0x0—0x1F) и 127—159 (0x7F—0x9F) не определены. По образцу ISO 8859-1 сделаны все остальные кодировки серии ISO 8859.

ISO-8859-1 — кодировка, зарегистрированная IANA в 1992 г. В отличие от ISO/IEC 8859-1, кодовые позиции 0—31 и 127—159 здесь заполнены управляющими символами (большинство из которых используется весьма редко). В HTML ISO-8859-1 является кодировкой по умолчанию (в XHTML, однако, кодировкой по умолчанию является UTF-8).

IANA разрешает использовать следующие варианты названия: ISO_8859-1:1987, ISO_8859-1, ISO-8859-1, iso-ir-100, sISOLatin1, latin1, l1, IBM819, CP819.

В Юникоде первые 256 кодовых позиций совпадают с ISO-8859-1.

В Microsoft Windows для западноевропейских языков используется кодировка Windows-1252, которая отличается от ISO-8859-1 тем, что позиции 128—159 (0x80—0x9F) здесь заняты разными полезными типографскими символами. Большинство браузеров не различает ISO-8859-1 и Windows-1252 — фактически, и в том, и в другом случае они отображают текст как Windows-1252.

Такая путаница между этими двумя кодировками привела к тому, что многие программы, генерирующие файлы HTML, ошибочно обозначали символы их кодами из Windows−1252 вместо кодов Юникода (исходя из того, что номер символа в ISO-8859-1 равен его номеру в Юникоде): например, тире (—) обозначалось — вместо правильного —, многоточие обозначалось … вместо правильного … и т. д.; из-за распространённости этого явления современные браузеры продолжают показывать, например, — как тире, хотя на самом деле — — это управляющий символ «end of guarded area», применение которого в HTML бессмысленно.

В проекте стандарта HTML 5 предписывается показывать ISO-8859-1 как Windows-1252.[1]

Таблицы

Нижняя часть (0—127) таблиц кодировки не показана, поскольку полностью соответствует обычному ASCII. Числа под буквами обозначают шестнадцатеричный код буквы в Юникоде.

ISO-8859-1

.0.1.2.3.4.5.6.7.8.9.A.B.C.D.E.F
 
8.
 
PAD
80
HOP
81
BPH
82
NBH
83
IND
84
NEL
85
SSA
86
ESA
87
HTS
88
HTJ
89
VTS
8A
PLD
8B
PLU
8C
RI
8D
SS2
8E
SS3
8F
 
9.
 
DCS
90
PU1
91
PU2
92
STS
93
CCH
94
MW
95
SPA
96
EPA
97
SOS
98
SGCI
99
SCI
9A
CSI
9B
ST
9C
OSC
9D
PM
9E
APC
9F
 
A.
 
 
A0
¡
A1
¢
A2
£
A3
¤
A4
¥
A5
¦
A6
§
A7
¨
A8
©
A9
ª
AA
«
AB
¬
AC
­
AD
®
AE
¯
AF
 
B.
 
°
B0
±
B1
²
B2
³
B3
´
B4
µ
B5

B6
·
B7
¸
B8
¹
B9
º
BA
»
BB
¼
BC
½
BD
¾
BE
¿
BF
 
C.
 
À
C0
Á
C1
Â
C2
Ã
C3
Ä
C4
Å
C5
Æ
C6
Ç
C7
È
C8
É
C9
Ê
CA
Ë
CB
Ì
CC
Í
CD
Î
CE
Ï
CF
 
D.
 
Ð
D0
Ñ
D1
Ò
D2
Ó
D3
Ô
D4
Õ
D5
Ö
D6
×
D7
Ø
D8
Ù
D9
Ú
DA
Û
DB
Ü
DC
Ý
DD
Þ
DE
ß
DF
 
E.
 
à
E0
á
E1
â
E2
ã
E3
ä
E4
å
E5
æ
E6
ç
E7
è
E8
é
E9
ê
EA
ë
EB
ì
EC
í
ED
î
EE
ï
EF
 
F.
 
ð
F0
ñ
F1
ò
F2
ó
F3
ô
F4
õ
F5
ö
F6
÷
F7
ø
F8
ù
F9
ú
FA
û
FB
ü
FC
ý
FD
þ
FE
ÿ
FF

Интересно расположение символов × и ÷ посреди букв: первоначально там планировалось разместить лигатуру Œœ, но в конечном итоге было решено, что она не нужна, и освободившиеся два места были заполнены небуквенными символами.[2]

Windows−1252

В первоначальной версии этой кодировки отсутствовали символы: € (0x80), ˆ (0x88), ˜ (0x98), Ž (0x8E), ž (0x9E).

.0.1.2.3.4.5.6.7.8.9.A.B.C.D.E.F
 
8.
 

20AC

201A
ƒ
192

201E

2026

2020

2021
ˆ
2C6

2030
Š
160

2039
Œ
152
Ž
17D
 
9.
 

2018

2019

201C

201D

2022

2013

2014
˜
2DC

2122
š
161

203A
œ
153
ž
17E
Ÿ
178
 
A.
 
 
A0
¡
A1
¢
A2
£
A3
¤
A4
¥
A5
¦
A6
§
A7
¨
A8
©
A9
ª
AA
«
AB
¬
AC
­
AD
®
AE
¯
AF
 
B.
 
°
B0
±
B1
²
B2
³
B3
´
B4
µ
B5

B6
·
B7
¸
B8
¹
B9
º
BA
»
BB
¼
BC
½
BD
¾
BE
¿
BF
 
C.
 
À
C0
Á
C1
Â
C2
Ã
C3
Ä
C4
Å
C5
Æ
C6
Ç
C7
È
C8
É
C9
Ê
CA
Ë
CB
Ì
CC
Í
CD
Î
CE
Ï
CF
 
D.
 
Ð
D0
Ñ
D1
Ò
D2
Ó
D3
Ô
D4
Õ
D5
Ö
D6
×
D7
Ø
D8
Ù
D9
Ú
DA
Û
DB
Ü
DC
Ý
DD
Þ
DE
ß
DF
 
E.
 
à
E0
á
E1
â
E2
ã
E3
ä
E4
å
E5
æ
E6
ç
E7
è
E8
é
E9
ê
EA
ë
EB
ì
EC
í
ED
î
EE
ï
EF
 
F.
 
ð
F0
ñ
F1
ò
F2
ó
F3
ô
F4
õ
F5
ö
F6
÷
F7
ø
F8
ù
F9
ú
FA
û
FB
ü
FC
ý
FD
þ
FE
ÿ
FF

Примечания

Ссылки

windows-1252

ISO/IEC 8859-1 (также известная как ISO 8859-1 и Latin-1) — кодовая страница, предназначенная для западноевропейских языков; она базируется на символьном наборе популярных в прошлом терминалов VT220. Кодовые позиции 0—31 (0x0—0x1F) и 127—159 (0x7F—0x9F) не определены. По образцу ISO 8859-1 сделаны все остальные кодировки серии ISO 8859.

ISO-8859-1 — кодировка, зарегистрированная IANA в 1992 г. В отличие от ISO/IEC 8859-1, кодовые позиции 0—31 и 127—159 здесь заполнены управляющими символами (большинство из которых используется весьма редко). В HTML ISO-8859-1 является кодировкой по умолчанию (в XHTML, однако, кодировкой по умолчанию является UTF-8).

IANA разрешает использовать следующие варианты названия: ISO_8859-1:1987, ISO_8859-1, ISO-8859-1, iso-ir-100, sISOLatin1, latin1, l1, IBM819, CP819.

В Юникоде первые 256 кодовых позиций совпадают с ISO-8859-1.

В Microsoft Windows для западноевропейских языков используется кодировка Windows-1252, которая отличается от ISO-8859-1 тем, что позиции 128—159 (0x80—0x9F) здесь заняты разными полезными типографскими символами. Большинство браузеров не различает ISO-8859-1 и Windows-1252 — фактически, и в том, и в другом случае они отображают текст как Windows-1252.

Такая путаница между этими двумя кодировками привела к тому, что многие программы, генерирующие файлы HTML, ошибочно обозначали символы их кодами из Windows−1252 вместо кодов Юникода (исходя из того, что номер символа в ISO-8859-1 равен его номеру в Юникоде): например, тире (—) обозначалось — вместо правильного —, многоточие обозначалось … вместо правильного … и т. д.; из-за распространённости этого явления современные браузеры продолжают показывать, например, — как тире, хотя на самом деле — — это управляющий символ «end of guarded area», применение которого в HTML бессмысленно.

В проекте стандарта HTML 5 предписывается показывать ISO-8859-1 как Windows-1252.[1]

Таблицы

Нижняя часть (0—127) таблиц кодировки не показана, поскольку полностью соответствует обычному ASCII. Числа под буквами обозначают шестнадцатеричный код буквы в Юникоде.

ISO-8859-1

.0.1.2.3.4.5.6.7.8.9.A.B.C.D.E.F
 
8.
 
PAD
80
HOP
81
BPH
82
NBH
83
IND
84
NEL
85
SSA
86
ESA
87
HTS
88
HTJ
89
VTS
8A
PLD
8B
PLU
8C
RI
8D
SS2
8E
SS3
8F
 
9.
 
DCS
90
PU1
91
PU2
92
STS
93
CCH
94
MW
95
SPA
96
EPA
97
SOS
98
SGCI
99
SCI
9A
CSI
9B
ST
9C
OSC
9D
PM
9E
APC
9F
 
A.
 
 
A0
¡
A1
¢
A2
£
A3
¤
A4
¥
A5
¦
A6
§
A7
¨
A8
©
A9
ª
AA
«
AB
¬
AC
­
AD
®
AE
¯
AF
 
B.
 
°
B0
±
B1
²
B2
³
B3
´
B4
µ
B5

B6
·
B7
¸
B8
¹
B9
º
BA
»
BB
¼
BC
½
BD
¾
BE
¿
BF
 
C.
 
À
C0
Á
C1
Â
C2
Ã
C3
Ä
C4
Å
C5
Æ
C6
Ç
C7
È
C8
É
C9
Ê
CA
Ë
CB
Ì
CC
Í
CD
Î
CE
Ï
CF
 
D.
 
Ð
D0
Ñ
D1
Ò
D2
Ó
D3
Ô
D4
Õ
D5
Ö
D6
×
D7
Ø
D8
Ù
D9
Ú
DA
Û
DB
Ü
DC
Ý
DD
Þ
DE
ß
DF
 
E.
 
à
E0
á
E1
â
E2
ã
E3
ä
E4
å
E5
æ
E6
ç
E7
è
E8
é
E9
ê
EA
ë
EB
ì
EC
í
ED
î
EE
ï
EF
 
F.
 
ð
F0
ñ
F1
ò
F2
ó
F3
ô
F4
õ
F5
ö
F6
÷
F7
ø
F8
ù
F9
ú
FA
û
FB
ü
FC
ý
FD
þ
FE
ÿ
FF

Интересно расположение символов × и ÷ посреди букв: первоначально там планировалось разместить лигатуру Œœ, но в конечном итоге было решено, что она не нужна, и освободившиеся два места были заполнены небуквенными символами.[2]

Windows−1252

В первоначальной версии этой кодировки отсутствовали символы: € (0x80), ˆ (0x88), ˜ (0x98), Ž (0x8E), ž (0x9E).

.0.1.2.3.4.5.6.7.8.9.A.B.C.D.E.F
 
8.
 

20AC

201A
ƒ
192

201E

2026

2020

2021
ˆ
2C6

2030
Š
160

2039
Œ
152
Ž
17D
 
9.
 

2018

2019

201C

201D

2022

2013

2014
˜
2DC

2122
š
161

203A
œ
153
ž
17E
Ÿ
178
 
A.
 
 
A0
¡
A1
¢
A2
£
A3
¤
A4
¥
A5
¦
A6
§
A7
¨
A8
©
A9
ª
AA
«
AB
¬
AC
­
AD
®
AE
¯
AF
 
B.
 
°
B0
±
B1
²
B2
³
B3
´
B4
µ
B5

B6
·
B7
¸
B8
¹
B9
º
BA
»
BB
¼
BC
½
BD
¾
BE
¿
BF
 
C.
 
À
C0
Á
C1
Â
C2
Ã
C3
Ä
C4
Å
C5
Æ
C6
Ç
C7
È
C8
É
C9
Ê
CA
Ë
CB
Ì
CC
Í
CD
Î
CE
Ï
CF
 
D.
 
Ð
D0
Ñ
D1
Ò
D2
Ó
D3
Ô
D4
Õ
D5
Ö
D6
×
D7
Ø
D8
Ù
D9
Ú
DA
Û
DB
Ü
DC
Ý
DD
Þ
DE
ß
DF
 
E.
 
à
E0
á
E1
â
E2
ã
E3
ä
E4
å
E5
æ
E6
ç
E7
è
E8
é
E9
ê
EA
ë
EB
ì
EC
í
ED
î
EE
ï
EF
 
F.
 
ð
F0
ñ
F1
ò
F2
ó
F3
ô
F4
õ
F5
ö
F6
÷
F7
ø
F8
ù
F9
ú
FA
û
FB
ü
FC
ý
FD
þ
FE
ÿ
FF

Примечания

Ссылки

windows-1252

ISO/IEC 8859-1 (также известная как ISO 8859-1 и Latin-1) — кодовая страница, предназначенная для западноевропейских языков; она базируется на символьном наборе популярных в прошлом терминалов VT220. Кодовые позиции 0—31 (0x0—0x1F) и 127—159 (0x7F—0x9F) не определены. По образцу ISO 8859-1 сделаны все остальные кодировки серии ISO 8859.

ISO-8859-1 — кодировка, зарегистрированная IANA в 1992 г. В отличие от ISO/IEC 8859-1, кодовые позиции 0—31 и 127—159 здесь заполнены управляющими символами (большинство из которых используется весьма редко). В HTML ISO-8859-1 является кодировкой по умолчанию (в XHTML, однако, кодировкой по умолчанию является UTF-8).

IANA разрешает использовать следующие варианты названия: ISO_8859-1:1987, ISO_8859-1, ISO-8859-1, iso-ir-100, sISOLatin1, latin1, l1, IBM819, CP819.

В Юникоде первые 256 кодовых позиций совпадают с ISO-8859-1.

В Microsoft Windows для западноевропейских языков используется кодировка Windows-1252, которая отличается от ISO-8859-1 тем, что позиции 128—159 (0x80—0x9F) здесь заняты разными полезными типографскими символами. Большинство браузеров не различает ISO-8859-1 и Windows-1252 — фактически, и в том, и в другом случае они отображают текст как Windows-1252.

Такая путаница между этими двумя кодировками привела к тому, что многие программы, генерирующие файлы HTML, ошибочно обозначали символы их кодами из Windows−1252 вместо кодов Юникода (исходя из того, что номер символа в ISO-8859-1 равен его номеру в Юникоде): например, тире (—) обозначалось — вместо правильного —, многоточие обозначалось … вместо правильного … и т. д.; из-за распространённости этого явления современные браузеры продолжают показывать, например, — как тире, хотя на самом деле — — это управляющий символ «end of guarded area», применение которого в HTML бессмысленно.

В проекте стандарта HTML 5 предписывается показывать ISO-8859-1 как Windows-1252.[1]

Таблицы

Нижняя часть (0—127) таблиц кодировки не показана, поскольку полностью соответствует обычному ASCII. Числа под буквами обозначают шестнадцатеричный код буквы в Юникоде.

ISO-8859-1

.0.1.2.3.4.5.6.7.8.9.A.B.C.D.E.F
 
8.
 
PAD
80
HOP
81
BPH
82
NBH
83
IND
84
NEL
85
SSA
86
ESA
87
HTS
88
HTJ
89
VTS
8A
PLD
8B
PLU
8C
RI
8D
SS2
8E
SS3
8F
 
9.
 
DCS
90
PU1
91
PU2
92
STS
93
CCH
94
MW
95
SPA
96
EPA
97
SOS
98
SGCI
99
SCI
9A
CSI
9B
ST
9C
OSC
9D
PM
9E
APC
9F
 
A.
 
 
A0
¡
A1
¢
A2
£
A3
¤
A4
¥
A5
¦
A6
§
A7
¨
A8
©
A9
ª
AA
«
AB
¬
AC
­
AD
®
AE
¯
AF
 
B.
 
°
B0
±
B1
²
B2
³
B3
´
B4
µ
B5

B6
·
B7
¸
B8
¹
B9
º
BA
»
BB
¼
BC
½
BD
¾
BE
¿
BF
 
C.
 
À
C0
Á
C1
Â
C2
Ã
C3
Ä
C4
Å
C5
Æ
C6
Ç
C7
È
C8
É
C9
Ê
CA
Ë
CB
Ì
CC
Í
CD
Î
CE
Ï
CF
 
D.
 
Ð
D0
Ñ
D1
Ò
D2
Ó
D3
Ô
D4
Õ
D5
Ö
D6
×
D7
Ø
D8
Ù
D9
Ú
DA
Û
DB
Ü
DC
Ý
DD
Þ
DE
ß
DF
 
E.
 
à
E0
á
E1
â
E2
ã
E3
ä
E4
å
E5
æ
E6
ç
E7
è
E8
é
E9
ê
EA
ë
EB
ì
EC
í
ED
î
EE
ï
EF
 
F.
 
ð
F0
ñ
F1
ò
F2
ó
F3
ô
F4
õ
F5
ö
F6
÷
F7
ø
F8
ù
F9
ú
FA
û
FB
ü
FC
ý
FD
þ
FE
ÿ
FF

Интересно расположение символов × и ÷ посреди букв: первоначально там планировалось разместить лигатуру Œœ, но в конечном итоге было решено, что она не нужна, и освободившиеся два места были заполнены небуквенными символами.[2]

Windows−1252

В первоначальной версии этой кодировки отсутствовали символы: € (0x80), ˆ (0x88), ˜ (0x98), Ž (0x8E), ž (0x9E).

.0.1.2.3.4.5.6.7.8.9.A.B.C.D.E.F
 
8.
 

20AC

201A
ƒ
192

201E

2026

2020

2021
ˆ
2C6

2030
Š
160

2039
Œ
152
Ž
17D
 
9.
 

2018

2019

201C

201D

2022

2013

2014
˜
2DC

2122
š
161

203A
œ
153
ž
17E
Ÿ
178
 
A.
 
 
A0
¡
A1
¢
A2
£
A3
¤
A4
¥
A5
¦
A6
§
A7
¨
A8
©
A9
ª
AA
«
AB
¬
AC
­
AD
®
AE
¯
AF
 
B.
 
°
B0
±
B1
²
B2
³
B3
´
B4
µ
B5

B6
·
B7
¸
B8
¹
B9
º
BA
»
BB
¼
BC
½
BD
¾
BE
¿
BF
 
C.
 
À
C0
Á
C1
Â
C2
Ã
C3
Ä
C4
Å
C5
Æ
C6
Ç
C7
È
C8
É
C9
Ê
CA
Ë
CB
Ì
CC
Í
CD
Î
CE
Ï
CF
 
D.
 
Ð
D0
Ñ
D1
Ò
D2
Ó
D3
Ô
D4
Õ
D5
Ö
D6
×
D7
Ø
D8
Ù
D9
Ú
DA
Û
DB
Ü
DC
Ý
DD
Þ
DE
ß
DF
 
E.
 
à
E0
á
E1
â
E2
ã
E3
ä
E4
å
E5
æ
E6
ç
E7
è
E8
é
E9
ê
EA
ë
EB
ì
EC
í
ED
î
EE
ï
EF
 
F.
 
ð
F0
ñ
F1
ò
F2
ó
F3
ô
F4
õ
F5
ö
F6
÷
F7
ø
F8
ù
F9
ú
FA
û
FB
ü
FC
ý
FD
þ
FE
ÿ
FF

Примечания

Ссылки

1252 — это… Что такое Windows-1252?

ISO/IEC 8859-1 (также известная как ISO 8859-1 и Latin-1) — кодовая страница, предназначенная для западноевропейских языков; она базируется на символьном наборе популярных в прошлом терминалов ISO 8859.

ISO-8859-1 — кодировка, зарегистрированная 1992 г. В отличие от ISO/IEC 8859-1, кодовые позиции 0—31 и 127—159 здесь заполнены управляющими символами (большинство из которых, впрочем, всё равно никто не использует). В XHTML, однако, кодировкой по умолчанию является ISO_8859-1:1987, ISO_8859-1, ISO-8859-1, iso-ir-100, sISOLatin1, latin1, l1, IBM819, CP819. ]./

Таблицы

Нижняя часть (0—127) таблиц кодировки не показана, поскольку полностью соответствует обычному Юникоде.

ISO-8859-1

.0.1.2.3.4.5.6.7.8.9.A.B.C.D.E.F
 
8.
 
PAD
80
HOP
81
BPH
82
NBH
83
IND
84
NEL
85
SSA
86
ESA
87
HTS
88
HTJ
89
VTS
8A
PLD
8B
PLU
8C
RI
8D
SS2
8E
SS3
8F
 
9.
 
DCS
90
PU1
91
PU2
92
STS
93
CCH
94
MW
95
SPA
96
EPA
97
SOS
98
SGCI
99
SCI
9A
CSI
9B
ST
9C
OSC
9D
PM
9E
APC
9F
 
A.
 
 
A0
¡
A1
¢
A2
£
A3
¤
A4
¥
A5
¦
A6
§
A7
¨
A8
©
A9
ª
AA
«
AB
¬
AC
­
AD
®
AE
¯
AF
 
B.
 
°
B0
±
B1
²
B2
³
B3
´
B4
µ
B5

B6
·
B7
¸
B8
¹
B9
º
BA
»
BB
¼
BC
½
BD
¾
BE
¿
BF
 
C.
 
À
C0
Á
C1
Â
C2
Ã
C3
Ä
C4
Å
C5
Æ
C6
Ç
C7
È
C8
É
C9
Ê
CA
Ë
CB
Ì
CC
Í
CD
Î
CE
Ï
CF
 
D.
 
Ð
D0
Ñ
D1
Ò
D2
Ó
D3
Ô
D4
Õ
D5
Ö
D6
×
D7
Ø
D8
Ù
D9
Ú
DA
Û
DB
Ü
DC
Ý
DD
Þ
DE
ß
DF
 
E.
 
à
E0
á
E1
â
E2
ã
E3
ä
E4
å
E5
æ
E6
ç
E7
è
E8
é
E9
ê
EA
ë
EB
ì
EC
í
ED
î
EE
ï
EF
 
F.
 
ð
F0
ñ
F1
ò
F2
ó
F3
ô
F4
õ
F5
ö
F6
÷
F7
ø
F8
ù
F9
ú
FA
û
FB
ü
FC
ý
FD
þ
FE
ÿ
FF

Windows−1252

В первоначальной версии этой кодировки отсутствовали символы: € (0x80), ˆ (0x88), ˜ (0x98), Ž (0x8E), ž (0x9E).

.0.1.2.3.4.5.6.7.8.9.A.B.C.D.E.F
 
8.
 

20AC
 
201A
ƒ
192

201E

2026

2020

2021
ˆ
2C6

2030
Š
160

2039
Œ
152
 Ž
17D
 
 
9.
 
 
2018

2019

201C

201D

2022

2013

2014
˜
2DC

2122
š
161

203A
œ
153
 ž
17E
Ÿ
178
 
A.
 
 
A0
¡
A1
¢
A2
£
A3
¤
A4
¥
A5
¦
A6
§
A7
¨
A8
©
A9
ª
AA
«
AB
¬
AC
­
AD
®
AE
¯
AF
 
B.
 
°
B0
±
B1
²
B2
³
B3
´
B4
µ
B5

B6
·
B7
¸
B8
¹
B9
º
BA
»
BB
¼
BC
½
BD
¾
BE
¿
BF
 
C.
 
À
C0
Á
C1
Â
C2
Ã
C3
Ä
C4
Å
C5
Æ
C6
Ç
C7
È
C8
É
C9
Ê
CA
Ë
CB
Ì
CC
Í
CD
Î
CE
Ï
CF
 
D.
 
Ð
D0
Ñ
D1
Ò
D2
Ó
D3
Ô
D4
Õ
D5
Ö
D6
×
D7
Ø
D8
Ù
D9
Ú
DA
Û
DB
Ü
DC
Ý
DD
Þ
DE
ß
DF
 
E.
 
à
E0
á
E1
â
E2
ã
E3
ä
E4
å
E5
æ
E6
ç
E7
è
E8
é
E9
ê
EA
ë
EB
ì
EC
í
ED
î
EE
ï
EF
 
F.
 
ð
F0
ñ
F1
ò
F2
ó
F3
ô
F4
õ
F5
ö
F6
÷
F7
ø
F8
ù
F9
ú
FA
û
FB
ü
FC
ý
FD
þ
FE
ÿ
FF
Кодовые таблицы символов в Windows
1251 | 1252 |

Wikimedia Foundation. 2010.

Окна-1252

Кодовая страница, используемая для латинских алфавитов западноевропейских языков

Эта статья посвящена кодировке символов, обычно ошибочно обозначаемой как «ANSI». Фактическую кодировку символов ANSI см. ASCII. Фактическое кодирование «расширенной латыни ANSI» см. ANSEL.
Окна-1252
MIME / IANAокна-1252[1]
Язык (и)В основном все поддерживаются ИСО / МЭК 8859-1 например английский, Ирландский, итальянский, норвежский, португальский, испанский, шведский. Плюс еще немецкий, финский и французский. И голландский, кроме символа. И словенский кроме č персонаж.
СделаноMicrosoft
СтандартСтандарт кодирования WHATWG
Классификациярасширенный ASCII, Окна-125x
РасширяетсяISO 8859-1 (за исключением элементов управления C1)
Преобразует / кодируетISO 8859-15

Окна-1252 или же CP-1252 (кодовая страница 1252) является однобайтным кодировка символов из Латинский алфавит, используется по умолчанию в наследие компоненты Майкрософт Виндоус для английского и многих европейских языков, включая испанский, французский и немецкий.

Это наиболее часто используемая кодировка однобайтовых символов в мире. По состоянию на октябрь 2020 г.[Обновить], 0,4% всех веб-сайтов заявили об использовании Windows-1252,[2][3] но при этом 1,9%[2] использовал ISO 8859-1 (в то время как только 0,8% из топ-1000 сайтов[4]), который по стандартам HTML5 следует рассматривать как ту же кодировку,[5] так что 2,3% веб-сайтов эффективно используют Windows-1252. Страницы объявлены как US-ASCII также будет считаться этим набором символов. Неизвестное (но, вероятно, большое) подмножество других страниц использует только часть ASCII UTF-8 или только коды, соответствующие Windows-1252 из их объявленного набора символов, и также может быть подсчитано.

Подробности

Эта кодировка символов является суперсет из ISO 8859-1 с точки зрения печатаемых символов, но отличается от стандарта IANA ISO-8859-1 использованием отображаемых символов, а не управляющих символов в диапазоне от 80 до 9F (шестнадцатеричный) классифицировать. Известные дополнительные символы включают фигурные кавычки и все печатные символы, которые находятся в ISO 8859-15 (в других местах, чем ISO 8859-15). Это известно Windows по кодовая страница номер 1252, и IANA-утвержденное название «windows-1252».

Очень часто неправильно маркируют текст Windows-1252 меткой кодировки ISO-8859-1. Обычным результатом было то, что все кавычки и апострофы (созданные с помощью «умных кавычек» в текстовых редакторах) были заменены вопросительными знаками или квадратами в операционных системах, отличных от Windows, что затрудняло чтение текста. Большинство современных веб-браузеров и почтовых клиентов обрабатывают тип СМИ кодировку ISO-8859-1 как Windows-1252, чтобы учесть такую ​​неправильную маркировку. Теперь это стандартное поведение в спецификации HTML5, которое требует, чтобы документы, рекламируемые как ISO-8859-1, фактически анализировались с кодировкой Windows-1252.[5]

Исторически фраза «Кодовая страница ANSI» использовалась в Windows для обозначения кодировок, отличных от DOS; предполагалось, что большинство из них будут ANSI стандарты, такие как ISO-8859-1. Несмотря на то, что Windows-1252 была первой и, безусловно, самой популярной кодовой страницей с таким названием на языке Microsoft Windows, кодовая страница никогда не была стандартом ANSI. Microsoft объясняет: «Термин ANSI, используемый для обозначения кодовых страниц Windows, является исторической справкой, но в настоящее время это неправильное название, которое продолжает сохраняться в сообществе Windows».[6]

В Латекс пакетов, CP-1252 упоминается как «ответ».

IBM использует кодовую страницу 1252 (CCSID 1252 и знак евро расширенный CCSID 5348) для Windows-1252.[7][8][9]

Набор символов

В следующей таблице показан Windows-1252. Каждый символ показан со своим Unicode эквивалент, основанный на сопоставлении Unicode.org Windows-1252 с «наилучшим соответствием». Десятичные числа (в стиле 0123) являются Альтернативный код которые можно использовать для их ввода в системах Windows. Отличия от ISO-8859-1 показаны более темным оттенком поверх цветов легенды.

  Письмо   Число   Пунктуация   Символ   Другой   Неопределенный

Согласно информации на сайтах Microsoft и Консорциума Unicode позиции 81, 8D, 8F, 90 и 9D не используются; однако Windows API MultiByteToWideChar отображает их в соответствующие Коды управления C1. Отображение «наилучшего соответствия» также документирует это поведение.[10]

История

  • В первой версии кодовой страницы 1252, используемой в Microsoft Windows 1.0, не были определены позиции D7 и F7. Все символы в диапазонах 80–9F также не были определены.
  • Для второй версии, используемой в Microsoft Windows 2.0, были определены позиции D7, F7, 91 и 92.
  • В третьей версии, использовавшейся с Microsoft Windows 3.1, были определены все текущие позиции, кроме знак евро и Z с кароном пара символов.
  • Последняя версия, указанная выше, дебютировала в Microsoft Windows 98 и была перенесена на более старые версии Windows с обновлением символа евро.

Расширения OS / 2

В OS / 2 операционная система поддерживает кодировку по имени Кодовая страница 1004 (CCSID 1004) или «Windows Extended».[15][16] В основном это соответствует кодовой странице 1252, за исключением некоторых C0 управляющие символы заменяется диакритический символы. Отличия от ISO-8859-1 показаны более темным оттенком поверх цветов легенды.

Кодовая страница 1004 (только разные строки)[17][18][19][20]
_0_1_2_3_4_5_6_7_8_9_A_B_C_D_E_F
0_
0
NUL
0000
SOH
0001
STX
0002
ETX
0003
ˉ
02C9
˘
02D8
˙
02D9
BEL
0007
˚
02DA
HT
0009
˝
02DD
˛
02ДБ
ˇ
02C7
CR
000D
ТАК
000E
SI
000F

Расширения MSDOS [редко]

Существует редко используемая, но полезная графическая расширенная кодовая страница 1252, где коды от 0x00 до 0x1f позволяют рисовать блоки, как это используется в таких приложениях, как MSDOS Edit и Codeview. Одним из приложений, использующих эту кодовую страницу, была утилита установки / восстановления образа диска корпорации Intel, выпущенная в середине / конце 1995 года. Эти программы были написаны для компьютеров с пользовательской тестовой программой P6 (пример для США.[21]). Он использовался исключительно в тогдашнем регионе EMEA (Европа, Ближний Восток и Африка). Со временем программы были изменены, чтобы использовать кодовую страницу 850.

Графика Расширенная кодовая страница 1252[нужна цитата]
_0_1_2_3_4_5_6_7_8_9_A_B_C_D_E_F
0_
0

25CB

25A0

2191

2193

2192

2190

2551

2550

2554

2557

255A

255D

2591

2592

25BA

25C4
1_
16

2502

2500

250C

2510

2514

2518

251C

2524

2534

252C

2666

253C

2588

2584

2580

25AC

Смотрите также

Рекомендации

  1. ^ Наборы символов, Управление по присвоению номеров в Интернете (IANA), 12 декабря 2018 г. «Эффективность решателей уравнений НАСА в приложениях вычислительной механики» (PDF). НАСА.

внешняя ссылка

Кодировки

 Язык   Идентификатор   Кодировка 
 Russian   ru   iso-8859-5, windows-1251, koi8-r 
 English   en   iso-8859-1, windows-1252 
 Afrikaans   af   iso-8859-1, windows-1252 
 Albanian   sq   iso-8859-1, windows-1250 
 Arabic   ar   iso-8859-6, windows-1256
 Basque   eu   iso-8859-1, windows-1252 
 Bulgarian   bg   iso-8859-5, windows-1251
 Belorussian   be   iso-8859-5, windows-1251
 Catalan   ca   iso-8859-15, windows-1252 
 Croatian   hr   iso-8859-2, windows-1250
 Czech   cs   iso-8859-2, windows-1250
 Danish   da   iso-8859-1, windows-1252 
 Dutch   nl   iso-8859-1, windows-1252 
 Esperanto   eo   iso-8859-3 
 Estonian   et   iso-8859-15, windows-1257
 Faroese   fo   iso-8859-1, windows-1252 
 Finnish   fi   iso-8859-1, windows-1252 
 French   fr   iso-8859-1, windows-1252 
 Galician   gl   iso-8859-1, windows-1252 
 German   de   iso-8859-1, windows-1252 
 Greek   el   iso-8859-7 
 Hebrew   iw       iso-8859-8 
 Hungarian   hu   iso-8859-2, windows-1250
 Icelandic   is   iso-8859-1, windows-1252 
 Irish   ga   iso-8859-1, windows-1252 
 Italian   it   iso-8859-1, windows-1252 
 Japanese   ja   shift_jis, iso-2022-jp, euc-jp 
 Korean   ko   euc-kr 
 Latvian   lv   iso-8859-13, windows-1257 
 Lithuanian   lt   iso-8859-13, windows-1257 
 Macedonian   mk   iso-8859-5, windows-1251
 Maltese   mt   iso-8859-3 
 Norwegian   no   iso-8859-1, windows-1252 
 Polish   pl   iso-8859-2, windows-1250 
 Portuguese   pt   iso-8859-1, windows-1252 
 Portuguese (бразильский)   br   iso-8859-1, windows-1252 
 Romanian   ro   iso-8859-2, windows-1250
 Scottish   gd   iso-8859-1, windows-1252 
 Serbian cyrillic  sr   iso-8859-5, windows-1251 
 Serbian latin  sr   iso-8859-2, windows-1250 
 Slovak   sk   iso-8859-2, windows-1250
 Slovenian   sl   iso-8859-2, windows-1250
 Spanish   la   iso-8859-1, windows-1252 
 Swedish   sv   iso-8859-1, windows-1252 
 Turkish   tr   iso-8859-9, windows-1254 
 Ukrainian   ua       windows-1251, koi8-u      

html — мета-кодировка windows-1252 против UTF-8

Ответ на ваш первый вопрос — да. Рекомендуется полностью изменить все атрибуты кодировки символов для всех ваших документов HTML 5.

Это потому, что это текущий стандарт HTML5 согласно W3C. Я бы изменил все страницы на любом сайте только по этой причине, поскольку стандартизация всей отрисовки разметки неизбежна.

Это легко сделать в любом редакторе, имеющем функцию поиска / замены.Просто используйте эту функцию, чтобы найти в каждом документе термин

и замените его на

Кодировка символов UTF-8 должна быть способна обрабатывать ваши математические символы, но если она не оставляет исходную кодировку без изменений. А остальные страницы с текстом вы захотите изменить на UTF-8. Вот позиция W3Schools в вашей кодировке char.

Спецификация HTML5 поощряет веб-разработчиков использовать UTF-8. набор символов, который охватывает почти все символы и символы в мире! —W3Schools.com

Если размер является проблемой, вы снова оставите только те документы, которые имеют особые требования к математическим символам с исходной кодировкой, если они не отображаются правильно, и я не думаю, что это повлияет на время загрузки вашего браузера настолько, чтобы повредить вашему SEO. . Если у вас много страниц с математическими символами, это может быть проблемой, если вы ищете популярный сайт или для бизнеса, если не размер настолько мал, проблема с размером файла кажется немой.

Для других документов вы все равно должны изменить кодировку для них как UTF-8, даже если у вас есть спецификация.

Если у вас есть метка порядка байтов (BOM) UTF-8 в начале файла затем последние версии браузера, отличные от Internet Explorer 10 или 11 будет использовать это, чтобы определить, что кодировка вашей страницы — UTF-8. Это имеет более высокий приоритет, чем любое другое объявление, включая HTTP заголовок.

Вы можете пропустить объявление мета-кодировки, если у вас есть спецификация, но мы рекомендую сохранить его, так как он помогает людям, смотрящим на исходный код для определения кодировки страницы.—w3.org

Удачи и удачного кодирования! 🙂

Таблица сравнения символов

в Windows-1252, ISO-8859-1, ISO-8859-15

Кодировки символов ISO-8859-1, ISO-8859-15 и Windows-1252 очень похожи, и их легко спутать. Это приводит к нескольким типичным проблемам. Следующая диаграмма показывает различия между этими кодировками и полезна для отладки связанных проблем.

ISO-8859-1 по сравнению с Windows-1252

ISO-8859-1 (также называемый Latin-1) идентичен Windows-1252 (также называемый CP1252), за исключением кодовых точек 128-159 (0x80-0x9F).ISO-8859-1 назначает несколько управляющих кодов в этом диапазоне. Windows-1252 имеет несколько символов, пунктуацию, арифметику и бизнес. символы, присвоенные этим кодовым точкам.

Типичные проблемы
  • Неправильная маркировка текста, закодированного в Windows-1252 как ISO-8859-1, а затем преобразование из ISO-8859-1 в Unicode или другие кодировки приводит к появлению символов в диапазоне 128-159 теряться. Они преобразуются, как если бы они были управляющими кодами, и обычно отображаются в виде белого пространства, специального вопросительного знака, или квадрат, показывающий 4 шестнадцатеричных цифры кодовой точки.
  • Использование шрифта ISO-8859-1, который не имеет правильных глифов для символов Windows-1252 приведет к неправильному отображению символов.
  • HTML и XML используют кодовые точки Unicode в качестве значений в ссылках на числовые символы (NCR). Ссылки на числовые символы — это escape-символы записывается как & # dddd; или & # xhhhh; где десятичные или шестнадцатеричные значения являются кодовыми точками Unicode. Поскольку первые 256 символов в Юникоде идентичны символам в ISO-8859-1, люди привыкают использовать знакомый им кодовый знак для создания NCR.Однако для символов в диапазоне 128–159 в Windows-1252 это неправильные значения. Например, евро (€) в кодовой точке 0x80 в Windows-1252, но в Unicode это U + 20AC. & # x80; является NCR для контрольного кода и не будет отображаться как евро. Правильный NCR — & # x20AC ;.

В сравнительной таблице ниже показаны кодовые точки Unicode, связанные с Windows-1252. символы в диапазоне 128-159.

ISO-8859-1 в сравнении с ISO-8859-15

Эти 2 кодировки идентичны, за исключением 8 кодовых точек, что вызывает путаницу между ними, а также с Windows-1252.Для получения дополнительной информации о ISO-8859-15, см. Сравнение ISO-8859-1 и ISO-8859-15.

Таблица сравнения

Вот символы в диапазоне 128-159 в Windows 1252 с их кодовыми точками Unicode, Значения байтов UTF-8 и кодовые точки ISO-8859-15, если они отличаются от ISO-8859-1.

Примечание по терминологии:

  • NCR = Ссылка на цифровые символы
  • CER = Ссылка на сущность символа
  • CP1252 = Windows-1252
г.
Сравнение символов в Windows-1252, ISO-8859-1, ISO-8859-15
Кодовый пункт UTF-8 байтов NCR * Персонаж CER * или NCR * Имя персонажа
CP1252 * ISO 8859-15 Юникод
(декабрь) (шестигранник) (шестигранник) (шестигранник) # 1 # 2 # 3 (декабрь) (шестигранник)
128 80 A4 20AC E2 82 AC & # 8364; и евро; Знак евро
129 81 НЕ НАЗНАЧЕН
130 82 201A E2 80 9A & # 8218; & sbquo; Одиночный низкий 9 кавычок
131 83 192 C6 92 & # 402; ƒ & # x192; Строчная латинская буква F с крючком
132 84 201E E2 80 9E & # 8222; & bdquo; Двойной Low-9 кавычки
133 85 2026 E2 80 A6 & # 8230; & hellip; Горизонтальное многоточие
134 86 2020 E2 80 A0 & # 8224; & кинжал; Кинжал
135 87 2021 E2 80 A1 & # 8225; и кинжал; Двойной кинжал
136 88 2C6 CB 86 & # 710; ˆ & circ; Буква-модификатор Circumflex Accent
137 89 2030 E2 80 B0 & # 8240; & permil; Знак промилле
138 8A A6 160 C5 A0 & # 352; Š и Скарон; Латинская заглавная буква S с кароном
139 2039 E2 80 B9 & # 8249; & lsaquo; Кавычки с одинарным левым углом
140 8C г. до н.э. 152 C5 92 & # 338; Œ и OElig; Лигатура латинской заглавной буквы OE
141 8D НЕ НАЗНАЧЕН
142 8E B4 17D C5 BD & # 381; Ž & # x17D; Латинская заглавная буква Z с кароном
143 8F НЕ НАЗНАЧЕН
144 90 НЕ НАЗНАЧЕН
145 91 2018 E2 80 98 & # 8216; & lsquo; Левый одинарный кавычочный знак
146 92 2019 E2 80 99 & # 8217; & rsquo; Одинарные кавычки, правые
147 93 201C E2 80 9C & # 8220; & ldquo; Двойные кавычки слева
148 94 201D E2 80 9D & # 8221; & rdquo; Двойные кавычки справа
149 95 2022 E2 80 A2 & # 8226; и бык; Пуля
150 96 2013 E2 80 93 & # 8211; & ndash; En Dash
151 97 2014 E2 80 94 & # 8212; & mdash; Эм Даш
152 98 2DC CB 9C & # 732; ~ & тильда; Маленькая тильда
153 99 2122 E2 84 A2 & # 8482; и торговля; Знак товарного знака
154 9A A8 161 C5 A1 & # 353; š & scaron; Строчная латинская буква S с кароном
155 203A E2 80 BA & # 8250; & rsaquo; Одинарный кавычочный знак, указывающий вправо
156 9C BD 153 C5 93 & # 339; œ & oelig; Латинская маленькая лигатура OE
157 9D НЕ НАЗНАЧЕН
158 9E B8 17E C5 BE & # 382; × & # x17E; Строчная латинская буква Z с кароном
159 9F BE 178 C5 B8 & # 376; Ÿ и Yuml; Латинская заглавная буква Y с диэрезисом

Дополнительные ссылки

Авторские права © 2010, 2011 Tex Texin.Все права защищены.
вернуться наверх

CP1252 — Windows CP1252 Кодовая страница

ЗАГОЛОВОК 05 9094 9094 9012 4 0009 FORM FEED124

5

901 24 18 00125 $ ДОЛЛАРНЫЙ ЗНАК 35 901 24 ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА I 00124 004F ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА V 9012ALL125125 q

5

5 901 24 88124124 9012 9012 9012 ЛИГАТУРА124 9012 ЛИГАТУРА 9012 9012 ЗАГЛАВНАЯ БУКВА Z С КАРОН 901 24 ПРАВАЯ ДВОЙНАЯ ЦИФРОВАЯ МАРКА СТРОЧНАЯ БУКВА Z С КАРОН 9 0124 MICRO SIGN 9004 КРЕПЕЖНЫЙ КРЕПЛЕНИЕ BB BB

5 9004

4 CAPITAL С CEDILLA D6 DISS DAPITER ШИРИНА ШИРИНА 900 81

4

4

4124 9012 E С EAVE 9 0124 00ED SMALLTER O С ТЯЖЕЛЫМ SMALL SMALL 900 БУКВА THORN
Код символа Символ Unicode Описание символа Unicode
00 0000 NULL
01
02 0002 НАЧАЛО ТЕКСТА
03 0003 КОНЕЦ ТЕКСТА
04 0005 ЗАПРОС
06 0006 ПОДТВЕРЖДЕНИЕ
07 0007
09 ГОРИЗОНТАЛЬНАЯ ТАБЛИЦА
0A 000A ЛИНИЯ ПОДАЧИ
0B 000B ВЕРТИКАЛЬНАЯ ТАБЛИЦА
0C 000C

4

4

4 9004
000D ВОЗВРАТ ПЕРЕВОЗКИ
0E 000E ВЫДВИЖЕНИЕ
0F 000F 000F ПЕРЕКЛЮЧЕНИЕ ПЕРЕКЛЮЧЕНИЯ 900
11 0011 УПРАВЛЕНИЕ УСТРОЙСТВОМ ЕДИНОЕ
12 0012 ДВОЙНОЕ УПРАВЛЕНИЕ УСТРОЙСТВАМИ
13 0014 УПРАВЛЕНИЕ УСТРОЙСТВОМ ЧЕТЫРЕ
15 0015 ОТРИЦАТЕЛЬНОЕ ПОДТВЕРЖДЕНИЕ ОТРИЦАТЕЛЬНОЕ ПОДТВЕРЖДЕНИЕ
16
КОНЕЦ ТРАНСМИССИОННОГО БЛОКА
0018 ОТМЕНА
19 0019 КОНЕЦ СРЕДЫ
1A 001A 900 ESCAPE
1C 001C РАЗДЕЛИТЕЛЬ ФАЙЛОВ
1D 001D ГРУППОВЫЙ СЕПАРАТОР
001F РАЗДЕЛИТЕЛЬ БЛОКА
20 0020 ПРОСТРАНСТВО
21! 0021 Восклицательный знак
22 « 0022 ЦЕННЫЙ ЗНАК
23 # 0023

4

4

4 НОМЕРНЫЙ ЗНАК
25% 0025 ПРОЦЕНТНЫЙ ЗНАК
26 и 0026 AMPERSAND
27 ( 0028 ЛЕВЫЙ ПАРЕНТЕЗ
29) 0029 ПРАВЫЙ ПАРЕНТЕЗ
2A * ЗНАК ПЛЮС
2C, 002C 90 125 COMMA
2D 002D HYPHEN-MINUS
2E. 002E ПОЛНАЯ ОСТАНОВКА
2F/ 002F SOLIDUS
30 0 0030 DIGIT 4

5
DIGIT 9001 ОДИН
32 2 0032 ЦИФРА ДВА
33 3 0033 ЦИФРА ТРИ
34 5 0035 ПЯТЬ ЦИФРОВ
36 6 0036 ШЕСТЬ ЦИФРОВ
37 7 0037 0038 ВОСЬМАЯ ЦИФРА
39 9 0039 ЦИФРА ДЕВЯТЬ
3A: 003A COLON
3B; 003B SEMICOLON
3C < 003C МЕНЬШЕ ЗНАКА
3D = 003D 003D

4
EQUARE БОЛЬШЕ, ЧЕМ ЗНАК
3F? 003F ВОПРОСНИТЕЛЬНЫЙ ЗНАК
40 @ 0040 КОММЕРЧЕСКИЙ AT
41 A 0041 900 LATIN CAPITAL 900 LATIN CAPITAL 900 ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА B
43 C 0043 ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА C
44 D 0044 D 0044 0045 ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА E
46 F 0046 ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА F
47 G 0047 G 0047 ГЛАВНАЯ 0048 ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА H
49 I 0049
4A J 004A ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА J
4B K 004B ШЕСТЕРНЯЯ ЗАГЛАДКА ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА L
4D M 004D ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА M
4E N 00412E N 00412E ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА O
50 P 0050 ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА P
51 Q 00124

4
0052 ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА R
53 S 0053 ЛАТИНСКАЯ C ЗАГЛАВНАЯ БУКВА S
54 T 0054 ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА T
55 U 0055 ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА

4124
57 W 0057 ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА W
58 X 0058 9012 9012

ЗАГЛАВНАЯ БУКВА ЛАТИНСКОЙ БУКВЫ Y
5A Z 005A ЗАГЛАВНАЯ БУКВА ЛАТИНСКАЯ Z
5B [ 005B НАЗАД REVERSE SOLIDUS
5D] 005D КРОНШТЕЙН ПРАВЫЙ КВАДРАТНЫЙ
5E ^ 005E CIRCUMFLEX ACCENT
5F _ 005F НИЗКАЯ ЛИНИЯ
6012 900 a 0061 СТРОЧНАЯ ЛАТИНСКАЯ БУКВА A
62 b 0062 СТРОЧНАЯ ЛАТИНСКАЯ БУКВА B
63 c 0063 0063 0063 d 0064 СТРОЧНАЯ ЛАТИНСКАЯ БУКВА D
65 e 0065 СТРОЧНАЯ ЛАТИНСКАЯ БУКВА E
66 f 67 г 0067 СТРОЧНАЯ ЛАТИНСКАЯ БУКВА G
68 h 0 068 СТРОЧНАЯ ЛАТИНСКАЯ БУКВА H
69 i 0069 СТРОЧНАЯ ЛАТИНСКАЯ БУКВА I
6A j 006A J 006A ЛАТИНСКАЯ 9094

5
006B СТРОЧНАЯ ЛАТИНСКАЯ БУКВА K
6C l 006C СТРОЧНАЯ ЛАТИНСКАЯ БУКВА L
6D м 006D LATTER 006D 006E СТРОЧНАЯ ЛАТИНСКАЯ БУКВА N
6F o 006F СТРОЧНАЯ ЛАТИНСКАЯ БУКВА O
70 p 004 0070 LATTER 0070 LATTER 0071 СТРОЧНАЯ ЛАТИНСКАЯ БУКВА Q
72 r 0072 СТРОЧНАЯ ЛАТИНСКАЯ L ETTER R
73 s 0073 СТРОЧНАЯ ЛАТИНСКАЯ БУКВА S
74 t 0074 СТРОЧНАЯ ЛАТИНСКАЯ БУКВА T
СТРОЧНАЯ БУКВА U
76 v 0076 СТРОЧНАЯ ЛАТИНСКАЯ БУКВА V
77 w 0077 СТРОЧНАЯ ЛАТИНСКАЯ БУКВА W
9012 СТРОЧНАЯ ЛАТИНСКАЯ БУКВА X
79 y 0079 СТРОЧНАЯ ЛАТИНСКАЯ БУКВА Y
7A z 007A ЛАТИНСКАЯ СТРОЧНАЯ БУКВА 00124

4
КРОНШТЕЙН ЛЕВЫЙ
7C | 007C ВЕРТИКАЛЬНАЯ ЛИНИЯ
7D} 007D КРОНШТЕЙН ПРАВЫЙ ИЗГИБНОЙ
7E ~ 007124 УДАЛИТЬ
80 20AC ЗНАК ЕВРО
82 201A ОДИН НИЗКИЙ-9 ЦЕНОВЫЙ МАРК
9012AT БУКВА F С КРЮЧКОМ
84 201E ДВОЙНОЙ НИЗКИЙ-9 ЦЕННЫЙ ЗНАК
85 2026 ГОРИЗОНТАЛЬНЫЙ1259494 КИНЖАЛ
87 2021 ДВОЙНОЙ КИНЖАЛ
ˆ 02C6 ПИСЬМО С МОДИФИКАТОРОМ CIRCUMFLEX ACCENT
89 2030 НА ЗНАК НА МЕЛЬНИЦУ
8A LAPTERA
8B 2039 ОДИН ЛЕВЫЙ УГОЛ ЦИФРОВОЙ МАРК
8C Œ 0152 ЛАТИНСКИЙ КАПИТАЛ 0152 ЛАТИНСКИЙ КАПИТАЛ
91 2018 ЛЕВЫЙ ОДИНОЧНЫЙ ЗНАК
92 2019 93 ЛЕВЫЙ ДВОЙНОЙ ЗНАК
94 201D
95 2022 БУЛЛЕТ
96 2013 EN DASH
97 DASH DASH
98 ˜ 02DC МАЛЕНЬКАЯ ТИЛЬДА
99 2122 ЗНАК ТОРГОВОЙ МАРКИ
9A š ЛИЦЕВАЯ LETTER
9B 203A ОДИН ПРЯМОУГОЛЬНЫЙ УГЛОВОЙ МАРК
9C œ 0153 LATIN SMALL LIGATURE
9F Ÿ 0178 ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА Y С DIAERESIS
A0 00A0 БЛОКИРОВКА ПРОСТРАНСТВА
A1 ¡ 00A1 ПЕРЕВЕРНУТЫЙ ЭКЛАМАЦИОННЫЙ ЗНАК 9004

5

5
A3 £ 00A3 ЗНАК ФУНДА
A4 ¤ 00A4 ЗНАК ВАЛЮТЫ
A5
A5 900 ¦ 00A6 СЛОМАННАЯ ШИНА
A7 § 00A7 ЗНАК РАЗДЕЛА
A8 ¨ 00124 00124 ЗНАК АВТОРСКОГО ПРАВА
AA ª 00AA FEMININE ORDINAL IN ДИКАТОР
AB « 00AB ЛЕВЫЙ ДВОЙНОЙ УГОЛ ЦИФРОВОЙ МАРК
AC ¬ 00AC НЕ ЗНАК
AE ® 00AE ЗАРЕГИСТРИРОВАННЫЙ ЗНАК
AF ¯ 00AF МАКРОН
B0 ° ± 00B1 ЗНАК ПЛЮС-МИНУС
B2 ² 00B2 SUPERSCRIPT TWO
B3 ³ THER 00B3 00B4 ОСТРЫЙ АКЦЕНТ
B5 µ 00B5
B6 00B6 PILCROW SIGN
B7 · 00B7
MIDDLE DOT
B9 ¹ 00B9 SUPERSCRIPT ONE
BA º 00BA MASCULINE ORDINAL INDICATB
BC ¼ 00BC VULGAR FRACTION ОДНА ЧЕТВЕРТЬ
BD ½ 00BD VULGAR FRACTION ONE HALF FRACTION BEULGAR FRACTION ONE HALF
BEULGAR
BF ¿ 00BF ПЕРЕВЕРНУТЫЙ ВОПРОС MAR K
C0 À 00C0 ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА A С ТЯЖЕЛЫМ
C1 Á 00C1 ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА

9012 CAPITAL 9012 CAPITAL 9012
ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА A С CIRCUMFLEX
C3 Ã 00C3 ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА A С TILDE
C4 00124 LAPTER LAPTER LAPTER C5 Å 00C5 ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА А С КОЛЬЦОМ ВЫШЕ
C6 Æ 00C6 ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА C6 ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА
C8 È 00C8 ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА E С ТЯЖЕЛЫМ 90 125
C9 É 00C9 ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА E С ОСТРЫМ
CA Ê 00CA ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА E 00CA25125 9012 9012 90C ЗАГЛАВНАЯ БУКВА E С ДИАРЕЗИСОМ
CC Ì 00CC ЗАГЛАВНАЯ БУКВА I ЛАТИНСКОЙ ЗАГЛАВНОЙ БУКВЫ I С ГРАФИКОЙ
CD Í ШИКАРНАЯ 004 CAPITAL 90CD Î 00CE ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА I С CIRCUMFLEX
CF Ï 00CF ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА I С DIAERESIS DIAERESIS
D1 Ñ 00D1 ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА N С ТИЛЬДОЙ 901 25
D2 Ò 00D2 ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА O С ТЯЖЕЛЫМ
D3 Ó 00D3 ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА DK ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА O С CIRCUMFLEX
D5 Õ 00D5 ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА O С ТИЛЬДЕЙ
D6 Ö Ö Ö × 00D7 ЗНАК УМНОЖЕНИЯ
D8 Ø 00D8 ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА O С ХОДОМ
D124
DA Ú 00DA ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА U С ОСТРЫМ СТОРОМ
DB Û 00DB ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА U С CIRCUMFLEX
DC Ü 00DC ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА

9012 905 DIAERES 9012 DIAERES ЗАГЛАВНАЯ БУКВА Y С ОСТРЫМИ
DE Þ 00DE ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА ШИП
DF ß 00DF SMALL ШИРИНА ЭЛЕКТРОПЛАСТИНА 9012 00E0 СТРОЧНАЯ ЛАТИНСКАЯ БУКВА А С ТЯЖЕЛЫМ
E1 á 00E1 СТРОЧНАЯ ЛАТИНСКАЯ БУКВА А С ОСТРЫМ
E2 0012 МАЛЫЙ КРЕПЛЕНИЕ 00122 КОРПУС

C
E3 ã 00E3 СТРОЧНАЯ ЛАТИНСКАЯ БУКВА A С ТИЛЬДОЙ
E4 ä 00E4 СТРОЧНАЯ ЛАТИНСКАЯ БУКВА А С ДИАРЕЗИСОМ
E5 å 00E5 СТРОЧНАЯ ЛАТИНСКАЯ БУКВА А С КОЛЬЦОМ ВЫШЕ E
E7 ç 00E7 СТРОЧНАЯ ЛАТИНСКАЯ БУКВА C С СЕДИЛЬЕЙ
E8 è 00E8 ЛАТИНСКАЯ МАЛЕНЬКАЯ БУКВА

412 9012 E
СТРОЧНАЯ ЛАТИНСКАЯ БУКВА E с ОСТРЫМ
EA ê 00EA СТРОЧНАЯ ЛАТИНСКАЯ БУКВА E с CIRCUMFLEX
EB ë 00EBIS 9012 00EBIS LETTER 9012 EC ì 00EC СТРОЧНАЯ ЛАТИНСКАЯ БУКВА I С ТЯЖЕЛЫМ
ED í СТРОЧНАЯ ЛАТИНСКАЯ БУКВА I С ОСТРЫМ
EE î 00EE СТРОЧНАЯ ЛАТИНСКАЯ БУКВА I С CIRCUMFLEX
EF
F0 ð 00F0 СТРОЧНАЯ ЛАТИНСКАЯ БУКВА ETH
F1 ñ 00F1 СТРОЧНАЯ ЛАТИНСКАЯ БУКВА N С ТИЛЬДОМ 9004 9004
9004
9004
F3 ó 00F3 СТРОЧНАЯ ЛАТИНСКАЯ БУКВА O С ОСТРОЙ
F4 ô 00F4 ЛАТИНСКАЯ МАЛЕНЬКАЯ БУКВА FLEX 9012 00F5 СТРОЧНАЯ ЛАТИНСКАЯ БУКВА O с тильдой
F6 ö 00F6 ЛАТИНСКАЯ СТРОЧНАЯ БУКВА O С ДИАРЕЗИСОМ
F7 ÷ 00F7 ЗНАК РАЗДЕЛА
F8 ø 00F8 9012 9012 9012 9012 ШЕСТЕРНЯ С МАЛЫЙ ШЕСТЕРНЯЮЩИЙ ШЕСТЕРНЯ 9012 00F9 СТРОЧНАЯ ЛАТИНСКАЯ БУКВА U С ТЯЖЕЛЫМ
FA ú 00FA СТРОЧНАЯ ЛАТИНСКАЯ БУКВА U ОСТРАЯ
FB ​​ û FB ​​ û 00FALL 00FALL 00FALL FC ü 00FC СТРОЧНАЯ ЛАТИНСКАЯ БУКВА U С ДИАРЕЗИСОМ
FD ý 00FD ЛАТИНСКАЯ СТРОЧНАЯ БУКВА Y С ACUTE
FF ÿ 00FF СТРОЧНАЯ ЛАТИНСКАЯ БУКВА Y С ДИАРЕЗИСОМ 901 25

окон-1252 — npm

windows-1252 — это надежная реализация JavaScript кодировки символов windows-1252, как определено стандартом кодирования.

Эта кодировка известна под следующими именами: ansi_x3.4-1968, ascii, cp1252, cp819, csisolatin1, ibm819, iso-8859-1, iso-ir-100, iso8859-1, iso88591, iso_8859-1, iso_8859- 1: 1987, l1, latin1, us-ascii, windows-1252 и x-cp1252.

Установка

Через npm:

В браузере или в Node.js:

 import {кодировать, декодировать, подписывать} из 'windows-1252';
// или…
импортировать * как windows1252 из windows-1252; 

API

окон1252.этикетки

Массив строк, каждая из которых представляет метку для данной кодировки.

windows1252.encode (ввод, параметры)

Эта функция принимает простую текстовую строку (параметр input ) и кодирует ее в соответствии с windows-1252. Возвращаемое значение — это не зависящий от среды Uint16Array , каждый элемент которого представляет октет согласно windows-1252.

 const encodedData = windows1252.encode (текст); 

Необязательный объект options и его свойство mode могут использоваться для установки режима ошибки.Доступны два режима ошибки: «фатальный» (по умолчанию) или «замена» . (Примечание: это отличается от спецификации, которая распознает «фатальные» и HTML-режимы для кодировщиков. Причина этого различия заключается в том, что алгоритм спецификации нацелен на создание HTML, тогда как эта библиотека кодирует в не зависящий от среды Uint16Array of байтов.)

 const encodedData = windows1252.encode (текст, {
  режим: 'замена'
});
// Если `text` содержит символ, который не может быть представлен в windows-1252,
// вместо выдачи ошибки он становится 0xFFFD.

windows1252.decode (ввод, параметры)

Эта функция декодирует вход в соответствии с windows-1252. Входной параметр может быть либо массивом Uint16Array , каждый элемент которого представляет октет согласно windows-1252, либо «байтовой строкой» (т.е. строкой, каждый элемент которой представляет октет согласно windows-1252).

 константный текст = windows1252.decode (encodedData); 

Необязательный объект options и его свойство mode могут использоваться для установки режима ошибки.Для декодирования режим ошибки может быть «замена» (по умолчанию) или «фатальный» .

 const text = windows1252.decode (encodedData, {
  режим: 'смертельный'
});
// Если `encodedData` содержит недопустимый байт для кодировки windows-1252,
// вместо того, чтобы заменить его на U + FFFD в выводе, выдается ошибка. 

Банкноты

Доступны аналогичные модули для других однобайтовых устаревших кодировок.

Автор

Лицензия

windows-1252 доступен по лицензии MIT.

Кодирование

XML

Кодирование XML

Из http://www.w3schools.com (Copyright Refsnes Data)


XML-документы могут содержать символы, отличные от ASCII, например норвежский или французский.

Чтобы избежать ошибок, укажите кодировку XML или сохраните файлы XML как Юникод.


Ошибки кодирования XML

Если вы загрузите XML-документ, вы можете получить две разные ошибки с указанием проблем с кодировкой:

В текстовом содержимом обнаружен недопустимый символ.

Вы получите эту ошибку, если ваш XML содержит символы, отличные от ASCII, и файл был сохранен как однобайтный ANSI (или ASCII) без указания кодировки.

Однобайтовый XML-файл с кодировкой атрибут.

Тот же однобайтовый XML-файл без атрибут кодировки.

Переключение с текущей кодировки на указанную кодировку не поддерживается.

Вы получаете эту ошибку, если ваш XML-файл был сохранен как двухбайтовый Unicode (или UTF-16) с однобайтовой кодировкой (Windows-1252, ISO-8859-1, UTF-8) указан.

Вы также получаете эту ошибку, если ваш XML-файл был сохранен с однобайтовым ANSI (или ASCII), с двухбайтовым указана кодировка (UTF-16).

Двухбайтовый XML-файл без кодирование.

Тот же двухбайтовый XML-файл с однобайтовая кодировка.


Блокнот Windows

Windows Notepad по умолчанию сохраняет файлы в однобайтовом формате ANSI (ASCII).

Если вы выбрали «Сохранить как ...», вы можете указать двухбайтовый Unicode (UTF-16).

Сохранить XML-файл ниже как Unicode (обратите внимание, что документ не содержит кодировки атрибут):

 
<примечание>
   Яни 
   Тове 
  <сообщение> Норвежский:. Французский: 
 

Файл note_encode_none_u.xml выше НЕ генерирует ошибка. Но если вы укажете однобайтовую кодировку, она будет.

Следующая кодировка (откройте), выдаст сообщение об ошибке:

  

Следующая кодировка (откройте), выдаст сообщение об ошибке:

  

Следующая кодировка (откройте), выдаст сообщение об ошибке:

  

Следующая кодировка (откройте ее) НЕ БУДЕТ выдает ошибку:

  


Заключение

  • Всегда использовать атрибут кодировки
  • Используйте редактор, поддерживающий кодировку
  • Убедитесь, что вы знаете, какую кодировку использует редактор
  • Используйте ту же кодировку в атрибуте кодировки

Из номера http: // www.w3schools.com (Авторские права Refsnes Data)

Карты кодировки набора символов

- CP1252 / Windows-1252

Учебники Unicode - Учебные примеры Херонга

∟Карты кодировки набора символов

∟Карты кодирования набора символов - CP1252 / Windows-1252

В этом разделе представлен учебный пример анализа и печати карт кодировки набора символов для кодирования: CP1252 / Windows-1252, кодировка по умолчанию для Java SE в системах Windows.

Вот результат работы моей примерной программы EncodingAnalyzer2.java, для кодирования CP1252 / Windows-1252 с Java SE 7:

C: \ herong> Java EncodingAnalyzer2 CP1252
Кодировка CP1252:
00000000> 00 - 0000007F> 7F
00000080> 3F - 0000009F> 3F: недопустимый диапазон
000000A0> A0 - 000000FF> FF
00000100> 3F - 00000151> 3F: недопустимый диапазон
00000152> 8C - 00000152> 8C
00000153> 9C - 00000153> 9C
00000154> 3F - 0000015F> 3F: недопустимый диапазон
00000160> 8A - 00000160> 8A
00000161> 9A - 00000161> 9A
00000162> 3F - 00000177> 3F: недопустимый диапазон
00000178> 9F - 00000178> 9F
00000179> 3F - 0000017C> 3F: недопустимый диапазон
0000017D> 8E - 0000017D> 8E
0000017E> 9E - 0000017E> 9E
0000017F> 3F - 00000191> 3F: недопустимый диапазон
00000192> 83 - 00000192> 83
00000193> 3F - 000002C5> 3F: недопустимый диапазон
000002C6> 88 - 000002C6> 88
000002C7> 3F - 000002DB> 3F: недопустимый диапазон
000002DC> 98 - 000002DC> 98
000002DD> 3F - 00002012> 3F: недопустимый диапазон
00002013> 96 - 00002014> 97
00002015> 3F - 00002017> 3F: недопустимый диапазон
00002018> 91 - 00002019> 92
0000201A> 82 - 0000201A> 82
0000201B> 3F - 0000201B> 3F: недопустимый диапазон
0000201C> 93 - 0000201D> 94
0000201E> 84 - 0000201E> 84
0000201F> 3F - 0000201F> 3F: недопустимый диапазон
00002020> 86 - 00002021> 87
00002022> 95 - 00002022> 95
00002023> 3F - 00002025> 3F: недопустимый диапазон
00002026> 85 - 00002026> 85
00002027> 3F - 0000202F> 3F: недопустимый диапазон
00002030> 89 - 00002030> 89
00002031> 3F - 00002038> 3F: недопустимый диапазон
00002039> 8Б - 00002039> 8Б
0000203A> 9B - 0000203A> 9B
0000203B> 3F - 000020AB> 3F: недопустимый диапазон
000020AC> 80 - 000020AC> 80
000020AD> 3F - 00002121> 3F: недопустимый диапазон
00002122> 99 - 00002122> 99
00002123> 3F - 0010FFFF> 3F: недопустимый диапазон

Кодовая точка> Последовательность байтов - Кодовая точка> Последовательность байтов
 

Карта кодировки CP1252 / Windows-1252, которая является кодировкой по умолчанию, используемой Java SE для систем Windows, не все так просто:

  • Выходная последовательность всегда составляет один байт.
  • Он совместим с US-ASCII в диапазоне 0x0000 - 0x007F.
  • Допустима только одна секция, 0x00A0 - 0x00FF, в диапазоне 0x0080 - 0x00FF.
  • Допустимо только небольшое количество кодовых точек в диапазоне 0x0100 - 0xFFFF.

Содержание

Об этой книге

Наборы символов и кодировки

Набор символов ASCII и кодировка

GB2312 Набор символов и кодировка

GB18030 Набор символов и кодировка

Набор символов и кодировки JIS X0208

Набор символов Юникода

UTF-8 (формат преобразования Unicode - 8-бит)

Кодировки UTF-16, UTF-16BE и UTF-16LE

Кодировки UTF-32, UTF-32BE и UTF-32LE

Язык Java и символы Unicode

Кодировка символов в Java

►Карты кодировки набора символов

Анализатор карт кодировки набора символов

Карты кодировки набора символов

- US-ASCII и ISO-8859-1 / Latin 1

►Карты кодировки набора символов - CP1252 / Windows-1252

Карты кодировки набора символов

- Unicode UTF-8

Карты кодировки набора символов

- Unicode UTF-16, UTF-16BE, UTF-16LE

Карты кодировки набора символов

- Unicode UTF-32, UTF-32BE, UTF-32LE

Программа счетчика символов

для любой данной кодировки

Сравнение кодировок наборов символов

Программы преобразования кодирования для кодированных текстовых файлов

Использование Блокнота в качестве текстового редактора Unicode

Использование Microsoft Word в качестве текстового редактора Unicode

Использование Microsoft Excel в качестве текстового редактора Unicode

Шрифты Unicode

Блоки кодовых точек Unicode: 0000 - 0FFF

Блоки кодовых точек Unicode: 1000 - FFFF

Блоки кодовых точек Unicode: 10000 - 11FFF

Блоки кодовых точек Unicode: 12000 - 10FFFF

Устаревшие учебники

Список литературы

Полная версия в PDF / EPUB

Вопрос Список необходимых преобразований кодировки символов: windows-1252 в UTF-8

Вопрос
Список необходимых преобразований кодировки символов: windows-1252 в UTF-8
*

447 видимость 0 arrow_circle_up 0 arrow_circle_down


У меня есть база данных SQL Server, полная неверно закодированных символов.Проблема заключалась в том, что ETL был написан на Java с неправильной кодировкой по умолчанию и поэтому напрямую загружал плохо закодированные символы. База данных буквально содержит символы ö вместо ö

.

Я исправил проблему с ETL, теперь я хочу исправить существующие данные. Я знаю, что могу использовать REPLACE () для замены символов, но моя проблема в том, что у меня нет окончательного списка символов и того, какими они «предполагаются».

Я поискал в Интернете какой-то исчерпывающий список, но не нашел.Мне просто нужен большой список:

ö> ö

à ©> é

и т. Д.

РЕДАКТИРОВАТЬ: Сначала я подумал, что «плохая» кодировка - это ISO 8859-15, на самом деле я только что проверил предыдущую кодировку по умолчанию, и это windows-1252. Я обновил заголовок сообщения.


Ответ - 1
проверено

0 arrow_circle_up 0 arrow_circle_down

Это большой список.UTF-8 кодирует весь Юникод от одного до четырех байтов на каждую кодовую точку Юникода. Существует 1,114,111 кодовых точек Unicode (1,112,064, если исключены суррогаты UTF-16).

Строки легче читать с помощью Windows-1252, кодировать их в байты с помощью Windows-1252, декодировать с помощью UTF-8. Пример на Python, так как это то, что у меня есть для демонстрации:

  >>> s = 'öà ©'
>>> s.encode ('Windows-1252'). decode ('UTF-8')
'öé'
  

Обратите внимание, что Windows-1252 работает с потерями.Некоторые байты, используемые в UTF-8, не имеют определения в Windows-1252, поэтому возможно, что при записи в вашу базу данных они были отброшены. Также возможно, что использовался ISO-8859-1 (он же latin1 ), который близок к Windows-1252, но все байты определены.


Источник: https://stackoverflow.
Оставить комментарий

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *