Windows 1252 кодировка: Кодировка от Windows-1252 до UTF-8

Содержание

windows-1252

ISO/IEC 8859-1 (также известная как ISO 8859-1 и Latin-1) — кодовая страница, предназначенная для западноевропейских языков; она базируется на символьном наборе популярных в прошлом терминалов VT220. Кодовые позиции 0—31 (0x0—0x1F) и 127—159 (0x7F—0x9F) не определены. По образцу ISO 8859-1 сделаны все остальные кодировки серии ISO 8859.

ISO-8859-1 — кодировка, зарегистрированная IANA в 1992 г. В отличие от ISO/IEC 8859-1, кодовые позиции 0—31 и 127—159 здесь заполнены управляющими символами (большинство из которых используется весьма редко). В HTML ISO-8859-1 является кодировкой по умолчанию (в XHTML, однако, кодировкой по умолчанию является UTF-8).

IANA разрешает использовать следующие варианты названия: ISO_8859-1:1987, ISO_8859-1, ISO-8859-1, iso-ir-100, sISOLatin1, latin1, l1, IBM819, CP819.

В Юникоде первые 256 кодовых позиций совпадают с ISO-8859-1.

В Microsoft Windows для западноевропейских языков используется кодировка Windows-1252, которая отличается от ISO-8859-1 тем, что позиции 128—159 (0x80—0x9F) здесь заняты разными полезными типографскими символами. Большинство браузеров не различает ISO-8859-1 и Windows-1252 — фактически, и в том, и в другом случае они отображают текст как Windows-1252.

Такая путаница между этими двумя кодировками привела к тому, что многие программы, генерирующие файлы HTML, ошибочно обозначали символы их кодами из Windows−1252 вместо кодов Юникода (исходя из того, что номер символа в ISO-8859-1 равен его номеру в Юникоде): например, тире (—) обозначалось  вместо правильного —, многоточие обозначалось  вместо правильного … и т. д.; из-за распространённости этого явления современные браузеры продолжают показывать, например,  как тире, хотя на самом деле  — это управляющий символ «end of guarded area», применение которого в HTML бессмысленно.

В проекте стандарта HTML 5 предписывается показывать ISO-8859-1 как Windows-1252.^[1]

Таблицы

Нижняя часть (0—127) таблиц кодировки не показана, поскольку полностью соответствует обычному ASCII. Числа под буквами обозначают шестнадцатеричный код буквы в Юникоде.

ISO-8859-1

	.0	.1	.2	.3	.4	.5	.6	.7	.8	.9	.A	.B	.C	.D	.E	.F
8.	PAD 80	HOP 81	BPH 82	NBH 83	IND 84	NEL 85	SSA 86	ESA 87	HTS 88	HTJ 89	VTS 8A	PLD 8B	PLU 8C	RI 8D	SS2 8E	SS3 8F
9.	DCS 90	PU1 91	PU2 92	STS 93	CCH 94	MW 95	SPA 96	EPA 97	SOS 98	SGCI 99	SCI 9A	CSI 9B	ST 9C	OSC 9D	PM 9E	APC 9F
A.	A0	¡ A1	¢ A2	£ A3	¤ A4	¥ A5	¦ A6	§ A7	¨ A8	© A9	ª AA	« AB	¬ AC	AD	® AE	¯ AF
B.	° B0	± B1	² B2	³ B3	´ B4	µ B5	¶ B6	· B7	¸ B8	¹ B9	º BA	» BB	¼ BC	½ BD	¾ BE	¿ BF
C.	À C0	Á C1	Â C2	Ã C3	Ä C4	Å C5	Æ C6	Ç C7	È C8	É C9	Ê CA	Ë CB	Ì CC	Í CD	Î CE	Ï CF
D.	Ð D0	Ñ D1	Ò D2	Ó D3	Ô D4	Õ D5	Ö D6	× D7	Ø D8	Ù D9	Ú DA	Û DB	Ü DC	Ý DD	Þ DE	ß DF
E.	à E0	á E1	â E2	ã E3	ä E4	å E5	æ E6	ç E7	è E8	é E9	ê EA	ë EB	ì EC	í ED	î EE	ï EF
F.	ð F0	ñ F1	ò F2	ó F3	ô F4	õ F5	ö F6	÷ F7	ø F8	ù F9	ú FA	û FB	ü FC	ý FD	þ FE	ÿ FF

Интересно расположение символов × и ÷ посреди букв: первоначально там планировалось разместить лигатуру Œœ, но в конечном итоге было решено, что она не нужна, и освободившиеся два места были заполнены небуквенными символами.

[2]

Windows−1252

В первоначальной версии этой кодировки отсутствовали символы: € (0x80), ˆ (0x88), ˜ (0x98), Ž (0x8E), ž (0x9E).

	.0	.1	.2	.3	.4	.5	.6	.7	.8	.9	.A	.B	.C	.D	.E	.F
8.	€ 20AC		‚ 201A	ƒ 192	„ 201E	… 2026	† 2020	‡ 2021	ˆ 2C6	‰ 2030	Š 160	‹ 2039	Œ 152		Ž 17D
9.		‘ 2018	’ 2019	“ 201C	” 201D	• 2022	– 2013	— 2014	˜ 2DC	™ 2122	š 161	› 203A	œ 153		ž 17E	Ÿ 178
A.	A0	¡ A1	¢ A2	£ A3	¤ A4	¥ A5	¦ A6	§ A7	¨ A8	© A9	ª AA	« AB	¬ AC	AD	® AE	¯ AF
B.	° B0	± B1	² B2	³ B3	´ B4	µ B5	¶ B6	· B7	¸ B8	¹ B9	º BA	» BB	¼ BC	½ BD	¾ BE	¿ BF
C.	À C0	Á C1	Â C2	Ã C3	Ä C4	Å C5	Æ C6	Ç C7	È C8	É C9	Ê CA	Ë CB	Ì CC	Í CD	Î CE	Ï CF
D.	Ð D0	Ñ D1	Ò D2	Ó D3	Ô D4	Õ D5	Ö D6	× D7	Ø D8	Ù D9	Ú DA	Û DB	Ü DC	Ý DD	Þ DE	ß DF
E.	à E0	á E1	â E2	ã E3	ä E4	å E5	æ E6	ç E7	è E8	é E9	ê EA	ë EB	ì EC	í ED	î EE	ï EF
F.	ð F0	ñ F1	ò F2	ó F3	ô F4	õ F5	ö F6	÷ F7	ø F8	ù F9	ú FA	û FB	ü FC	ý FD	þ FE	ÿ FF

Примечания

Ссылки

windows-1252

В Юникоде первые 256 кодовых позиций совпадают с ISO-8859-1.

В проекте стандарта HTML 5 предписывается показывать ISO-8859-1 как Windows-1252.^[1]

Таблицы

ISO-8859-1

	.0	.1	.2	.3	.4	.5	.6	.7	.8	.9	.A	.B	.C	.D	.E	.F
8.	PAD 80	HOP 81	BPH 82	NBH 83	IND 84	NEL 85	SSA 86	ESA 87	HTS 88	HTJ 89	VTS 8A	PLD 8B	PLU 8C	RI 8D	SS2 8E	SS3 8F
9.	DCS 90	PU1 91	PU2 92	STS 93	CCH 94	MW 95	SPA 96	EPA 97	SOS 98	SGCI 99	SCI 9A	CSI 9B	ST 9C	OSC 9D	PM 9E	APC 9F
A.	A0	¡ A1	¢ A2	£ A3	¤ A4	¥ A5	¦ A6	§ A7	¨ A8	© A9	ª AA	« AB	¬ AC	AD	® AE	¯ AF
B.	° B0	± B1	² B2	³ B3	´ B4	µ B5	¶ B6	· B7	¸ B8	¹ B9	º BA	» BB	¼ BC	½ BD	¾ BE	¿ BF
C.	À C0	Á C1	Â C2	Ã C3	Ä C4	Å C5	Æ C6	Ç C7	È C8	É C9	Ê CA	Ë CB	Ì CC	Í CD	Î CE	Ï CF
D.	Ð D0	Ñ D1	Ò D2	Ó D3	Ô D4	Õ D5	Ö D6	× D7	Ø D8	Ù D9	Ú DA	Û DB	Ü DC	Ý DD	Þ DE	ß DF
E.	à E0	á E1	â E2	ã E3	ä E4	å E5	æ E6	ç E7	è E8	é E9	ê EA	ë EB	ì EC	í ED	î EE	ï EF
F.	ð F0	ñ F1	ò F2	ó F3	ô F4	õ F5	ö F6	÷ F7	ø F8	ù F9	ú FA	û FB	ü FC	ý FD	þ FE	ÿ FF

Windows−1252

В первоначальной версии этой кодировки отсутствовали символы: € (0x80), ˆ (0x88), ˜ (0x98), Ž (0x8E), ž (0x9E).

	.0	.1	.2	.3	.4	.5	.6	.7	.8	.9	.A	.B	.C	.D	.E	.F
8.	€ 20AC		‚ 201A	ƒ 192	„ 201E	… 2026	† 2020	‡ 2021	ˆ 2C6	‰ 2030	Š 160	‹ 2039	Œ 152		Ž 17D
9.		‘ 2018	’ 2019	“ 201C	” 201D	• 2022	– 2013	— 2014	˜ 2DC	™ 2122	š 161	› 203A	œ 153		ž 17E	Ÿ 178
A.	A0	¡ A1	¢ A2	£ A3	¤ A4	¥ A5	¦ A6	§ A7	¨ A8	© A9	ª AA	« AB	¬ AC	AD	® AE	¯ AF
B.	° B0	± B1	² B2	³ B3	´ B4	µ B5	¶ B6	· B7	¸ B8	¹ B9	º BA	» BB	¼ BC	½ BD	¾ BE	¿ BF
C.	À C0	Á C1	Â C2	Ã C3	Ä C4	Å C5	Æ C6	Ç C7	È C8	É C9	Ê CA	Ë CB	Ì CC	Í CD	Î CE	Ï CF
D.	Ð D0	Ñ D1	Ò D2	Ó D3	Ô D4	Õ D5	Ö D6	× D7	Ø D8	Ù D9	Ú DA	Û DB	Ü DC	Ý DD	Þ DE	ß DF
E.	à E0	á E1	â E2	ã E3	ä E4	å E5	æ E6	ç E7	è E8	é E9	ê EA	ë EB	ì EC	í ED	î EE	ï EF
F.	ð F0	ñ F1	ò F2	ó F3	ô F4	õ F5	ö F6	÷ F7	ø F8	ù F9	ú FA	û FB	ü FC	ý FD	þ FE	ÿ FF

Примечания

Ссылки

windows-1252

В Юникоде первые 256 кодовых позиций совпадают с ISO-8859-1.

В проекте стандарта HTML 5 предписывается показывать ISO-8859-1 как Windows-1252.^[1]

Таблицы

ISO-8859-1

	.0	.1	.2	.3	.4	.5	.6	.7	.8	.9	.A	.B	.C	.D	.E	.F
8.	PAD 80	HOP 81	BPH 82	NBH 83	IND 84	NEL 85	SSA 86	ESA 87	HTS 88	HTJ 89	VTS 8A	PLD 8B	PLU 8C	RI 8D	SS2 8E	SS3 8F
9.	DCS 90	PU1 91	PU2 92	STS 93	CCH 94	MW 95	SPA 96	EPA 97	SOS 98	SGCI 99	SCI 9A	CSI 9B	ST 9C	OSC 9D	PM 9E	APC 9F
A.	A0	¡ A1	¢ A2	£ A3	¤ A4	¥ A5	¦ A6	§ A7	¨ A8	© A9	ª AA	« AB	¬ AC	AD	® AE	¯ AF
B.	° B0	± B1	² B2	³ B3	´ B4	µ B5	¶ B6	· B7	¸ B8	¹ B9	º BA	» BB	¼ BC	½ BD	¾ BE	¿ BF
C.	À C0	Á C1	Â C2	Ã C3	Ä C4	Å C5	Æ C6	Ç C7	È C8	É C9	Ê CA	Ë CB	Ì CC	Í CD	Î CE	Ï CF
D.	Ð D0	Ñ D1	Ò D2	Ó D3	Ô D4	Õ D5	Ö D6	× D7	Ø D8	Ù D9	Ú DA	Û DB	Ü DC	Ý DD	Þ DE	ß DF
E.	à E0	á E1	â E2	ã E3	ä E4	å E5	æ E6	ç E7	è E8	é E9	ê EA	ë EB	ì EC	í ED	î EE	ï EF
F.	ð F0	ñ F1	ò F2	ó F3	ô F4	õ F5	ö F6	÷ F7	ø F8	ù F9	ú FA	û FB	ü FC	ý FD	þ FE	ÿ FF

Windows−1252

В первоначальной версии этой кодировки отсутствовали символы: € (0x80), ˆ (0x88), ˜ (0x98), Ž (0x8E), ž (0x9E).

	.0	.1	.2	.3	.4	.5	.6	.7	.8	.9	.A	.B	.C	.D	.E	.F
8.	€ 20AC		‚ 201A	ƒ 192	„ 201E	… 2026	† 2020	‡ 2021	ˆ 2C6	‰ 2030	Š 160	‹ 2039	Œ 152		Ž 17D
9.		‘ 2018	’ 2019	“ 201C	” 201D	• 2022	– 2013	— 2014	˜ 2DC	™ 2122	š 161	› 203A	œ 153		ž 17E	Ÿ 178
A.	A0	¡ A1	¢ A2	£ A3	¤ A4	¥ A5	¦ A6	§ A7	¨ A8	© A9	ª AA	« AB	¬ AC	AD	® AE	¯ AF
B.	° B0	± B1	² B2	³ B3	´ B4	µ B5	¶ B6	· B7	¸ B8	¹ B9	º BA	» BB	¼ BC	½ BD	¾ BE	¿ BF
C.	À C0	Á C1	Â C2	Ã C3	Ä C4	Å C5	Æ C6	Ç C7	È C8	É C9	Ê CA	Ë CB	Ì CC	Í CD	Î CE	Ï CF
D.	Ð D0	Ñ D1	Ò D2	Ó D3	Ô D4	Õ D5	Ö D6	× D7	Ø D8	Ù D9	Ú DA	Û DB	Ü DC	Ý DD	Þ DE	ß DF
E.	à E0	á E1	â E2	ã E3	ä E4	å E5	æ E6	ç E7	è E8	é E9	ê EA	ë EB	ì EC	í ED	î EE	ï EF
F.	ð F0	ñ F1	ò F2	ó F3	ô F4	õ F5	ö F6	÷ F7	ø F8	ù F9	ú FA	û FB	ü FC	ý FD	þ FE	ÿ FF

Примечания

Ссылки

windows-1252

В Юникоде первые 256 кодовых позиций совпадают с ISO-8859-1.

В проекте стандарта HTML 5 предписывается показывать ISO-8859-1 как Windows-1252.^[1]

Таблицы

ISO-8859-1

	.0	.1	.2	.3	.4	.5	.6	.7	.8	.9	.A	.B	.C	.D	.E	.F
8.	PAD 80	HOP 81	BPH 82	NBH 83	IND 84	NEL 85	SSA 86	ESA 87	HTS 88	HTJ 89	VTS 8A	PLD 8B	PLU 8C	RI 8D	SS2 8E	SS3 8F
9.	DCS 90	PU1 91	PU2 92	STS 93	CCH 94	MW 95	SPA 96	EPA 97	SOS 98	SGCI 99	SCI 9A	CSI 9B	ST 9C	OSC 9D	PM 9E	APC 9F
A.	A0	¡ A1	¢ A2	£ A3	¤ A4	¥ A5	¦ A6	§ A7	¨ A8	© A9	ª AA	« AB	¬ AC	AD	® AE	¯ AF
B.	° B0	± B1	² B2	³ B3	´ B4	µ B5	¶ B6	· B7	¸ B8	¹ B9	º BA	» BB	¼ BC	½ BD	¾ BE	¿ BF
C.	À C0	Á C1	Â C2	Ã C3	Ä C4	Å C5	Æ C6	Ç C7	È C8	É C9	Ê CA	Ë CB	Ì CC	Í CD	Î CE	Ï CF
D.	Ð D0	Ñ D1	Ò D2	Ó D3	Ô D4	Õ D5	Ö D6	× D7	Ø D8	Ù D9	Ú DA	Û DB	Ü DC	Ý DD	Þ DE	ß DF
E.	à E0	á E1	â E2	ã E3	ä E4	å E5	æ E6	ç E7	è E8	é E9	ê EA	ë EB	ì EC	í ED	î EE	ï EF
F.	ð F0	ñ F1	ò F2	ó F3	ô F4	õ F5	ö F6	÷ F7	ø F8	ù F9	ú FA	û FB	ü FC	ý FD	þ FE	ÿ FF

Windows−1252

В первоначальной версии этой кодировки отсутствовали символы: € (0x80), ˆ (0x88), ˜ (0x98), Ž (0x8E), ž (0x9E).

	.0	.1	.2	.3	.4	.5	.6	.7	.8	.9	.A	.B	.C	.D	.E	.F
8.	€ 20AC		‚ 201A	ƒ 192	„ 201E	… 2026	† 2020	‡ 2021	ˆ 2C6	‰ 2030	Š 160	‹ 2039	Œ 152		Ž 17D
9.		‘ 2018	’ 2019	“ 201C	” 201D	• 2022	– 2013	— 2014	˜ 2DC	™ 2122	š 161	› 203A	œ 153		ž 17E	Ÿ 178
A.	A0	¡ A1	¢ A2	£ A3	¤ A4	¥ A5	¦ A6	§ A7	¨ A8	© A9	ª AA	« AB	¬ AC	AD	® AE	¯ AF
B.	° B0	± B1	² B2	³ B3	´ B4	µ B5	¶ B6	· B7	¸ B8	¹ B9	º BA	» BB	¼ BC	½ BD	¾ BE	¿ BF
C.	À C0	Á C1	Â C2	Ã C3	Ä C4	Å C5	Æ C6	Ç C7	È C8	É C9	Ê CA	Ë CB	Ì CC	Í CD	Î CE	Ï CF
D.	Ð D0	Ñ D1	Ò D2	Ó D3	Ô D4	Õ D5	Ö D6	× D7	Ø D8	Ù D9	Ú DA	Û DB	Ü DC	Ý DD	Þ DE	ß DF
E.	à E0	á E1	â E2	ã E3	ä E4	å E5	æ E6	ç E7	è E8	é E9	ê EA	ë EB	ì EC	í ED	î EE	ï EF
F.	ð F0	ñ F1	ò F2	ó F3	ô F4	õ F5	ö F6	÷ F7	ø F8	ù F9	ú FA	û FB	ü FC	ý FD	þ FE	ÿ FF

Примечания

Ссылки

1252 — это… Что такое Windows-1252?

ISO-8859-1 — кодировка, зарегистрированная 1992 г. В отличие от ISO/IEC 8859-1, кодовые позиции 0—31 и 127—159 здесь заполнены управляющими символами (большинство из которых, впрочем, всё равно никто не использует). В XHTML, однако, кодировкой по умолчанию является ISO_8859-1:1987, ISO_8859-1, ISO-8859-1, iso-ir-100, sISOLatin1, latin1, l1, IBM819, CP819. ]./

Таблицы

Нижняя часть (0—127) таблиц кодировки не показана, поскольку полностью соответствует обычному Юникоде.

ISO-8859-1

	.0	.1	.2	.3	.4	.5	.6	.7	.8	.9	.A	.B	.C	.D	.E	.F
8.	PAD 80	HOP 81	BPH 82	NBH 83	IND 84	NEL 85	SSA 86	ESA 87	HTS 88	HTJ 89	VTS 8A	PLD 8B	PLU 8C	RI 8D	SS2 8E	SS3 8F
9.	DCS 90	PU1 91	PU2 92	STS 93	CCH 94	MW 95	SPA 96	EPA 97	SOS 98	SGCI 99	SCI 9A	CSI 9B	ST 9C	OSC 9D	PM 9E	APC 9F
A.	A0	¡ A1	¢ A2	£ A3	¤ A4	¥ A5	¦ A6	§ A7	¨ A8	© A9	ª AA	« AB	¬ AC	AD	® AE	¯ AF
B.	° B0	± B1	² B2	³ B3	´ B4	µ B5	¶ B6	· B7	¸ B8	¹ B9	º BA	» BB	¼ BC	½ BD	¾ BE	¿ BF
C.	À C0	Á C1	Â C2	Ã C3	Ä C4	Å C5	Æ C6	Ç C7	È C8	É C9	Ê CA	Ë CB	Ì CC	Í CD	Î CE	Ï CF
D.	Ð D0	Ñ D1	Ò D2	Ó D3	Ô D4	Õ D5	Ö D6	× D7	Ø D8	Ù D9	Ú DA	Û DB	Ü DC	Ý DD	Þ DE	ß DF
E.	à E0	á E1	â E2	ã E3	ä E4	å E5	æ E6	ç E7	è E8	é E9	ê EA	ë EB	ì EC	í ED	î EE	ï EF
F.	ð F0	ñ F1	ò F2	ó F3	ô F4	õ F5	ö F6	÷ F7	ø F8	ù F9	ú FA	û FB	ü FC	ý FD	þ FE	ÿ FF

Windows−1252

В первоначальной версии этой кодировки отсутствовали символы: € (0x80), ˆ (0x88), ˜ (0x98), Ž (0x8E), ž (0x9E).

	.0	.1	.2	.3	.4	.5	.6	.7	.8	.9	.A	.B	.C	.D	.E	.F
8.	€ 20AC		‚ 201A	ƒ 192	„ 201E	… 2026	† 2020	‡ 2021	ˆ 2C6	‰ 2030	Š 160	‹ 2039	Œ 152		Ž 17D
9.		‘ 2018	’ 2019	“ 201C	” 201D	• 2022	– 2013	— 2014	˜ 2DC	™ 2122	š 161	› 203A	œ 153		ž 17E	Ÿ 178
A.	A0	¡ A1	¢ A2	£ A3	¤ A4	¥ A5	¦ A6	§ A7	¨ A8	© A9	ª AA	« AB	¬ AC	AD	® AE	¯ AF
B.	° B0	± B1	² B2	³ B3	´ B4	µ B5	¶ B6	· B7	¸ B8	¹ B9	º BA	» BB	¼ BC	½ BD	¾ BE	¿ BF
C.	À C0	Á C1	Â C2	Ã C3	Ä C4	Å C5	Æ C6	Ç C7	È C8	É C9	Ê CA	Ë CB	Ì CC	Í CD	Î CE	Ï CF
D.	Ð D0	Ñ D1	Ò D2	Ó D3	Ô D4	Õ D5	Ö D6	× D7	Ø D8	Ù D9	Ú DA	Û DB	Ü DC	Ý DD	Þ DE	ß DF
E.	à E0	á E1	â E2	ã E3	ä E4	å E5	æ E6	ç E7	è E8	é E9	ê EA	ë EB	ì EC	í ED	î EE	ï EF
F.	ð F0	ñ F1	ò F2	ó F3	ô F4	õ F5	ö F6	÷ F7	ø F8	ù F9	ú FA	û FB	ü FC	ý FD	þ FE	ÿ FF

Кодовые таблицы символов в Windows
1251 \| 1252 \|

Wikimedia Foundation. 2010.

Окна-1252

Кодовая страница, используемая для латинских алфавитов западноевропейских языков

Эта статья посвящена кодировке символов, обычно ошибочно обозначаемой как «ANSI». Фактическую кодировку символов ANSI см. ASCII. Фактическое кодирование «расширенной латыни ANSI» см. ANSEL.

Окна-1252

MIME / IANA	окна-1252^[1]
Язык (и)	В основном все поддерживаются ИСО / МЭК 8859-1 например английский, Ирландский, итальянский, норвежский, португальский, испанский, шведский. Плюс еще немецкий, финский и французский. И голландский, кроме символа. И словенский кроме č персонаж.
Сделано	Microsoft
Стандарт	Стандарт кодирования WHATWG
Классификация	расширенный ASCII, Окна-125x
Расширяется	ISO 8859-1 (за исключением элементов управления C1)
Преобразует / кодирует	ISO 8859-15

Окна-1252 или же CP-1252 (кодовая страница 1252) является однобайтным кодировка символов из Латинский алфавит, используется по умолчанию в наследие компоненты Майкрософт Виндоус для английского и многих европейских языков, включая испанский, французский и немецкий.

Это наиболее часто используемая кодировка однобайтовых символов в мире. По состоянию на октябрь 2020 г.^{[Обновить]}, 0,4% всех веб-сайтов заявили об использовании Windows-1252,^[2]^[3] но при этом 1,9%^[2] использовал ISO 8859-1 (в то время как только 0,8% из топ-1000 сайтов^[4]), который по стандартам HTML5 следует рассматривать как ту же кодировку,^[5] так что 2,3% веб-сайтов эффективно используют Windows-1252. Страницы объявлены как US-ASCII также будет считаться этим набором символов. Неизвестное (но, вероятно, большое) подмножество других страниц использует только часть ASCII UTF-8 или только коды, соответствующие Windows-1252 из их объявленного набора символов, и также может быть подсчитано.

Подробности

Эта кодировка символов является суперсет из ISO 8859-1 с точки зрения печатаемых символов, но отличается от стандарта IANA ISO-8859-1 использованием отображаемых символов, а не управляющих символов в диапазоне от 80 до 9F (шестнадцатеричный) классифицировать. Известные дополнительные символы включают фигурные кавычки и все печатные символы, которые находятся в ISO 8859-15 (в других местах, чем ISO 8859-15). Это известно Windows по кодовая страница номер 1252, и IANA-утвержденное название «windows-1252».

Очень часто неправильно маркируют текст Windows-1252 меткой кодировки ISO-8859-1. Обычным результатом было то, что все кавычки и апострофы (созданные с помощью «умных кавычек» в текстовых редакторах) были заменены вопросительными знаками или квадратами в операционных системах, отличных от Windows, что затрудняло чтение текста. Большинство современных веб-браузеров и почтовых клиентов обрабатывают тип СМИ кодировку ISO-8859-1 как Windows-1252, чтобы учесть такую неправильную маркировку. Теперь это стандартное поведение в спецификации HTML5, которое требует, чтобы документы, рекламируемые как ISO-8859-1, фактически анализировались с кодировкой Windows-1252.^[5]

Исторически фраза «Кодовая страница ANSI» использовалась в Windows для обозначения кодировок, отличных от DOS; предполагалось, что большинство из них будут ANSI стандарты, такие как ISO-8859-1. Несмотря на то, что Windows-1252 была первой и, безусловно, самой популярной кодовой страницей с таким названием на языке Microsoft Windows, кодовая страница никогда не была стандартом ANSI. Microsoft объясняет: «Термин ANSI, используемый для обозначения кодовых страниц Windows, является исторической справкой, но в настоящее время это неправильное название, которое продолжает сохраняться в сообществе Windows».^[6]

В Латекс пакетов, CP-1252 упоминается как «ответ».

IBM использует кодовую страницу 1252 (CCSID 1252 и знак евро расширенный CCSID 5348) для Windows-1252.^[7]^[8]^[9]

Набор символов

В следующей таблице показан Windows-1252. Каждый символ показан со своим Unicode эквивалент, основанный на сопоставлении Unicode.org Windows-1252 с «наилучшим соответствием». Десятичные числа (в стиле 0123) являются Альтернативный код которые можно использовать для их ввода в системах Windows. Отличия от ISO-8859-1 показаны более темным оттенком поверх цветов легенды.

Письмо Число Пунктуация Символ Другой Неопределенный

Согласно информации на сайтах Microsoft и Консорциума Unicode позиции 81, 8D, 8F, 90 и 9D не используются; однако Windows API MultiByteToWideChar отображает их в соответствующие Коды управления C1. Отображение «наилучшего соответствия» также документирует это поведение.^[10]

История

В первой версии кодовой страницы 1252, используемой в Microsoft Windows 1.0, не были определены позиции D7 и F7. Все символы в диапазонах 80–9F также не были определены.
Для второй версии, используемой в Microsoft Windows 2.0, были определены позиции D7, F7, 91 и 92.
В третьей версии, использовавшейся с Microsoft Windows 3.1, были определены все текущие позиции, кроме знак евро и Z с кароном пара символов.
Последняя версия, указанная выше, дебютировала в Microsoft Windows 98 и была перенесена на более старые версии Windows с обновлением символа евро.

Расширения OS / 2

В OS / 2 операционная система поддерживает кодировку по имени Кодовая страница 1004 (CCSID 1004) или «Windows Extended».^[15]^[16] В основном это соответствует кодовой странице 1252, за исключением некоторых C0 управляющие символы заменяется диакритический символы. Отличия от ISO-8859-1 показаны более темным оттенком поверх цветов легенды.

Кодовая страница 1004 (только разные строки)^[17]^[18]^[19]^[20]
	_0	_1	_2	_3	_4	_5	_6	_7	_8	_9	_A	_B	_C	_D	_E	_F
0_ 0	NUL 0000	SOH 0001	STX 0002	ETX 0003	ˉ 02C9	˘ 02D8	˙ 02D9	BEL 0007	˚ 02DA	HT 0009	˝ 02DD	˛ 02ДБ	ˇ 02C7	CR 000D	ТАК 000E	SI 000F

Расширения MSDOS [редко]

Существует редко используемая, но полезная графическая расширенная кодовая страница 1252, где коды от 0x00 до 0x1f позволяют рисовать блоки, как это используется в таких приложениях, как MSDOS Edit и Codeview. Одним из приложений, использующих эту кодовую страницу, была утилита установки / восстановления образа диска корпорации Intel, выпущенная в середине / конце 1995 года. Эти программы были написаны для компьютеров с пользовательской тестовой программой P6 (пример для США.^[21]). Он использовался исключительно в тогдашнем регионе EMEA (Европа, Ближний Восток и Африка). Со временем программы были изменены, чтобы использовать кодовую страницу 850.

Графика Расширенная кодовая страница 1252^{[нужна цитата]}
	_0	_1	_2	_3	_4	_5	_6	_7	_8	_9	_A	_B	_C	_D	_E	_F
0_ 0	○ 25CB	■ 25A0	↑ 2191	↓ 2193	→ 2192	← 2190	║ 2551	═ 2550	╔ 2554	╗ 2557	╚ 255A	╝ 255D	░ 2591	▒ 2592	► 25BA	◄ 25C4
1_ 16	│ 2502	─ 2500	┌ 250C	┐ 2510	└ 2514	┘ 2518	├ 251C	┤ 2524	┴ 2534	┬ 252C	♦ 2666	┼ 253C	█ 2588	▄ 2584	▀ 2580	▬ 25AC

Смотрите также

внешняя ссылка

Кодировки

Язык	Идентификатор	Кодировка
Russian	ru	iso-8859-5, windows-1251, koi8-r
English	en	iso-8859-1, windows-1252
Afrikaans	af	iso-8859-1, windows-1252
Albanian	sq	iso-8859-1, windows-1250
Arabic	ar	iso-8859-6, windows-1256
Basque	eu	iso-8859-1, windows-1252
Bulgarian	bg	iso-8859-5, windows-1251
Belorussian	be	iso-8859-5, windows-1251
Catalan	ca	iso-8859-15, windows-1252
Croatian	hr	iso-8859-2, windows-1250
Czech	cs	iso-8859-2, windows-1250
Danish	da	iso-8859-1, windows-1252
Dutch	nl	iso-8859-1, windows-1252
Esperanto	eo	iso-8859-3
Estonian	et	iso-8859-15, windows-1257
Faroese	fo	iso-8859-1, windows-1252
Finnish	fi	iso-8859-1, windows-1252
French	fr	iso-8859-1, windows-1252
Galician	gl	iso-8859-1, windows-1252
German	de	iso-8859-1, windows-1252
Greek	el	iso-8859-7
Hebrew	iw	iso-8859-8
Hungarian	hu	iso-8859-2, windows-1250
Icelandic	is	iso-8859-1, windows-1252
Irish	ga	iso-8859-1, windows-1252
Italian	it	iso-8859-1, windows-1252
Japanese	ja	shift_jis, iso-2022-jp, euc-jp
Korean	ko	euc-kr
Latvian	lv	iso-8859-13, windows-1257
Lithuanian	lt	iso-8859-13, windows-1257
Macedonian	mk	iso-8859-5, windows-1251
Maltese	mt	iso-8859-3
Norwegian	no	iso-8859-1, windows-1252
Polish	pl	iso-8859-2, windows-1250
Portuguese	pt	iso-8859-1, windows-1252
Portuguese (бразильский)	br	iso-8859-1, windows-1252
Romanian	ro	iso-8859-2, windows-1250
Scottish	gd	iso-8859-1, windows-1252
Serbian cyrillic	sr	iso-8859-5, windows-1251
Serbian latin	sr	iso-8859-2, windows-1250
Slovak	sk	iso-8859-2, windows-1250
Slovenian	sl	iso-8859-2, windows-1250
Spanish	la	iso-8859-1, windows-1252
Swedish	sv	iso-8859-1, windows-1252
Turkish	tr	iso-8859-9, windows-1254
Ukrainian	ua	windows-1251, koi8-u

html — мета-кодировка windows-1252 против UTF-8

Ответ на ваш первый вопрос — да. Рекомендуется полностью изменить все атрибуты кодировки символов для всех ваших документов HTML 5.

Это потому, что это текущий стандарт HTML5 согласно W3C. Я бы изменил все страницы на любом сайте только по этой причине, поскольку стандартизация всей отрисовки разметки неизбежна.

Это легко сделать в любом редакторе, имеющем функцию поиска / замены.Просто используйте эту функцию, чтобы найти в каждом документе термин

и замените его на

Кодировка символов UTF-8 должна быть способна обрабатывать ваши математические символы, но если она не оставляет исходную кодировку без изменений. А остальные страницы с текстом вы захотите изменить на UTF-8. Вот позиция W3Schools в вашей кодировке char.

Спецификация HTML5 поощряет веб-разработчиков использовать UTF-8. набор символов, который охватывает почти все символы и символы в мире! —W3Schools.com

Если размер является проблемой, вы снова оставите только те документы, которые имеют особые требования к математическим символам с исходной кодировкой, если они не отображаются правильно, и я не думаю, что это повлияет на время загрузки вашего браузера настолько, чтобы повредить вашему SEO. . Если у вас много страниц с математическими символами, это может быть проблемой, если вы ищете популярный сайт или для бизнеса, если не размер настолько мал, проблема с размером файла кажется немой.

Для других документов вы все равно должны изменить кодировку для них как UTF-8, даже если у вас есть спецификация.

Если у вас есть метка порядка байтов (BOM) UTF-8 в начале файла затем последние версии браузера, отличные от Internet Explorer 10 или 11 будет использовать это, чтобы определить, что кодировка вашей страницы — UTF-8. Это имеет более высокий приоритет, чем любое другое объявление, включая HTTP заголовок.
Вы можете пропустить объявление мета-кодировки, если у вас есть спецификация, но мы рекомендую сохранить его, так как он помогает людям, смотрящим на исходный код для определения кодировки страницы.—w3.org

Удачи и удачного кодирования! 🙂

Таблица сравнения символов

в Windows-1252, ISO-8859-1, ISO-8859-15

Кодировки символов ISO-8859-1, ISO-8859-15 и Windows-1252 очень похожи, и их легко спутать. Это приводит к нескольким типичным проблемам. Следующая диаграмма показывает различия между этими кодировками и полезна для отладки связанных проблем.

ISO-8859-1 по сравнению с Windows-1252

ISO-8859-1 (также называемый Latin-1) идентичен Windows-1252 (также называемый CP1252), за исключением кодовых точек 128-159 (0x80-0x9F).ISO-8859-1 назначает несколько управляющих кодов в этом диапазоне. Windows-1252 имеет несколько символов, пунктуацию, арифметику и бизнес. символы, присвоенные этим кодовым точкам.

Типичные проблемы

Неправильная маркировка текста, закодированного в Windows-1252 как ISO-8859-1, а затем преобразование из ISO-8859-1 в Unicode или другие кодировки приводит к появлению символов в диапазоне 128-159 теряться. Они преобразуются, как если бы они были управляющими кодами, и обычно отображаются в виде белого пространства, специального вопросительного знака, или квадрат, показывающий 4 шестнадцатеричных цифры кодовой точки.
HTML и XML используют кодовые точки Unicode в качестве значений в ссылках на числовые символы (NCR). Ссылки на числовые символы — это escape-символы записывается как & # dddd; или & # xhhhh; где десятичные или шестнадцатеричные значения являются кодовыми точками Unicode. Поскольку первые 256 символов в Юникоде идентичны символам в ISO-8859-1, люди привыкают использовать знакомый им кодовый знак для создания NCR.Однако для символов в диапазоне 128–159 в Windows-1252 это неправильные значения. Например, евро (€) в кодовой точке 0x80 в Windows-1252, но в Unicode это U + 20AC. & # x80; является NCR для контрольного кода и не будет отображаться как евро. Правильный NCR — & # x20AC ;.

В сравнительной таблице ниже показаны кодовые точки Unicode, связанные с Windows-1252. символы в диапазоне 128-159.

ISO-8859-1 в сравнении с ISO-8859-15

Эти 2 кодировки идентичны, за исключением 8 кодовых точек, что вызывает путаницу между ними, а также с Windows-1252.Для получения дополнительной информации о ISO-8859-15, см. Сравнение ISO-8859-1 и ISO-8859-15.

Таблица сравнения

Вот символы в диапазоне 128-159 в Windows 1252 с их кодовыми точками Unicode, Значения байтов UTF-8 и кодовые точки ISO-8859-15, если они отличаются от ISO-8859-1.

Примечание по терминологии:

NCR = Ссылка на цифровые символы
CER = Ссылка на сущность символа
CP1252 = Windows-1252

г.

Сравнение символов в Windows-1252, ISO-8859-1, ISO-8859-15
Кодовый пункт				UTF-8 байтов			NCR *	Персонаж	CER * или NCR *	Имя персонажа
CP1252 *		ISO 8859-15	Юникод	UTF-8 байтов			NCR *		CER * или NCR *
(декабрь)	(шестигранник)	(шестигранник)	(шестигранник)	# 1	# 2	# 3	(декабрь)		(шестигранник)
128	80	A4	20AC	E2	82	AC	& # 8364;	€	и евро;	Знак евро
129	81	НЕ НАЗНАЧЕН
130	82		201A	E2	80	9A	& # 8218;	‚	& sbquo;	Одиночный низкий 9 кавычок
131	83		192	C6	92		& # 402;	ƒ	& # x192;	Строчная латинская буква F с крючком
132	84		201E	E2	80	9E	& # 8222;	„	& bdquo;	Двойной Low-9 кавычки
133	85		2026	E2	80	A6	& # 8230;	…	& hellip;	Горизонтальное многоточие
134	86		2020	E2	80	A0	& # 8224;	†	& кинжал;	Кинжал
135	87		2021	E2	80	A1	& # 8225;	‡	и кинжал;	Двойной кинжал
136	88		2C6	CB	86		& # 710;	ˆ	& circ;	Буква-модификатор Circumflex Accent
137	89		2030	E2	80	B0	& # 8240;	‰	& permil;	Знак промилле
138	8A	A6	160	C5	A0		& # 352;	Š	и Скарон;	Латинская заглавная буква S с кароном
139	8Б		2039	E2	80	B9	& # 8249;	‹	& lsaquo;	Кавычки с одинарным левым углом
140	8C	г. до н.э.	152	C5	92		& # 338;	Œ	и OElig;	Лигатура латинской заглавной буквы OE
141	8D	НЕ НАЗНАЧЕН
142	8E	B4	17D	C5	BD		& # 381;	Ž	& # x17D;	Латинская заглавная буква Z с кароном
143	8F	НЕ НАЗНАЧЕН
144	90	НЕ НАЗНАЧЕН
145	91		2018	E2	80	98	& # 8216;	‘	& lsquo;	Левый одинарный кавычочный знак
146	92		2019	E2	80	99	& # 8217;	’	& rsquo;	Одинарные кавычки, правые
147	93		201C	E2	80	9C	& # 8220;	“	& ldquo;	Двойные кавычки слева
148	94		201D	E2	80	9D	& # 8221;	”	& rdquo;	Двойные кавычки справа
149	95		2022	E2	80	A2	& # 8226;	•	и бык;	Пуля
150	96		2013	E2	80	93	& # 8211;	–	& ndash;	En Dash
151	97		2014	E2	80	94	& # 8212;	–	& mdash;	Эм Даш
152	98		2DC	CB	9C		& # 732;	~	& тильда;	Маленькая тильда
153	99		2122	E2	84	A2	& # 8482;	™	и торговля;	Знак товарного знака
154	9A	A8	161	C5	A1		& # 353;	š	& scaron;	Строчная латинская буква S с кароном
155	9Б		203A	E2	80	BA	& # 8250;	›	& rsaquo;	Одинарный кавычочный знак, указывающий вправо
156	9C	BD	153	C5	93		& # 339;	œ	& oelig;	Латинская маленькая лигатура OE
157	9D	НЕ НАЗНАЧЕН
158	9E	B8	17E	C5	BE		& # 382;	×	& # x17E;	Строчная латинская буква Z с кароном
159	9F	BE	178	C5	B8		& # 376;	Ÿ	и Yuml;	Латинская заглавная буква Y с диэрезисом

Дополнительные ссылки

Авторские права © 2010, 2011 Tex Texin.Все права защищены.
вернуться наверх

CP1252 — Windows CP1252 Кодовая страница

ЗАГОЛОВОК 05 9094 9094 9012 4 0009 FORM FEED124

901 24 18 00125 $ ДОЛЛАРНЫЙ ЗНАК 35 901 24 ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА I 00124 004F ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА V 9012ALL125125 q

5 901 24 88124124 9012 9012 9012 ЛИГАТУРА124 9012 ЛИГАТУРА 9012 9012 ЗАГЛАВНАЯ БУКВА Z С КАРОН 901 24 ПРАВАЯ ДВОЙНАЯ ЦИФРОВАЯ МАРКА СТРОЧНАЯ БУКВА Z С КАРОН 9 0124 MICRO SIGN 9004 КРЕПЕЖНЫЙ КРЕПЛЕНИЕ BB BB

5 9004

4 CAPITAL С CEDILLA D6 DISS DAPITER ШИРИНА ШИРИНА 900 81

4124 9012 E С EAVE 9 0124 00ED SMALLTER O С ТЯЖЕЛЫМ SMALL SMALL 900 БУКВА THORN

Код символа

Символ

Unicode

Описание символа Unicode

0000

NULL

0002

НАЧАЛО ТЕКСТА

0003

КОНЕЦ ТЕКСТА

0005

ЗАПРОС

0006

ПОДТВЕРЖДЕНИЕ

0007

ГОРИЗОНТАЛЬНАЯ ТАБЛИЦА

000A

ЛИНИЯ ПОДАЧИ

000B

ВЕРТИКАЛЬНАЯ ТАБЛИЦА

000C

4 9004

000D

ВОЗВРАТ ПЕРЕВОЗКИ

000E

ВЫДВИЖЕНИЕ

000F

ПЕРЕКЛЮЧЕНИЕ ПЕРЕКЛЮЧЕНИЯ

900

0011

УПРАВЛЕНИЕ УСТРОЙСТВОМ ЕДИНОЕ

0012

ДВОЙНОЕ УПРАВЛЕНИЕ УСТРОЙСТВАМИ

0014

УПРАВЛЕНИЕ УСТРОЙСТВОМ ЧЕТЫРЕ

0015

ОТРИЦАТЕЛЬНОЕ ПОДТВЕРЖДЕНИЕ

КОНЕЦ ТРАНСМИССИОННОГО БЛОКА

0018

ОТМЕНА

0019

КОНЕЦ СРЕДЫ

001A

900 ESCAPE

001C

РАЗДЕЛИТЕЛЬ ФАЙЛОВ

001D

ГРУППОВЫЙ СЕПАРАТОР

001F

РАЗДЕЛИТЕЛЬ БЛОКА

0020

ПРОСТРАНСТВО

0021

Восклицательный знак

0022

ЦЕННЫЙ ЗНАК

0023

4 НОМЕРНЫЙ ЗНАК

0025

ПРОЦЕНТНЫЙ ЗНАК

0026

AMPERSAND

(

0028

ЛЕВЫЙ ПАРЕНТЕЗ

)

0029

ПРАВЫЙ ПАРЕНТЕЗ

ЗНАК ПЛЮС

002C 90 125

COMMA

—

002D

HYPHEN-MINUS

002E

ПОЛНАЯ ОСТАНОВКА

002F

SOLIDUS

0030

DIGIT 4

DIGIT

9001 ОДИН

0032

ЦИФРА ДВА

0033

ЦИФРА ТРИ

0035

ПЯТЬ ЦИФРОВ

0036

ШЕСТЬ ЦИФРОВ

0037

0038

ВОСЬМАЯ ЦИФРА

0039

ЦИФРА ДЕВЯТЬ

003A

COLON

;

003B

SEMICOLON

003C

МЕНЬШЕ ЗНАКА

003D

EQUARE

БОЛЬШЕ, ЧЕМ ЗНАК

003F

ВОПРОСНИТЕЛЬНЫЙ ЗНАК

0040

КОММЕРЧЕСКИЙ AT

0041

900 LATIN CAPITAL

900

ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА B

0043

ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА C

0044

0045

ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА E

0046

ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА F

0047

ГЛАВНАЯ

0048

ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА H

0049

004A

ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА J

004B

ШЕСТЕРНЯЯ ЗАГЛАДКА

ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА L

004D

ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА M

00412E

ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА O

0050

ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА P

00124

0052

ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА R

0053

ЛАТИНСКАЯ C ЗАГЛАВНАЯ БУКВА S

0054

ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА T

0055

ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА

4124

0057

ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА W

0058

9012 9012

ЗАГЛАВНАЯ БУКВА ЛАТИНСКОЙ БУКВЫ Y

005A

ЗАГЛАВНАЯ БУКВА ЛАТИНСКАЯ Z

[

005B

REVERSE SOLIDUS

]

005D

КРОНШТЕЙН ПРАВЫЙ КВАДРАТНЫЙ

005E

CIRCUMFLEX ACCENT

005F

НИЗКАЯ ЛИНИЯ

6012

900

0061

СТРОЧНАЯ ЛАТИНСКАЯ БУКВА A

0062

СТРОЧНАЯ ЛАТИНСКАЯ БУКВА B

0063

0064

СТРОЧНАЯ ЛАТИНСКАЯ БУКВА D

0065

СТРОЧНАЯ ЛАТИНСКАЯ БУКВА E

0067

СТРОЧНАЯ ЛАТИНСКАЯ БУКВА G

0 068

СТРОЧНАЯ ЛАТИНСКАЯ БУКВА H

0069

СТРОЧНАЯ ЛАТИНСКАЯ БУКВА I

006A

ЛАТИНСКАЯ 9094

006B

СТРОЧНАЯ ЛАТИНСКАЯ БУКВА K

006C

СТРОЧНАЯ ЛАТИНСКАЯ БУКВА L

006D LATTER

006D

006E

СТРОЧНАЯ ЛАТИНСКАЯ БУКВА N

006F

СТРОЧНАЯ ЛАТИНСКАЯ БУКВА O

004

0070 LATTER

0071

СТРОЧНАЯ ЛАТИНСКАЯ БУКВА Q

0072

СТРОЧНАЯ ЛАТИНСКАЯ L ETTER R

0073

СТРОЧНАЯ ЛАТИНСКАЯ БУКВА S

0074

СТРОЧНАЯ ЛАТИНСКАЯ БУКВА T

СТРОЧНАЯ БУКВА U

0076

СТРОЧНАЯ ЛАТИНСКАЯ БУКВА V

0077

СТРОЧНАЯ ЛАТИНСКАЯ БУКВА W

9012 СТРОЧНАЯ ЛАТИНСКАЯ БУКВА X

0079

СТРОЧНАЯ ЛАТИНСКАЯ БУКВА Y

007A

ЛАТИНСКАЯ СТРОЧНАЯ БУКВА 00124

КРОНШТЕЙН ЛЕВЫЙ

007C

ВЕРТИКАЛЬНАЯ ЛИНИЯ

}

007D

КРОНШТЕЙН ПРАВЫЙ ИЗГИБНОЙ

007124

УДАЛИТЬ

€

20AC

ЗНАК ЕВРО

‚

201A

ОДИН НИЗКИЙ-9 ЦЕНОВЫЙ МАРК

9012AT БУКВА F С КРЮЧКОМ

„

201E

ДВОЙНОЙ НИЗКИЙ-9 ЦЕННЫЙ ЗНАК

…

2026

ГОРИЗОНТАЛЬНЫЙ

125

9494

КИНЖАЛ

‡

2021

ДВОЙНОЙ КИНЖАЛ

02C6

ПИСЬМО С МОДИФИКАТОРОМ CIRCUMFLEX ACCENT

‰

2030

НА ЗНАК НА МЕЛЬНИЦУ

8A LAPTER

‹

2039

ОДИН ЛЕВЫЙ УГОЛ ЦИФРОВОЙ МАРК

0152

ЛАТИНСКИЙ КАПИТАЛ

0152

ЛАТИНСКИЙ КАПИТАЛ

‘

2018

ЛЕВЫЙ ОДИНОЧНЫЙ ЗНАК

‘

2019

ЛЕВЫЙ ДВОЙНОЙ ЗНАК

”

201D

•

2022

БУЛЛЕТ

–

2013

EN DASH

DASH

02DC

МАЛЕНЬКАЯ ТИЛЬДА

™

2122

ЗНАК ТОРГОВОЙ МАРКИ

š ЛИЦЕВАЯ

LETTER

›

203A

ОДИН ПРЯМОУГОЛЬНЫЙ УГЛОВОЙ МАРК

0153

LATIN SMALL LIGATURE

0178

ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА Y С DIAERESIS

00A0

БЛОКИРОВКА ПРОСТРАНСТВА

00A1

ПЕРЕВЕРНУТЫЙ ЭКЛАМАЦИОННЫЙ ЗНАК

9004

00A3

ЗНАК ФУНДА

00A4

ЗНАК ВАЛЮТЫ

900 ¦

00A6

СЛОМАННАЯ ШИНА

00A7

ЗНАК РАЗДЕЛА

00124 00124

ЗНАК АВТОРСКОГО ПРАВА

00AA

FEMININE ORDINAL IN ДИКАТОР

00AB

ЛЕВЫЙ ДВОЙНОЙ УГОЛ ЦИФРОВОЙ МАРК

00AC

НЕ ЗНАК

00AE

ЗАРЕГИСТРИРОВАННЫЙ ЗНАК

00AF

МАКРОН

00B1

ЗНАК ПЛЮС-МИНУС

00B2

SUPERSCRIPT TWO

THER

00B3

00B4

ОСТРЫЙ АКЦЕНТ

00B5

00B6

PILCROW SIGN

00B7

MIDDLE DOT

00B9

SUPERSCRIPT ONE

00BA

MASCULINE ORDINAL INDICATB

00BC

VULGAR FRACTION ОДНА ЧЕТВЕРТЬ

00BD

VULGAR FRACTION ONE HALF

FRACTION

BEULGAR FRACTION ONE HALF

BEULGAR

00BF

ПЕРЕВЕРНУТЫЙ ВОПРОС MAR K

00C0

ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА A С ТЯЖЕЛЫМ

00C1

ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА

9012 CAPITAL 9012 CAPITAL 9012

ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА A С CIRCUMFLEX

00C3

ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА A С TILDE

C4 00124

LAPTER

00C5

ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА А С КОЛЬЦОМ ВЫШЕ

00C6

ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА C6

ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА

00C8

ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА E С ТЯЖЕЛЫМ 90 125

00C9

ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА E С ОСТРЫМ

00CA

ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА E

00CA

25125 9012 9012 90C

ЗАГЛАВНАЯ БУКВА E С ДИАРЕЗИСОМ

00CC

ЗАГЛАВНАЯ БУКВА I ЛАТИНСКОЙ ЗАГЛАВНОЙ БУКВЫ I С ГРАФИКОЙ

ШИКАРНАЯ

004 CAPITAL 90CD

00CE

ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА I С CIRCUMFLEX

00CF

ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА I С DIAERESIS

DIAERESIS

00D1

ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА N С ТИЛЬДОЙ 901 25

00D2

ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА O С ТЯЖЕЛЫМ

00D3

ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА

ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА O С CIRCUMFLEX

00D5

ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА O С ТИЛЬДЕЙ

00D7

ЗНАК УМНОЖЕНИЯ

00D8

ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА O С ХОДОМ

D124

00DA

ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА U С ОСТРЫМ СТОРОМ

00DB

ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА U С CIRCUMFLEX

00DC

ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА

9012 905 DIAERES 9012 DIAERES ЗАГЛАВНАЯ БУКВА Y С ОСТРЫМИ

00DE

ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА ШИП

00DF

SMALL

ШИРИНА ЭЛЕКТРОПЛАСТИНА 9012 00E0

СТРОЧНАЯ ЛАТИНСКАЯ БУКВА А С ТЯЖЕЛЫМ

00E1

СТРОЧНАЯ ЛАТИНСКАЯ БУКВА А С ОСТРЫМ

0012 МАЛЫЙ КРЕПЛЕНИЕ

00122 КОРПУС

00E3

СТРОЧНАЯ ЛАТИНСКАЯ БУКВА A С ТИЛЬДОЙ

00E4

СТРОЧНАЯ ЛАТИНСКАЯ БУКВА А С ДИАРЕЗИСОМ

00E5

СТРОЧНАЯ ЛАТИНСКАЯ БУКВА А С КОЛЬЦОМ ВЫШЕ

00E7

СТРОЧНАЯ ЛАТИНСКАЯ БУКВА C С СЕДИЛЬЕЙ

00E8

ЛАТИНСКАЯ МАЛЕНЬКАЯ БУКВА

412 9012 E

СТРОЧНАЯ ЛАТИНСКАЯ БУКВА E с ОСТРЫМ

00EA

СТРОЧНАЯ ЛАТИНСКАЯ БУКВА E с CIRCUMFLEX

00EBIS 9012

00EBIS LETTER 9012 EC

00EC

СТРОЧНАЯ ЛАТИНСКАЯ БУКВА I С ТЯЖЕЛЫМ

СТРОЧНАЯ ЛАТИНСКАЯ БУКВА I С ОСТРЫМ

00EE

СТРОЧНАЯ ЛАТИНСКАЯ БУКВА I С CIRCUMFLEX

00F0

СТРОЧНАЯ ЛАТИНСКАЯ БУКВА ETH

00F1

СТРОЧНАЯ ЛАТИНСКАЯ БУКВА N С ТИЛЬДОМ

9004 9004

9004

00F3

СТРОЧНАЯ ЛАТИНСКАЯ БУКВА O С ОСТРОЙ

00F4

ЛАТИНСКАЯ МАЛЕНЬКАЯ БУКВА

FLEX 9012

00F5

СТРОЧНАЯ ЛАТИНСКАЯ БУКВА O с тильдой

00F6

ЛАТИНСКАЯ СТРОЧНАЯ БУКВА O С ДИАРЕЗИСОМ

00F7

ЗНАК РАЗДЕЛА

00F8

9012 9012 9012 9012 ШЕСТЕРНЯ С МАЛЫЙ ШЕСТЕРНЯЮЩИЙ ШЕСТЕРНЯ

9012 00F9

СТРОЧНАЯ ЛАТИНСКАЯ БУКВА U С ТЯЖЕЛЫМ

00FA

СТРОЧНАЯ ЛАТИНСКАЯ БУКВА U ОСТРАЯ

00FALL

00FC

СТРОЧНАЯ ЛАТИНСКАЯ БУКВА U С ДИАРЕЗИСОМ

00FD

ЛАТИНСКАЯ СТРОЧНАЯ БУКВА Y С ACUTE

00FF

СТРОЧНАЯ ЛАТИНСКАЯ БУКВА Y С ДИАРЕЗИСОМ 901 25

окон-1252 — npm

windows-1252 — это надежная реализация JavaScript кодировки символов windows-1252, как определено стандартом кодирования.

Эта кодировка известна под следующими именами: ansi_x3.4-1968, ascii, cp1252, cp819, csisolatin1, ibm819, iso-8859-1, iso-ir-100, iso8859-1, iso88591, iso_8859-1, iso_8859- 1: 1987, l1, latin1, us-ascii, windows-1252 и x-cp1252.

Установка

Через npm:

В браузере или в Node.js:

 import {кодировать, декодировать, подписывать} из 'windows-1252';
// или…
импортировать * как windows1252 из windows-1252;

API

окон1252.этикетки

Массив строк, каждая из которых представляет метку для данной кодировки.

windows1252.encode (ввод, параметры)

Эта функция принимает простую текстовую строку (параметр input ) и кодирует ее в соответствии с windows-1252. Возвращаемое значение — это не зависящий от среды Uint16Array , каждый элемент которого представляет октет согласно windows-1252.

 const encodedData = windows1252.encode (текст);

Необязательный объект options и его свойство mode могут использоваться для установки режима ошибки.Доступны два режима ошибки: «фатальный» (по умолчанию) или «замена» . (Примечание: это отличается от спецификации, которая распознает «фатальные» и HTML-режимы для кодировщиков. Причина этого различия заключается в том, что алгоритм спецификации нацелен на создание HTML, тогда как эта библиотека кодирует в не зависящий от среды Uint16Array of байтов.)

 const encodedData = windows1252.encode (текст, {
  режим: 'замена'
});
// Если `text` содержит символ, который не может быть представлен в windows-1252,
// вместо выдачи ошибки он становится 0xFFFD.

windows1252.decode (ввод, параметры)

Эта функция декодирует вход в соответствии с windows-1252. Входной параметр может быть либо массивом Uint16Array , каждый элемент которого представляет октет согласно windows-1252, либо «байтовой строкой» (т.е. строкой, каждый элемент которой представляет октет согласно windows-1252).

 константный текст = windows1252.decode (encodedData);

Необязательный объект options и его свойство mode могут использоваться для установки режима ошибки.Для декодирования режим ошибки может быть «замена» (по умолчанию) или «фатальный» .

 const text = windows1252.decode (encodedData, {
  режим: 'смертельный'
});
// Если `encodedData` содержит недопустимый байт для кодировки windows-1252,
// вместо того, чтобы заменить его на U + FFFD в выводе, выдается ошибка.

`Банкноты`

Доступны аналогичные модули для других однобайтовых устаревших кодировок.

`Автор`

`Лицензия`

windows-1252 доступен по лицензии MIT.

 Кодирование XML 
 Кодирование XML Из  http://www.w3schools.com  (Copyright Refsnes Data)
 XML-документы могут содержать символы, отличные от ASCII, например норвежский или французский.
 Чтобы избежать ошибок, укажите кодировку XML или сохраните файлы XML как
Юникод.
 Ошибки кодирования XML 
 Если вы загрузите XML-документ, вы можете получить две разные ошибки
с указанием проблем с кодировкой:
  В текстовом содержимом обнаружен недопустимый символ.
 Вы получите эту ошибку, если ваш XML
содержит символы, отличные от ASCII, и файл был сохранен как
однобайтный ANSI (или ASCII) без указания кодировки.
 Однобайтовый XML-файл с кодировкой
атрибут.
 Тот же однобайтовый XML-файл без
атрибут кодировки.
  Переключение с текущей кодировки на указанную кодировку не поддерживается. 
 Вы получаете эту ошибку, если ваш XML-файл был сохранен как двухбайтовый Unicode (или UTF-16)
с однобайтовой кодировкой (Windows-1252,
ISO-8859-1, UTF-8) указан.
 Вы также получаете эту ошибку, если ваш XML-файл был сохранен с однобайтовым ANSI (или
ASCII), с двухбайтовым
указана кодировка (UTF-16).
 Двухбайтовый XML-файл без
кодирование.
 Тот же двухбайтовый XML-файл с
однобайтовая кодировка.
 Блокнот Windows 
 Windows Notepad по умолчанию сохраняет файлы в однобайтовом формате ANSI (ASCII).
 Если вы выбрали «Сохранить как ...», вы можете указать двухбайтовый Unicode (UTF-16).
 Сохранить
XML-файл ниже как Unicode (обратите внимание, что документ не содержит кодировки
атрибут):
 
<примечание>
   Яни 
   Тове 
  <сообщение> Норвежский:. Французский: 
 
 Файл note_encode_none_u.xml выше НЕ генерирует
ошибка. Но если вы укажете однобайтовую кодировку, она будет.
 Следующая кодировка (откройте),
выдаст сообщение об ошибке:
  
 Следующая кодировка (откройте),
выдаст сообщение об ошибке:
  
 Следующая кодировка (откройте),
выдаст сообщение об ошибке:
  
 Следующая кодировка (откройте ее) НЕ БУДЕТ
выдает ошибку:
  
 
 Заключение 
 Всегда использовать атрибут кодировки
 Используйте редактор, поддерживающий кодировку
 Убедитесь, что вы знаете, какую кодировку использует редактор
 Используйте ту же кодировку в атрибуте кодировки
 Из номера  http: // www.w3schools.com  (Авторские права Refsnes Data)
 Карты кодировки набора символов - CP1252 / Windows-1252 
 Учебники Unicode - Учебные примеры Херонга
 ∟Карты кодировки набора символов
 ∟Карты кодирования набора символов - CP1252 / Windows-1252
 В этом разделе представлен учебный пример анализа и печати карт кодировки набора символов для кодирования: CP1252 / Windows-1252, кодировка по умолчанию для Java SE в системах Windows.
 Вот результат работы моей примерной программы EncodingAnalyzer2.java, для кодирования CP1252 / Windows-1252 с Java SE 7:
C: \ herong> Java EncodingAnalyzer2 CP1252
Кодировка CP1252:
00000000> 00 - 0000007F> 7F
00000080> 3F - 0000009F> 3F: недопустимый диапазон
000000A0> A0 - 000000FF> FF
00000100> 3F - 00000151> 3F: недопустимый диапазон
00000152> 8C - 00000152> 8C
00000153> 9C - 00000153> 9C
00000154> 3F - 0000015F> 3F: недопустимый диапазон
00000160> 8A - 00000160> 8A
00000161> 9A - 00000161> 9A
00000162> 3F - 00000177> 3F: недопустимый диапазон
00000178> 9F - 00000178> 9F
00000179> 3F - 0000017C> 3F: недопустимый диапазон
0000017D> 8E - 0000017D> 8E
0000017E> 9E - 0000017E> 9E
0000017F> 3F - 00000191> 3F: недопустимый диапазон
00000192> 83 - 00000192> 83
00000193> 3F - 000002C5> 3F: недопустимый диапазон
000002C6> 88 - 000002C6> 88
000002C7> 3F - 000002DB> 3F: недопустимый диапазон
000002DC> 98 - 000002DC> 98
000002DD> 3F - 00002012> 3F: недопустимый диапазон
00002013> 96 - 00002014> 97
00002015> 3F - 00002017> 3F: недопустимый диапазон
00002018> 91 - 00002019> 92
0000201A> 82 - 0000201A> 82
0000201B> 3F - 0000201B> 3F: недопустимый диапазон
0000201C> 93 - 0000201D> 94
0000201E> 84 - 0000201E> 84
0000201F> 3F - 0000201F> 3F: недопустимый диапазон
00002020> 86 - 00002021> 87
00002022> 95 - 00002022> 95
00002023> 3F - 00002025> 3F: недопустимый диапазон
00002026> 85 - 00002026> 85
00002027> 3F - 0000202F> 3F: недопустимый диапазон
00002030> 89 - 00002030> 89
00002031> 3F - 00002038> 3F: недопустимый диапазон
00002039> 8Б - 00002039> 8Б
0000203A> 9B - 0000203A> 9B
0000203B> 3F - 000020AB> 3F: недопустимый диапазон
000020AC> 80 - 000020AC> 80
000020AD> 3F - 00002121> 3F: недопустимый диапазон
00002122> 99 - 00002122> 99
00002123> 3F - 0010FFFF> 3F: недопустимый диапазон

Кодовая точка> Последовательность байтов - Кодовая точка> Последовательность байтов
 
 Карта кодировки CP1252 / Windows-1252, которая является кодировкой по умолчанию, используемой Java SE для систем Windows,
не все так просто:
 Выходная последовательность всегда составляет один байт.
 Он совместим с US-ASCII в диапазоне 0x0000 - 0x007F.
 Допустима только одна секция, 0x00A0 - 0x00FF, в диапазоне 0x0080 - 0x00FF.
 Допустимо только небольшое количество кодовых точек в диапазоне 0x0100 - 0xFFFF.
 Содержание
 Об этой книге
 Наборы символов и кодировки
 Набор символов ASCII и кодировка
 GB2312 Набор символов и кодировка
 GB18030 Набор символов и кодировка
 Набор символов и кодировки JIS X0208
 Набор символов Юникода
 UTF-8 (формат преобразования Unicode - 8-бит)
 Кодировки UTF-16, UTF-16BE и UTF-16LE
 Кодировки UTF-32, UTF-32BE и UTF-32LE
 Язык Java и символы Unicode
 Кодировка символов в Java
 ►Карты кодировки набора символов
 Анализатор карт кодировки набора символов
 Карты кодировки набора символов - US-ASCII и ISO-8859-1 / Latin 1
 ►Карты кодировки набора символов - CP1252 / Windows-1252
 Карты кодировки набора символов - Unicode UTF-8
 Карты кодировки набора символов - Unicode UTF-16, UTF-16BE, UTF-16LE
 Карты кодировки набора символов - Unicode UTF-32, UTF-32BE, UTF-32LE
 Программа счетчика символов для любой данной кодировки
 Сравнение кодировок наборов символов
 Программы преобразования кодирования для кодированных текстовых файлов
 Использование Блокнота в качестве текстового редактора Unicode
 Использование Microsoft Word в качестве текстового редактора Unicode
 Использование Microsoft Excel в качестве текстового редактора Unicode
 Шрифты Unicode
 Блоки кодовых точек Unicode: 0000 - 0FFF
 Блоки кодовых точек Unicode: 1000 - FFFF
 Блоки кодовых точек Unicode: 10000 - 11FFF
 Блоки кодовых точек Unicode: 12000 - 10FFFF
 Устаревшие учебники
 Список литературы
 Полная версия в PDF / EPUB
 Вопрос Список необходимых преобразований кодировки символов: windows-1252 в UTF-8 
 Вопрос 
 Список необходимых преобразований кодировки символов: windows-1252 в UTF-8 
 *  447   видимость   0   arrow_circle_up   0   arrow_circle_down 
 У меня есть база данных SQL Server, полная неверно закодированных символов.Проблема заключалась в том, что ETL был написан на Java с неправильной кодировкой по умолчанию и поэтому напрямую загружал плохо закодированные символы. База данных буквально содержит символы Ã¶ вместо ö
. Я исправил проблему с ETL, теперь я хочу исправить существующие данные. Я знаю, что могу использовать REPLACE () для замены символов, но моя проблема в том, что у меня нет окончательного списка символов и того, какими они «предполагаются».
 Я поискал в Интернете какой-то исчерпывающий список, но не нашел.Мне просто нужен большой список:
 Ã¶> ö
 Ã ©> é
 и т. Д.
 РЕДАКТИРОВАТЬ: Сначала я подумал, что «плохая» кодировка - это ISO 8859-15, на самом деле я только что проверил предыдущую кодировку по умолчанию, и это windows-1252. Я обновил заголовок сообщения.
 Ответ - 1 
 проверено   0   arrow_circle_up   0   arrow_circle_down 
 Это большой список.UTF-8 кодирует весь Юникод от одного до четырех байтов на каждую кодовую точку Юникода. Существует 1,114,111 кодовых точек Unicode (1,112,064, если исключены суррогаты UTF-16).
 Строки легче читать с помощью Windows-1252, кодировать их в байты с помощью Windows-1252, декодировать с помощью UTF-8. Пример на Python, так как это то, что у меня есть для демонстрации:
  >>> s = 'Ã¶Ã ©'
>>> s.encode ('Windows-1252'). decode ('UTF-8')
'öé'
  
 Обратите внимание, что Windows-1252 работает с потерями.Некоторые байты, используемые в UTF-8, не имеют определения в Windows-1252, поэтому возможно, что при записи в вашу базу данных они были отброшены. Также возможно, что использовался  ISO-8859-1  (он же  latin1 ), который близок к Windows-1252, но все байты определены.
 Источник:
 https://stackoverflow.

Windows 1252 кодировка: Кодировка от Windows-1252 до UTF-8

windows-1252

Таблицы

ISO-8859-1

Windows−1252

Примечания

Ссылки

windows-1252

Таблицы

ISO-8859-1

Windows−1252

Примечания

Ссылки

windows-1252

Таблицы

ISO-8859-1

Windows−1252

Примечания

Ссылки

windows-1252

Таблицы

ISO-8859-1

Windows−1252

Примечания

Ссылки

1252 — это… Что такое Windows-1252?

Таблицы

ISO-8859-1

Windows−1252

Окна-1252

Подробности

Набор символов

История

Расширения OS / 2

Расширения MSDOS [редко]

Смотрите также

Рекомендации

внешняя ссылка

Кодировки

html — мета-кодировка windows-1252 против UTF-8

в Windows-1252, ISO-8859-1, ISO-8859-15

ISO-8859-1 по сравнению с Windows-1252

Типичные проблемы

ISO-8859-1 в сравнении с ISO-8859-15

Таблица сравнения

Дополнительные ссылки

CP1252 — Windows CP1252 Кодовая страница

окон-1252 — npm

Установка

API

Банкноты

Автор

Лицензия

XML

Ошибки кодирования XML

Блокнот Windows

Заключение

- CP1252 / Windows-1252

Вопрос Список необходимых преобразований кодировки символов: windows-1252 в UTF-8

Вопрос

Список необходимых преобразований кодировки символов: windows-1252 в UTF-8

Ответ - 1

Добавить комментарий Отменить ответ

`Банкноты`

`Автор`

`Лицензия`