Как задать кодировку utf 8 в html
При создании сайта у начинающих веб-мастеров часто появляются вопросы: в какой кодировке делать сайт, чем отличается UTF-8 от windows-1251 и как ее прописывать в META Charset HTML-страницы сайта. Ответы на все эти вопросы в данной статье.
Что такое кодировка сайта и как она работает
Кодировку можно представить в виде таблицы, состоящей из разных букв, цифр и других символов понятных человеку, которые закодированы определенным образом. Когда вы открываете текстовый файл, к которым относятся в том числе HTML-страницы, то компьютер считывает из заголовка файла в какой кодировке он был сохранен и выводит текст в соответствующей кодировке преобразовывая компьютерные данные в вид понятный человеку сопоставляя эти данные с таблицей кодировки. Если информация о кодировке из заголовка файла совпадает с кодировкой в которой сохранены данные в HTML-странице, то пользователь видит привычные ему буквы, цифры и другие символы. Если же есть несовпадение, то в результате пользователю выводится непонятный набор символов, особенно часто это происходит в старых почтовых программах. Если пользователь получил письмо с непонятными крякозябрами, то просто перебирая разные кодировки, обычно получается угадать и выбрать ту, в которой написано письмо, и в результате непонятный набор символов превращается в понятный человеку текст.
То же самое происходит и с HTML-страницами сайта. Если документ был сохранен, например, в кодировке UTF-8, а в самом документе прописан META-тег указывающий что это кодировка windows-1251, то браузер опять же будет сопоставлять сохраненные в файле данные с таблицей указанной ему кодировки и так как символы закодированы по-разному, то браузер выведет вместо привычного текста непонятный набор символов или же часть букв может быть в нормальном виде, а другие буквы или символы могут выводиться, например, в виде знаков вопроса. Все выше сказанное относится в том числе и к отображению имен файлов.
Создавая новый документ в текстовом редакторе лучше сразу убедиться что выбрана нужная кодировка. Современные редакторы позволяют преобразовать текст открытого документа из одной кодировки в другую, а стандартный Блокнот позволяет выбрать кодировку только при сохранении файла.
Самые распространенные кодировки
Из предыдущего пункта вы уже знаете что такое кодировка и почему настолько важно правильно прописать ее в коде страниц сайта. Давайте теперь выясним какую из множества кодировок лучше выбрать для будущего сайта. Поскольку самой распространенной и наиболее понятной в освоении всегда была операционная система Windows, то большинство веб-разработчиков создавали HTML-страницы в кодировке windows-1251 (ANSI), которая использовалась по-умолчанию. Но windows-1251 поддерживает не очень большое количество букв и символов, а разработчики хотят использовать в своих текстах различные стрелочки, сердечки, квадратики и другие символы, в том числе есть необходимость совмещать слова из разных языков в одном документе, поэтому на смену ей уже давно пришла более расширенная UTF-8 и большинство разработчиков используют именно эту кодировку.
Проблемы с кодировкой не только в HTML-странице
Сайт, независимо от того является ли он просто набором статических HTML-документов или сложных динамических скриптов генерирующих страницы на лету, размещается на веб-сервере, который также работает с определенной кодировкой. И если сервер выдает информацию в одной кодировке, а ваши страницы или скрипты сохранены в другой кодировке, то опять же могут быть проблемы с отображением страниц в браузере пользователя. Многие хостинги позволяют менять настройки и выбрать кодировку в соответствии с той, которая используется в файлах сайта, через панель управления или же прописать ее в файле .htaccess, если на хостинге используется популярный веб-сервер Apache.
Практически ни один современный сайт не обходится без использования базы данных MySQL и она также может стать источником проблем с кодировкой. Если файлы сайта сохранены в одной кодировке, а информация в базе данных в другой, то на странице та часть информации, которая выводится из базы данных может отображаться в виде все тех же знаков вопросов или других непонятных символов. Чтобы избежать проблем с кодировкой она должна быть одинаковой для веб-сервера, базы данных MySQL, в скриптах, в HTML-страницах сайта и в META-теге, который прописывается в HTML-коде. Если есть проблемы с отображением текста, то проверяйте на наличие проблемы все выше перечисленное.
META Charset HTML-документа
Чтобы сообщить браузеру и поисковым системам в какой кодировке сохранены страницы сайта в их коде прописывается META Charset.
Для кодировки windows-1251:
Для кодировки UTF-8:
Теперь вы знаете что такое кодировка сайта и где искать проблемы если в какой-либо части сайта неправильно отображается текст.
Другие записи по теме в разделе статьи по HTML и CSS
Это задание архивной главы. Перейдите по ссылке, чтобы пройти задание в актуальной главе.
Кодировку HTML-страницы нужно указывать для того, чтобы веб-браузер мог правильно отображать текст на странице. Если браузер неправильно угадает кодировку, то вместо текста будут отображаться иероглифы.
Чтобы сообщить браузеру кодировку HTML-страницы, необходимо внутри тега использовать тег:
Самая распространённая современная кодировка — utf-8 . Используйте её во всех своих проектах.
Для кириллицы в Windows charset часто задавали как windows-1251 . Но сейчас это считается плохой практикой.
Хотите досконально разбираться в разметке, знать о доступности, строить сетки на флексбоксах? Записывайтесь на профессиональный курс по вёрстке первого уровня, проходящий c 20 января по 22 марта 2020. До 26 ноября цена 13 900 14 900
- index.html Сплит-режим
- style.css Сплит-режим
Когда кодировка документа задана неверно, некоторые символы отображаются как «иероглифы», а некоторые нет.
Метатеги используются для хранения информации предназначенной для браузеров и поисковых систем. Например, механизмы поисковых систем обращаются к метатегам для получения описания сайта, ключевых слов и других данных.
Метатеги для поисковых механизмов
Среди разработчиков сайтов существует мнение, что правильно написанные метатеги позволяют подняться к верхним строчкам поисковых серверов. На самом деле это не так, на одних метатегах высоко не поднимешься, но и неудачно выполненное содержимое метатегов может ухудшить рейтинг сайта.
Два метатега предназначены специально для поисковых серверов: description (описание) и keywords (ключевые слова). Некоторые вебмастера добавляли в раздел keywords ключевые слова, которые не имеют никакого отношения к теме сайта, но зато пользовались определенным успехом среди посетителей поисковиков. Однако, через некоторое время, поисковые системы научились бороться с таким явлением и проверяют содержимое веб-страницы на соответствие заявленным ключевым словам.
Некоторые принципы, относящиеся к метатегам:
- не включайте ключевые слова, которые не содержатся на ваших страницах;
- не повторяйте ключевые слова;
- используйте метатеги по их прямому назначению;
- делайте описание и список ключевых слов различными для каждой страницы сайта с учетом содержимого.
description
Большинство поисковых серверов отображают содержимое поля description (пример 1) при выводе результатов поиска. Если этого тега нет на странице, то поисковый движок просто перечислит первые встречающиеся слова на странице, которые, как правило, оказываются не очень-то и в тему.
Пример 1. Использование Description
keywords
Этот метатег был предназначен для описания ключевых слов, встречающихся на странице (пример 2). Но в результате действия людей, желающих попасть в верхние строчки поисковых систем любыми средствами, теперь дискредитирован. Поэтому многие поисковики пропускают этот параметр.
Пример 2. Использование Keywords
Ключевые слова можно перечислять через пробел или запятую. Поисковые системы сами приведут запись к виду, который они используют.
Автозагрузка страниц
Чтобы автоматически загружать новый документ через определенный промежуток времени используется инструкция http-equiv=»refresh» (пример 3).
Пример 3. Автозагрузка страницы
Браузер поймет эту запись, как ожидать 5 секунд, а затем загрузить новую страницу, указанную в параметре URL , в данном случае это переход на сайт htmlbook.ru.
Этот метатег позволяет создавать перенаправление (редирект) на другой сайт. Если URL не указан, произойдет автоматическое обновление текущей страницы через количество секунд, заданных в атрибуте content .
Кодировка
Чтобы сообщить браузеру, в какой кодировке находятся символы веб-страницы, необходимо установить параметр . Для операционной системы Windows и кириллицы charset обычно принимает значение utf-8 или windows-1251 (пример 4).
Пример 4. Выбор текущей кодировки
Если указание кодировки отсутствует, браузер пытается сам определить, какой тип символов используется в документе и выбирает необходимую кодировку автоматически. Браузер не всегда может точно распознать язык веб-страницы и в некоторых случаях предлагает вьетнамскую кодировку вместо кириллицы. По этой причине лучше всегда указывать приведенную строчку. Тем не менее, возникают обстоятельства, когда указание кодировки может принести определенный вред. Например, веб-сервер автоматически использует перекодирование данных в KOI-8, а браузер, встретив параметр charset=windows-1251 , переводит текст в кодировку Windows. Получается двойное изменение символов, прочитать такой текст не просто. К счастью, подобная проблема уже отходит в прошлое, во всяком случае, ее легко можно выявить и нейтрализовать на уровне сервера.
На сколько бы это глупо не казалось, но для удачного выставления кодировки необходимо выполнить целых 11(!) правил.
Хочу зарание предупредить, если какая-то из настроек в .htaccess повлечет за собой ошибку 500, это значит, что хостинг запретил менять этот параметр на сервере. В таком случае проверьте тот факт, что у Вас UTF-8 и в случае чего обратитесь к админам хостинга.
И для тех, кто попал на эту страницу с вопросами об Ajax: Ajax работает в кодировке UTF-8.
Правило №1: Указываем в HTML верстке в теге первой строчкой, кроме случаев, где мы будем использовать тег , так как он так же как и кодировка имеет приоритет над расположением, следующий код:
Правило №2: Указываем кодировку для PHP и самого файла, для этого нам необходимо выставить заголовок функцией header(). Выставляем его в самом начале нашего файла (абсолютно в самом начале), сразу после указания уровня вывода ошибок:
Правило №3: Кодировка для подключения к к БД MySQL. Устанавливается после подключения к БД и выбора бд (mysql_connect, mysql_select_db). Если у нас модуль mysql:
или улучшенный модуль mysqli:
Правило №4: Кодировка в .htaccess:
Правило №5: Кодировка для библиотеки mb, начиная с версии php 5.4 можно не указывать, так как по умолчанию будет использоваться именно UTF-8. Ну а пока прописываем её в файле .htaccess:
Либо в самом PHP, что в итоге выполнит одни и те же действия:
Правило №6: При сохранении файлов (обязательно ВСЕХ!) выбрать кодировку UTF-8 without BOM, повторюсь, without BOM — это необходимая настройка, в противном случае Ваш сайт не будет работать как надо. Для тех, кто пользуется удобной программой DreamWeaver:
Modify => Page Properties => Title/Encoding и выставляем «Encoding: UTF-8», после чего нажимаем ReLoad, убираем галочку с BOM «Include Unicode Signature (BOM)». Apply + OK.
Модификации => Свойства страницы => Заголовок/Кодировка и выставляем кодировку UTF-8. Нажимаем «перезагрузить», убрали галочку с Подключить Юникод Сигнатуры (BOM). Применить и OK.
Правило №7: если на данный момент какой-то из текстов был введён на странице или в БД — его необходимо перенабрать. Дело в том, что символ в одной кодировке представляет один набор бит для русских символов, а в другой — другой. Именно поэтому необходимо его либо перенабрать, либо перекодировать. Современные программы имеют возможность перевести текст из одной кодировки в другую. Об этой возможности интересуйтесь в мануалах Ваших программ.
Правило №8: Есть исключение, когда текст приходит к Вам на страницу с другого сайта в другой кодировке. Тогда на PHP есть удобная функция для перевода из одной кодировки в другую:
Правило №9: Для строковых функций strlen, substr, необходимо использовать их аналоги на библиотеке mb_, а именно: mb_strlen, mb_substr, то есть к функции дописываем mb_ .
Правило №10: Для работы с регулярными выражениями необходимо указывать модификатор u . Это обязательный параметр!
Правило №11: Для CSS файлов указывается кодировка так:
В заключение скажу, что символы в кодировке WIN-1251 состоят из 1 байта, то есть 8 бит, а в свою очередь в кодировке UTF-8 символы могут состоять от 1 до 4 байт, всё дело в том, что кодировка UTF-8 позволяет создавать мультиязычные сайты, так как все существующие в мире символы в ней присутствуют.
Ради любопытства русская буква в кодировке UTF-8 занимает 2 байта, именно поэтому за 1 символ функция strlen возвращает длину 2, то есть 2 байта, а mb_strlen возвращает уже правильную длину в 1 символ.
Доброго времени суток, уважаемые читатели блога Site on! Сегодня речь пойдёт о такой мелочи, как кодировка страниц наших с вами сайтов на Joomla, WordPress и вовсе без CMS. Несмотря на то, что в этом нет ничего сложного, множество людей до сих пор задают вопросы на форумах, связанные с этой проблемой.
Сейчас самой распространённой кодировкой по праву считается UTF-8 и чтобы не растягивать статью не нужными разглагольствованиями просто скажу, что я абсолютно всем рекомендую использовать именно её.
Как изменить кодировку страницы?
Теперь, когда мы знаем, какая кодировка нам нужна, первым делом нужно сохранить все файлы, которые нужно перекодировать в UTF-8 без BOM, это можно сделать с помощью большинства текстовых редакторов для программистов (не Microsoft Office), например, PSPad или Notepad++, а также множество других.
Перекодирование в UTF-8 на примере PSPad
Если Вы используете бесплатный редактор PSPad, то всё что вам необходимо, это открыть в нём нужный файл, выбрать из верхнего меню «Формат» и выбрать из выпавшего списка UTF-8, после чего обратите внимание на смену кодировки в нижнем правом углу вашего окошка с PSPad, незабываем сохранить изменения!
Как правильно указать нужную кодировку?
Данную статью можно было бы поместить в раздел PHP, так как именно PHP играет в нашем спектакле самую значимую роль. Всегда указывайте кодировку страниц ваших сайтов прежде всего через PHP заголовок:
который должен быть как можно выше в вашем коде, обязательно перед первым выводом любого символа на странице (в том числе HTML теги, просто буквы, пробелы). Данный способ является наиболее приоритетным, в то время как мета-тег: Просто ещё раз подчёркивает и объявляет (а не назначает!) принадлежность к той или иной кодировке, но никак не говорит серверу посылать документы именно в данной кодировке, в отличие от PHP. Именно PHP говорит серверу, на котором находится ваш сайт, в какой кодировке послать страницу клиенту. Так же это можно делать и с помощью .htaccess – файла тонкой конфигурации веб-сервера Apache, но лично мне больше импонирует вариант с PHP. Тем более я слышал, что не все хостеры предоставляют конфигурацию с помощью .htaccess, слава богу не сталкивался 🙂
Итак, после того как мы пересохранили все нужные нам файлы в UTF-8 без BOM и указали кодировку с помощью PHP, остаётся лишь «подтвердить» её мета тегом, который также обязательно нужно указывать! Это рекомендует сам W3C для того, чтобы устройства, роботы и клиентские браузеры могли безошибочно определить, в какой кодировке ваш сервер послал страницу.
Как поменять кодировку страниц в Joomla?
Давайте рассмотрим пример правильного указания кодировки на Joomla 2.5 Это вовсе не сложно и займёт менее минуты:
1) Заходим в главный файл нашего шаблона сайта под названием index. php. Он находится по адресу: /templates/ваш_шаблон/index.php
2) Перекодируем этот файл с помощью текстового редактора для программистов, как было описано для PSPad.
3) Сразу после строки, которая предотвращает прямое обращение к файлу пишем код, который пошлёт заголовок с нашей кодировкой: Если у вас возникли трудности с поиском данной строки, то можете вставить код просто в самом вверху, например, первой строкой файла, главное не забудьте, что PHP код всегда должен быть размещён внутри конструкции <?php ваш код ?> В нашем случае:
4) Не забываем проверить, что Joomla поставила правильный мета-тег:
В Joomla 2.5 за вывод мета-тегов и прочей информации, заключённой в «голове» нашего сайта, отвечает следующая конструкция:
Как поменять кодировку страниц в WordPress и других CMS?
Для сайтов на WordPress и любых других сайтов смысл остаётся точно таким же. Вы находите основной файл, отвечающий за вывод информации на вашем сайте, перекодируете его в UTF-8 без BOM, указываете PHP заголовок и мета-тег.
Исключения составляют сайты на чистом HTML, где PHP кода не может быть в принципе. Для таких сайтов можно просто пропустить данный шаг.
Вот и всё на сегодня, спасибо за ваше внимание и до встречи в новых статьях блога о самостоятельном создании и продвижении сайтов – Site on!
Вопрос: Как в файле htaccess задать кодировку сайта UTF-8?
Ответ: Чтобы задать кодировку сайта по-умолчанию для любого браузера, необходимо в файле .htaccess прописать лишь одну строчку:
[sociallocker]
Для сайтов на WordPress по-умолчанию идет UTF-8, поэтому выбираем подходящий вариант. Для сайтов на других CMS (DLE, Joomla и пр.), либо на самописных «движках» может использоваться WINDOWS-1251.
Посмотрите видео ниже как правильно вставлять указанною строку кодировки в файл htaccess.
Когда необходимо задавать кодировку в htaccess UTF-8 или windows-1251
Очень часто владельцы сайтов сталкиваются с проблемой «вместо русских букв вопросы . «. Зачастую подобное происходит из-за некорректной обработки браузерами кодировки вашего сайта.
Размещая в файле htaccess указанные выше строки, вы избавляете себя от этой проблемы.
Стоит оговориться, что не всегда причиной знаков . вместо букв является неправильная кодировка сайта. Если вы вносили какие-то изменения в файлы шаблона/темы сайта на UTF-8, то может понадобиться преобразовать в UTF-8 без BOM.
HTML кодировка страницы. В какой кодировке сохранять web-страницу? Урок №14
Главная » Все про HTML » HTML кодировка страницы. В какой кодировке сохранять web-страницу? Урок №14
Бывали ли у вас ситуации, когда на web-странице вместо читабельного текста открывались кракозябры? Я уверен, что бывали или, по крайне мере, вы видели их на других сайтах. Если не видели, посмотрите на пример снизу:
Что такое HTML кодировка?
HTML кодировка – это таблицы соответствия кодов и символов алфавита. То есть, наш компьютер по кодировке поменяет код на понятные читабельные буквы.
Популярные кодировки.
На сегодняшний день существуют две самые популярные кодировки в русскоязычном интернете. Это кодировка windows-1251 и utf-8. Частенько веб-мастерам приходится выбирать, в какой кодировке делать им веб-страничку.
В какой кодировке следует сохранять HTML
Большинство веб-мастеров выбирают кодировку utf-8. И это верный выбор, так как в кодировке utf-8 имеются различные знаки (→ ←↓↑ и т. д.), а также есть масса разнообразных специфических символов. Кстати, основная часть движков, как Joomla, WordPress, Drupal работает на кодировке utf-8.
Поэтому я рекомендую вам сохранять HTML файлы в кодировке utf-8.
Как задать кодировку UTF-8 для файла?
Чтобы задать кодировку для HTML файла, используют различные редакторы. Я пользуюсь текстовым редактором Notepad++.
Откройте текстовый редактор Notepad++.
Если нужно, создайте новый документ.
Перейдите в меню сверху по вкладке «Кодировки» => «Кодировать в UTF-8 (без BOM)»:
Чтобы сообщить браузеру, в какой кодировке HTML файл, существует специальный META-тег
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
В HTML документе это будет выглядеть вот так:
<html> <head> <title>кодировка HTML</title> <meta http-equiv="Content-Type" content="text/html; charset=utf-8"> </head> <body> </body> </html>
Как задать кодировку windows-1251 для файла?
Откройте текстовый редактор Notepad++.
Если нужно, создайте новый документ.
Перейдите в меню сверху по вкладке «Кодировки» => «Кодировать в ANSI»:
Чтобы сообщить браузеру, в какой кодировке HTML файл, существует специальный META-тег
<meta http-equiv="Content-Type" content="text/html; charset=windows-1251">
В HTML документе это будет выглядеть вот так:
<html> <head> <title>кодировка HTML</title> <meta http-equiv="Content-Type" content="text/html; charset=windows-1251"> </head> <body> </body> </html>
Пример перекодировки файла из windows-1251 в utf-8
Если в HTML документе был прописан код в кодировке windows-1251 (ANSI), а вам нужно перекодировать на utf-8 (или на оборот), тогда сделайте так:
Откройте текстовый редактор Notepad++. В текстовом редакторе перейдите в меню сверху по вкладке «Кодировки» => «Преобразовать в UTF-8 (без BOM)»:
Внимание, если бы вы нажали «Кодировать в UTF-8 (без BOM)», то в результате вы бы увидели вместо любимого русского текста, красивые караказябли .
Понравился пост? Помоги другим узнать об этой статье, кликни на кнопку социальных сетей ↓↓↓
Добавить комментарий
Метки: html, основы
Объявление кодировок символов в HTML
Объявление кодировок символов в HTMLВопрос
Как мне объявить кодировку моего файла HTML?
Всегда следует указывать кодировку, используемую для страницы HTML или XML. Если вы этого не сделаете, вы рискуете неправильно интерпретировать символы в вашем контенте. Это не просто проблема удобочитаемости для человека, все чаще машинам также необходимо понимать ваши данные. Объявление кодировки символов также необходимо для обработки символов, отличных от ASCII, вводимых пользователем в формах, в URL-адресах, сгенерированных сценариями, и т. д. В этой статье описывается, как это сделать для HTML-файла.Если вам нужно лучше понять, что такое символы и кодировки символов, см. статью Кодировки символов для начинающих . Сведения об объявлении кодировок для таблиц стилей CSS см. в разделе Объявления кодировок символов CSS .
Быстрый ответ
Всегда объявляйте кодировку вашего документа с помощью элемента meta
с атрибутом
или с использованием атрибутов http-equiv
и content
(называемых директивой pragma). Объявление должно полностью умещаться в первые 1024 байта в начале файла, поэтому лучше ставить его сразу после открытия головка
бирка.
<голова> <мета-кодировка="utf-8"> ...
<голова> ...
Неважно, какой вы используете, но проще набрать первый. Также не имеет значения, вводите ли вы UTF-8
или utf-8
.
Всегда следует использовать кодировку символов UTF-8. (Помните, что это означает, что вам также нужно сохраните ваш контент как UTF-8.) Посмотрите, что вы должны учитывать, если вы действительно не можете использовать UTF-8.
Если у вас есть доступ к настройкам сервера, вам также следует подумать, имеет ли смысл использовать HTTP-заголовок. Обратите внимание, однако , что, поскольку заголовок HTTP имеет более высокий приоритет, чем объявления meta
в документе, авторы контента всегда должны учитывать, объявлена ли уже кодировка символов в заголовке HTTP. Если да, то 9Элемент 0017 meta должен быть установлен для объявления той же кодировки.
Вы можете обнаружить любые кодировки, отправленные заголовком HTTP, с помощью средства проверки интернационализации.
Детали
Как насчет метки порядка байтов?
Если у вас есть метка порядка байтов (BOM) UTF-8 в начале вашего файла, то последние версии браузера, отличные от Internet Explorer 10 или 11, будут использовать ее, чтобы определить, что кодировка вашей страницы — UTF-8.
Вы можете пропустить декларацию кодировки meta
, если у вас есть спецификация, но мы рекомендуем вам сохранить ее, так как она помогает людям, просматривающим исходный код, установить кодировку страницы.
Подробнее о метке порядка байтов.
Должен ли я объявлять кодировку в заголовке HTTP?
Используйте объявления кодировки символов в заголовках HTTP, если это имеет смысл, и если вы можете, для любого типа контента, , но в сочетании с декларация в документе.
Авторы содержимого всегда должны обеспечивать соответствие объявлений HTTP объявлениям в документе.
Плюсы и минусы использования заголовка HTTP
Одним из преимуществ использования HTTP-заголовка является то, что пользовательские агенты могут быстрее найти информацию о кодировке символов, когда она отправляется в HTTP-заголовке.
Информация заголовка HTTP имеет наивысший приоритет, если она конфликтует с объявлениями в документе, отличными от метки порядка байтов. Средний серверы, которые перекодируют данные (т. е. преобразуют в другую кодировку), могут воспользоваться этим, чтобы изменить кодировку документа перед его отправкой на небольшие устройства, которые распознают только несколько кодировки. Неясно, широко ли это перекодирование используется в настоящее время. Если это так, и он преобразует содержимое в кодировку, отличную от UTF-8, существует высокий риск потери данных, и поэтому это не рекомендуется.
С другой стороны, есть ряд потенциальных недостатков:
Авторам контента может быть сложно изменить информацию о кодировке статических файлов на сервере, особенно при работе с интернет-провайдером. Авторам потребуются знания и доступ к настройкам сервера.
Настройки сервера могут не синхронизироваться с документом по той или иной причине. Это может произойти, например, если вы полагаться на сервер по умолчанию, и это значение по умолчанию изменено. Это очень плохая ситуация, поскольку более высокий приоритет информации HTTP по сравнению с объявление в документе может привести к тому, что документ станет нечитаемым.
Возможны проблемы как со статическими, так и с динамическими документами, если они не читаются с сервера; например, если они сохранены в место, например компакт-диск или жесткий диск. В этих случаях любая информация о кодировании из заголовка HTTP недоступна.
Аналогичным образом, если кодировка символов объявлена только в заголовке HTTP, эта информация больше недоступна для файлов во время редактирования или при их обрабатываются такими вещами, как XSLT или скрипты, или при отправке на перевод и т. д.
Должен ли я использовать этот метод?
При обслуживании файлов через HTTP с сервера никогда не возникает проблем с отправкой информации о кодировке символов документа в заголовке HTTP, если эта информация верна.
С другой стороны, из-за перечисленных выше недостатков мы рекомендуем всегда объявлять информацию о кодировке внутри документа. Объявление в документе также помогает разработчикам, тестировщикам или менеджерам по переводу, которые хотят визуально проверить кодировку документа.
(Некоторые люди утверждают, что редко уместно объявлять кодировку в заголовке HTTP, если вы собираетесь повторить ее в
содержание документа. В этом случае они предлагают, чтобы заголовок HTTP ничего не говорил о кодировке документа. Обратите внимание, что это обычно означает
принятие мер по
Работа с форматами полиглот и XML
XHTML5: Документ XHTML5 обслуживается как XML и имеет синтаксис XML. Парсеры XML не распознают объявления кодировки в мета
элементов. Они распознают только объявление XML. Вот пример:
0" encoding="utf-8"?>
Объявление XML требуется только в том случае, если страница не обслуживается как UTF-8 (или UTF-16), но может быть полезно включить его, чтобы разработчики, тестировщики или менеджеры по производству переводов могли визуально проверять кодировку документ, глядя на источник.
Разметка полиглота: Страница, использующая разметку полиглота, использует подмножество HTML с синтаксисом XML, который может анализироваться синтаксическим анализатором HTML или XML. Он описан в Polyglot Markup: надежный профиль словаря HTML5 .
Поскольку полиглот-документ должен быть в кодировке UTF-8, вам не нужно и не следует использовать объявление XML. С другой стороны, если файл должен быть прочитан как HTML, вам нужно будет объявить кодировку, используя мета-элемент
, метку порядка байтов или заголовок HTTP.
Поскольку объявление в элементе meta
будет распознано только парсером HTML, если вы используете подход с атрибутом content
, его значение должно начинаться с text/html;
.
Если вы используете мета-элемент
с атрибутом charset
, это не то, что вам нужно учитывать.
Дополнительная информация
Информация в этом разделе относится к вещам, которые вам обычно не нужно знать, но которые включены сюда для полноты картины.
Работа с кодировками, отличными от UTF-8
Использование UTF-8 не только упрощает разработку страниц, но и позволяет избежать неожиданных результатов при отправке форм и кодировке URL-адресов, которые по умолчанию используют кодировку символов документа. Если вы действительно не можете избежать использования кодировки символов, отличной от UTF-8, вам придется выбирать из ограниченного набора имен кодировок, чтобы обеспечить максимальную совместимость и максимально длительный срок удобочитаемости вашего контента.
Хотя обычно они называются charset именами, на самом деле они относятся к кодировкам, а не к наборам символов. Например, набор символов Unicode или «репертуар» может быть закодирован тремя различными схемами кодирования.
До недавнего времени реестр IANA был местом, где можно было найти имена для кодировок. Реестр IANA обычно включает несколько имен для одной и той же кодировки. В этом случае вы должны использовать имя, обозначенное как «предпочтительный».
Новая спецификация Encoding теперь содержит список, протестированный на реальных реализациях браузеров. Список можно найти в таблице в разделе Кодировки. Лучше всего использовать имена из левого столбца этой таблицы.
Обратите внимание, , однако, что наличие имени в любом из этих источников не обязательно означает, что можно использовать эту кодировку. Некоторые из кодировок проблематичны. Если вы действительно не можете использовать UTF-8, вам следует внимательно изучить советы в статье 9. 0009 Выбор и применение кодировки символов .
Не придумывайте собственные имена кодировок, которым предшествует x-
. Это плохая идея, так как
ограничивает интероперабельность.
Работа с устаревшими форматами HTML
HTML 4.01 не определяет использование атрибута charset
с элементом meta
, но любой современный браузер все равно обнаружит и использует его, даже если страница объявлена как HTML4, а не HTML5. Этот раздел актуален только в том случае, если у вас есть какие-либо другие причины, кроме обслуживания браузера для соответствия более старому формату HTML. В нем описываются любые отличия от раздела «Подробности» выше.
Для страниц, обслуживаемых как XML, см. Работа с форматами полиглота и XML.
HTML4: Как упоминалось выше, для полного соответствия HTML 4.01 необходимо использовать директиву pragma, а не атрибут charset
.
XHTML 1.x используется как text/html: Также требуется директива pragma для полного соответствия HTML 4.01, а не атрибут charset
. Вам не нужно использовать объявление XML, так как файл обслуживается как HTML.
XHTML 1.x используется как XML: Используйте кодировку
объявления объявления XML в первой строке страницы. Убедитесь, что перед ним ничего нет, включая пробелы (хотя метка порядка байтов допустима).
Атрибут
charset
в ссылке HTML5 не рекомендует использование атрибута charset
в элементе a
или link
, поэтому вам следует избегать его использования. Он возник в спецификации HTML 4.01 для использования с a
, link
и script
элементы и должны были указывать кодировку документа, на который вы ссылаетесь.
Он был предназначен для использования во встроенном элементе ссылки, подобном этому:
Неверный код. Не копируйте!
См. наш список публикаций.
Идея заключалась в том, чтобы браузер мог применить правильную кодировку к документу, который он извлекает, если кодировка не указана для документа каким-либо другим способом.
Всегда возникали проблемы с использованием этого атрибута. Во-первых, он плохо поддерживается основными браузерами. Одна из причин не поддерживать этот атрибут заключается в том, что если браузеры будут делать это без специальных дополнительных правил, это будет вектором атаки XSS. Во-вторых, трудно гарантировать, что информация верна в любой момент времени. Автор указанного документа вполне может изменить кодировку документа без вашего ведома. Если автор до сих пор не указал кодировку своего документа, теперь вы будете просить браузер применить неправильную кодировку. И в-третьих, в этом не должно быть необходимости, если люди будут следовать рекомендациям, изложенным в этой статье, и правильно размечать свои документы. Это гораздо лучший подход.
Этот способ указания кодировки документа имеет самый низкий приоритет (т. е. если кодировка объявлена каким-либо другим способом, это будет проигнорировано). Это означает, что вы также не можете использовать это для исправления неправильных объявлений.
Работа с кодировкой UTF-16
Согласно результатам выборки Google из нескольких миллиардов страниц, менее 0,01% страниц в Интернете имеют кодировку UTF-16. UTF-8 составляет более 80% всех веб-страниц, если вы включаете его подмножество, ASCII, и более 60%, если вы этого не делаете. Вам настоятельно не рекомендуется использовать UTF-16 в качестве кодировки страницы.
Если по какой-то причине у вас нет выбора, вот несколько правил объявления кодировки. Они отличаются от таковых для других кодировок.
Спецификация HTML5 запрещает использование элемента meta
для объявления UTF-16, поскольку значения должны быть ASCII-совместимыми. Вместо этого вы должны убедиться, что у вас всегда есть метка порядка байтов в самом начале файла в кодировке UTF-16. По сути, это декларация в документе.
Кроме того, если ваша страница закодирована как UTF-16, не объявляйте свой файл как «UTF-16BE» или «UTF-16LE», используйте только «UTF-16». Метка порядка байтов в начале вашего файла будет указывать, является ли схема кодирования прямым порядком байтов или обратным порядком байтов. (Это связано с тем, что содержимое, явно закодированное, например, как UTF-16BE, не должно использовать метку порядка байтов, но HTML5 требует метки порядка байтов для страниц, закодированных UTF-16.)
Дальнейшее чтение
Начать? Знакомство с наборами символов и кодировками
Tutorial, Работа с кодировками символов в HTML и CSS
Ссылки по теме, Создание HTML и CSS
- Символы
- Объявление кодировки символов для HTML
- Выбор и применение кодировки символов
Ссылки по теме, Настройка сервера
- Символы
Как установить кодировку символов для документа в HTML5?
Посмотреть обсуждение
Улучшить статью
Сохранить статью
- Последнее обновление: 01 апр, 2021
Посмотреть обсуждение
Улучшить статью
Сохранить статью
Кодировка символов — это метод определения отображения между байтами и текстом. Чтобы правильно отображать HTML-документ, мы должны выбрать правильную кодировку символов.
Различные типы кодировки символов включают:
- Набор символов ASCII: Это первый стандарт кодирования символов. Основным недостатком ASCII является то, что он содержит только ограниченный диапазон символов (128 символов).
- Набор символов ANSI: Этот стандарт был расширенной версией стандартного набора символов ASCII. Он поддерживает 256 символов.
- Набор символов ISO-8859-1: Это кодировка символов по умолчанию в HTML 2.0. Это также расширение стандарта ASCII с международными символами. Это использовало полные байты (8 бит) для отображения символов.
- Набор символов UTF-8: Этот стандарт охватывает почти все символы и символы в мире. Ограничения ANSI и ISO-8859-1 удовлетворялись набором символов UTF-8. Кодировка символов по умолчанию для HTML5 — UTF-8.
Спецификация HTML5 рекомендует разработчикам использовать набор символов UTF-8.
Символ может иметь длину от 1 до 4 байтов в стандарте кодирования UTF-8. Это также наиболее предпочтительная кодировка для электронной почты и веб-страниц.
- Кодировку символов можно указать в метатеге HTML.
- Метатег используется для указания метаданных о веб-странице и не будет отображаться на веб-страницах.
- Метатег помогает поисковым системам понять, о чем веб-страница.
- Метатег должен быть размещен вместе с тегом head в HTML.
Синтаксис:
1. Для HTML4
90 0. Для HTML4
Кодировкой символов по умолчанию для HTML5 является UTF-8, но вы все равно можете указать ее, чтобы быть особенно осторожным.
Пример:
9003 018 |