HTML5 – 字符编码
HTML5 支持一系列字符编码,这些字符编码让我们在 web 页面上展示各种语言的字符串和符号。在 HTML4 之前,字符编码是一个独立的概念,在 HTML5 中,字符编码被变成了标注元数据的方式。
字符编码的类型
以下是 HTML5 支持的几种常见字符编码:
- ASCII编码:ASCII 码是美国信息交换标准代码,它包括 128 个字符:大写字母、小写字母、数字、标点符号、空格和控制字符,被广泛使用。
-
ISO-8859-1 编码:ISO-8859-1 是一种 Latin 字符编码,它包括 256 个字符,但只支持西欧语言,如法语、德语等等。
-
UTF-8 编码:UTF-8 能够编码所有 Unicode 字符,它是一种变长的字符编码方案,它使用 1 到 4 个字节表示一个字符。因此,它可以同时支持所有语言,从大写字母到小写字母、数字、标点符号和各种符号。
在 HTML 中,声明编码可以使用以下形式之一:
<meta charset="UTF-8">
<meta charset="ISO-8859-1">
这个声明应该在 head 部分进行声明。
<html>
<head>
<meta charset="UTF-8">
<title>网站标题</title>
</head>
<body>
<h1>欢迎您来到我们的网站</h1>
<p>这篇文章将告诉你更多关于 HTML5 的字符编码的信息。</p>
<p>这里是一些可以显示特殊字符的 HTML5 编码:</p>
<ul>
<li>♥</li>
<li>☕</li>
<li>☯</li>
<li>⛨</li>
</ul>
</body>
</html>
这个页面的输出将包括一个标题、一两段文字和一个列表(里面有一些 Unicode 字符)。如果使用 UTF-8 编码进行声明,就可以顺利的展示 Unicode 字符。
编码的默认值
如果没有在页面上声明字符编码,浏览器默认采用什么样的编码?这取决于 web 服务器的配置。例如,在 Apache 服务器中,可以使用以下指令指定默认字符集:
AddDefaultCharset ISO-8859-1
这会使得 Apache 每次返回 ISO-8859-1 的字符集。
但是,这样不是最好的做法。更好的方式是在页面上申明字符集,这样浏览器可以很好地展示你的文本。
How to encode text in HTML
现在,在我们了解编码方式的同时,我们需要考虑如何在 HTML 中编码文本。首先,我们需要知道 HTML 语言中有一些保留字符,这些符号有特殊功能,不能直接输入在文本中。例如,如果我们想展示以下文字:
<p>这里是一位有能力的全栈工程师。</p>
在此情况下,我们不能直接输入左右尖括号,因为它们会被解释为标签。所以我们需要对这些保留字符进行编码。
下表列出了保留字符和它们的实体(entity)的编码。使用 HTML 实体编码为它们编码,可以正常显示。
字符 | 描述 | 实体名称 | 实体编号 |
---|---|---|---|
& | 和(ampersand) | & | & |
< | 小于号(less than) | < | < |
> | 大于号(greater than) | > | > |
“ | 双引号 | “ | " |
‘ | 单引号 | ' | ' |
实体名称只在预处理文本时使用,它指的是事先指定的字符串映射到它们的 Unicode 码位。这派得上用场,当处理的内容不是 HTML 代码时,这些字符编码会被翻译成它们在 Unicode 里的码点,从而保证所有内容都是有意义的。
下面是一个关于文本编码的示例:
<ul>
<li>北极熊</li>
<li>企鹅</li>
<li>海豚</li>
<li>大白鲨</li>
<li>海马</li>
<li>箱鲀鱼</li>
</ul>
这是一个无序列表,它里面的每一个项目都是一个 HTML 元素。如果我们想将项目2和3之间的空格去掉,那么我们有两个解决方案:第一个是直接删除空格;第二个是使用实体编码:
,这个实体表示一个不断开的空格。
<ul>
<li>北极熊</li>
<li>企鹅 海豚</li>
<li>大白鲨</li>
<li>海马</li>
<li>箱鲀鱼</li>
</ul>
这里的实体编码在浏览器中会被解析成一个不断开的空格。
字符编码的注意事项
在网页前端开发中,关于字符编码需要注意以下几个细节:
- 在编写 HTML 代码时,使用 UTF-8 编码来确保浏览器能正常显示所有语言。
-
当服务器提供 HTML 页面时,使用编码声明告诉浏览器应该使用什么样的编码来渲染该页面。
-
在编写到 HTML 代码时使用实体编码,这样可以实现输入各种特殊字符。
-
注意 UTF-8 编码的可变长度:更加复杂的字符需要更多的字节。
结论
HTML5 支持多种编码方式,其中最常见的是 UTF-8。在 HTML 中声明编码以确保能够正确地渲染。在编写 HTML 代码时,需要使用实体编码来避免引入保留字符或特殊字符带来的问题。在编写 HTML 代码时,需要注意特殊字符需要额外的字节数。