HTML5 – 字符编码

HTML5 – 字符编码

HTML5 支持一系列字符编码,这些字符编码让我们在 web 页面上展示各种语言的字符串和符号。在 HTML4 之前,字符编码是一个独立的概念,在 HTML5 中,字符编码被变成了标注元数据的方式。

字符编码的类型

以下是 HTML5 支持的几种常见字符编码:

  • ASCII编码:ASCII 码是美国信息交换标准代码,它包括 128 个字符:大写字母、小写字母、数字、标点符号、空格和控制字符,被广泛使用。

  • ISO-8859-1 编码:ISO-8859-1 是一种 Latin 字符编码,它包括 256 个字符,但只支持西欧语言,如法语、德语等等。

  • UTF-8 编码:UTF-8 能够编码所有 Unicode 字符,它是一种变长的字符编码方案,它使用 1 到 4 个字节表示一个字符。因此,它可以同时支持所有语言,从大写字母到小写字母、数字、标点符号和各种符号。

在 HTML 中,声明编码可以使用以下形式之一:

<meta charset="UTF-8">
<meta charset="ISO-8859-1">

这个声明应该在 head 部分进行声明。

<html>
  <head>
    <meta charset="UTF-8">
    <title>网站标题</title>
  </head>
  <body>
    <h1>欢迎您来到我们的网站</h1>
    <p>这篇文章将告诉你更多关于 HTML5 的字符编码的信息。</p>
    <p>这里是一些可以显示特殊字符的 HTML5 编码:</p>
    <ul>
      <li>♥</li>
      <li>☕</li>
      <li>☯</li>
      <li>⛨</li>
    </ul>
  </body>
</html>

这个页面的输出将包括一个标题、一两段文字和一个列表(里面有一些 Unicode 字符)。如果使用 UTF-8 编码进行声明,就可以顺利的展示 Unicode 字符。

编码的默认值

如果没有在页面上声明字符编码,浏览器默认采用什么样的编码?这取决于 web 服务器的配置。例如,在 Apache 服务器中,可以使用以下指令指定默认字符集:

AddDefaultCharset ISO-8859-1

这会使得 Apache 每次返回 ISO-8859-1 的字符集。

但是,这样不是最好的做法。更好的方式是在页面上申明字符集,这样浏览器可以很好地展示你的文本。

How to encode text in HTML

现在,在我们了解编码方式的同时,我们需要考虑如何在 HTML 中编码文本。首先,我们需要知道 HTML 语言中有一些保留字符,这些符号有特殊功能,不能直接输入在文本中。例如,如果我们想展示以下文字:

<p>这里是一位有能力的全栈工程师。</p>

在此情况下,我们不能直接输入左右尖括号,因为它们会被解释为标签。所以我们需要对这些保留字符进行编码。

下表列出了保留字符和它们的实体(entity)的编码。使用 HTML 实体编码为它们编码,可以正常显示。

字符 描述 实体名称 实体编号
& 和(ampersand) & &
< 小于号(less than) < <
> 大于号(greater than) > >
双引号 "
单引号 ' '

实体名称只在预处理文本时使用,它指的是事先指定的字符串映射到它们的 Unicode 码位。这派得上用场,当处理的内容不是 HTML 代码时,这些字符编码会被翻译成它们在 Unicode 里的码点,从而保证所有内容都是有意义的。

下面是一个关于文本编码的示例:

<ul>
  <li>北极熊</li>
  <li>企鹅</li>
  <li>海豚</li>
  <li>大白鲨</li>
  <li>海马</li>
  <li>箱鲀鱼</li>
</ul>

这是一个无序列表,它里面的每一个项目都是一个 HTML 元素。如果我们想将项目2和3之间的空格去掉,那么我们有两个解决方案:第一个是直接删除空格;第二个是使用实体编码:&nbsp;,这个实体表示一个不断开的空格。

<ul>
  <li>北极熊</li>
  <li>企鹅 海豚</li>
  <li>大白鲨</li>
  <li>海马</li>
  <li>箱鲀鱼</li>
</ul>

这里的实体编码在浏览器中会被解析成一个不断开的空格。

字符编码的注意事项

在网页前端开发中,关于字符编码需要注意以下几个细节:

  • 在编写 HTML 代码时,使用 UTF-8 编码来确保浏览器能正常显示所有语言。

  • 当服务器提供 HTML 页面时,使用编码声明告诉浏览器应该使用什么样的编码来渲染该页面。

  • 在编写到 HTML 代码时使用实体编码,这样可以实现输入各种特殊字符。

  • 注意 UTF-8 编码的可变长度:更加复杂的字符需要更多的字节。

结论

HTML5 支持多种编码方式,其中最常见的是 UTF-8。在 HTML 中声明编码以确保能够正确地渲染。在编写 HTML 代码时,需要使用实体编码来避免引入保留字符或特殊字符带来的问题。在编写 HTML 代码时,需要注意特殊字符需要额外的字节数。

Camera课程

Python教程

Java教程

Web教程

数据库教程

图形图像教程

办公软件教程

Linux教程

计算机教程

大数据教程

开发工具教程