Python 如何从维基百科中获取纯文本

在本文中，我们将介绍如何使用Python从维基百科中获取纯文本。

阅读更多：Python 教程

1. 什么是维基百科

维基百科是一个自由的、多语言的在线百科全书，它的内容由志愿者贡献者编写和编辑。维基百科的文章可以包含丰富的信息，包括文字、图片、视频等多种媒体形式。

2. 使用维基百科的API

维基百科提供了API（Application Programming Interface），可以让开发者通过编程的方式获取维基百科的内容。使用API可以获得所需的纯文本，并避免解析HTML页面的繁琐过程。

2.1 安装Python的requests库

在开始使用维基百科的API之前，我们需要先安装Python的requests库。requests库是一个方便的HTTP客户端库，可以让我们轻松地发送HTTP请求和处理响应。

要安装requests库，可以使用pip工具，在命令行中运行以下命令：

pip install requests

2.2 使用维基百科的API获取纯文本

下面是一个使用维基百科的API获取纯文本的示例代码：

import requests

def get_plain_text(title):
    url = f"https://zh.wikipedia.org/w/api.php?action=query&format=json&prop=extracts&exintro=1&explaintext=1&titles={title}"
    response = requests.get(url)
    data = response.json()

    page_id = list(data["query"]["pages"].keys())[0]
    plain_text = data["query"]["pages"][page_id]["extract"]

    return plain_text

# 示例用法
plain_text = get_plain_text("Python")
print(plain_text)

在上面的示例代码中，我们首先构造了一个URL，该URL包含了维基百科的API地址以及需要获取的页面的标题。然后，我们使用requests库发送HTTP GET请求，并将响应转换为JSON格式。最后，我们从JSON中提取出纯文本内容并返回。

上述代码中的示例用法演示了如何获取维基百科页面“Python”的纯文本内容，并打印输出。你可以根据实际需要替换为其他页面的标题。

3. 其他方法获取纯文本

除了使用维基百科的API之外，还有其他方法可以获取纯文本。以下是一些常用的方法：

3.1 使用Python的BeautifulSoup库解析HTML

如果你已经有了维基百科页面的HTML源代码，你可以使用Python的BeautifulSoup库轻松地解析HTML，并提取所需的纯文本内容。

以下是一个使用BeautifulSoup库解析HTML并提取纯文本的示例代码：

from bs4 import BeautifulSoup

def get_plain_text_from_html(html):
    soup = BeautifulSoup(html, "html.parser")
    plain_text = soup.get_text()

    return plain_text

# 示例用法
html = """
<html>
  <body>
    <p>这是一段纯文本。</p>
    <p>这是另一段纯文本。</p>
  </body>
</html>
"""
plain_text = get_plain_text_from_html(html)
print(plain_text)

在上面的示例代码中，我们首先使用BeautifulSoup库将HTML源代码解析成一个BeautifulSoup对象。然后，我们使用get_text()方法获取纯文本内容。

3.2 使用Python的文本处理库处理HTML标签

如果你已经有了维基百科页面的HTML源代码，并且只需要去除其中的HTML标签，你可以使用Python的文本处理库进行处理。

以下是一个使用正则表达式去除HTML标签的示例代码：

import re

def remove_html_tags(html):
    clean_text = re.sub("<.*?>", "", html)

    return clean_text

# 示例用法
html = """
<html>
  <body>
    <p>这是一段纯文本。</p>
    <p>这是另一段纯文本。</p>
  </body>
</html>
"""
plain_text = remove_html_tags(html)
print(plain_text)

在上面的示例代码中，我们使用re.sub()函数和正则表达式”<.*?>”将HTML标签替换为空字符串，从而去除HTML标签。