BeautifulSoup 爬取嵌套表格

在本文中，我们将介绍如何使用BeautifulSoup库来爬取嵌套表格数据。嵌套表格指的是一个表格内含有另一个或多个表格的情况，这在网页数据爬取中是常见的。

1. 解析HTML

首先，我们需要从网页中获取HTML源代码。可以使用Python的requests库发送HTTP请求来获取网页的内容。示例代码如下：

import requests

url = 'https://example.com'
response = requests.get(url)
html = response.text

2. 导入BeautifulSoup

接下来，我们需要导入BeautifulSoup库并将获取到的HTML源代码传入BeautifulSoup对象中，以便进行解析。示例代码如下：

from bs4 import BeautifulSoup

soup = BeautifulSoup(html, 'html.parser')

3. 定位嵌套表格

在解析HTML后，我们需要通过BeautifulSoup的方法来定位嵌套表格。可以通过查找HTML标签、CSS类名、ID或其他属性来定位表格元素。

示例1：假设我们要爬取一个包含嵌套表格的HTML源代码。

<table class="main-table">
    <tr>
        <td>外层表格</td>
        <td>
            <table class="inner-table">
                <tr>
                    <td>内层表格</td>
                </tr>
            </table>
        </td>
    </tr>
</table>

我们可以通过查找class为”main-table”的表格元素来定位外层表格，然后再在该表格元素的内部查找class为”inner-table”的表格元素来定位内层表格。示例代码如下：

main_table = soup.find('table', class_='main-table')
inner_table = main_table.find('table', class_='inner-table')

4. 爬取表格数据

一旦定位到嵌套表格元素，我们就可以使用BeautifulSoup的方法来爬取表格数据。可以根据表格的结构，使用find_all()方法、select()方法或其他方法来定位表格行和单元格，然后获取其中的文本内容。

示例2：假设我们要爬取上述示例1中的嵌套表格的数据。

rows = inner_table.find_all('tr')

for row in rows:
    cells = row.find_all('td')

    for cell in cells:
        print(cell.text)

上述示例代码将遍历内层表格的每一行和每个单元格，并打印出单元格的文本内容。

5. 爬取多个嵌套表格

在实际的爬虫应用中，很可能会遇到网页上有多个嵌套表格的情况。我们可以通过修改定位表格的方法，来获取多个嵌套表格的数据。

示例3：假设网页上有多个嵌套表格，我们想要获取所有嵌套表格的数据。

main_tables = soup.find_all('table', class_='main-table')

for main_table in main_tables:
    inner_table = main_table.find('table', class_='inner-table')

    rows = inner_table.find_all('tr')

    for row in rows:
        cells = row.find_all('td')

        for cell in cells:
            print(cell.text)

上述示例代码将遍历每个外层表格，然后在每个外层表格中查找对应的内层表格，并输出内层表格中的数据。