pandas.read_html解析HTML网页表格|极客笔记

pandas.read_html解析HTML网页表格

在数据分析和处理中，常常需要从网页上获取表格数据进行进一步的分析。pandas库提供了一个非常方便的方法pandas.read_html来解析HTML网页中的表格数据，并将其转换为DataFrame。本文将详细介绍如何使用pandas.read_html来读取和解析HTML表格，并展示一些示例代码和运行结果。

pandas.read_html方法简介

pandas.read_html是pandas库中的一个函数，主要用于解析HTML网页中的表格数据。它可以自动将网页中的表格数据读取为DataFrame，并返回一个DataFrame的列表。这个函数有多个参数可以控制解析的行为，比如header控制是否将第一行作为列名，index_col指定哪一列作为索引等。

下面是pandas.read_html的基本使用方法：

import pandas as pd

url = 'http://example.com/table.html'
tables = pd.read_html(url)

示例：解析HTML表格

假设有一个简单的HTML表格如下：

<table>
    <tr>
        <th>姓名</th>
        <th>年龄</th>
        <th>性别</th>
    </tr>
    <tr>
        <td>Alice</td>
        <td>25</td>
        <td>Female</td>
    </tr>
    <tr>
        <td>Bob</td>
        <td>30</td>
        <td>Male</td>
    </tr>
</table>

我们可以使用pandas.read_html来读取这个表格数据：

import pandas as pd

html = """
<table>
    <tr>
        <th>姓名</th>
        <th>年龄</th>
        <th>性别</th>
    </tr>
    <tr>
        <td>Alice</td>
        <td>25</td>
        <td>Female</td>
    </tr>
    <tr>
        <td>Bob</td>
        <td>30</td>
        <td>Male</td>
    </tr>
</table>
"""

df = pd.read_html(html)[0]
print(df)

运行结果如下：

   姓名  年龄      性别
0  Alice  25  Female
1  Bob    30  Male

我们成功将HTML表格解析为DataFrame，并打印出了表格数据。

参数header和index_col

在实际使用中，我们可能需要通过header参数指定是否将表格的第一行作为列名，index_col参数指定哪一列作为索引。

下面是一个具有列名和索引的HTML表格：

<table>
    <tr>
        <th>姓名</th>
        <th>年龄</th>
        <th>性别</th>
    </tr>
    <tr>
        <td>Alice</td>
        <td>25</td>
        <td>Female</td>
    </tr>
    <tr>
        <td>Bob</td>
        <td>30</td>
        <td>Male</td>
    </tr>
</table>

我们可以通过设置header=0和index_col=0来指定第一行作为列名，第一列作为索引：

import pandas as pd

html = """
<table>
    <tr>
        <th>姓名</th>
        <th>年龄</th>
        <th>性别</th>
    </tr>
    <tr>
        <td>Alice</td>
        <td>25</td>
        <td>Female</td>
    </tr>
    <tr>
        <td>Bob</td>
        <td>30</td>
        <td>Male</td>
    </tr>
</table>
"""

df = pd.read_html(html, header=0, index_col=0)[0]
print(df)

运行结果如下：

       年龄      性别
姓名               
Alice  25  Female
Bob    30  Male

我们成功将HTML表格的第一行作为列名，第一列作为索引，并打印出了表格数据。

从URL读取HTML表格

除了直接在代码中定义HTML字符串以读取表格数据，我们还可以从一个URL地址读取HTML表格。

import pandas as pd

url = 'http://example.com/table.html'
tables = pd.read_html(url)
df = tables[0]
print(df)

在这个示例中，我们直接从指定的URL地址中读取HTML表格数据，并打印出表格的内容。

总结

本文我们详细介绍了如何使用pandas.read_html方法来解析HTML网页中的表格数据，并将其转换为DataFrame。我们看到这个函数非常方便，可以直接将网页上的表格数据读取为DataFrame，方便后续的数据分析。

pandas.read_html解析HTML网页表格