Python 如何将PDF文件转换为Excel文件

Python 如何将PDF文件转换为Excel文件

Python 具有处理不同类型操作的大量库。通过本文我们将看到如何将PDF文件转换为Excel文件。Python中有各种包可以将pdf文件转换为CSV,但我们将使用 tabula-py 模块。大部分 tabula-py 都是用Java编写的,它可以读取pdf文档并将 Python DataFrame 转换为 JSON对象 。

为了使用 tabula-py ,我们必须在系统中预先安装Java。现在,为了将pdf文件转换为csv,我们将按照以下步骤进行:

  • 首先,在命令行中键入 pip install tabula-py 安装所需的包。

  • 现在使用 read_pdf(“文件位置”, pages=页数) 函数读取文件。这将返回一个DataFrame。

  • 使用 tabula.convert_into(‘pdf文件名’, ‘文件名.csv’,output_format= “csv”, pages= “all”) 将DataFrame转换为Excel文件。通常它将pdf文件导出为Excel文件。

示例

在这个示例中,我们使用了 IPL比赛日程文件 转换为Excel文件。

# Import the required Module
import tabula
# Read a PDF File
df = tabula.read_pdf("IPLmatch.pdf", pages='all')[0]
# convert PDF into CSV
tabula.convert_into("IPLmatch.pdf", "iplmatch.csv", output_format="csv", pages='all')
print(df)

结果

运行上面的代码将会将pdf文件转换为Excel(csv)文件。

Python 如何将PDF文件转换为Excel文件

Camera课程

Python教程

Java教程

Web教程

数据库教程

图形图像教程

办公软件教程

Linux教程

计算机教程

大数据教程

开发工具教程