Pandas 如何将TSV文件加载到Dataframe中
有时,任务是分析一个数据集并使用TSV(制表符分隔值)文件中的数据。为此,TSV文件有时会被转换为数据帧。数据帧是一个有标签的二维结构,具有不同类型的列。在本文中,使用名为pandas的Python库与Python代码来读取TSV文件并将其加载到数据帧中,通过两个不同的示例来说明。这些示例使用了Kaggle上提供的一个名为Zomato的数据集。Kaggle数据集以CSV(逗号分隔值)格式提供,因此首先使用在线软件链接将其转换为TSV格式。在第一个示例中,使用计算机系统中安装的Python运行了一个Python程序,该程序通过使用pandas函数将TSV文件读入数据帧。在另一个示例中,展示了在不需要在计算机中安装Python的情况下如何使用Google Colab,并在使用另一个函数后将TSV文件读入数据帧。
使用的Zomato.TSV文件
图; 这个tsv文件包含9551行和21列。
示例1:将TSV文件加载到Pandas DataFrame中-使用read_table函数和分隔符’\t’
设计步骤和编码
- 步骤1 - 首先导入pandas。Pandas是一个开源的、易于使用和灵活的库,通常用于在Python中对数据集进行数据分析和操作。
-
步骤2 - 现在将zomato.tsv文件作为数据集读取,此处给出的数据集将用于加载到数据帧中。
-
步骤3 - 创建一个名为dff1的数据帧,并使用pandas的read_table函数读取TSV文件。
-
步骤4 - 使用delimiter=’\t’和zomato.tsv文件的路径。使用head函数从该数据帧中打印一些行和列。
-
步骤5 - 创建一个名为dff2的数据帧,并再次使用read_table函数,但这次选择索引列。
-
步骤6 - 创建一个名为dff3的数据帧,并再次使用read_table函数,但打印略过一些行之后的行。
保存用于数据分析的数据文件/CSV文件
对于这些示例,我们将使用Kaggle上可用的数据。登录Kaggle并从以下链接下载CSV文件: https://www.kaggle.com/datasets/shrutimehta/zomato-restaurants-data
数据集以CSV文件的形式提供。
将CSV文件转换为TSV文件,因为示例需要TSV文件
使用以下在线转换器将CSV文件转换为TSV format.https://products.groupdocs.app/conversion/csv-to-tsv
上传CSV文件,进行转换并下载TSV文件。现在将此zomato.tsv文件用于以下示例。
使用read_table函数将TSV文件加载到Pandas DataFrame中,并使用分隔符’\t’。
将以下代码写入Python文件中
import pandas as pdd
dff1 = pdd.read_table("C:/Users/saba2/Desktop/article/articles_py/tsv/zomato.tsv",delimiter='\t')
print(dff1.head())
dff2 = pdd.read_table('C:/Users/saba2/Desktop/article/articles_py/tsv/zomato.tsv', delimiter='\t',index_col=1)
print(dff2.head())
dff3 = pdd.read_table('C:/Users/saba2/Desktop/article/articles_py/tsv/zomato.tsv', delimiter='\t',skiprows=range(3,6))
print(dff3.head())
输出
在命令窗口中运行python文件
图1:使用cmd窗口显示结果。
示例2:将TSV文件加载到Pandas DataFrame中-使用read_csv函数,sep=’\t’
设计步骤和编码
- 第1步 - 使用您的Google帐户登录。转到Google Colab。打开一个新的Colab笔记本,并在其中编写Python代码。
-
第2步 - 上传从Kaggle下载并转换为tsv文件的zomato.csv文件。此处提供的数据集将用于加载到数据框中。
-
第3步 - 现在导入pandas。Pandas是一个开源、易于使用和灵活的库,通常在使用Python处理数据集时用于数据分析和操作。
-
第4步 - 创建一个名为dff的数据框,并使用pandas的read_csv函数读取TSV文件。
-
第5步 - 使用sep=’\t’和文件名’zomato.tsv’。通过使用head函数打印此数据框中的一些行和列。
-
第6步 - 打印数据框的形状。它会显示数据集中有多少行和列。
-
第7步 - 然后给出几个列名称以描述,并此次不打印所有列。
-
第8步 - 在点击给定代码单元格上的播放按钮后执行程序。检查结果,它将显示在Colab笔记本中。
上传数据、tsv文件
#Uploading the tsv
from google.colab import files
data_to_load = files.upload()
读取TSV文件并加载数据框中的指定列的代码
#import the required Library
import pandas as pdd
#Select all columns
#dff = pdd.read_csv("zomato.tsv",sep="\t")
#Select specified columns
dff = pdd.read_csv("zomato.tsv",sep="\t", usecols = ['Restaurant ID','Restaurant Name','City'])
#print the dataframe header and some rows
dff.head()
输出
Restaurant ID Restaurant Name City
0 6317637 Le Petit Souffle Makati City
1 6304287 Izakaya Kikufuji Makati City
2 6300002 Heat - Edsa Shangri-La Mandaluyong City
3 6318506 Ooma Mandaluyong City
4 6314302 Sambo Kojin Mandaluyong City
结论
本Python文章中,通过两个不同的示例说明了如何将TSV文件加载到数据帧中。首先,介绍了一种方法,即从Kaggle下载CSV格式数据集,然后将其转换为TSV格式文件并保存。然后,使用pandas read_table函数将该TSV文件加载到数据帧中。在第二个示例中,使用Google Colab编写Python程序,并使用Pandas read_csv函数将相同的TSV格式数据集加载到数据帧中。